S tímto tématem se setkáte na našich kurzech ExcelTown.
Aktuálně: kurzy můžete absolvovat jak online, tak prezenčně.

Autor: Lenka Fiřtová

V tomto článku je popsán princip testování hypotéz. Bude zde pro příklad použit test střední hodnoty, testů hypotéz však existuje celá řada. Testovat lze například i významnost korelace nebo významnost regresních parametrů.

Jedno mají testy hypotéz společné: vždy máme k dispozici spočítanou hodnotu z výběru a z této hodnoty se snažíme něco usoudit o celé populaci.

Mohlo by nás třeba zajímat, kolik hodin denně spí v průměru v ČR studenti vysokých škol. Populací jsou pak všichni studenti vysokých škol v ČR. Zeptat se každého z nich, kolik hodin spí, je časově náročné – budou jich tisíce. Většinou proto postupujeme tak, že se zeptáme náhodně vybraného vzorku, dejme tomu pár desítek studentů, a ze získaných dat potom děláme závěry o celé zkoumané populaci.

Příklad – zadání

Ve firmě je 100 zaměstnanců. Myslíme si, že jejich průměrná výška je 175 cm. Je to ale opravdu tak?

Nechce se nám měřit všech 100 zaměstnanců. Vybereme proto náhodně 20 z nich a ty změříme. Výsledky v cm zachycuje tabulka níže (pro názornost je v ní nečitelně zapsána i výška zbylých 80 zaměstnanců – tu neznáme, tito zaměstnanci ale existují).

Snadno spočítáme, že průměrná výška těchto dvaceti zaměstnanců je jen 173,75 cm, tedy méně než domnívaných 175 cm. Je ale rozdíl 1,25 cm dost velký na to, abychom si mohli troufnout naši domněnku o průměrné výšce 175 cm zamítnout jako nepravdivou? S odpovědí na tuto otázku nám pomůže test hypotézy.

Základní pojmy a formulace hypotézy

Upřesněme nejprve některé pojmy. Populace jsou všichni zaměstnanci této firmy (100 osob). Výběr je 20 vybraných zaměstnanců, jejichž průměrnou výšku známe. Hypotéza je nějaká domněnka, kterou budeme ověřovat. V našem případě zní: průměrná výška zaměstnanců ve firmě se rovná 175 cm.

Tomuto tvrzení se říká nulová hypotéza. Výsledkem testu bude, že ji buď zamítneme, nebo nezamítneme. Nulová hypotéza by měla být formulovaná ve tvaru „zkoumaná veličina se rovná určité hodnotě“. Značí se obvykle H0.

K nulové hypotéze pak formulujeme hypotézu alternativní. Značí se obvykle H1. Nejčastěji zní „zkoumaná veličina se nerovná určité hodnotě“, někdy ale zní i „zkoumaná veličina je menší než určitá hodnota“ nebo „zkoumaná veličina je větší než určitá hodnota“. První zmíněná alternativní hypotéza značí, že provádíme tzv. oboustranný test (připouštíme, že zkoumaná veličina může být jak menší, tak větší), další dvě zmíněné alternativní hypotézy značí, že provádíme tzv. jednostranný test.

Formulujme nulovou hypotézu, kterou budeme ověřovat my, a k ní hypotézu alternativní. Zvolíme oboustranný test.

  • H0: průměrná výška zaměstnanců ve firmě se rovná 175 cm.
  • H1: průměrná výška zaměstnanců ve firmě se nerovná 175 cm.

Jádrem testu hypotéz je porovnání tzv. testové statistiky a tzv. kritické hodnoty. Pracujeme přitom vždy s nějakým pravděpodobnostním rozdělením – v tomto případě se Studentovým (vypadá podobně jako rozdělení normální).

Test provádíme vždy na určité hladině významnosti. Ta se odvíjí od toho, jak ochotni jsme přijmout riziko nesprávného závěru. Obvykle se používá hladina významnosti 5%. Při této hladině významnosti existuje 5% pravděpodobnost, že zamítneme nulovou hypotézu, i když platí.

Testová statistika

Testovou statistiku získáme tak, že se spočítaným průměrem (173,75 cm) provedeme takovou operaci, aby výsledkem operace bylo číslo z požadovaného statistického rozdělení – v našem případě Studentova. Číslo ze Studentova rozdělení pak totiž můžeme porovnat s jiným číslem ze Studentova rozdělení – s kritickou hodnotou – a říci, jestli je nebo není „dost velké“.

Testovou statistiku v našem případě spočítáme tak, že vezmeme rozdíl naměřené hodnoty a domnívané hodnoty (173,75 – 175 = –1,25), vydělíme jej výběrovou směrodatnou odchylkou (pomocí funkce SMODCH.VÝBĚR v Excelu zjistíme, že činí 7,2) a toto vše vynásobíme odmocninou z počtu hodnot ve výběru (20), tedy: (–1,25 ∙ √20)/7,2 = –0,78. Testová statistika činí –0,78. U jiných testů hypotéz se může testová statistika počítat jiným vzorečkem.

Kritická hodnota

Kritickou hodnotu můžeme chápat jako hranici, která určuje, „jak moc velký rozdíl už je opravdu velký“. Kdyby například průměrná výška vybraných 20 zaměstnanců byla jen 160 cm, asi bychom si troufli rozdíl oproti 175 cm označit intuitivně jako velký. Kdyby byla 175,01 cm, asi bychom jej intuitivně označili jako malý. Kritická hodnota tuto intuici formalizuje do jasně daného čísla, které buď je, anebo není překročeno. Zde ji budeme hledat v tabulkách Studentova rozdělení – viz tabulka níže.

Studentovo rozdělení má jeden parametr: stupně volnosti. V případě našeho testu použijeme rozdělení s 20 – 1 = 19 stupni volnosti (vždy o jeden méně, než je počet hodnot ve výběru). Hledáme tedy na řádku s číslem 19.

Co znamenají čísla uvnitř tabulky? Například číslo vlevo nahoře, 1,376, které je na kombinaci řádku 1 a sloupce 0,8, značí, že 80 % hodnot ze Studentova rozdělení s jedním stupněm volnosti je menší než 1,376.

V jakém hledáme sloupci my? Ukažme si nejprve, jak Studentovo rozdělení vypadá. Znázorňuje ho graf níže. Pokud pracujeme s 5% hladinou významnosti, je kritická hodnota taková hodnota ze Studentova rozdělení, že dále od nuly než ona leží už jen 5 % hodnot. Když děláme oboustranný test, znamená to, že větší než kritická hodnota je 2,5 % hodnot, a menší než mínus kritická hodnota je také 2,5 % hodnot. Ilustruje to následující obrázek, červeným puntíkem je značena (zatím neznámá) kritická hodnota.

Jaké číslo tomu odpovídá? Pokud větší než kritická hodnota je 2,5% hodnot, pak menší než kritická hodnota je 97,5% hodnot, hledáme tedy ve sloupci 0,975. Na kombinaci řádku 19 a sloupce 0,975 najdeme číslo 2,093. To je hledaná kritická hodnota. Mohli bychom použít i funkci T.INV v Excelu: T.INV(0,975; 19) a obejít se bez tabulek úplně.

Závěr testu hypotéz

Nyní jen zbývá učinit závěr. Testová statistika je –0,78. Kritická hodnota je 2,093. Absolutní hodnota testové statistiky je menší než kritická hodnota. Jinak řečeno, testová statistika není „dost daleko od nuly“. Rozdíl naměřené hodnoty (173,75 cm) a domnívané hodnoty (175 cm) tudíž není dost velký.

Proto nezamítáme nulovou hypotézu, že výška zaměstnanců v podniku je 175 cm.

Pozor, nulovou hypotézu můžeme pouze zamítnout, nebo nezamítnout. Nemůžeme ji testem hypotéz potvrdit!

S tímto tématem se setkáte na našich kurzech ExcelTown.
Aktuálně: kurzy můžete absolvovat jak online, tak prezenčně.