S tímto tématem se setkáte na našich kurzech ExcelTown.
Po uvolnění opatření kolem koronaviru už se všechny kurzy konají v normálním režimu.

Autor: Lenka Fiřtová

V tomto článku je vysvětlena Korelace.

Co je to vlastně korelace?

Korelace je lineární závislost mezi dvěma veličinami (slovo „lineární“ je důležité – veličiny na sobě totiž mohou záviset i jinak než lineárně). Míru korelace vyjadřuje tzv. korelační koeficient, který nabývá hodnot od –1 do 1.

  • Hodnota 0 znamená, že mezi veličinami lineární závislost není.
  • Kladné hodnoty znamenají, že je mezi veličinami vztah „čím více – tím více“, s růstem jedné veličiny roste i druhá.
  • Záporné hodnoty znamenají, že je mezi veličinami vztah „čím více – tím méně“, tedy s růstem jedné veličiny druhá veličina klesá.
  • Čím blíže je hodnota korelačního koeficientu jedné nebo mínus jedné, tím je vztah silnější. Hodnoty kolem nuly znamenají, že hodnoty žádný vztah nemají.

Podstatné je zdůraznit, že korelace není totéž jako příčinná závislost. Pokud spolu dvě veličiny korelují, neznamená to nutně, že jedna ovlivňuje druhou. Bylo například ukázáno, že počet čápů a počet narozených dětí v jednotlivých evropských státech spolu koreluje (korelace okolo 0,6). Znamená to, že čápi nosí děti?

Když mluvíme o korelaci, máme obvykle na mysli tzv. Pearsonův korelační koeficient. Jedná se o podíl kovariance veličin a součinu jejich směrodatných odchylek.

Na obrázku vlevo vidíme veličiny, jejichž korelační koeficient je 0,96 (jde o silnou kladnou korelaci). Na obrázku vpravo vidíme veličiny, jejichž korelační koeficient činí –0,54 (jde o středně silnou negativní korelaci, stále je patrný trend „čím více – tím méně“.

Je korelace statisticky významná?

Při podrobnější statistické analýze se můžeme ptát, jestli je korelační koeficient dost velký na to, abychom mohli usoudit, že mezi zkoumanými veličinami skutečně existuje vztah.

Uvažujme příklad: obchodník přemýšlí, jestli existuje vztah mezi venkovní teplotou a množstvím prodané limonády. Dva týdny zaznamenává, jaká byla ten den průměrná teplota a kolik litrů limonády se prodalo.

Získá následující hodnoty:

Spočítá, že hodnota korelačního koeficientu je 0,13 (způsob výpočtu v Excelu je zde, způsob výpočtu v R je zde). A ptá se: je mezi teplotou a množstvím prodané limonády skutečně existující vztah, nebo zrovna v daných čtrnácti dnech korelační koeficient vyšel náhodou takhle? Jinak řečeno: liší se skutečně hodnota korelačního koeficientu, kdybychom jej sledovali dlouhodobě, od nuly?

Kdybychom byli zmíněný obchodník, jak bychom měli postupovat? Měli bychom porovnat tzv. testovou statistiku a její tzv. kritickou hodnotu. Testová statistika je číslo, které bere v potaz spočítaný korelační koeficient a množství dat, která máme k dispozici. Čím vyšší je spočítaná korelace a čím více hodnot máme k dispozici, tím bude toto číslo větší. Kritická hodnota je číslo z tabulek, které představuje minimální hodnotu, jež musí testová statistika mít, abychom mohli tvrdit, že je „dost velká“.

  1. Nejprve spočítáme testovou statistiku. Jde to podle návodu v Excelu i v R. (Lze ji ale spočítat i ručně. Označme písmenem r spočtený korelační koeficient, písmenem n počet hodnot (v našem případě 14). Testovou statistiku spočítáme jako:
    [r ∙ √(n – 2)] / [√(1 – r2)],
    tedy (0,13 ∙ √12) / √(1 – 0,132) = 0,45.
  2. Pak najdeme tzv. kritickou hodnotu v tabulkách Studentova rozdělení. Ta vypadá takto (rozklikněte):

Musíme určit správný řádek a správný sloupec, kde kritickou hodnotu hledat.

Řádek se odvíjí od tzv. počtu stupňů volnosti, což je počet pozorování mínus 2, v našem případě tedy 14 – 2 = 12. Správný sloupec se odvíjí od tzv. hladiny významnosti. Hladina významnosti je na nás, nejčastěji se pracuje s 5% hladinou významnosti, které odpovídá sloupec 0,975 (hladina významnosti odráží, jak moc si přejeme být jistí závěrem, který učiníme). Tím dojdeme ke kritické hodnotě 2,179.

Porovnáme absolutní hodnotu testové statistiky (absolutní hodnotu proto, že testová statistika může vyjít i záporná) a kritickou hodnotu. Vidíme, že 0,45 je menší než 2,179. Protože je spočítaná testová statistika menší než kritická hodnota, neprokázali jsme významnost korelace. Testová statistika je moc blízko nule na to, abychom mohli prohlásit, že mezi teplotami a množstvím prodané limonády existuje vztah. Museli bychom buď vysledovat silnější korelaci, nebo nasbírat více dat (ani více dat ale nemusí zajistit, že by se korelace prokázala).

Na našem webu najdete články o tom, jak korelační koeficient počítat v různých aplikacích:

S tímto tématem se setkáte na našich kurzech ExcelTown.
Po uvolnění opatření kolem koronaviru už se všechny kurzy konají v normálním režimu.

Napsat komentář

Vaše emailová adresa nebude publikována.

*

smazat formulářOdeslat komentář