S tímto tématem se setkáte na našich kurzech ExcelTown.
Kurzu se můžete zúčastnit prezenčně nebo online.

Autor článku: Lenka Fiřtová

V tomto článku je popsán způsob, jak v R vizualizovat spočítané korelační matice.

O tom, co je to korelace, pojednává tento článek, o tom, jak korelační koeficienty a korelační matice spočítat, pak tento článek.

Úvodní výpočty

V tomto článku budeme pracovat s balíčkem corrplot, který umožňuje vytvářet hezká a přehledná zobrazení korelačních matic. Balíček nainstalujeme příkazem install.packages (název balíčku jen nutné psát do uvozovek). Následně příkazem library nainstalovaný balíček načteme do R (příkaz library musíme při práci s jakýmkoli doplňujícím balíčkem použít při každém spuštění R znovu, zatímco instalaci balíčku provádíme pouze jednou).

Pracovat budeme s datasetem mtcars, který obsahuje informace o deseti vlastnostech 32 automobilů. Pokud by nás zajímalo, o jaké vlastnosti se jedná, následujícím příkazem si otevřeme nápovědu resp. popis dat:

Podívejme se na záhlaví dat:

Balíček corrplot pro své grafy vyžaduje spočítanou korelační matici. Spočítáme tedy korelační matici proměnných v datasetu mtcars a uložíme ji do proměnné k.

Pro vizualizaci korelace slouží funkce corrplot. Má pouze jeden povinný argument – vstupní korelační matici – a dále řadu nepovinných argumentů, z nichž zmíníme method a type.

Funkce corrplot – argument method

Argument method slouží k výběru, jak má graf vypadat. Na výběr jsou následující možnosti: "circle" (defaultní možnost),"square", "ellipse", "number", "pie", "shade", "color".

Například volba color vrátí graf, kde červeně jsou značeny záporné korelace, modře kladné, silnější korelace je znázorněna intenzivnější barvou.

Z obrázku můžeme odhadnout, že například korelace mezi proměnnou mpg a hp bude okolo – 0,7, mezi proměnnou mpg a drat okolo 0,7. Přesné hodnoty korelace však nezjistíme – graf slouží spíše jako přehled toho, které proměnné spolu korelují silněji a které slaběji.

O něco lépe může pomoci korelace odhadnout volba circle. Ta vrátí graf, který kromě barvy zobrazuje i různě velké kruhy v závislosti na síle korelace.

Volba pie vyvolá graf, kde sílu korelace znázorňuje kormě barvy také podíl vybarveného kruhu.

Například podíváme-li se na korelaci mezi mpg a hp (první řádek a čtvrtý sloupec), vidíme, že jsou vybarveny více než tři čtvrtiny kruhu, takže korelace bude silnější než –0,75. Naopak podíváme-li se na korelaci mezi mpg a drat (první řádek a pátý sloupec), vidíme, že jsou vybarveny méně než tři čtvrtinu kruhu, takže korelace bude slabší než 0,75.

Z nabízených metod nám nejpřesnější hodnoty zobrazí metoda number, která vypíše přímo hodnoty jednotlivých korelačních koeficientů. Ukáže, že korelace mezi mpg a hp je –0,78, mezi mpg a drat 0,68.

Funkce corrplot – argument type

Každá korelační matice je symetrická – nad diagonálou a pod diagonálou jsou na odpovídajících pozicích stejná čísla. Je tedy možné zobrazit pouze čísla nad diagonálou („horní trojúhelníková matice“) nebo pod diagonálou („dolní trojúhelníková matice“) bez ztráty informace.

K tomu slouží argument type. Ukážeme si jeho použití na matici v podobě circle.

 

S tímto tématem se setkáte na našich kurzech ExcelTown.
Kurzu se můžete zúčastnit prezenčně nebo online.

Napsat komentář

Vaše emailová adresa nebude publikována.

*

smazat formulářOdeslat komentář