Jazyk R je programovací jazyk pro statistickou analýzu dat. A RExcel je doplněk, který umožňuje docela šikovně využívat R pro analýzu dat uložených v Excelu. 

Doplněk se jmenuje RExcel (což je vzhledem k názvům obou zainteresovaných programů poměrně logický název...). Jde o to, že R je v některých oblastech silnější analytický nástroj než Excel, ale Excel zase umožňuje pohodlnější práci s daty. Tak proč si nevzít to lepší z obou programů?

Použití si ukážeme na modelovém příkladu základní lineární regresní analýzy. Tu samozřejmě umíme udělat přímo v Excelu, ale teď jde o to, ukázat si samotné propojení Excelu s R.

Malá poznámka - data z Excelu do R-ka lze snadno tahat i přes schránku, viz např. tady.

Instalace

Než začnu pracovat s RExcelem, musím nainstalovat:

Po instalaci pak v Excelu pod Soubor / Možnosti / Doplňky ve spodní části rámečku ještě zaškrtnout nejprve "Přejít" a pak zaškrtnout RExcel.

1 pridani doplňku

Tím se stanou dvě věci. Zaprvé přibude nová záložka Add-inn s jediným tlačítkem RExcel, zadruhé přibude několik položek do menu pravého tlačítka (což se ale projevuje jen při připojeném R, viz dále).

2 karta doplňku

3 kontextové menu

Ukázka lineární regrese

Budeme zkoumat, kolik zmrzliny se prodává ve stánku se zmrzlinou, v závislosti na venkovní teplotě. Dá se totiž očekávat, že čím větší teplo, tím více se zmrzliny prodá. Výsledkem má být graf a dvojice koeficientů lineární závislosti. Fakt, že závislost vůbec lineární být nemusí, tentokrát taktně přejdeme.
Takto vypadají naše data:
4 data pro analýzu
Nejprve se připojíme k R stiskem tlačítka Connect R.
5 připojení R
Pak načteme oba datové sloupce. Nejprve označíme hodnoty s teplotami a přes pravé tlačítko vybereme Put R Var.
6 načtení proměnné
V následujícím dialogu buď můžeme napsat název této skupiny dat, nebo jej přes "Get from cell" dotáhnout z buňky A1.
7 načtení názvu proměnné
Teď úplně stejně přetáhneme data o prodejích, a to do proměnné pojmenované
Prodana_zmrzlina_kg.
Teď jsou tedy oba sloupce uložené ve vektorech jazyka R.
Můžeme to ověřit třeba tak, že v R napíšeme názvy proměnných a vidíme, že opravdu obsahují, co mají.

Teď chceme vidět graf závislosti. V R zapíšeme:

> plot( Prodana_zmrzlina_kg,Max_denni_teplota) a tím vytvoříme graf:
8 graf
Z obou sloupců vytvoříme lineární model takto:

Tento model pak zavoláme:

a zobrazí se výsledek:

Tedy rovnice lineární regrese je y = 1,658 * x - 12,571. Jinými slovy když vynásobím teplotu číslem 1,658 a odečtu 12,571, dostanu odhad prodaného množství pro tento den.

Přetahování dat mezi Excelem a R je samozřejmě oboustranné, příkazy s "Put" přesouvají data z Excelu do R a naopak příkazy s "Get" znamená přesun z R do Excelu.

Napsat komentář

Vaše emailová adresa nebude publikována.

*

smazat formulářOdeslat komentář