Vícenásobná lineární regrese a významnost odhadnutých parametrů

S tímto tématem se setkáte na našich kurzech ExcelTown.
Aktuálně: kurzy můžete absolvovat jak online, tak prezenčně.

Tento článek navazuje na příklad s jednoduchou lineární regresí ( https://exceltown.com/navody/jazyk-r/nejjednodussi-linearni-regrese-v-r/ ). V něm se jednalo o odhad závislosti váhy na výšce na základě údajů o patnácti různých ženách (viz dataset women, který je přímo součástí R). V tomto článku si ukážeme, jak odhadnout regresi s více než jednou vysvětlující proměnnou a jak posoudit, která/které z vysvětlujících proměnných má/mají v regresi význam.

Úprava datasetu

Dataset women obsahuje dva sloupce: height (výška v palcích) a weight (váha v librách). Pojďme k němu nyní přidat další sloupec, který bude obsahovat informaci o věku daných žen. Dalo by se totiž předpokládat, že váha nezávisí pouze na výšce, ale i na věku respondenta.

Vygenerujeme příkazem sample patnáct náhodných hodnot z rozmezí od 20 do 50.

> age = sample(seq(20,50),15)

Vygenerovaný vektor vypadá takto:

> age

[1] 45 25 39 43 35 38 36 47 34 23 37 42 32 49 26

Chcete-li pracovat při zkoušení tohoto skriptu v R právě s tímto vektorem, použijte následující příkaz. Příkaz sample by vám totiž vygeneroval vektor o něco odlišný, neboť jde o náhodný výběr.

> age = c(45, 25, 39, 43, 35, 38, 36, 47, 34, 23, 37, 42, 32, 49, 26)

Nyní připojíme vektor age k našemu datasetu.

> women = cbind(women, age)

Příkazem head si zobrazíme prvních několik řádků datasetu pro kontrolu.

> head(women)

height weight age

1 58 115 45

2 59 117 25

3 60 120 39

4 61 123 43

5 62 126 35

6 63 129 38

Grafické znázornění datasetu by bylo obtížné: protože máme tři proměnné (výšku, váhu a věk), museli bychom použít 3D graf. Při více proměnných již grafické znázornění není vůbec možné.

Odhad vícenásobné regrese

Jednoduchou lineární regresi jsme odhadovali následujícím příkazem:

> regrese = lm(weight ~ height, data = women)

Nyní jen přidáme další vysvětlující proměnnou, a to následovně:

> regrese_vic = lm(weight ~ height + age, data = women)

R používá, jak je vidět, pro přidání další proměnné symbol plus, ale samozřejmě nejde o žádné sčítání, nýbrž zkrátka o ustálené značení.

Základní výstup regrese vypadá takto:

> regrese_vic

Call:

lm(formula = weight ~ height + age, data = women)

Coefficients:

(Intercept) height age

-87.58712 3.45028 0.00143

Co v něm najdeme? Call nám připomene původně zadaný příkaz. Pod Coefficients nalezneme odhadnuté parametry. Naše regrese tedy vypadá takto:

weight = –87,59 + 3,45 ∙ height + 0,00143 ∙ age + náhodná složka

Náhodná složka v sobě zahrnuje veškeré faktory kromě výšky a věku, které váhu ovlivňují.

Jak uvedená čísla interpretovat?

Koeficient –87,59 je intercept neboli úrovňová konstanta. Říká nám, jakou váhu máme nejpravděpodobněji očekávat u ženy s výškou 0 palců a věkem 0 let. Jak již bylo řečeno v předchozím článku o jednoduché lineární regresi, ne vždy mívá úrovňová konstanta smysluplnou interpretaci.

Další dva odhadnuté parametry nám říkají, jak se v průměru změní vysvětlovaná proměnná (váha) při změně příslušné vysvětlující proměnné o jednotku za jinak stejných okolností. Tak například, při nezměněném věku v průměru naroste váha ženy o 3,45 liber s každým jedním dodatečným palcem. Při nezměněné výšce v průměru naroste váha ženy o 0,00143 liber s každým jedním dodatečným rokem.

Testování významnosti parametrů

Podrobnější informace o odhadnutých parametrech získáme následujícím příkazem.

> summary(regrese_vic)

Výstup obsahuje mimo jiné sekci Coefficients:

Coefficients:

             Estimate Std. Error t value Pr(>|t|)    

(Intercept) -87.58712    6.72849 -13.017 1.94e-08 ***

height        3.45028    0.09543  36.157 1.28e-13 ***

age           0.00143    0.05405   0.026    0.979    

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

V prvním sloupečku je odhad parametrů – ty jsme již interpretovali. Další dva sloupce prozatím vynecháme a budeme se jim věnovat v samostatné kapitole. Poslední sloupec nám říká, jestli je daná proměnná (výška resp. věk) v modelu významná, čili jestli skutečně hraje roli při predikci váhy. Běžně se za významnou považuje proměnná, u níž je hodnota v posledním sloupci menší než 0,05 (čili je u ní alespoň jedna hvězdička). Proč je to zrovna tak a ne jinak bude také obsahem samostatné kapitoly.

Vidíme tedy, že proměnná height je v modelu významná, zatímco proměnná age nikoli, čili ji můžeme vypustit. Asi nás to ani nepřekvapí vzhledem k tomu, že se jednalo o náhodně vygenerované hodnoty uměle naroubované na původní dataset.

A co koeficient determinace?

V článku o jednoduché lineární regresi jsme si ukázali, co je to koeficient determinace a jak ho zobrazit. Použili jsme následující příkaz.

> summary(regrese)$r.squared

[1] 0.9910098

Udělejme totéž pro naši novou, vícenásobnou regresi:

> summary(regrese_vic)$r.squared

[1] 0.9910104

Jak víme, koeficient determinace je jakýmsi měřítkem kvality modelu. Mohlo by nás tedy napadnout, že když je koeficient determinace u nového modelu (vícenásobné regrese) vyšší než u regrese s jednou proměnnou, máme použít regresi vícenásobnou. Zároveň však ale víme, že proměnná age je v modelu nevýznamná a že by dávalo větší smysl zůstat u jednoduchého modelu. Jak to tedy je?

Klíčem je použití korigovaného koeficientu determinace ( adjusted R-squared) místo toho, který jsme si zatím ukázali. Pro porovnání dvou modelů s různým počtem vysvětlujících proměnných nelze totiž použít běžný koeficient determinace, protože ten při přidávání dalších proměnných nikdy neklesne, i kdyby tyto proměnné byly zcela nesmyslné.

Korigovaný koeficient determinace zobrazíme následovně.

> summary(regrese)$adj.r.squared

[1] 0.9903183

> summary(regrese_vic)$adj.r.squared

[1] 0.9895121

Porovnáním těchto dvou hodnot dojdeme k závěru, že jednoduchá lineární regrese s jednou vysvětlující proměnnou je v tomto případě lepší volbou.

S tímto tématem se setkáte na našich kurzech ExcelTown.
Aktuálně: kurzy můžete absolvovat jak online, tak prezenčně.

Napsat komentář

Elearning

Děláme i elearning, takže se Excel nebo Power Appky můžete naučit prostě teď hned.

Třeba úvodní Excel,

středně pokročilý Excel (nejpopulárnější),

Power Query a Pivot,

nebo Power Apps.

Vše jde i online

Aktuálně nabízíme všechny kurzy i v online variantě

Našimi kurzy prošlo více než 10 000+ účastníků

2 392 ověřených referencí účastníků našich kurzů. Přesvědčte se sami

Reference ze školení Středně pokročilý Excel (11/2023)

Hezky a jednoduše podané příklady
Přístup paní lektorky byl skvělý
Zodpovězené dodatečné dotazy
Skvělý a empatický přístup paní lektorky, naprostá spokojenost

Kurz:

Středně pokročilý Excel

Reference ze školení SQL (10/2023)

Možnost sama si vše naklikat na PC
Nezatěžování teorií
Skvělé vedení kurzu i obsah
Praktické zkoušení dotazů je super, odbočka k Power Query také

Kurz:

Úvod do SQL

Pokročilé SQL

Reference ze školení PYTHON (09/2023)

Byla jsem s pokojena s lektorem i organizací
Seznámení a postupné ponoření do problematiky bylo skvělé
Bavila mě především celá hlavní část kurzu
Konkrétní příklady byly moc užitečné
Ideální tempo, srozumitelnosti, praktické příklady

Kurz:

Naše kurzy

Reference ze školení Středně pokročilý Excel (09/2023)

Super jsou příklady a cvičení
Cokoliv nešlo, lektorka pomohla a poradila
Výklad mentorky byl výborný
Mnoho praktických příkladů

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Úvod do Power BI (09/2023)

Způsob vykládání, hodně příkladů, vše jsem si mohla vyzkoušet - vše velmi srozumitelné
Vyhovovalo mi, že se vše dělalo na příkladech
Jednoduché vysvětlení, možnost prakticky vyzkoušet

Kurz:

Úvod do Power BI

Reference ze školení Středně pokročilý Excel (08/2023)

Rychlost výkladu akorát
Dostatek příkladů a procvičování i opakování
Super tempo
Flexibilní pojetí výuky

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Středně pokročilý Excel (05/2023)

Výborná lektorka
Tempo přizpůsobené všem
Člověk se nebál zeptat

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Úvod do Power BI (05/2023)

Kurz je dobře strukturovaný, moc mi to vyhovovalo
Přístup lektora byl nápomocný, vše dobře vysvětlil
Vhodné tempo, proaktivní přístup

Kurz:

Úvod do Power BI

Reference ze školení Středně pokročilý Excel (03/2023)

Lektorka byla velmi ochotná
Vše vysvětlovala v klidu, a když bylo potřeba, cokoliv zopakovala
Velmi srozumitelné a dobře vysvětleno

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Úvod do Power BI (02/2023)

Vše bylo vyzkoušeno od úvodu
Příjemné tempo práce
Příjemný lektor ochotný vše vysvětlit
Tempo tak akorát, perfektní přístup, vynikající znalosti

Kurz:

Úvod do Power BI

Reference ze školení Excelu pro labužníky (11/2022)

Oceňuji - nachystané podklady, příklady využitelné v praxi
Skvělé vychytávky, vyhovující tempo
Skvělý lektor - profesionální, sympatický

Kurz:

Excel pro labužníky

Reference ze školení Úvod do Power BI (11/2022)

Vše zkoušíme, méně teorie
Každý zádrhel se vysvětlí :-)
Praktické příklady, možnost si vše vyzkoušet, tempo lektora - vše super!
Rychlost je odpovídající náročnosti a zkušenosti školených
Interaktivita, ukázky chyb (na co si dát pozor), výklad byl jasný a přehledný
Výborné tempo, skvělý přístup, vynikající znalosti

Kurz:

Úvod do Power BI

Reference ze školení Power Query a Power Pivot (10/2022)

Srozumitelnost přednosu
Hodně praxe tj.super
Výborné zkušební příklady
Tipy v Power Pivot

Kurz:

Kurz Power Query a Power Pivot

Reference ze školení Středně pokročilý Excel (10/2022)

Pro mě velmi obohacující.
Spoustu typů a vychytávek. Příjemná lektorka.
Dostatek času procvičit příklady

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Excelu pro BENU Lékárna (09/2022)

Lektor byl velmi komunikativní a nápomocný. Kdykoli někdo potřeboval, aby lektor zpomalil, tak ochotně cely usek zopakoval.
Získal jsem základní přehled o Excelu, Zatím jsem byl samouk.
Vše super

Reference ze školení SQL (02/2022)

Výborný a zrozumiteľný spôsob podania
Paní Šperková velice pěkně vysvětluje a vše je pochopitelné i pro začínající.
Líbilo se mi podání kurzu ve smyslu příkladů, ukázek různých přístupů a návodů, jak v souvislosti s jazykem SQL přemýšlet. Dobré byly ukázky příkazů pro práci s čísly a textovými řetězci. Výklad byl velmi srozumitelný.

Kurz:

Úvod do SQL

Pokročilé SQL

Reference ze školení Excelu (01/2022)

Oceňuji, že lektor souběžně komentuje, co dělá a promítá to na sdílenou obrazovku, rovněž oceňuji tempo celého procesu
Jsem začátečník, moc se mi to líbilo.
Praktické příklady jsou vždy lepší než teorie, takže super.

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Úvod do Power BI (11/2021)

Za mě dobře vyvážený obsah a vše dobře vysvětleno, dost prostoru na dotazy, dobře připravené příklady.
Oceňuji, že lektor po krátkém teoretickém úvodu hned přešel k praktickým cvičením, na kterých si člověk mohl lépe uvědomit možnosti programu a principy na kterých pracuje.
Nemám, co vytknout, je to super :)

Kurz:

Úvod do Power BI

Reference ze školení Excelu (11/2021)

Moje první celodenní školení on line, byla jsem spokojená
Kurz byl skvělý (není co vytknout, tak alespoň maličkosti :) ), moc děkuji.
Pan lektor problematiku zná, pracuje s ní v praxi, umí bezvadně podat, nemám jedinou výhradu. Obávám se že není moc prostoru pro další zlepšení.
Školení mi přineslo to, co jsem očekávala - rozšíření znalostí z excelu, poznání nových funkcí a návod, jak ty stávající používat lépe. Ukázka z Power Pivot mě nalákala na další školení :-)

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Excelu (10/2021)

Jednotlivé funkce Excelu byly prezentovány názorně a zároveň srozumitelně. Lektorka volila tempo dle potřeb účastníků kurzu, byla velmi příjemná, ochotná pomoci a dovysvětlit.
Skvěle zvolená struktura kurzu. Výklad jasný a pochopitelný. Velmi milá lektorka.
Líbilo se mi že jsem si mohla vyzkoušet vše na PC. Pokud jsem měla problém, řešil se hned.

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Excelu (12/2020)

Není co vytknout - naprosto srozumitelný výklad.
Líbil se mi přístup k jednotlivcům a rady k našim individuálním požadavkům.
Líbil jsem mi výklad po obsahové stránce i způsob, jakým byl podán.

Kurz:

https://exceltown.com/kurzy/dvoudenni-stredne-pokrocily-kurz-excelu/

Reference ze školení Úvod do Power BI (9/2020)

Kurz se mi celkově velmi líbil. Přišla mi dobrá struktura, posloupnost i množství informací
Dobrý výklad látky, skvělé praktické příklady a ukázky, tipy a triky
Jasná struktura kurzu - Vizuály / Datový model / Power Query
Bylo to praktické. Pomůže mi to optimalizovat už vytvořené dotazy

Kurz:

https://exceltown.com/kurzy/power-bi-prakticky/

Reference ze školení Excel pro začátečníky (6/2020)

Vše v nejlepším pořádku.
Výborný výklad, příklady, odpovědi na otázky...
Skvělá školitelka, vše bylo srozumitelné.
Super výuka, nic bych neměnila.
Základy vysvětleny jednoduše a pochopitelně, dostatek času na procvičování a otázky.
Vysvětlení lektorky bylo dobré, lehce pochopitelné.

Reference ze školení Power BI - Expertní úroveň (6/2020)

Skvěle vysvětleno jak a proč něco funguje. Na tom se dá stavět.
Líbilo se mi teoretické vysvětlení Power BI, spousta tipů na zefektivnění modelů.
Dobrý a vyvážený mix DAXu, M a teorie.
Vysoký skill přednášejícího, ochota odpovídat na individuální dotazy.
Líbily se mi věci kolem Power Query, které člověk na webu běžně nenajde.

Reference ze školení Excel pro labužníky (3/2020)

Velmi praktické a jasné vysvětlení Power Query
Výborné
Líbily se mi praktické příklady, ochota lektora, řešení skutečných problémů, diskuse

Reference ze školení Power BI prakticky (2/2020)

Skvělé vysvětlení od základů, srozumitelně, ukázané na příkladech.
Líbilo se mi vysvětlování dotazů ihned a odbornost kurzu.
Líbila se mi názornost.

Reference z kurzu Excel pro začátečníky (1/2020)

Velmi dobrá, ochotná a příjemná lektorka.
Srozumitelný výklad lektorky, tempo vyhovovalo všem, stihlo se toho hodně oproti původnímu očekávání.
Naprosto geniální a úžasný kurz. Lektorka je skvělá ve vysvětlování a po dlouhém trápení, co jsem kdy s Excelem měla, jsem pochopila vše, co na kurzu bylo. Velmi děkuji ExcelTown za úžasný kurz.

Reference z kurzu pro Metalimex (11/2019)

Bylo to super, dobrá komunikace
Kurz byl perfektně připraven a celá výuka byla podána pro mě naprosto srozumitelným způsobem. Děkuji.
Každý jsme si řekli, co se potřebujeme naučit, a podle toho se vyučovalo.

Reference ze školení pro ČEZ (1/2020)

Líbily se mi praktické ukázky.
Získal jsem celkový přehled o Power BI!
Líbilo se mi vše.

Potřebujete se na něco zeptat?

Jsme tu pro vás každý den

+420 602 274 999

info@exceltown.com

Pište kdykoliv. Odpovíme do 24h

ExcelTown na LinkedInu

Sledujte nás

Návody