Čo je to lineárna regresia?
Lineárna regresia je v zásade technika štatistického modelovania, ktorá slúži na preukázanie vzťahu medzi jednou závislou premennou a jednou alebo viacerými nezávislými premennými. Je to jeden z najbežnejších typov prediktívnej analýzy. Tento typ distribúcie sa formuje v priamke, preto sa nazýva lineárna regresia. V tomto článku si vezmeme príklady lineárnej regresnej analýzy v programe Excel.
Ak chcete najskôr vykonať lineárnu regresnú analýzu, musíme podľa nasledujúcich krokov pridať doplnky programu Excel.
Kliknite na Súbor - Možnosti (Týmto sa otvorí kontextové okno Možnosti programu Excel).

Kliknite na Doplnky - vyberte Doplnky programu Excel z ponuky Spravovať rozbaľovaciu ponuku v programe Excel, potom kliknite na tlačidlo Prejsť.

Týmto sa otvoria vyskakovacie okná doplnkov. Vyberte položku Analysis ToolPak a potom kliknite na tlačidlo OK.

Doplnok na analýzu údajov sa zobrazí na karte Vložiť.

Poďme to pochopiť pomocou príkladov lineárnej regresnej analýzy v programe Excel.
Príklady analýzy lineárnej regresie
Príklad č
Predpokladajme, že za minulý rok máme mesačné tržby a výdavky na marketing. Teraz musíme predpovedať budúci predaj na základe minuloročných tržieb a vynaloženého marketingu.
Mesiac | Reklama | Predaj |
Jan | 40937 | 502729 |
Február | 42376 | 507553 |
Mar | 43355 | 516885 |
Apr | 44126 | 528347 |
Smieť | 45060 | 537298 |
Jún | 49546 | 544066 |
Jul | 56105 | 553664 |
Aug | 59322 | 563201 |
Sept | 59877 | 568657 |
Okt | 60481 | 569384 |
Nov | 62356 | 573764 |
Dec | 63246 | 582746 |
Kliknite na položku Analýza údajov na karte Údaje, čím sa otvorí kontextové okno Analýza údajov.

Teraz vyberte zo zoznamu Regresiu a kliknite na Ok.

Otvorí sa kontextové okno regresie.

Vyberte rozsah predaja $ C $ 1: $ C $ 13 v poli osi Y, pretože toto je závislá premenná a $ B $ 1: $ B $ 14 v osi X, pretože utratená reklama je nezávislá premenná.

Začiarknutie políčka Štítky, ak ste vybrali hlavičky v iných údajoch, spôsobí chybu.

Vyberte Výstupný rozsah, ak chcete získať hodnotu konkrétneho rozsahu na pracovnom hárku, inak vyberte Nový pracovný hárok: a tým sa pridá nový pracovný hárok a získate výsledok.

Potom začiarknite políčko Zvyšky a kliknite na tlačidlo OK.

Týmto sa pridajú pracovné hárky a získate nasledujúci výsledok.

Poďme pochopiť výstup.
Súhrnný výstup
Viacnásobné R: Toto predstavuje korelačný koeficient. Hodnota 1 ukazuje kladný vzťah a hodnota 0 žiadny vzťah.
R štvorec: R štvorec predstavuje koeficient determinácie. Takto sa dozviete, koľko percentných bodov pripadá na regresnú čiaru. 0,49 znamená, že 49% hodnôt zodpovedá modelu
Upravený štvorec R : Toto je upravený štvorec R, čo si vyžaduje, ak máte viac ako jednu premennú X.
Štandardná chyba: Toto predstavuje odhad štandardnej odchýlky chyby. To je presnosť, ktorou sa meria regresný koeficient.
Pozorovania: Toto je počet pozorovaní, ktoré ste vykonali na vzorke.
ANOVA - Df: Stupne slobody
SS: Súčet štvorcov.
ČŠ: máme dva ČŠ
- Regresná MS je regresia SS / regresia Df.
- Zvyšková MS je stredná štvorcová chyba (Zvyšková SS / Zvyšková Df).
F: F test pre nulovú hypotézu.
Dôležitosť F: Hodnoty P spojené s významnosťou
Koeficient: Koeficient poskytuje odhad najmenších štvorcov.
T štatistika: T štatistika pre nulovú hypotézu vs alternatívnu hypotézu.
Hodnota P: Toto je hodnota p pre test hypotézy.
Dolná 95% a horná 95%: Jedná sa o dolnú hranicu a hornú hranicu intervalu spoľahlivosti
Výstup zvyškov .: Na základe údajov máme 12 pozorovaní. 2 nd stĺpec predstavuje odhadovaná predajná a 3 rd stĺpcov zvyškov. Zvyšky sú v podstate rozdiel v predpokladanom predaji od skutočného.
Príklad č
Vyberte stĺpec predpokladaného predaja a marketingu

Prejdite do skupiny grafov na karte vloženia. Vyberte ikonu bodového grafu

Týmto vložíte bodový graf do programu Excel. Viď obrázok nižšie

Kliknite pravým tlačidlom myši na ľubovoľný bod a potom vyberte príkaz Pridať trendovú čiaru v programe Excel. Týmto sa do vášho grafu pridá trendová čiara.


- Trendovú čiaru môžete formátovať tak, že kliknete pravým tlačidlom myši kdekoľvek na trendovej čiare a potom vyberiete formátovanie trendovej čiary.
- V grafe môžete vykonať ďalšie vylepšenia. tj formátovanie trendovej čiary, farby a zmeny nadpisu atď
- Vzorec môžete zobraziť aj v grafe začiarknutím políčka Zobraziť vzorec v grafe a v grafe zobraziť hodnotu R na druhú.
Niekoľko ďalších príkladov analýzy lineárnej regresie:
- Predikcia predaja dáždnika na základe dažďa sa stala v oblasti.
- Predikcia predaja AC na základe teploty v lete.
- V sezóne skúšok sa predaj stacionárnych zásielok v zásade zvýšil.
- Predikcia predaja, keď sa reklama uskutočnila na základe seriálu High TRP, kde sa robí reklama, Popularity Brand Ambassador a Footfalls v mieste hospodárstva, kde sa uverejňuje reklama.
- Predaj domu na základe lokality, oblasti a ceny.
Príklad č
Predpokladajme, že máme deväť študentov s úrovňou IQ a počtom, ktorí dosiahli v Teste.
Študent | Skóre testu | IQ |
Ram | 100 | 145 |
Shyam | 97 | 140 |
Kul | 93 | 130 |
Kappu | 91 | 125 |
Raju | 89 | 115 |
Vishal | 86 | 110 |
Vivek | 82 | 100 |
Vinay | 78 | 95 |
Kumar | 75 | 90 |
Krok 1: Najskôr vyhľadajte závislé a nezávislé premenné. Tu je Test skóre závislou premennou a IQ je nezávislá premenná, pretože Test skóre sa mení, keď sa IQ mení.
Krok 2: Prejdite na kartu Údaje - Kliknite na Analýza údajov - Vyberte regresiu - kliknite na Ok.

Otvorí sa vám regresné okno.

Krok 3. Zadajte rozsah skóre testovacieho testu do poľa Rozsah Y vstupu a IQ do poľa Rozsah X vstupu. (Ak máte v rozsahu údajov hlavičky, skontrolujte štítky. Vyberte možnosti výstupu a potom skontrolujte požadované zvyšky. Kliknite na tlačidlo Ok.

Získate súhrnný výstup zobrazený na obrázku nižšie.

Krok 4: Analýza regresie podľa súhrnného výstupu
Súhrnný výstup
Viacnásobné R: Tu je korelačný koeficient 0,99, čo je veľmi blízko k 1, čo znamená, že lineárny vzťah je veľmi pozitívny.
R Square: Hodnota R Square je 0,983, čo znamená, že sa do modelu zmestí 98,3% hodnôt.
Hodnota P: Tu je hodnota P 1,86881E-07, čo je veľmi menej ako 0,1, čo znamená, že IQ má významné prediktívne hodnoty.
Pozrite si tabuľku nižšie.

Vidíte, že takmer všetky body klesajú pozdĺž alebo okolo trendovej čiary.
Príklad č
Musíme predpovedať predaj AC na základe predaja a teploty pre iný mesiac.
Mesiac | Tepl | Predaj |
Jan | 25 | 38893 |
Február | 28 | 42254 |
Mar | 31 | 42845 |
Apr | 33 | 47917 |
Smieť | 37 | 51243 |
Jún | 40 | 69588 |
Jul | 38 | 56570 |
Aug | 37 | 50 000 |
Podľa nasledujúcich krokov získate výsledok regresie.
Krok 1: Najskôr vyhľadajte závislé a nezávislé premenné. Tu je predaj závislá premenná a teplota je nezávislá premenná, pretože predaj sa mení, keď sa teplota zmení.
Krok 2: Prejdite na kartu Údaje - Kliknite na Analýza údajov - Vyberte regresiu - kliknite na Ok.

Otvorí sa vám regresné okno.

Krok 3. Zadajte predaj do poľa Rozsah Y vstupu a Teplota do poľa Rozsah X vstupu. (Ak máte v rozsahu údajov hlavičky, skontrolujte štítky. Vyberte možnosti výstupu a potom skontrolujte požadované zvyšky. Kliknite na tlačidlo Ok.

Získate tak súhrnný výstup uvedený nižšie.

Krok 4: Analyzujte výsledok.
Viacnásobné R: Tu je korelačný koeficient 0,877, čo je takmer 1, čo znamená, že lineárny vzťah je pozitívny.
R Square: Hodnota R Square je 0,770, čo znamená, že 77% hodnôt zodpovedá modelu
Hodnota P: Tu je hodnota P 1,86881E-07, čo je veľmi menej ako 0,1, čo znamená, že IQ má významné prediktívne hodnoty.
Príklad č
Teraz urobme regresnú analýzu pre viac nezávislých premenných:
Musíte predvídať predaj mobilných telefónov, ktoré sa majú spustiť budúci rok. Máte cenu a počet obyvateľov krajín, ktoré ovplyvňujú predaj mobilných telefónov.
Mobilná verzia | Predaj | Množstvo | Populácia |
USA | 63860 | 858 | 823 |
UK | 61841 | 877 | 660 |
KZ | 60876 | 873 | 631 |
CH | 58188 | 726 | 842 |
HN | 52728 | 864 | 573 |
AU | 52388 | 680 | 809 |
NZ | 51075 | 728 | 661 |
RU | 49019 | 689 | 778 |
Podľa nasledujúcich krokov získate výsledok regresie.
Krok 1. Najskôr vyhľadajte závislé a nezávislé premenné. Tu je predaj závislý od premennej a množstva a počtu obyvateľov. Obidve sú nezávislé premenné, pretože tržby sa líšia v závislosti od množstva a počtu obyvateľov krajiny.
Krok 2. Prejdite na kartu Údaje - Kliknite na Analýza údajov - Vyberte regresiu - kliknite na Ok.

Otvorí sa vám regresné okno.

Krok 3. Zadajte predaj do poľa Rozsah Y a vyberte množstvo a počet obyvateľov do poľa Rozsah X. (Ak máte v rozsahu údajov hlavičky, skontrolujte štítky. Vyberte možnosti výstupu a potom skontrolujte požadované zvyšky. Kliknite na tlačidlo Ok.

Teraz spustite regresiu pomocou analýzy údajov na karte Údaje. Získate tak výsledok uvedený nižšie.
Súhrnný výstup
Viacnásobné R: Tu je korelačný koeficient 0,93, čo je veľmi blízko k 1, čo znamená, že lineárny vzťah je veľmi pozitívny.
R štvorec: Hodnota R štvorca je 0,866, čo znamená, že 86,7% hodnôt zodpovedá modelu.
Dôležitosť F: Dôležitosť F je menšia ako 0,1, čo znamená, že regresná rovnica má významnú prediktívnu hodnotu.
Hodnota P : Ak sa pozriete na hodnotu P pre množstvo a počet obyvateľov, uvidíte, že hodnoty sú menšie ako 0,1, čo znamená, že množstvo a populácia majú významnú prediktívnu hodnotu. Čím menej hodnôt P znamená, že premenná má významnejšie prediktívne hodnoty.
Avšak kvantita aj populácia majú významnú prediktívnu hodnotu, ale ak sa pozriete na P-hodnotu pre kvantitu a populáciu, uvidíte, že kvantita má v programe Excel nižšiu P-hodnotu ako populácia. To znamená, že kvantita má významnejšiu prediktívnu hodnotu ako populácia.
Na čo treba pamätať
- Vždy, keď vyberáte akékoľvek údaje, skontrolujte závislé a nezávislé premenné.
- Lineárna regresná analýza zohľadňuje vzťah medzi priemerom premenných.
- Toto iba modeluje vzťah medzi premennými, ktoré sú lineárne
- Niekedy to nie je najvhodnejšie pre problém v reálnom svete. Napríklad: (Vek a mzdy). Mzdy sa zväčšujú s pribúdajúcim vekom. Po odchode do dôchodku sa však vek zvyšuje, ale mzdy sa znižujú.