Lineárna regresia (definícia, príklady) Ako tlmočiť?

Čo je to lineárna regresia?

Lineárna regresia je v zásade technika štatistického modelovania, ktorá slúži na preukázanie vzťahu medzi jednou závislou premennou a jednou alebo viacerými nezávislými premennými. Je to jeden z najbežnejších typov prediktívnej analýzy. Tento typ distribúcie sa formuje v priamke, preto sa nazýva lineárna regresia. V tomto článku si vezmeme príklady lineárnej regresnej analýzy v programe Excel.

Ak chcete najskôr vykonať lineárnu regresnú analýzu, musíme podľa nasledujúcich krokov pridať doplnky programu Excel.

Kliknite na Súbor - Možnosti (Týmto sa otvorí kontextové okno Možnosti programu Excel).

Kliknite na Doplnky - vyberte Doplnky programu Excel z ponuky Spravovať rozbaľovaciu ponuku v programe Excel, potom kliknite na tlačidlo Prejsť.

Týmto sa otvoria vyskakovacie okná doplnkov. Vyberte položku Analysis ToolPak a potom kliknite na tlačidlo OK.

Doplnok na analýzu údajov sa zobrazí na karte Vložiť.

Poďme to pochopiť pomocou príkladov lineárnej regresnej analýzy v programe Excel.

Príklady analýzy lineárnej regresie

Príklad č

Predpokladajme, že za minulý rok máme mesačné tržby a výdavky na marketing. Teraz musíme predpovedať budúci predaj na základe minuloročných tržieb a vynaloženého marketingu.

Mesiac Reklama Predaj
Jan 40937 502729
Február 42376 507553
Mar 43355 516885
Apr 44126 528347
Smieť 45060 537298
Jún 49546 544066
Jul 56105 553664
Aug 59322 563201
Sept 59877 568657
Okt 60481 569384
Nov 62356 573764
Dec 63246 582746

Kliknite na položku Analýza údajov na karte Údaje, čím sa otvorí kontextové okno Analýza údajov.

Teraz vyberte zo zoznamu Regresiu a kliknite na Ok.

Otvorí sa kontextové okno regresie.

Vyberte rozsah predaja $ C $ 1: $ C $ 13 v poli osi Y, pretože toto je závislá premenná a $ B $ 1: $ B $ 14 v osi X, pretože utratená reklama je nezávislá premenná.

Začiarknutie políčka Štítky, ak ste vybrali hlavičky v iných údajoch, spôsobí chybu.

Vyberte Výstupný rozsah, ak chcete získať hodnotu konkrétneho rozsahu na pracovnom hárku, inak vyberte Nový pracovný hárok: a tým sa pridá nový pracovný hárok a získate výsledok.

Potom začiarknite políčko Zvyšky a kliknite na tlačidlo OK.

Týmto sa pridajú pracovné hárky a získate nasledujúci výsledok.

Poďme pochopiť výstup.

Súhrnný výstup

Viacnásobné R: Toto predstavuje korelačný koeficient. Hodnota 1 ukazuje kladný vzťah a hodnota 0 žiadny vzťah.

R štvorec: R štvorec predstavuje koeficient determinácie. Takto sa dozviete, koľko percentných bodov pripadá na regresnú čiaru. 0,49 znamená, že 49% hodnôt zodpovedá modelu

Upravený štvorec R : Toto je upravený štvorec R, čo si vyžaduje, ak máte viac ako jednu premennú X.

Štandardná chyba: Toto predstavuje odhad štandardnej odchýlky chyby. To je presnosť, ktorou sa meria regresný koeficient.

Pozorovania: Toto je počet pozorovaní, ktoré ste vykonali na vzorke.

ANOVA - Df: Stupne slobody

SS: Súčet štvorcov.

ČŠ: máme dva ČŠ

  • Regresná MS je regresia SS / regresia Df.
  • Zvyšková MS je stredná štvorcová chyba (Zvyšková SS / Zvyšková Df).

F: F test pre nulovú hypotézu.

Dôležitosť F: Hodnoty P spojené s významnosťou

Koeficient: Koeficient poskytuje odhad najmenších štvorcov.

T štatistika: T štatistika pre nulovú hypotézu vs alternatívnu hypotézu.

Hodnota P: Toto je hodnota p pre test hypotézy.

Dolná 95% a horná 95%: Jedná sa o dolnú hranicu a hornú hranicu intervalu spoľahlivosti

Výstup zvyškov .: Na základe údajov máme 12 pozorovaní. 2 nd stĺpec predstavuje odhadovaná predajná a 3 rd stĺpcov zvyškov. Zvyšky sú v podstate rozdiel v predpokladanom predaji od skutočného.

Príklad č

Vyberte stĺpec predpokladaného predaja a marketingu

Prejdite do skupiny grafov na karte vloženia. Vyberte ikonu bodového grafu

Týmto vložíte bodový graf do programu Excel. Viď obrázok nižšie

Kliknite pravým tlačidlom myši na ľubovoľný bod a potom vyberte príkaz Pridať trendovú čiaru v programe Excel. Týmto sa do vášho grafu pridá trendová čiara.

  • Trendovú čiaru môžete formátovať tak, že kliknete pravým tlačidlom myši kdekoľvek na trendovej čiare a potom vyberiete formátovanie trendovej čiary.
  • V grafe môžete vykonať ďalšie vylepšenia. tj formátovanie trendovej čiary, farby a zmeny nadpisu atď
  • Vzorec môžete zobraziť aj v grafe začiarknutím políčka Zobraziť vzorec v grafe a v grafe zobraziť hodnotu R na druhú.

Niekoľko ďalších príkladov analýzy lineárnej regresie:

  1. Predikcia predaja dáždnika na základe dažďa sa stala v oblasti.
  2. Predikcia predaja AC na základe teploty v lete.
  3. V sezóne skúšok sa predaj stacionárnych zásielok v zásade zvýšil.
  4. Predikcia predaja, keď sa reklama uskutočnila na základe seriálu High TRP, kde sa robí reklama, Popularity Brand Ambassador a Footfalls v mieste hospodárstva, kde sa uverejňuje reklama.
  5. Predaj domu na základe lokality, oblasti a ceny.

Príklad č

Predpokladajme, že máme deväť študentov s úrovňou IQ a počtom, ktorí dosiahli v Teste.

Študent Skóre testu IQ
Ram 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Krok 1: Najskôr vyhľadajte závislé a nezávislé premenné. Tu je Test skóre závislou premennou a IQ je nezávislá premenná, pretože Test skóre sa mení, keď sa IQ mení.

Krok 2: Prejdite na kartu Údaje - Kliknite na Analýza údajov - Vyberte regresiu - kliknite na Ok.

Otvorí sa vám regresné okno.

Krok 3. Zadajte rozsah skóre testovacieho testu do poľa Rozsah Y vstupu a IQ do poľa Rozsah X vstupu. (Ak máte v rozsahu údajov hlavičky, skontrolujte štítky. Vyberte možnosti výstupu a potom skontrolujte požadované zvyšky. Kliknite na tlačidlo Ok.

Získate súhrnný výstup zobrazený na obrázku nižšie.

Krok 4: Analýza regresie podľa súhrnného výstupu

Súhrnný výstup

Viacnásobné R: Tu je korelačný koeficient 0,99, čo je veľmi blízko k 1, čo znamená, že lineárny vzťah je veľmi pozitívny.

R Square: Hodnota R Square je 0,983, čo znamená, že sa do modelu zmestí 98,3% hodnôt.

Hodnota P: Tu je hodnota P 1,86881E-07, čo je veľmi menej ako 0,1, čo znamená, že IQ má významné prediktívne hodnoty.

Pozrite si tabuľku nižšie.

Vidíte, že takmer všetky body klesajú pozdĺž alebo okolo trendovej čiary.

Príklad č

Musíme predpovedať predaj AC na základe predaja a teploty pre iný mesiac.

Mesiac Tepl Predaj
Jan 25 38893
Február 28 42254
Mar 31 42845
Apr 33 47917
Smieť 37 51243
Jún 40 69588
Jul 38 56570
Aug 37 50 000

Podľa nasledujúcich krokov získate výsledok regresie.

Krok 1: Najskôr vyhľadajte závislé a nezávislé premenné. Tu je predaj závislá premenná a teplota je nezávislá premenná, pretože predaj sa mení, keď sa teplota zmení.

Krok 2: Prejdite na kartu Údaje - Kliknite na Analýza údajov - Vyberte regresiu - kliknite na Ok.

Otvorí sa vám regresné okno.

Krok 3. Zadajte predaj do poľa Rozsah Y vstupu a Teplota do poľa Rozsah X vstupu. (Ak máte v rozsahu údajov hlavičky, skontrolujte štítky. Vyberte možnosti výstupu a potom skontrolujte požadované zvyšky. Kliknite na tlačidlo Ok.

Získate tak súhrnný výstup uvedený nižšie.

Krok 4: Analyzujte výsledok.

Viacnásobné R: Tu je korelačný koeficient 0,877, čo je takmer 1, čo znamená, že lineárny vzťah je pozitívny.

R Square: Hodnota R Square je 0,770, čo znamená, že 77% hodnôt zodpovedá modelu

Hodnota P: Tu je hodnota P 1,86881E-07, čo je veľmi menej ako 0,1, čo znamená, že IQ má významné prediktívne hodnoty.

Príklad č

Teraz urobme regresnú analýzu pre viac nezávislých premenných:

Musíte predvídať predaj mobilných telefónov, ktoré sa majú spustiť budúci rok. Máte cenu a počet obyvateľov krajín, ktoré ovplyvňujú predaj mobilných telefónov.

Mobilná verzia Predaj Množstvo Populácia
USA 63860 858 823
UK 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Podľa nasledujúcich krokov získate výsledok regresie.

Krok 1. Najskôr vyhľadajte závislé a nezávislé premenné. Tu je predaj závislý od premennej a množstva a počtu obyvateľov. Obidve sú nezávislé premenné, pretože tržby sa líšia v závislosti od množstva a počtu obyvateľov krajiny.

Krok 2. Prejdite na kartu Údaje - Kliknite na Analýza údajov - Vyberte regresiu - kliknite na Ok.

Otvorí sa vám regresné okno.

Krok 3. Zadajte predaj do poľa Rozsah Y a vyberte množstvo a počet obyvateľov do poľa Rozsah X. (Ak máte v rozsahu údajov hlavičky, skontrolujte štítky. Vyberte možnosti výstupu a potom skontrolujte požadované zvyšky. Kliknite na tlačidlo Ok.

Teraz spustite regresiu pomocou analýzy údajov na karte Údaje. Získate tak výsledok uvedený nižšie.

Súhrnný výstup

Viacnásobné R: Tu je korelačný koeficient 0,93, čo je veľmi blízko k 1, čo znamená, že lineárny vzťah je veľmi pozitívny.

R štvorec: Hodnota R štvorca je 0,866, čo znamená, že 86,7% hodnôt zodpovedá modelu.

Dôležitosť F: Dôležitosť F je menšia ako 0,1, čo znamená, že regresná rovnica má významnú prediktívnu hodnotu.

Hodnota P : Ak sa pozriete na hodnotu P pre množstvo a počet obyvateľov, uvidíte, že hodnoty sú menšie ako 0,1, čo znamená, že množstvo a populácia majú významnú prediktívnu hodnotu. Čím menej hodnôt P znamená, že premenná má významnejšie prediktívne hodnoty.

Avšak kvantita aj populácia majú významnú prediktívnu hodnotu, ale ak sa pozriete na P-hodnotu pre kvantitu a populáciu, uvidíte, že kvantita má v programe Excel nižšiu P-hodnotu ako populácia. To znamená, že kvantita má významnejšiu prediktívnu hodnotu ako populácia.

Na čo treba pamätať

  • Vždy, keď vyberáte akékoľvek údaje, skontrolujte závislé a nezávislé premenné.
  • Lineárna regresná analýza zohľadňuje vzťah medzi priemerom premenných.
  • Toto iba modeluje vzťah medzi premennými, ktoré sú lineárne
  • Niekedy to nie je najvhodnejšie pre problém v reálnom svete. Napríklad: (Vek a mzdy). Mzdy sa zväčšujú s pribúdajúcim vekom. Po odchode do dôchodku sa však vek zvyšuje, ale mzdy sa znižujú.

Zaujímavé články...