Odľahlý vzorec Krok za krokom výpočet odľahlej hodnoty (s príkladom)

Odľahlý vzorec poskytuje grafický nástroj na výpočet údajov, ktoré sa nachádzajú mimo danej množiny distribúcie, ktorá môže byť v závislosti od premenných vnútorná alebo vonkajšia strana.

Čo je Outlier Formula?

Odľahlou hodnotou je dátový bod danej vzorky alebo pozorovania alebo v distribúcii, ktorá musí ležať mimo celkového obrazca. Bežne používané pravidlo, ktoré hovorí, že údajový bod sa bude považovať za odľahlý, ak má viac ako 1,5 IQR pod prvým kvartilom alebo nad tretím kvartilom.

Povedané inak, nízke odľahlé hodnoty musia ležať pod Q1 - 1,5 IQR a vysoké odľahlé hodnoty ležať Q3 + 1,5 IQR

Je potrebné vypočítať medián, kvartily vrátane IQR, Q1 a Q3.

Odľahlý vzorec je znázornený takto,

Vzorec pre Q1 = ¼ (n + 1) th termín  Vzorec pre Q3 = ¾ (n + 1) th termín  Vzorec pre Q2 = Q3 - Q1

Krok za krokom výpočet odľahlej hodnoty

Podľa nasledujúcich krokov je potrebné vypočítať odľahlú hodnotu.

  • Krok 1: Najskôr vypočítajte kvartily, tj. Q1, Q2 a medzikvartil
  • Krok 2: Teraz vypočítajte hodnotu Q2 * 1,5
  • Krok 3: Teraz odčítajte hodnotu Q1 od hodnoty vypočítanej v kroku 2
  • Krok 4: Tu pridajte Q3 s hodnotou vypočítanou v kroku 2
  • Krok 5: Vytvorte rozsah hodnôt vypočítaných v krokoch 3 a 4
  • Krok 6: Usporiadajte údaje vzostupne
  • Krok 7: Skontrolujte, či sú nejaké hodnoty nižšie alebo vyššie ako rozsah vytvorený v kroku 5.

Príklad

Zvážte množinu údajov nasledujúcich čísel: 10, 2, 4, 7, 8, 5, 11, 3, 12. Je potrebné vypočítať všetky odľahlé hodnoty.

Riešenie:

Najskôr musíme usporiadať údaje vzostupne, aby sme našli medián, ktorý pre nás bude Q2.

2, 3, 4, 5, 7, 8, 10, 11, 12

Teraz, pretože počet pozorovaní je nepárne, čo je 9, medián by ležať na 5 th pozíciu, ktorá je 7, a to isté bude Q2 pre tento príklad.

Preto je výpočet Q1 nasledujúci -

Q1 = ¼ (9 + 1)

= ¼ (10)

Q1 bude -

Q1 = 2,5 volebného obdobia

To znamená, že Q1 je priemer 2. a 3. polohy pozorovania, ktorá je tu 3 a 4, a jej priemer je (3 + 4) / 2 = 3,5

Výpočet Q3 je preto nasledovný -

Q3 = ¾ (9 + 1)

= ¾ (10)

Q3 bude -

Q3 = 7,5 volebného obdobia

To znamená, že Q3 je priemer 7 th a 8 th poloha pozorovanie, čo je 10 11 tu, a priemer To isté (10 + 11) / 2 = 10,5

Teraz budú nízke odľahlé hodnoty ležať pod Q1 - 1,5 IQR a vysoké odľahlé hodnoty budú ležať Q3 + 1,5 IQR

Hodnoty sú teda 3,5 - (1,5 * 7) = -7 a vyšší rozsah je 10,5 + (1,5 * 7) = 110,25.

Pretože neexistujú žiadne pozorovania, ktoré by ležali nad alebo pod 110,25 a -7, nemáme v tejto vzorke žiadne mimoriadne hodnoty.

Príklad odľahlého vzorca v programe Excel (so šablónou programu Excel)

Triedy kreatívneho koučovania uvažujú o odmenení študentov, ktorí sú v najlepších 25%. Chcú sa však vyhnúť akýmkoľvek krajným hodnotám. Údaje sú za 25 študentov. Použite Outlierovu rovnicu na určenie, či existuje odľahlá hodnota?

Riešenie:

Ďalej sú uvedené údaje na výpočet odľahlej hodnoty.

Počet pozorovaní je tu 25 a naším prvým krokom by bola konverzia vyššie nespracovaných údajov vo vzostupnom poradí.

Medián bude -

Stredná hodnota = ½ (n + 1)

= ½ = ½ (26)

= 13 th termín

Q2 alebo medián je 68,00

Čo je 50% populácie.

Q1 bude -

Q1 = ¼ (n + 1) termín

= ¼ (25 + 1)

= ¼ (26)

= 6,5 th termín, ktorý je ekvivalentná k 7 th termínu

Hodnota Q1 je 56,00, čo je spodných 25%

Q3 bude -

Nakoniec Q3 = ¾ (n + 1) termín

= ¾ (26)

= 19,50 volebné obdobie

Tu priemerná potrebné vziať, ktorý je z 19 th a 20 th podmienok, ktoré sú 77 a 77, a priemer to isté (77 + 77) / 2 = 77,00

Q3 je 77, čo je najlepších 25%

Nízky rozsah

Teraz budú nízke odľahlé hodnoty ležať pod Q1 - 1,5 IQR a vysoké odľahlé hodnoty budú ležať Q3 + 1,5 IQR

Vysoký dosah -

Hodnoty teda sú 56 - (1,5 * 68) = -46 a vyšší rozsah je 77 + (1,5 * 68) = 179.

Neexistujú žiadne mimoriadne hodnoty.

Relevantnosť a použitie

Vzorec odľahlých hodnôt je veľmi dôležité vedieť, pretože môžu existovať údaje, ktoré by boli skreslené takouto hodnotou. Vezmite si príklad pozorovaní 2, 4, 6, 101, a ak teraz niekto vezme priemer týchto hodnôt, bude to 28,25, ale 75% pozorovaní leží pod 7, a teda by išlo o nesprávne rozhodnutie týkajúce sa pozorovaní táto vzorka.

Je možné si tu všimnúť, že 101 zjavne predstavuje obrys, a ak sa to odstráni, priemer by bol 4, čo hovorí o hodnotách alebo pozorovaniach, ktoré ležia v rozmedzí 4. Preto je veľmi dôležité toto aby nedošlo k zneužitiu úvodných informácií o údajoch. Štatistiky z celého sveta ich vo veľkej miere používajú, kedykoľvek uskutočňujú akýkoľvek výskum.

Zaujímavé články...