- Pomen homoscedastičnosti
- Homoscedastičnost v primerjavi s heteroscedastičnostjo
- Homoscedastični testi
- Standardizirane spremenljivke
- Negrafični testi homoscedastičnosti
- Reference
Homoscedastičnost v napovedni statističnih podatkov se zgodi, če vsi podatki skupinami enega ali več opazovanj, variance (ali neodvisni) vzorca z ozirom na pojasnjevalnih spremenljivk ostale nespremenjene.
Regresijski model je lahko homoscedastičen ali ne, v tem primeru govorimo o heteroscedastičnosti.
Slika 1. Pet podatkovnih nizov in regresijska namestitev niza. Odstopanje glede na predvideno vrednost je v vsaki skupini enako. (upav-biblioteca.org)
Model statistične regresije več neodvisnih spremenljivk imenujemo homoscedastični, le če varianta napake napovedane spremenljivke (ali standardni odklon odvisne spremenljivke) ostane enotna za različne skupine vrednosti pojasnjevalnih ali neodvisnih spremenljivk.
V petih skupinah podatkov na sliki 1 je bila izračunana odstopanje v vsaki skupini glede na vrednost, ocenjeno z regresijo, in se izkaže, da je v vsaki skupini enaka. Nadalje se domneva, da podatki sledijo običajni distribuciji.
Na grafični ravni pomeni, da so točke enakomerno razpršene ali razpršene okoli vrednosti, ki jo predvideva regresijski fit, in da ima regresijski model enako napako in veljavnost za obseg pojasnjevalne spremenljivke.
Pomen homoscedastičnosti
Za ponazoritev pomena homoscedastičnosti v napovedni statistiki je treba v nasprotju z nasprotnim pojavom, heteroscedastičnostjo.
Homoscedastičnost v primerjavi s heteroscedastičnostjo
V primeru slike 1, v kateri je homoscedastičnost, je res, da:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Kjer Var ((yi-Yi); Xi) predstavlja varianco, par (xi, yi) predstavlja podatke iz skupine i, medtem ko je Yi vrednost, predvidena z regresijo, za srednjo vrednost Xi skupine. Variance n podatkov iz skupine i se izračuna na naslednji način:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Nasprotno, kadar pride do heteroscedastičnosti, regresijski model morda ne bo veljaven za celotno regijo, v kateri je bil izračunan. Slika 2 prikazuje primer te situacije.
Slika 2. Skupina podatkov, ki kažejo heteroscedastičnost. (Lastna izdelava)
Slika 2 predstavlja tri skupine podatkov in ustreznost niza z linearno regresijo. Treba je opozoriti, da so podatki v drugi in tretji skupini bolj razpršeni kot v prvi skupini. Graf na sliki 2 prikazuje tudi srednjo vrednost vsake skupine in njeno vrstico napake ± σ z σ standardnim odklonom vsake skupine podatkov. Ne smemo pozabiti, da je standardni odklon σ kvadratni koren variance.
Jasno je, da se pri heteroskedastičnosti napaka ocene regresije spreminja v območju vrednosti pojasnjevalne ali neodvisne spremenljivke, v intervalih, kjer je ta napaka zelo velika, pa je napoved regresije nezanesljiva oz. se ne uporablja.
V regresijskem modelu je treba napake ali ostanke (in -Y) porazdeliti z enakim odstopanjem (σ ^ 2) skozi celoten interval vrednosti neodvisne spremenljivke. Zaradi tega mora dober regresijski model (linearen ali nelinearen) opraviti test homoscedastičnosti.
Homoscedastični testi
Točke, prikazane na sliki 3, ustrezajo podatkom študije, ki išče razmerje med cenami (v dolarjih) hiš kot funkcijo velikosti ali površine v kvadratnih metrih.
Prvi preizkusni model je linearna regresija. Najprej je treba opozoriti, da je koeficient določitve R ^ 2 prileganja precej visok (91%), zato je mogoče pomisliti, da je prileganje zadovoljivo.
Vendar pa je mogoče iz grafikona prilagoditve jasno ločiti dve regiji. Eden od njih, tisti na desni, zaprt v oval, izpolnjuje homoscedastičnost, medtem ko levo območje nima homoscedastičnosti.
To pomeni, da je napoved regresijskega modela ustrezna in zanesljiva v območju od 1800 m ^ 2 do 4800 m ^ 2, vendar izven tega območja zelo neprimerna. V heteroscedastni coni ni le, da je napaka zelo velika, tudi podatki kažejo, da sledijo drugačnemu trendu kot tisti, ki ga predlaga model linearne regresije.
Slika 3. Cene stanovanj glede na območje in napovedni model z linearno regresijo, ki prikazuje homoscedastičnost in heteroscedastičnost. (Lastna izdelava)
Graf razpršitve podatkov je najpreprostejši in najbolj vizualni test njihove homoscedastičnosti, vendar se v primerih, ko to ni tako očitno, kot je prikazano na sliki 3, zateči k grafom s pomožnimi spremenljivkami.
Standardizirane spremenljivke
Da bi ločili področja, kjer je homoscedastičnost izpolnjena in kjer je ni, se uvedejo standardizirane spremenljivke ZRes in ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Upoštevati je treba, da so te spremenljivke odvisne od uporabljenega regresijskega modela, saj je Y vrednost napovedi regresije. Spodaj je za isti primer raztresena ploskev ZRes proti ZPred:
Slika 4. Opozoriti je treba, da so v območju homoscedastičnosti ZRes enotne in majhne v območju predvidevanja (lastna izdelava).
V grafu na sliki 4 s standardiziranimi spremenljivkami je območje, kjer je preostala napaka majhna in enotna, jasno ločeno od območja, kjer ga ni. V prvi coni je homoscedastičnost izpolnjena, medtem ko je v območju, kjer je preostala napaka zelo spremenljiva in velika, heteroscedastičnost izpolnjena.
Regresijska prilagoditev se uporablja za isto skupino podatkov na sliki 3, v tem primeru je prilagoditev nelinearna, saj uporabljeni model vključuje potencialno funkcijo. Rezultat je prikazan na naslednji sliki:
Slika 5. Nove cone homoscedastičnosti in heteroscedastičnosti pri prilagajanju podatkov z nelinearnim regresijskim modelom. (Lastna izdelava).
Na grafu slike 5 je treba jasno navesti homoscedastična in heteroscedastična območja. Upoštevati je treba tudi, da so bila ta območja izmenjena glede na tista, ki so bila oblikovana v modelu linearnega prileganja.
Iz grafa slike 5 je razvidno, da tudi kadar je dokaj visok koeficient določanja prileganja (93,5%), model ni primeren za celoten interval pojasnjevalne spremenljivke, saj so podatki za vrednosti večja od 2000 m ^ 2 predstavlja heteroscedastičnost.
Negrafični testi homoscedastičnosti
Eden od nefifričnih testov, ki se najpogosteje uporablja za preverjanje, ali je homoscedastičnost izpolnjena ali ne, je Breusch-Pagan test.
V tem članku ne bodo podane vse podrobnosti tega testa, njegove temeljne značilnosti in koraki pa so približno opisani:
- Regresijski model se uporabi za n podatke in varianco le-teh izračuna glede na vrednost, ocenjeno z modelom σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Opredeljena je nova spremenljivka ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Za novo spremenljivko se uporablja isti model regresije in izračunajo se njeni novi regresijski parametri.
- Določi se kritična vrednost Chi kvadrata (χ ^ 2), kar je polovica vsote kvadratov novih ostankov v spremenljivki ε.
- Tabela porazdelitve Chi se uporablja glede na stopnjo pomembnosti (običajno 5%) in število stopenj svobode (# regresijskih spremenljivk minus enoto) na x osi tabele, da dobimo vrednost tablo.
- Kritična vrednost, dobljena v koraku 3, se primerja z vrednostjo, ki jo najdemo v tabeli (χ ^ 2).
- Če je kritična vrednost pod vrednostjo tabele, imamo ničelno hipotezo: obstaja homoscedastičnost
- Če je kritična vrednost nad vrednostjo tabele, imamo alternativno hipotezo: ni homoscedastičnosti.
Večina statističnih programskih paketov, kot so: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic in številni drugi, vključuje test Breusch-Pagan na homoscedastičnost. Drug test za preverjanje enakomernosti variance je Leveneov test.
Reference
- Box, Hunter & Hunter. (1988) Statistika za raziskovalce. Obrnil sem urednike.
- Johnston, J (1989). Ekonometrične metode, Vicens -Vives editores.
- Murillo in González (2000). Priročnik ekonometrije. Univerza v Las Palmas de Gran Canaria. Pridobljeno: ulpgc.es.
- Wikipedija. Homoscedastičnost. Pridobljeno: es.wikipedia.com
- Wikipedija. Homoscedastičnost. Pridobljeno: en.wikipedia.com