- Значај хомосцедастичности
- Хомосцедастичност насупрот хетеросцедастичности
- Хомосцедастички тестови
- Стандардизоване променљиве
- Не-графички тестови хомосцедастичности
- Референце
Хомосцедастицити у предиктивном статистичког модела долази ако све групе података једног или више запажања, варијансе (или независне) узорак уз односу на варијабле остају константне.
Модел регресије може бити хомосцедастичан или не, у том случају говоримо о хетеросцедастичности.
Слика 1. Пет скупова података и регресијско постављање скупа. Варијација у односу на предвиђену вредност је иста у свакој групи. (упав-библиотеца.орг)
Модел статистичке регресије неколико независних варијабли назива се хомосцедастички, само ако варијанта грешке предвиђене променљиве (или стандардно одступање зависне променљиве) остане једнолика за различите групе вредности објашњавајућих или независних променљивих.
У пет група података на слици 1 израчунато је одступање у свакој групи у односу на вредност процењену регресијом, што резултира истим у свакој групи. Даље се претпоставља да подаци прате нормалну дистрибуцију.
На графичком нивоу то значи да су тачке једнако раштркане или раштркане око вредности предвиђене регресијским фитом и да регресијски модел има исту грешку и валидност за опсег објашњавајуће променљиве.
Значај хомосцедастичности
Да би се илустрирао значај хомосцедастичности у предиктивној статистици, потребно је супротставити се супротном феномену, хетеросцедастичности.
Хомосцедастичност насупрот хетеросцедастичности
У случају слике 1, у којој постоји хомосцедастичност, тачно је да:
Вар ((и1-И1); Кс1) ≈ Вар ((и2-И2); Кс2) ≈ …… Вар ((и4-И4); Кс4)
Тамо где Вар ((ии-Ии); Кси) представља варијанцу, пар (ки, ии) представља податке из групе и, док је Ии вредност предвиђена регресијом за средњу вредност Кси групе. Варијанца н података из групе и израчунава се на следећи начин:
Вар ((ии-Ии); Кси) = ∑ј (ииј - Ии) ^ 2 / н
Супротно томе, када се појави хетеросцедастичност, регресијски модел можда не важи за цео регион у коме је израчунат. Слика 2 приказује пример ове ситуације.
Слика 2. Група података која показује хетеросцедастичност. (Властита обрада)
Слика 2 представља три групе података и прилегања скупа користећи линеарну регресију. Треба напоменути да су подаци у другој и трећој групи више распршени него у првој групи. Графикон на слици 2 такође приказује средњу вредност сваке групе и њену бар грешку ± σ, са σ стандардном девијацијом сваке групе података. Треба имати на уму да је стандардна девијација σ квадратни корен варијансе.
Јасно је да се у случају хетеросцедастичности грешка процене регресије мења у распону вредности објашњавајуће или независне променљиве, а у интервалима где је та грешка веома велика, предвиђање регресије је непоуздано или није применљиво.
У регресијском моделу грешке или заостаци (и -И) морају се дистрибуирати с једнаком варијанцом (σ ^ 2) кроз интервал вредности независне променљиве. Из тог разлога добар регресијски модел (линеарни или нелинеарни) мора проћи тест хомосцедастичности.
Хомосцедастички тестови
Точке приказане на слици 3 одговарају подацима студије која тражи однос између цијена (у доларима) кућа као функције величине или површине у квадратним метрима.
Први модел који се тестира је линеарни регресијски модел. Пре свега, треба приметити да је коефицијент одређивања Р ^ 2 прилегања прилично висок (91%), па се може сматрати да је фит одговара.
Међутим, две регије могу се јасно разликовати од графикона прилагођавања. Један од њих, онај са десне стране затворен у овал, испуњава хомосцедастичност, док лева регија нема хомосцедастичност.
То значи да је предвиђање регресијског модела адекватно и поуздано у распону од 1800 м ^ 2 до 4800 м ^ 2, али врло неприкладно ван ове регије. У хетеросцедастичкој зони не само да је грешка веома велика, већ изгледа да подаци следе другачији тренд од оног који је предложио модел линеарне регресије.
Слика 3. Цене станова у односу на површину и предиктивни модел линеарном регресијом, показујући зоне хомосцедастичности и хетеросцедастичности. (Властита обрада)
Скица распршивања података је најједноставнији и најочитији тест њихове хомосцедастичности, међутим, у случајевима када то није тако очигледно као на примеру приказаном на слици 3, потребно је прибећи графовима са помоћним променљивим.
Стандардизоване променљиве
Да би се одвојиле области у којима је хомосцедастичност испуњена и где није, уводе се стандардизоване променљиве ЗРес и ЗПред:
ЗРес = Абс (и - И) / σ
ЗПред = И / σ
Треба напоменути да ове променљиве зависе од примењеног регресијског модела, пошто је И вредност предвиђања регресије. Испод је заплет ЗРес вс ЗПред за исти пример:
Слика 4. Треба напоменути да у зони хомосцедастичности ЗРес остаје једноличан и мали у регији предвиђања (Властита разрада).
На графикону на слици 4. са стандардизованим варијаблама подручје где је заостала грешка мала и једнолика јасно је одвојено од подручја где то није. У првој зони је испуњена хомосцедастичност, док је у региону где је заостала грешка веома променљива и велика, испуњена хетеросцедастичност.
Регресијско прилагођавање примењује се на исту групу података на слици 3, у овом случају је прилагођавање нелинеарно, јер модел који користи укључује потенцијалну функцију. Резултат је приказан на следећој слици:
Слика 5. Нове зоне хомосцедастичности и хетеросцедастичности у уклапању података са нелинеарним регресијским моделом. (Властита обрада).
На графикону на слици 5 треба јасно напоменути хомосцедастичка и хетеросцедастичка подручја. Такође треба напоменути да су ове зоне измењене у односу на оне које су формиране у моделу линеарног уклапања.
На графикону на слици 5 видљиво је да чак и када постоји прилично висок коефицијент одређивања уклапања (93,5%), модел није адекватан за цео интервал објашњавајуће променљиве, јер су подаци за вредности већа од 2000 м ^ 2 представља хетеросцедастичност.
Не-графички тестови хомосцедастичности
Један од не-графичких тестова који се највише користи да се утврди да ли је хомосцедастичност задовољена или не је Бреусцх-Паган тест.
Нису сви детаљи овог теста дати у овом чланку, али његове основне карактеристике и кораци истог су грубо описани:
- Регресијски модел се примењује на н податке и варијанца истих се израчунава у односу на вредност процењену моделом σ ^ 2 = ∑ј (иј - И) ^ 2 / н.
- Нова променљива је дефинисана ε = ((иј - И) ^ 2) / (σ ^ 2)
- Исти регресијски модел примјењује се на нову варијаблу и израчунавају се њени нови регресијски параметри.
- Одређује се критична вредност Цхи квадрат (χ ^ 2), која представља половину зброја нових квадрата у променљивој ε.
- Цхи квадратна табела расподјеле користи се узимајући у обзир ниво значаја (обично 5%) и број степени слободе (# регресијских варијабли минус јединство) на к оси табеле, да би се добила вредност одбор.
- Критична вредност добијена у кораку 3 упоређује се са вредношћу која је пронађена у табели (χ ^ 2).
- Ако је критична вредност испод вредности табеле, имамо нулту хипотезу: постоји хомосцедастичност
- Ако је критична вредност већа од табеле, имамо алтернативну хипотезу: нема хомосцедастичности.
Већина статистичких софтверских пакета као што су: СПСС, МиниТаб, Р, Питхон Пандас, САС, СтатГрапхиц и неколико других садржи Бреусцх-Паган тест хомосцедастичности. Други тест за потврђивање једноличности варијансе је Левенеов тест.
Референце
- Бок, Хунтер & Хунтер. (1988) Статистика за истраживаче. Преокренуо сам уреднике.
- Јохнстон, Ј (1989). Економетријске методе, Виценс -Вивес едиторес.
- Мурилло и Гонзалез (2000). Приручник за економетрију. Универзитет у Лас Палмас де Гран Цанариа. Опоравак од: улпгц.ес.
- Википедиа. Хомосцедастичност. Опоравак од: ес.википедиа.цом
- Википедиа. Хомосцедастичност. Опоравак од: ен.википедиа.цом