- Како израчунати коефицијент корелације?
- Коваранција и варијанца
- Илустративни случај
- Цоварианце Ски
- Стандардна девијација Ск
- Стандардна девијација Си
- Коефицијент корелације р
- Тумачење
- Линеарна регресија
- Пример
- Референце
Коефицијент корелације у статистици је показатељ који мери тенденција два квантитативних варијабли Кс и И имају линеарни или пропорционални однос између њих.
Парови променљивих Кс и И генерално су две карактеристике исте популације. На пример, Кс може бити висина особе, а И његова тежина.
Слика 1. Коефицијент корелације за четири пара података (Кс, И). Извор: Ф. Запата.
У овом случају, коефицијент корелације указује да ли постоји тренд према пропорционалном односу између висине и тежине у одређеној популацији или не.
Пеарсонов коефицијент линеарне корелације означен је малим словом р, а његове минималне и максималне вриједности су -1 и +1.
Вредност р = +1 указује да су скупови парова (Кс, И) савршено усклађени и да када Кс расте, И ће расти у истом пропорцији. С друге стране, ако се десило да је р = -1, скуп парова би такође био савршено поравнат, али у овом случају када се Кс повећава, И се смањује за исти удио.
Слика 2. Различите вриједности коефицијента линеарне корелације. Извор: Викимедиа Цоммонс.
С друге стране, вредност р = 0 указује да не постоји линеарна корелација између променљивих Кс и И. Док вредност р = +0.8 указује да парови (Кс, И) имају тенденцију да се групирају на једној страни и још један из одређене линије.
Формула за израчунавање коефицијента корелације р је следећа:
Како израчунати коефицијент корелације?
Коефицијент линеарне корелације је статистичка количина која је уграђена у научне прорачуне, већину табела и статистичке програме.
Међутим, прикладно је знати како се примењује формула која га дефинише и за то ће бити приказан детаљан израчун, изведен на малом скупу података.
И као што је речено у претходном одељку, коефицијент корелације је коваријанс Ски дељен на производ стандардне девијације Ск за променљиве Кс и Си за променљиву И.
Коваранција и варијанца
Коваријанс Ски је:
Ски = / (Н-1)
Тамо где сума иде од 1 до Н пара података (Кси, Ии).
Са своје стране, стандардно одступање за променљиву Кс је квадратни корен варијанције скупа података Кси, са и од 1 до Н:
Ск = √
Слично томе, стандардно одступање за променљиву И је квадратни корен варијанције скупа података Ии, са и од 1 до Н:
Си = √
Илустративни случај
Да бисмо детаљно показали како израчунати коефицијент корелације, узећемо следећи скуп од четири пара података
(Кс, И): {(1, 1); (2. 3); (3, 6) и (4, 7)}.
Прво израчунавамо аритметичку средину за Кс и И, како следи:
Тада се израчунавају преостали параметри:
Цоварианце Ски
Ски = / (4-1)
Ски = / (3) = 10,5 / 3 = 3,5
Стандардна девијација Ск
Ск = √ = √ = 1,29
Стандардна девијација Си
Ск = √ =
√ = 2,75
Коефицијент корелације р
р = 3,5 / (1,29 * 2,75) = 0,98
Тумачење
У скупу података из претходног случаја примећена је снажна линеарна корелација између променљивих Кс и И, што се манифестује како у скици распршења (приказано на слици 1), тако и у коефицијенту корелације, што даје а вредност прилично блиска јединству.
Уколико је коефицијент корелације ближи 1 или -1, више смисла има да се подаци ставе на линију, резултат линеарне регресије.
Линеарна регресија
Линеарна регресијска линија добијена је методом најмање квадрата. у којима су параметри регресијске линије добијени из минимализације суме квадрата разлике између процењене вредности И и И података из Н.
Са друге стране, параметри а и б регресијске линије и = а + бк, добијени методом најмање квадрата, су:
* б = Ски / (Ск 2 ) за нагиб
* а =
Подсјетимо да је Ски коварианција дефинирана горе, а Ск 2 је варијанца или квадрат стандардног одступања дефинираног горе.
Пример
Коефицијент корелације користи се за утврђивање постоји ли линеарна корелација између две варијабле. Применљиво је када су променљиве које се проучавају квантитативне и, надаље, претпоставља се да следе нормалну дистрибуцију типа.
Илустративни пример је дат у наставку: мерило степена гојазности је индекс телесне масе, који се добија дељењем тежине особе у килограмима са њиховом квадратном висином у квадратним метрима.
Желите да знате да ли постоји снажна повезаност између индекса телесне масе и концентрације ХДЛ холестерола у крви, мерених у милимолима по литри. У ту сврху је спроведена студија са 533 особе, која је сумирана у следећем графикону, у коме свака тачка представља податке једне особе.
Слика 3. Испитивање БМИ и ХДЛ холестерола код 533 пацијента. Извор: Арагонски институт здравствених наука (ИАЦС).
Пажљиво проматрање графикона показује да постоји одређени линеарни тренд (није баш изражен) између концентрације ХДЛ холестерола и индекса телесне масе. Квантитативна мера овог тренда је коефицијент корелације, који се у овом случају показао као р = -0,276.
Референце
- Гонзалез Ц. Општа статистика. Опоравак од: тарви.ламолина.еду.пе
- ИАЦС. Арагонски институт наука о здрављу. Опоравак од: ицс-арагон.цом
- Салазар Ц. и Цастилло С. Основни принципи статистике. (2018). Опоравак од: дспаце.уце.еду.ец
- Суперпроф. Коефицијент корелације. Опоравак од: суперпроф.ес
- УСАЦ. Описни приручник за статистику. (2011). Опоравак од: статистицс.ингениериа.усац.еду.гт
- Википедиа. Пеарсонов коефицијент корелације. Опоравак од: ес.википедиа.цом.