Правило Стургес представља критеријум за одређивање броја одељења или опсега који су неопходни за цртање низ статистичких података. Ово је правило изгласио немачки математичар Херберт Стургес 1926. године.
Стургес је предложио једноставан метод, заснован на броју к узорака који ће нам омогућити да пронађемо број класа и њихову ширину распона. Стургесово правило се широко користи, посебно у области статистике, посебно за изградњу хистограма фреквенције.
Објашњење
Правило Стургеса је емпиријска метода која се широко користи у описној статистици за утврђивање броја класа које морају постојати у фреквенцијском хистограму, како би се класификовао скуп података који представљају узорак или популацију.
У основи, ово правило одређује ширину графичких контејнера, фреквенционих хистограма.
Да би успоставио своје правило, Херберт Стургес је сматрао идеалним фреквенцијским дијаграмом, који се састоји од К интервала, где и-ти интервал садржи одређени број узорака (и = 0, … к - 1), представљених као:
Тај број узорака дат је бројем начина на који се може издвојити подскуп скупа; то јест, биномним коефицијентом, израженим на следећи начин:
Да би поједноставио израз, применио је својства логаритма на оба дела једначине:
Стога је Стургес утврдио да је оптимални број интервала к дат изразом:
Може се изразити и као:
У овом изразу:
- к је број часова.
- Н је укупан број запажања у узорку.
- Лог је уобичајени логаритам базе 10.
На пример, да бисте конструисали фреквенцијски хистограм који изражава случајни узорак висине од 142 деце, број интервала или класа које ће дистрибуција имати:
к = 1 + 3.322 * лог 10 (Н)
к = 1 + 3,322 * запис (142)
к = 1 + 3.322 * 2.1523
к = 8,14 ≈ 8
Дакле, расподјела ће бити у 8 интервала.
Број интервала мора увек бити представљен целим бројевима. У случајевима када је вредност децимална, потребно је приближити најближем целом броју.
Апликације
Правило Стургеса примењује се углавном у статистици, јер омогућава расподелу фреквенција помоћу израчунавања броја класа (к), као и дужине сваке од њих, познате и као амплитуда.
Амплитуда је разлика горње и доње границе класе, подељена са бројем класа, и изражава се:
Постоје многа правила која омогућавају подешавање фреквенције. Међутим, правило Стургес-а се обично користи јер приближава број часова, који се обично креће од 5 до 15.
Стога сматра вриједност која адекватно представља узорак или популацију; то јест, апроксимација не представља екстремне груписање, нити ради са прекомерним бројем класа које не дозвољавају да се узорак сажети.
Пример
По датим подацима треба да се направи фреквентни хистограм, који одговара узрастима добијеним у истраживању мушкараца који вежбају у локалној теретани.
Да бисте одредили интервале, треба знати величину узорка или број посматрања; у овом случају је 30.
Тада важи правило Стургеса:
к = 1 + 3.322 * лог 10 (Н)
к = 1 + 3,322 * лог (30)
к = 1 + 3.322 * 1.4771
к = 5,90 ≈ 6 интервала.
Из броја интервала може се израчунати њихова амплитуда; то јест, ширина сваке траке представљена у фреквенцијском хистограму:
Доња граница сматра се најмањом вредношћу података, а горња граница највећом. Разлика између горње и доње границе назива се распоном или опсегом променљиве (Р).
Из табеле имамо да горња граница износи 46, а доња граница 13; на тај начин ће амплитуда сваког разреда бити:
Интервали ће се састојати од горње и доње границе. Да бисмо одредили ове интервале, започињемо одбројавањем од доње границе, додајући томе амплитуду одређеном правилом (6), на следећи начин:
Тада се израчунава апсолутна фреквенција да би се одредио број мушкараца који одговара сваком интервалу; у овом случају је:
- Интервал 1: 13 - 18 = 9
- Интервал 2: 19 - 24 = 9
- Интервал 3: 25 - 30 = 5
- Интервал 4: 31 - 36 = 2
- Интервал 5: 37 - 42 = 2
- Интервал 6: 43 - 48 = 3
Када додајете апсолутну фреквенцију сваке класе, то мора бити једнако укупном броју узорка; у овом случају 30.
Након тога се израчунава релативна фреквенција сваког интервала, дијелећи његову апсолутну фреквенцију са укупним бројем опажања:
- Интервал 1: фи = 9 ÷ 30 = 0.30
- Интервал 2: фи = 9 ÷ 30 = 0.30
- Интервал 3: фи = 5 ÷ 30 = 0,1666
- Интервал 4: фи = 2 ÷ 30 = 0,0666
- Интервал 5: фи = 2 ÷ 30 = 0,0666
- Интервал 4: фи = 3 ÷ 30 = 0,10
Затим можете направити табелу која одражава податке, а такође и дијаграм из релативне фреквенције у односу на добијене интервале, као што се може видети на следећим сликама:
На овај начин, правило Стургес омогућава одређивање броја класа или интервала на које се узорак може подијелити, како би се сажео узорак података разрађивањем табела и графикона.
Референце
- Алфонсо Уркуиа, МВ (2013). Моделирање и симулација дискретних догађаја. УНЕД,.
- Алтман Наоми, МК (2015). "Једноставна линеарна регресија." Натуре Метходс.
- Антунез, РЈ (2014). Статистика у образовању. Дигитал УНИТ.
- Фок, Ј. (1997.). Примењена регресијска анализа, линеарни модели и сродне методе. САГЕ Публикације.
- Хумберто Ллинас Солано, ЦР (2005). Дескриптивна статистика и дистрибуције вероватноће. Северни универзитет.
- Пантелеева, ОВ (2005). Основе вероватноће и статистика.
- О. Куехл, МО (2001). Дизајн експеримената: Статистички принципи дизајна и анализе истраживања. Тхомсон Едиторс.