Pravilo Sturges je kriterij za določitev števila razredov ali verig, ki so potrebni za izris sklop statističnih podatkov. To pravilo je leta 1926 nakazal nemški matematik Herbert Sturges.
Sturges je predlagal preprosto metodo, ki temelji na številu vzorcev x, ki bi nam omogočili iskanje števila razredov in njihove širine. Pravilo Sturgesa se pogosto uporablja, zlasti na področju statistike, posebej za izdelavo frekvenčnih histogramov.

Pojasnilo
Pravilo Sturgesa je empirična metoda, ki se v opisni statistiki pogosto uporablja za določitev števila razredov, ki morajo obstajati v frekvenčnem histogramu, da bi razvrstili nabor podatkov, ki predstavljajo vzorec ali populacijo.
V osnovi to pravilo določa širino grafičnih vsebnikov frekvenčnih histogramov.
Za ustanovitev svojega pravila je Herbert Sturges menil, da je idealen frekvenčni diagram sestavljen iz intervalov K, kjer i-ti interval vsebuje določeno število vzorcev (i = 0, … k - 1), predstavljenih kot:

To število vzorcev je podano s številom načinov, na katere je mogoče ekstrahirati podmnožico niza; to je z binomnim koeficientom, izraženim na naslednji način:


Za poenostavitev izraza je uporabil lastnosti logaritmov na oba dela enačbe:

Tako je Sturges ugotovil, da je optimalno število intervalov k podano z izrazom:

Lahko se izrazi tudi kot:

V tem izrazu:
- k je število razredov.
- N je skupno število opazovanj v vzorcu.
- Log je običajni logaritem osnove 10.
Na primer, za izdelavo frekvenčnega histograma, ki izraža naključni vzorec višine 142 otrok, je število intervalov ali razredov, ki jih bo razporedila, naslednje:
k = 1 + 3.322 * dnevnik 10 (N)
k = 1 + 3,322 * dnevnik (142)
k = 1 + 3.322 * 2.1523
k = 8,14 ≈ 8
Tako bo distribucija v 8 intervalih.
Število intervalov mora biti vedno predstavljeno s celimi številkami. V primerih, ko je vrednost decimalna, je treba narediti približek najbližjemu celotnemu številu.
Prijave
Pravilo Sturgesa se uporablja predvsem v statistiki, saj omogoča porazdelitev frekvence z izračunom števila razredov (k) in njihove dolžine, imenovane tudi amplituda.
Amplituda je razlika med zgornjo in spodnjo mejo razreda, deljeno s številom razredov, in je izražena:

Obstaja veliko pravil, ki omogočajo distribucijo frekvence. Vendar se običajno uporablja pravilo Sturges, ker približa število razredov, ki se običajno giblje od 5 do 15.
Tako meni, da je vrednost primerna za vzorec ali populacijo; torej približek ne predstavlja ekstremnih skupin, prav tako ne deluje s prevelikim številom razredov, ki ne omogočajo povzetka vzorca.
Primer
Glede na dane podatke je treba izdelati frekvenčni histogram, ki ustreza starosti, pridobljenim v anketi o moških, ki telovadijo v lokalni telovadnici.

Za določitev intervalov je treba vedeti velikost vzorca ali število opazovanj; v tem primeru jih je 30.
Potem velja pravilo Sturgesa:
k = 1 + 3.322 * dnevnik 10 (N)
k = 1 + 3,322 * dnevnik (30)
k = 1 + 3.322 * 1.4771
k = 5,90 ≈ 6 intervalov.
Glede na število intervalov je mogoče izračunati amplitudo, ki jo bodo imeli; to je širina vsake vrstice, predstavljena v frekvenčnem histogramu:

Spodnja meja velja za najmanjšo vrednost podatkov, zgornja meja pa največjo vrednost. Razlika med zgornjo in spodnjo mejo se imenuje obseg ali območje spremenljivke (R).
Iz tabele imamo, da je zgornja meja 46, spodnja meja pa 13; tako bo amplituda vsakega razreda:

Intervali bodo sestavljeni iz zgornje in spodnje meje. Za določitev teh intervalov začnemo z odštevanjem spodnje meje in temu dodamo amplitudo, določeno s pravilom (6), na naslednji način:

Nato se izračuna absolutna frekvenca, da se določi število moških, ki ustreza vsakemu intervalu; v tem primeru je:
- Interval 1: 13 - 18 = 9
- Interval 2: 19 - 24 = 9
- Interval 3: 25 - 30 = 5
- Interval 4: 31 - 36 = 2
- Interval 5: 37 - 42 = 2
- Interval 6: 43 - 48 = 3
Ko dodate absolutno frekvenco vsakega razreda, mora biti to enako celotnemu številu vzorca; v tem primeru 30.
Nato se izračuna relativna frekvenca vsakega intervala, če se njegova absolutna frekvenca deli s skupnim številom opazovanj:

- Interval 1: fi = 9 ÷ 30 = 0,30
- Interval 2: fi = 9 ÷ 30 = 0,30
- Interval 3: fi = 5 ÷ 30 = 0,1666
- Interval 4: fi = 2 ÷ 30 = 0,0666
- Interval 5: fi = 2 ÷ 30 = 0,0666
- Interval 4: fi = 3 ÷ 30 = 0,10
Nato lahko naredite tabelo, ki odraža podatke in tudi diagram iz relativne frekvence glede na pridobljene intervale, kot je razvidno iz naslednjih slik:


Na ta način pravilo Sturges omogoča določitev števila razredov ali intervalov, na katere je mogoče razdeliti vzorec, da se povzame vzorec podatkov z izdelavo tabel in grafov.
Reference
- Alfonso Urquía, MV (2013). Modeliranje in simulacija diskretnih dogodkov. UNED,.
- Altman Naomi, MK (2015). "Enostavna linearna regresija." Naravne metode.
- Antúnez, RJ (2014). Statistika v izobraževanju. Digitalna enota.
- Fox, J. (1997.). Uporabljena regresijska analiza, linearni modeli in sorodne metode. Publikacije SAGE.
- Humberto Llinás Solano, CR (2005). Opisna statistika in verjetnostne porazdelitve. Severna univerza.
- Pantelejeva, OV (2005). Osnove verjetnosti in statistika.
- O. Kuehl, MO (2001). Oblikovanje eksperimentov: Statistični principi načrtovanja in analize raziskav. Thomson uredniki.
