- Kako izračunati korelacijski koeficient?
- Covariance in variance
- Ilustrativni primer
- Covariance Sxy
- Standardni odklon Sx
- Standardni odklon Sy
- Korelacijski koeficient r
- Interpretacija
- Linearna regresija
- Primer
- Reference
Koeficient korelacije v statistiki je kazalnik, ki meri nagib dveh kvantitativnih spremenljivk X in Y, da sta med njima linearni ali proporcionalni odnos.
Na splošno sta pari spremenljivk X in Y dve značilnosti iste populacije. Na primer, X bi lahko bil oseba višina in Y njegova teža.

Slika 1. Koeficient korelacije za štiri podatkovne pare (X, Y). Vir: F. Zapata.
V tem primeru bi koeficient korelacije pokazal, ali obstaja trend sorazmernega razmerja med višino in težo v določeni populaciji.
Pearsonov linearni korelacijski koeficient je označen z malo črko r, njegova najmanjša in največja vrednost sta -1 in +1.
Vrednost r = +1 pomeni, da je niz parov (X, Y) popolnoma poravnan in da bo, ko X raste, Y zrasel v enakem razmerju. Po drugi strani, če bi se zgodilo, da je r = -1, bi bil nabor parov tudi popolnoma poravnan, vendar se v tem primeru, ko se poveča X, Y zmanjša v enakem razmerju.

Slika 2. Različne vrednosti koeficienta linearne korelacije. Vir: Wikimedia Commons.
Po drugi strani bi vrednost r = 0 kazala, da med spremenljivkama X in Y ni linearne korelacije, medtem ko bi vrednost r = +0.8 pomenila, da se pari (X, Y) nagibajo na eno stran in drugo iz določene vrstice.
Formula za izračun korelacijskega koeficienta r je naslednja:

Kako izračunati korelacijski koeficient?
Koeficient linearne korelacije je statistična količina, ki je vgrajena v znanstvene kalkulatorje, večino preglednic in statistične programe.
Vendar je priročno vedeti, kako se uporablja formula, ki jo definira, in za to bo prikazan podroben izračun, izveden na majhnem naboru podatkov.
In kot je bilo rečeno v prejšnjem razdelku, je korelacijski koeficient kovariance Sxy, deljen s produktom standardnega odklona Sx za spremenljivki X in Sy za spremenljivko Y.
Covariance in variance
Kovariacija Sxy je:
Sxy = / (N-1)
Kjer seštevek sega od 1 do N parov podatkov (Xi, Yi).
Standardni odklon spremenljivke X je kvadratni koren variance nabora podatkov Xi z i od 1 do N:
Sx = √
Podobno je standardni odklon za spremenljivko Y kvadratni koren variance nabora podatkov Yi z i od 1 do N:
Sy = √
Ilustrativni primer
Da bi podrobno pokazali, kako izračunati koeficient korelacije, bomo vzeli naslednji niz štirih parov podatkov
(X, Y): {(1, 1); (2. 3); (3, 6) in (4, 7)}.
Najprej izračunamo aritmetično srednjo vrednost za X in Y, kot sledi:
Nato se izračunajo preostali parametri:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standardni odklon Sx
Sx = √ = √ = 1,29
Standardni odklon Sy
Sx = √ =
√ = 2,75
Korelacijski koeficient r
r = 3,5 / (1,29 * 2,75) = 0,98
Interpretacija
V podatkovnem nizu prejšnjega primera je opaziti močno linearno korelacijo med spremenljivkama X in Y, kar se kaže tako v grafu razsežnosti (prikazano na sliki 1) kot v korelacijskem koeficientu, ki je dal vrednost precej blizu enotnosti.
Kolikor je koeficient korelacije bližje 1 ali -1, bolj je smiselno, da se podatki prilegajo na črto, ki je posledica linearne regresije.
Linearna regresija
Linearna regresijska črta je pridobljena z metodo najmanjših kvadratov. v kateri so parametri regresijske črte dobljeni iz minimiziranja vsote kvadrata razlike med ocenjeno vrednostjo Y in Yi podatkov N.
Po drugi strani sta parametra a in b regresijske črte y = a + bx, dobljena po metodi najmanjših kvadratov, naslednja:
* b = Sxy / (Sx 2 ) za naklon
* a =
Spomnimo se, da je Sxy zgoraj opisana kovarijanca in Sx 2 varianta ali kvadrat zgoraj definiranega standardnega odklona.
Primer
Koeficient korelacije se uporablja za določitev, ali obstaja linearna korelacija med dvema spremenljivkama. Uporablja se, kadar so spremenljivke, ki jih je treba preučiti, količinske in poleg tega se domneva, da sledijo običajni porazdelitvi tipa.
Spodaj je prikazan primer: merilo stopnje debelosti je indeks telesne mase, ki ga dobimo z deljenjem teže osebe v kilogramih z njihovo višino kvadrata v kvadratnih metrih.
Želite vedeti, ali obstaja močna korelacija med indeksom telesne mase in koncentracijo holesterola HDL v krvi, izmerjena v milimolih na liter. V ta namen je bila opravljena raziskava s 533 ljudmi, ki je povzeta v naslednjem grafu, v katerem vsaka točka predstavlja podatke ene osebe.

Slika 3. Študija BMI in HDL holesterola pri 533 bolnikih. Vir: Aragonski inštitut za zdravstvene vede (IACS).
Pozorno opazovanje grafa kaže, da obstaja določen linearni trend (ni zelo izrazit) med koncentracijo holesterola HDL in indeksom telesne mase. Količinsko merilo tega trenda je koeficient korelacije, ki se je v tem primeru izkazal za r = -0,276.
Reference
- González C. Splošna statistika. Pridobljeno: tarwi.lamolina.edu.pe
- IACS. Aragonski inštitut za zdravstvene vede. Pridobljeno: ics-aragon.com
- Salazar C. in Castillo S. Osnovna načela statistike. (2018). Obnovljeno iz: dspace.uce.edu.ec
- Superprof. Korelacijski koeficient. Pridobljeno: superprof.es
- USAC. Opisni statistični priročnik. (2011). Pridobljeno iz: statistics.ingenieria.usac.edu.gt
- Wikipedija. Pearsonov korelacijski koeficient. Pridobljeno: es.wikipedia.com.
