Izračun korelacije med x, y in regresijske premice y = kx + n, tudi kvadratne, kubne in eksponentne regresije !

Interactive JavaSript Calculator - Correlation

Nasvet: Tabela ne sme imeti praznih vrstic, med kolonami je TABULATOR, zadnja vrstica ne sme biti zaključena z večkratnim \r, \n ali \t, na koncu naj ne bo prazne vrstice.


Beseda o korelaciji.

Pearsonov korelacijski koeficient med dvema spremenljivkama x in y (recimo korelacija med številom peg na Soncu in temperaturo) se zapiše kot:


Primeri raztrosnih diagramov spremenljivk x in y v povezavi s korelacijo (soodvisnostjo med x in y).


Različne porazdelitve točk spremenljivk x in y, skupaj s Pearsonovim korelacijskim koeficientom, ki ga je mogoče izračunati za vsako od porazdelitev. Upoštevajte, da slednji odraža razpršenost (raztros) oblaka točk in splošno (trendno) smer linearne odvisnosti x in y (zgornja vrsta), ne pa njune strmine (srednja vrstica). Na primer, če porazdelitev točk poteka točno vodoravno (srednja slika v drugi vrsti) korelacijskega koeficienta sploh ni mogoče izračunati zaradi odvisnosti Y = 0 (variance je 0). Druga šibka točka Pearsonovega korelacijskega koeficienta so nelinearne odvisnosti (spodnja vrsta), ki jih s pomočjo tega koeficienta običajno sploh ne moremo zapisati ali pa le nezadostno (iz spodnjih porazdelitev pa se nazorno vidi, da obstaja očitna odvisnost med x in y, a jih Pearsonova korelacija ne zazna, saj jim nekorektno pripiše vrednosti 0). Vir: wiki

Pearsonov korelacijski koeficient označujemo z malo črko r ali Rp, njegove vrednosti pa so lahko od -1 do +1. Vrednost korelacijskega koeficienta od 0 do 1 je pozitivna korelacija in označuje sorazmerno rast vrednosti v obeh nizih podatkov (x in y). Vrednost korelacijskega koeficienta od 0 do -1 pomeni negativno korelacijo, to je porast vrednosti ene spremenljivke, ki je sorazmeren z upadom vrednosti druge; npr. koncentracija kisika v zraku pada z dvigovanjem nadmorske višine. Popolne korelacije, to je vrednosti korelacijskega koeficienta r = ± 1, niso značilne za biološke ali recimo meteorološke sisteme in se največkrat nanašajo na teoretične modele. Ničelna vrednost korelacijskega koeficienta kaže na odsotnost linearne korelacije, to pomeni, da s poznavanjem vrednosti ene spremenljivke ne moremo ničesar sklepati o vrednostih druge. Pri razlagi vrednosti korelacijskega koeficienta r vrednosti od 0 do 0,25 ali od 0 do -0,25 običajno pomenijo odsotnost korelacije, medtem ko vrednosti r od 0,25 do 0,50 ali od -0,25 do -0,50 kaže na slabo korelacijo med spremenljivkami. Vrednosti r v razponu od 0,50 do 0,75 ali od -0,50 do -0,75 kažejo na zmerno do dobro korelacijo, vrednosti r od 0,75 do 1 ali od -0,75 do -1 pa kažejo na zelo dobro do odlično korelacijo med spremenljivkama x in y.

Še bolj sofisticirana interpretacija za običajno korelacijo r je naslednja:
0,00 – ni povezanosti
0,01-0,19 – neznatna povezanost
0,20-0,39 – nizka/šibka povezanost
0,40-0,69 – srednja/zmerna povezanost
0,70-0,89 – visoka/močna povezanost
0,90-0,99 – zelo visoka/zelo močna povezanost
1,00 – popolna (funkcijska) povezanost


Še beseda o linearni regresiji
Regresija meri odvisnost dveh slučajnih spremenljivk - kakšen vpliv ima ena na drugo.
Na populaciji merimo 2 podatka, zanima nas vrsta odvisnosti med slučajnima spremenljivkama.

Razsevni grafikon spremenljivk x in y in graf linearna regresije - premice.

Glede na to, kako bi krivulja »morala izgledati«, začnemo graditi krivuljo, ki se bo najbolje prilegala (da bo imela čim višjo korelacijo r). Le redko je graf linearen, a ker nas velikokrat zanima le linearni trend - v prvem približku torej poiščemo linearno regresijo. Pri linearni regresiji torej iščemo strmino premice (trend 'K') in presečišče z Y osjo 'N'.

Y = K*X + N

Postopek je naslednji:
- nn je število povezav med pari X in Y (točk na grafu),
- Seštejemo spremenljivke, njihove vse produkte (indeks i teče od 1 do nn, oz. od 0 do nn-1),
sum_x += 1*x[i];
sum_y += 1*y[i];
sum_xy += (x[i]*y[i]);
sum_xx += (x[i]*x[i]);
sum_yy += (y[i]*y[i]);

Izračunamo korelacijo, naklon K in N presečišče Y osi premice:
korelacija=(nn*sum_xy - sum_x*sum_y)/Math.sqrt((nn*sum_xx-sum_x*sum_x)*(nn*sum_yy-sum_y*sum_y));
K = (nn*sum_xy - sum_x*sum_y)/(nn*sum_xx - sum_x*sum_x);
N = (1*sum_y - k*sum_x)/nn;

Parametra K in N izberemo torej po metodi najmanjših kvadratov tako, da minimiziramo Y = K*X + N (pogledamo za vsako meritev koliko daleč navpično (Yi) leži od premice (Y), vsota kvadratov vseh razlik pa mora biti najmanjša). Zakaj metoda najmanjših kvadratov? Ker je vsota razlik teoretične krivulje Y in meritev Yi na kvadrat prvi pogoj, ki da pri odvajanju zadostno število enačb, glede na število iskanih končnih konstant.
Velja:
s=vsota(a1Xi + ao - Yi)2 = minimalna (odvajamo in odvod mora biti nič)
Odvajamo torej po K in N, oziroma po a1 in ao.
ds/da1 = 2vsota(a1Xi + ao - Yi)a1Xi = 0
ds/dao = 2vsota(a1Xi + ao - Yi)1 = 0

Tako velja:
nao + vsota(a1Xi) = vsota(Yi), izraz delimo z n od koder sledi ==> ao = Y_pov - a1X_pov
( saj vemo, da je X_pov = vsota(Xi)/n, enaka logika velja za Y_pov )
- in še
vsota(Xi)ao + a1vosta(Xi)2 = vsota(Yi*Xi)
Spodaj je postopek simbolno matematično korektno zapisan.





Interactive JavaScript Calculator - Calculating Correlation (author Vičar Zorko). Delimiter - separated value is TAB (the data values are separated by TAB).
Spodaj vnesi ali kopiraj ( enter or copy the data below):
X-spremenljivka	Y-spremenljivka
REZULTAT - korelacija med x in y JE!
   
REZULTAT - izpis regresijske premice: Y = k*X + n in r2!
   
Avtor: Zorko Vičar, 2023
primer I - korelacija 1:

x	y
1	2
2	4
3	6
4	8


primer II - korelacija -1:

x	y
1	-2
2	-4
3	-6
4	-8


y = -2x - 1
1	-3
2	-5
3	-7
4	-9


y = x^2
1	1
2	4
3	9
4	16

y = x^2 + 1
1	2
2	5
3	10
4	17

y = x^3 
1	1
2	8
3	27
4	64

y = x^3 + 1
1	2
2	9
3	28
4	65
5	126

y = x^3 - 4
1	-3
2	4
3	23
4	60
5	121


y = x^3 + x^2 - 3x - 4
1	-5
2	2
3	23
4	64
5	131
6	230
7	367




https://en.wikipedia.org/wiki/Correlation

https://www.codeproject.com/Articles/13467/A-JavaScript-Implementation-of-the-Surveyor-s-Form


  • Interaktivni kalkulator za izračun površin poligonov na sferi - recimo na Zemlji (za povprečen radij):
    povrsina_poligona_na_sferi_zv.html.

    *** Regresija, kako fitamo meritve - linearna, kvadratna, kubna, eksponentna regresija - osnove

    Nazaj