Korrelaatiokertoimen tulkinta

Päivitetty 29.12.2016

Pääsääntö: Korrelaatiokertoimen tulkinta vaatii ajatustoimintaa.

Pearsonin korrelaatiokertoimen arvo sellaisenaan ei merkitse mitään. Kirjallisuudesta toki löydät erilaisia nyrkkisääntöjä siitä milloin korrelaatio on suurta ja milloin pientä. Tällaiset nyrkkisäännöt ovat kuitenkin enemmän tai vähemmän mielivaltaisia. Korrelaatiokertoimen tulkinta on ajatustoimintaa vaativa tehtävä, jossa korrelaatiokertoimen arvo suhteutetaan tarkasteltavan ilmiön kontekstiin. Ainakin seuraaviin seikkoihin kannattaa uhrata ajatuksia:

  • Onko korrelaatiokerroin suuri, pieni vai peräti merkityksetön suhteutettuna tarkasteltavaa ilmiötä koskevaan aiempaan tietoon ja aiemmin laskettuihin korrelaatiokertoimiin?
  • Onko perusteita olettaa, että korrelaatiokertoimen osoittaman riippuvuuden taustalla on syy-vaikutussuhde?
  • Voiko korrelaatiokertoimen osoittaman riippuvuuden taustalla olla kolmannen muuttujan vaikutus tarkasteltaviin muuttujiin?
  • Voiko korrelaatiokertoimen osoittama riippuuvuus johtua pelkästä sattumasta?
  • Onko korrelaatiokerroin tilastollisesti merkitsevä (tästä lisätietoa sivulla Merkitsevyys)?

Korrelaatiokertoimen laskentakaavasta on luonnollisesti hyvä olla tietoinen ja korrelaatiokertoimen ohella apuneuvoina kannattaa käyttää:

  • Hajontakaaviota, joka voi paljastaa muunkinlaisia kuin suoraviivaisia riippuvuuksia. Hajontakaavioista kannattaa etsiä muista havainnoista poikkeavia havaintoja, jotka saattavat sotkea korrelaatiokertoimen laskentaa.
  • Selityskerrointa, jonka tulkinta on konkreettisempi kuin korrelaatikertoimen.

Seuraavassa tarkastelen korrelaation laskentakaavaa lähtien liikkeelle kovarianssista. Sen jälkeen tarkastelen lähemmin lineaarista riippuvuutta ja päädyn selityskertoimeen.

Kovarianssi

Kahden muuttujan, x ja y, välisen suoraviivaisen riippuvuuden voimakkuutta voin kuvata kovarianssin avulla:

kovar

Osoittajassa lasken x:n ja y:n arvojen poikkeamia keskiarvostaan, kerron poikkeamat keskenään ja lasken tulot yhteen. Lopuksi lasken keskimääräisen poikkeamien tulon jakamalla arvolla n-1 (otoskoko-1), jolloin saan keskimääräisen poikkeamien tulon eli kovarianssin.  Huomaa, että muuttujan kovarianssi itsensä kanssa on sama kuin muuttujan varianssi. Seuraavassa yritän perustella, miksi kovarianssi sopii suoraviivaisen riippuvuuden kuvaamiseen?

Jos piirrän hajontakaavioon pystyviivan kuvaamaan x-arvojen keskiarvoa ja vaakaviivan kuvaamaan y-arvojen keskiarvoa, niin viivat rajaavat neljä neljännestä:

kovarianssinperustelu

  • I neljänneksessä x:n ja y:n poikkeamat keskiarvostaan ovat positiivisia ja näin ollen poikkeamien tulo on positiivinen.
  • III neljänneksessä x:n ja y:n poikkeamat keskiarvostaan ovat negatiivisia ja näin ollen poikkeamien tulo on positiivinen.
  • II neljänneksessä x:n poikkeamat keskiarvostaan ovat negatiivisia ja y:n poikkeamat keskiarvostaan positiivisia. Näin ollen poikkeamien tulo on negatiivinen.
  • IV neljänneksessä x:n poikkeamat keskiarvostaan ovat positiivisia ja y:n poikkeamat keskiarvostaan negatiivisia. Näin ollen poikkeamien tulo on negatiivinen.

Jos havainnot keskittyvät I ja III neljännekseen, niin kovarianssi on positiivinen (vasemmanpuoleinen kuva). Jos havainnot keskittyvät II ja IV neljännekseen, niin kovarianssi on negatiivinen. Jos havainnot jakautuvat tasaisesti kaikkiin neljänneksiin, niin kovarianssi on likimain nolla.

Pearsonin korrelaatiokerroin

Eri tyyppisten muuttujien välisiä kovariansseja en voi vertailla keskenään, koska muuttujien mittayksiköt vaikuttavat kovarianssin arvoon. Vertailun mahdollistamiseksi lasken kovarianssia hyväksi käyttäen Pearsonin korrelaatiokertoimen, joka on muuttujien mittayksiköistä riippumaton tunnusluku. Puhuttaessa korrelaatiokertoimesta tarkoitetaan yleensä juuri Pearsonin korrelaatiokerrointa. Pearsonin korrelaatiokerroin lasketaan jakamalla kovarianssi keskihajontojen tulolla.

korrelaationkaava

Muuttujien järjestys (kumman valitset x-muuttujaksi, kumman y-muuttujaksi) ei vaikuta korrelaatiokertoimen arvoon. Keskihajontojen tulolla jakaminen normittaa korrelaatiokertoimen sellaiseksi, että se voi saada ainoastaan arvoja -1:n ja +1:n väliltä.

korrelaationarvot

  • Korrelaatiokertoimen arvo +1 saavutetaan silloin, kun kaikki hajontakaavion pisteet sijaitsevat samalla nousevalla suoralla.
  • Korrelaatiokertoimen arvo -1 saavutetaan silloin, kun kaikki pisteet sijaitsevat samalla laskevalla suoralla.
  • Korrelaatiokertoimen arvo 0 merkitsee, ettei muuttujien välillä ole lainkaan suoraviivaista riippuvuutta. Tällöin muuttujien välillä voi toki olla muunlaista kuin suoraviivaista riippuvuutta.

Mitä kauempana korrelaatiokerroin on nollasta, sitä voimakkaammasta suoraviivaisesta riippuvuudesta on kyse.

Selityskerroin

Jos muuttujien välillä on suoraviivaista riippuvuutta, niin havaintoihin voidaan sovittaa suora viiva, joka parhaiten kuvaa riippuvuutta. Selityskerroin on tunnusluku, joka kuvaa kuinka suuren osan y-muuttujan varianssista suoraviivainen malli selittää.

Kunkin havainnon y-arvon kokonaispoikkeama y-arvojen keskiarvosta koostuu kahdesta osasta: suoraviivaisen mallin selittämästä poikkeamasta ja poikkeamasta, jota malli ei selitä. Seuraavassa kuviossa havaintopisteen kokonaispoikkeama on jaettu suoraviivaisen mallin selittämään poikkeamaan ja selittämättä jäävään poikkeamaan.

poikkeama

Selityskertoimen määritelmässä tarvitaan neliösummia, jotka lasketaan seuraavasti:

  • lasketaan kunkin havainnon poikkeama keskiarvostaan
  • lasketaan poikkeamien neliöt yhteen, jolloin tuloksena saadaan neliösumma.

Käytän seuraavia merkintöjä:

  • Kokonaispoikkeamien neliöiden summa SST (total sum of squares).
  • Suoraviivaisen mallin selittämien poikkeamien neliöiden summa SSR (sum of squares due to regression).
  • Selittämättömien poikkeamien neliöiden summa SSE (sum of squares due to error).

Selityskerroin R2 määritellään seuraavasti:

R2 = 1-SSE/SST

Voidaan osoittaa, että

SSE = SST-SSR

Tämä tarkoittaa sitä, että selityskerroin voidaan laskea myös

R2 = 1-(SST-SSR)/SST = SSR/SST

SSR/SST on sama kuin varianssien suhde (suoraviivaiseen malliin liittyvän varianssin ja kokonaisvarianssin suhde). Selityskerroin kuvaa siis kuinka monta prosenttia y:n kokonaisvarianssista voidaan selittää suoraviivaisen mallin avulla. Koska suoraviivainen malli lasketaan suoraan x:n avulla, niin selityskerroin voidaan tulkita myös seuraavasti: Kuinka monta prosenttia y:n kokonaisvarianssista voidaan selittää x:n avulla.

Matemaattisesti voidaan osoittaa että selityskerroin on identtinen korrelaatiokertoimen neliön kanssa.

Esimerkiksi sivun Korrelaatio esimerkissä läsnäolon ja tenttipisteiden välinen korrelaatiokerroin oli noin 0,275 ja korrelaatiokertoimen neliö noin 0,075 eli 7,5 %. Tämä merkitsee sitä että 7,5 % tenttipisteiden varianssista voidaan selittää läsnäololla. Hajoitusten ja tenttipisteiden välinen korrelaatiokerroin oli noin 0,844 ja korrelaatiokertoimen neliö noin 0,712 eli 71,2 %. Tämä merkitsee sitä että 71,2 % tenttipisteiden varianssista voidaan selittää harjoituksilla.

Neliösummat ovat keskeisessä asemassa

Edellä selityskerroin määriteltiin neliösummien avulla.

Muistathan, että varianssin (ja keskihajonnan) laskenta perustuu neliösummaan.

Myös suoraviivaisen mallin määritys perustuu neliösummaan. Kaikkien suorien viivojen joukosta valitaan se, joka tuottaa pienimmän mahdollisen SSE:n. Tätä kutsutaan pienimmän neliösumman suoraksi.

Mainokset