Lineaarinen regressiomalli

Päivitetty 18.5.2017

Kahden määrällisen muuttujan riippuvuutta voin havainnollistaa hajontakaavion (pistekaavion) avulla. Lisäksi voin laskea lineaarisen (suoraviivaisen) riippuvuuden voimakkuutta mittaavan korrelaatiokertoimen ja selityskertoimen. Lisätietoja sivuilla Korrelaatio ja Korrelaatiokertoimen tulkinta.

Jos haluan selvittää tarkemmin riippuvuuden luonnetta tai hyödyntää riippuvuutta ennustamistarkoituksiin, niin voin mallintaa riippuvuutta regressiomallin avulla. Ennen suoraviivaiseen regressiomalliin perehtymistä on hyvä palauttaa mieleen suoran yhtälö.

Suoran yhtälö

Kahden muuttujan riippuvuutta kuvaava malli on lauseke, jonka avulla voin ennustaa toisen muuttujan arvoja ensimmäisen muuttujan arvojen perusteella. Jos muuttujien välinen riippuvuus on lineaarinen (suoraviivainen), niin käytän mallina suoraa. Lineaarisesta mallista käytetään yleisesti nimeä lineaarinen regressiomalli ja mallina käytettävää suoraa kutsutaan regressiosuoraksi.

Suoraa voin kuvata lausekkeella y = bx + c. Lauseke kertoo miten saan laskettua y:n, kun tunnen x:n.

  • Termiä c kutsutaan vakiotermiksi. Vakiotermi kertoo, missä kohdassa suora leikkaa y-akselia. Tämän näen asettamalla x:lle arvon 0, jolloin lausekkeesta jää jäljelle y=c.
  • Termiä b kutsutaan kulmakertoimeksi. Kulmakerroin ilmoittaa minkä verran y muuttuu, kun x kasvaa yhdellä yksiköllä. Laskevaan suoraan liittyy negatiivinen kulmakerroin ja nousevaan suoraan positiivinen kulmakerroin.

Esimerkki. Oletetaan, että konsultti perii palkkiota paikalle saapumisesta 100 euroa ja jokaiselta tehdyltä työtunnilta 80 euroa. Tällöin voin mallintaa konsultin kokonaispalkkiota suoralla y=80x+100, missä x on työtuntien määrä. Kyseisessä suoran yhtälössä

  • vakiotermi 100 ilmoittaa y:n arvon, kun x=0 (eli esimerkissämme palkkio ilman varsinaisia työtunteja)
  • kulmakerroin 80 ilmoittaa palkkion muutoksen, kun työtunnit lisääntyvät yhdellä.

regressio1

Mallin lisääminen Excelin hajontakaavioon

Voin lisätä Excelin hajontakaavioon riippuvuutta kuvaavan mallin kuvaajan, lausekkeen ja selityskertoimen:

  1. Valitsen Design-välilehdeltä Add Chart Element – Trendline – More Trendline Options (Lisää kaavion osa – Suuntaviiva – Lisää suuntaviivavaihtoehtoja).
  2. Valitsen malliksi Linear (Lineaarinen).
  3. Valitsen tulostettavaksi mallin kaavan Display Equation on Chart (Näytä kaava kaaviossa).
  4. Valitsen tulostettavaksi mallin selityskertoimen kohdasta Display R-squared Value on Chart (Näytä korrelaatiokertoimen arvo kaaviossa). Huomaa, että Excelin suomenkielisissä versioissa puhutaan virheellisesti korrelaatiokertoimesta vaikka kyseessä on korrelaatiokertoimen neliö eli selityskerroin.

Excel laskee lineaarisen mallin pienimmän neliösumman suorana: kaikkien suorien viivojen joukosta valitaan se, joka tuottaa pienimmän mahdollisen kokonaispoikkeamien neliöiden summan. Neliösummista voit lukea lisää sivulta Korrelaatiokertoimen tulkinta.

regressio2

Yllä olevaan kuvioon olen lisännyt mainoskulujen ja myynnin välisen mallin. Löydät esimerkin Excel-tiedostosta regressio1.xlsx. Voin tulkita mallia seuraavasti:

  • Kulmakertoimesta 52,568 voin päätellä, että tuhat euroa mainoskuluissa merkitsee keskimäärin 52568 euroa myynnissä.
  • Vakiotermi 46,486 taas ilmoittaa myynnin olevan 46486 euroa, jos mainoskuluja ei ole lainkaan. Tässä tapauksessa vakiotermin antama tieto ei ole käyttökelpoinen eikä luotettava, koska mainoskulujen arvo 0 sijaitsee selvästi havaintoalueen ulkopuolella. Mallin käyttöaluetta ei voi koskaan laajentaa kovin paljon havaintoalueen ulkopuolelle.

Mallin avulla voin laskea esimerkiksi seuraavat ennusteet:

  • Jos mainontaan aiotaan käyttää 900 euroa, niin mallin mukainen myyntiennuste on 52,568*0,9+46,486≈93,8 eli 93 800 euroa.
  • Jos tavoitteena on 90 000 euron myynti, niin mallin mukaan mainontaan pitäisi käyttää (90-46,486)/52,568≈0,83 eli 830 euroa.

Käytännössä ennusteet kannattaa laskea Excelin FORECAST (ENNUSTE) -funktiolla, jolloin vältät kulmakertoimeen ja vakiotermiin liittyvät pyöristysvirheet. Katso tarkemmat tiedot Excel-tiedostosta regressio1.xlsx.

Mallin käyttäminen ennustamiseen

Mallin sopivuus

Mallin avulla voidaan ennustaa y, kun x tunnetaan tai x, kun y tunnetaan. Mallin soveltuvuus ennustamiseen riippuu selittämättömän vaihtelun osuudesta. Hajontakaaviosta voin arvioida selittämättömän, epäsäännöllisen vaihtelun suuruutta ja yli päätään mallin sopivuutta havaintoaineistoon. Mitä enemmän havainnot ”pomppivat” mallin molemmin puolin sitä enemmän ennusteeseen sisältyy epävarmuutta.

Poikkeavat havainnot

Mallit ovat herkkiä poikkeaville arvoille. Jos kuviosta erottuu selvästi muista poikkeavia havaintoja, niin niihin ei pidä suhtautua huolettomasti. Lue lisää artikkelistani Poikkeavat arvot.

Mallin käyttöalue

Havaintoaineistoa on käytettävissä vain tietyiltä muuttujan arvoilta ja mallin pätevyyttä voidaan arvioida vain havaintoalueella. Havaintoalueen ulkopuolella olevien muuttujan arvojen kohdalla en voi tietää, onko malli pätevä. Tämän vuoksi mallia ei ole perusteltua käyttää havaintoalueen ulkopuolella.

Lisätietoa

Tämän oppii vain tekemällä itse. Harjoittele ja tutustu lisäesimerkkeihin työkirjassa regressio1.xlsx.

Jos olet kiinnostunut malleista, joissa on useampia selittäviä muuttujia, niin kannattaa tutustua monisteeseeni Lineaariset regressiomallit.

Mainokset