Viiden luvun yhteenveto

Päivitetty 27.4.2018

Viiden luvun yhteenveto antaa hyvän kuvan määrällisen muuttujan jakaumasta ja voin käyttää sitä luokitellun jakauman ohella tai sijasta. Viiden luvun yhteenveto jakaa arvojen vaihteluvälin neljään osaan:

  • pienimmän ja alanejänneksen välinen osa sisältää 25 % arvoista
  • alaneljänneksen ja mediaanin välinen osa sisältää 25 % arvoista
  • mediaanin ja yläneljänneksen välinen osa sisältää 25 % arvoista
  • yläneljänneksen ja suurimman välinen osa sisältää 25 % arvoista.

tunnuslukuja1

Laskenta Excelin funktioilla

Minulla on tapana laskea tunnuslukuja aineiston yläpuolelle. Tätä varten lisään aineiston yläpuolelle riittävän määrän tyhjiä rivejä; yhden enemmän kuin laskettavia tunnuslukuja, jotta tunnuslukujen ja aineiston väliin jää tyhjä rivi. Jos lasken viiden luvun yhteenvedon ja arvojen lukumäärän, niin lisään aineiston yläpuolelle 7 tyhjää riviä. Lasken tunnusluvut Excelin funktioilla:

  • =MIN(alue) (MIN)
  • =PERCENTILE.EXC(alue;25 %) (PROSENTTIPISTE.ULK)
  • =MEDIAN(alue) (MEDIAANI)
  • =PERCENTILE.EXC(alue;75 %) (PROSENTTIPISTE.ULK)
  • =MAX(alue) (MAKS)
  • =COUNT(alue) (LASKE)

Funktioiden vaatima argumentti ’alue’ on viittaus arvoihin, joista tunnusluku lasketaan. Alaneljännes ja yläneljännes lasketaan molemmat funktiolla PERCENTILE.EXC, jolle pitää lisäargumenttina antaa 25 % (alaneljännes) tai 75 % (yläneljännes). Huomaa, että argumenttien väliin kirjoitetaan puolipiste.

Seuraavassa olen lisännyt 7 tyhjää riviä datan yläpuolelle. Esimerkiksi B-sarakkeen mediaanin olen laskenut funktiolla =MEDIAN(B9:B90) ja alaneljänneksen funktiolla=PERCENTILE.EXC(B9:B90;25 %). Jos data on muotoiltu Taulukoksi (Table), niin soluviittausten tilalla voi olla viittaus Taulukon sarakkeeseen.

Sarakkeeseen B laskemani funktiot olen kopioinut muihin sarakkeisiin: Valitsin solut B1:B6, tartuin hiirellä kiinni valittujen solujen oikean alakulman neliöstä ja vedin oikealle.

tunnuslukuja2

Kuvaamallani menettelyllä tulen laskeneeksi tarpeettomiakin tunnuslukuja. Esimerkiksi sukupuolelle ainoastaan vastausten lukumäärä (n) on käyttökelpoinen tunnusluku. Tarpeettomia tunnuslukuja en tietenkään raportoi.

Raportointia varten tunnuslukuja kannattaa kopioida uuteen taulukkoon. Liittäminen täytyy tehdä arvoina käyttäen Paste Values (Liitä arvot) -toimintoa. Desimaalien määrä täytyy säätää tilanteeseen sopivaksi. Esimerkiksi palkkaan liittyvät tunnusluvut voin esittää seuraavasti:

tunnuslukuja3Taulukosta näen muiden muassa:

  • Palkka vaihtelee 1521 ja 6278 euron välillä.
  • Puolet työntekijöistä ansaitsee 2027 – 2818 euroa.
  • Puolet ansaitsee vähintään 2320 euroa.
  • Pienimmän ja alaneljänneksen väli on paljon kapeampi kuin yläneljänneksen ja suurimman väli.

Tunnuslukuja ryhmittäin

Jos haluan vertailla miesten ja naisten palkkajakaumaa, niin lasken palkan tunnuslukuja sukupuolen määräämissä ryhmissä. Voin tehdä tämän esimerkiksi seuraavasti:

  • Lasken tunnusluvut koko datalle.
  • Lajittelen (järjestän) datan ryhmittelevän muuttujan (sukupuoli) mukaan.
  • Teen datasta kopioita (pidän  ctrl-näppäintä alhaalla ja raahan alareunan taulukonvalitsinta hieman oikealle).
  • Poistan kopioista ne rivit, jotka eivät kuulu haluamaani osa-dataan.
  • Osa-datan tunnusluvut voin kopioida uuteen taulukkoon vierekkäin, jolloin vertailu käy mahdolliseksi.

tunnuslukuja4

Voin myös laskea tunnusluvut AGGREGATE (KOOSTE) -funktion avustuksella siten, että tunnusluvun arvo muuttuu aineiston suodatuksen (Filter) mukana.

  • Aloitan funktion rakentamisen kirjoittamalla suoraan tyhjään soluun funktion nimen alkua =AG, jonka jälkeen Excel jo ehdottaakin AGGREGATE-funktiota. Jos hyväksyn Excelin ehdotuksen tab/sarkain-näppäimellä, niin Excel täydentää funktion nimen ja lisää sulkumerkin =AGGREGATE(
  • Sulkumerkin jälkeen Excel tarjoaa luetteloa tilastollisia tunnuslukuja laskevista funktioista. Valitsen luettelosta haluamani funktion (voin liikkua luettelossa nuolilla ja valita tab/sarkain-näppäimellä tai hiiren kaksoisnapsauksella).
  • Seuraavaksi kirjoitan argumenttien väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen Excel tarjoaa monenlaisia oudonnäköisiä vaihtoehtoja, joista valitsen vaihtoehdon 5 (Ignore hidden rows), jonka ansiosta funktio reagoi suodatuksiin.
  • Seuraavaksi kirjoitan argumenttien väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen näytän hiirellä ne arvot, joista lasken tunnuslukua.
  • Jos en ole laskemassa ala- tai yläneljännestä, niin kirjoitan sulkumerkin ) ja napsautan enter-painiketta. Jos olen laskemassa ala- tai yläneljännestä, niin kirjoitan puolipisteen ; ja viimeiseksi argumentiksi 25 % (alaneljännes) tai 75 % (yläneljännes).

Voin tämän jälkeen todeta, miten funktion tulos vaihtuu suodatusten mukana.

Ruutu- ja janakaavio (Excel 2016)

Viiden luvun yhteenvedon voin havainnollistaa ruutu- ja janakaavion avulla. Ruutu- ja janakaaviolla on monta nimeä: laatikko- ja viiksikaavio, laatikko- ja viivakaavio, box & whisker -kaavio, boxplot.

Ruutu- ja janakaavion rakenneosat ovat ruutu ja ruudun päistä lähtevät janat:

  • Ruudun alareuna vastaa alaneljännestä ja yläreuna yläneljännestä. Ruudun sisään piirretty viiva vastaa mediaania ja rasti keskiarvoa.
  • Janojen päät vastaavat pienintä ja suurinta. Jos datassa on niin kutsuttuja poikkeavia arvoja, niin ne esitetään janan ulkopuolisina pisteintä. Poikkeavaksi arvoksi lasketaan arvo, joka on yli 1,5 laatikon korkeuden päässä laatikon reunasta.

Seuraavassa esitän neljän rahastoluokan tuottojen jakaumaa heinäkuussa 2015 (Lähde: Sijoitustutkimus, n vaihtelee välillä 32-58).

tunnuslukuja5

Kaikkein pienimmät tuotot ovat kehittyville markkinoille sijoittavissa rahastoissa ja suurimmat Pohjois-Amerikkaan sijoittavissa rahastoissa. Tuotot ovat vaihdelleet eniten Pohjois-Amerkikkaan sijoittavissa rahastoissa. Eurooppaan sijoittavissa rahastoissa tuotoissa ei ole paljoa vaihtelua, mutta huomiota kiinnittää muutama poikkeavan tuoton omaava rahasto sekä ylä- että alapäässä.

Ruutu- ja janakaavio voi epäonnistua, jos et huomioi seuraavia vinkkejä:

VINKKI 1: Jos ryhmittelevän muuttujan arvot ovat datassa numeroita (esimerkiksi 1=mies ja 2=nainen), niin data pitää lajitella (järjestää) ryhmittelevän muuttujan mukaan kaavion onnistumiseksi.

VINKKI 2: Jos ryhmittelevän muuttujan arvot ovat datassa numeroita (esimerkiksi 1=mies ja 2=nainen), niin en valitse ryhmittelevän muuttujan arvoja ennen kaaviolajin valitsemista, vaan teen kaavion aluksi vain muuttujalle, jolle lasken viiden luvun yhteenvedon. Tämän jälkeen valitsen kaavionmuokkaustyökalujen Design (Rakenne) -välilehdeltä Select Data (Valitse tiedot). Select Data -toiminnolla pääsen lisäämään sukupuolet luokka-akselin otsikoiksi (Category Axis Labels).

VINKKI 3: Jos ryhmittelevän muuttujan arvot ovat datassa tarkasteltavan muuttujan oikealla puolella, niin en valitse ryhmittelevän muuttujan arvoja ennen kaaviolajin valitsemista, vaan teen kaavion aluksi vain muuttujalle, jolle lasken viiden luvun yhteenvedon. Tämän jälkeen valitsen kaavionmuokkaustyökalujen Design (Rakenne) -välilehdeltä Select Data (Valitse tiedot). Select Data -toiminnolla pääsen lisäämään ryhmittelevän muuttujan arvot luokka-akselin otsikoiksi (Category Axis Labels).

Lisätietoa

Tämän oppii vain tekemällä itse. Harjoittele työkirjalla tunnuslukuja.xlsx.

Mainokset