Etusivu

calmPäivitetty 24.3.2017

Tällä sivustolla kerron parhaat Excel 2016 (Windows-versio) käytänteet datan analysointiin.

Eri lähteistä peräisin olevat datat täytyy analysointia varten muuntaa sopivaan muotoon. Artikkelista Datoja eri lähteistä opit oikean muodon ja saat tietoa erilaisista datan lähteistä. Lue myös artikkeli Muotoile data Taulukoksi, jotta saat Excelistä kaiken hyödyn irti.

Datan analysoinnissa on tärkeää tietää mitä tavoitellaan? Analysoinnin tavoitteena on yleensä yksi tai useampia seuraavista:

  • Jakaumien havainnollistaminen
  • Erojen havaitseminen
  • Riippuvuuksien tunnistaminen
  • Kehityssuuntien esittäminen
  • Poikkeuksien löytäminen

Jakaumien havainnollistaminen

Jakaumat esitetään useimmin lukumäärinä ja/tai prosentteina. Esimerkiksi koulutusjakaumassa voin esittää kuinka monella on peruskoulututkinto, toisen asteen tutkinto, alempi korkeakoulututkinto jne. Jakaumaa voin havainnollistaa vaaka- tai pystypylväskaaviona. Lukumäärä- ja prosenttijakaumia opit laatimaan lukemalla Lukumääriä ja prosentteja.

Monivalinta-kysymykset ovat kysymyksiä, joissa vastaaja saa valita tarjotuista vaihtoehdoista useammankin kuin yhden vaihtoehdon. Monivalinta-kysymysten jakauman laatiminen on oma erikoistapauksensa, jonka opit lukemalla Monivalinta lukumäärinä ja prosentteina.

Määrällisen muuttujan jakauman esitän yleensä luokiteltuna jakaumana. Esimerkiksi eri ikäiset voin jakaa ikäluokkiin (kuten 20-29 vuotiaat, 30-39 vuotiaat jne.) ja jakaumassa esitän kuinka moni kuuluu mihinkin ikäluokkaan. Luokitellun jakauman havainnollistamiseen käytän pystypylväskaaviota, jossa pylväät ovat kiinni toisissaan. Tällaista pylväskaaviota kutsutaan histogrammiksi. Luokitellun jakauman laatimisen opit lukemalla Luokiteltu jakauma.

Vaihtoehtoinen menetelmä määrällisen muuttujan jakauman esittämiseen on viiden luvun yhteenveto, jota voin havainnollistaa ruutu- ja janakaaviona. Viiden luvun yhteenvedon viisi lukua ovat pienin, alaneljännes, mediaani, yläneljännes ja suurin. Opi viiden luvun yhteenveto lukemalla Viiden luvun yhteenveto.

Määrällisen muuttujan kohdalla myös keskiarvon ja keskihajonnan laskeminen on paikallaan. Tästä opit lisää lukemalla Keskiarvo ja keskihajonta.

Jos analysoitava data on otos isommasta joukosta niin otoksesta lasketun keskiarvon luotettavuutta (kuinka hyvin otoskeskiarvo vastaa isomman joukon keskiarvoa) voin arvioida laskemalla keskiarvolle luottamusvälin. Opi laskemaan luottamusväli lukemalla Virhemarginaali ja luottamusväli.

Joissain tapauksissa muuttujan arvoja täytyy summata (laskea yhteen) jakaumaa varten. Esimerkiksi myyjien päiväkohtaisista myyntiluvuista voin summaamalla laskea myyjäkohtaiset summat koko kuukauden myynneistä. Jakauman voin esittää pylväskaaviona, jossa kunkin myyjän kuukausimyynti on oma pylväänsä. Opi summattu jakauma lukemalla Summa.

Erojen havaitseminen

Jos tarkastelen jakaumia ryhmittelevän muuttujan mukaisissa ryhmissä, niin voin havaita mahdolliset ryhmien väliset erot. Esimerkiksi palkkajakaumaa voin tarkastella sukupuolen mukaisissa ryhmissä (miehet ja naiset).

Jos tarkasteltava muuttuja on määrällinen niin voin käyttää ryhmien vertailuun ryhmäkohtaisia keskiarvoja ja keskihajontoja.

Jos analysoitava data on otos isommasta joukosta niin voin tarkastella havaitsemieni erojen merkitsevyyttä. Merkitsevä ero tarkoittaa eroa, jonka voin perustellusti yleistää myös otosta isompaan joukkoon. Opi lisää lukemalla Merkitsevyys.

Riippuvuuksien tunnistaminen

Jos toinen muuttujista on kategorinen niin riippuvuuksien tunnistamiseen voin käyttää samoja menetelmiä kuin erojen havaitsemiseen. Ryhmien välistä eroa voin siis kutsua myös riippuvuudeksi. Jos esimerkiksi havaitsen mielipide-eron miesten ja naisten välillä niin voin puhua sukupuolen ja mielipiteen välisestä riippuvuudesta.

Jos molemmat muuttujat ovat määrällisiä niin voin tunnistaa riippuvuuden hajontakaaviosta. Laskennallisesti voin arvioida riippuvuutta laskemalla korrelaatiokertoimen. Opi hajontakaavio ja korrelaatio lukemalla Korrelaatio.

Jos analysoitava data on otos isommasta joukosta niin voin tarkastella riippuvuuden merkitsevyyttä. Merkitsevä riippuvuus tarkkoittaa riippuvuutta, jonka voin perustellusti yleistää myös otosta isompaan joukkoon. Opi lisää lukemalla Merkitsevyys.

Kehityssuuntien esittäminen

Kehityssuuntien esittämiseen voin käyttää aikasarjaa havainnollistavia viivakaavioita. Lue lisää artikkelista Aikasarja.

Poikkeuksien löytäminen

Poikkeuksien etsiminen ei välttämättä ole analysoinnin tavoitteena, mutta poikkeavia havaintoja löydetään analysoinnin kuluessa. Niihin kannattaa kiinnittää huomiota, koska ne voivat olla virheellisiä havaintoja tai mielenkiintoisia erikoistapauksia. Virheellisiksi tunnistettavat havainnot pitää aina korjata tai poistaa datasta ennen muita analyysejä. Muista havainnoista poikkeavia havaintoja löytyy usein seuraavien menetelmien yhteydessä:

  • Luokitellun jakauman ensimmäisestä tai viimeisestä luokasta.
  • Viiden luvun yhteenveto paljastaa erikoisen pienet ja suuret havainnot.
  • Hajontakaaviossa poikkeavat havainnot erottuvat muista havainnoista erillään olevina havaintoina.
  • Aikasarjassa poikkeavat havainnot erottuvan viivakuviossa esiintyvinä piikkeinä.

Lisätietoa

Kenties sinua kiinnostavat myös muut ylläpitämäni sivustot: