Datoja eri lähteistä

Päivitetty 28.3.2017

Datan rakenne

Analysoitavan datan täytyy olla jaettu riveille ja sarakkeisiin.

Ylimmälle riville sijoitetaan sarakkeiden otsikot. Sarakkeita kutsutaan tilanteen mukaan kentiksi (tietokantojen yhteydessä) tai muuttujiksi (tilastoaineistojen yhteydessä).

sarake = kenttä = muuttuja

Varsinainen data alkaa välittömästi sarakeotsikoita seuraavalta riviltä. Rivejä kutsutaan tilanteen mukaan tietueiksi (tietokantojen yhteydessä) tai tilastoyksiköiksi (tilastoaineistojen yhteydessä).

rivi = tietue = tilastoyksikkö

Tietokannasta noudetut tilaustiedot voivat näyttää seuraavalta:

datoja1

Kenttiä ovat Päivä, Myyjä, Tilaaja jne. Tietueita ovat yksittäiset tilausrivit.

Työtyytyväisyyskyselyn vastaukset voivat näyttää seuraavalta:

datoja2

Muuttujia ovat nro, sukupuoli, ikä, palkka, tyytyväisyys johtoon jne.

Huomaa, että tyytyväisyydet ovat numeroina: Esimerkiksi numero ”1” tarkoittaa vastausta ”erittäin tyytymätön”. Tiedot täytyy esittää numeroina, jos aion laskea tiedoista keskarvoja tai muita tilastollisia tunnuslukuja.

Valinta vai monivalinta?

Kyselytutkimusdatassa on tärkeää erottaa toisistaan valintakysymykset ja monivalintakysymykset.

  • Valintakysymyksessä tarjotaan vaihtoehtoja, joista vastaaja saa valita vain yhden. Datassa valintakysymykselle riittää yksi muuttuja, joka saa arvokseen vastaajan valitseman vaihtoehdon.
  • Monivalintakysymyksessä tarjotaan vaihtoehtoja, joista vastaaja saa valita useampiakin. Datassa monivalintakysymyksen jokaisesta vaihtoehdosta täytyy tehdä oma muuttujansa. Muuttuja saa arvon 1, jos vastaaja on valinnut kyseisen vaihtoehdon. Muussa tapauksessa muuttujan arvo voidaan jättää tyhjäksi.

Tietolähteet

Tietolähteenä on usein Excel-tiedosto, tekstitiedosto, nettisivulle sijoitettu taulukko tai relaatiotietokanta.

Excel-tiedosto

Jos tallennan datan itse, niin tallennan sen suoraan Exceliin ja  noudatan edellä kuvaamaani rakennetta.

Yleisimmät nettikyselyohjelmistot (esimerkiksi Webropol) tarjoavat mahdollisuuden viedä kyselyn vastaukset (raakadata) Excel-tiedostoksi.

Excel-tiedostoina on saatavilla paljon valmista ja avointa dataa. Kaikissa tapauksissa rakenne ei kelpaa sellaisenaan analysoitavaksi, mutta Excelissä voin muotoilla datan rakenteeltaan analysointikelpoiseksi.

Tekstitiedosto

Tekstitiedostossa datan jaottelu riveille osoitetaan rivinvaihdoilla. Jaottelu sarakkeisiin osoitetaan yleensä jommallakummalla seuraavista:

  • Sarakkeet eroteltu toisistaan (Delimited) pilkuilla, puolipisteillä, välilyönneillä, sarkaimilla tai jollain muulla merkillä. Niin kutsutussa pilkkuerotellussa muodossa (csv = comma separated value) erottimena on pilkku tai puolipiste.
  • Kiinteällä kentän leveydellä (Fixed width).

Tuon tekstitiedoston sisällön Excelin avoinna olevaan tiedostoon Data (Tiedot) -välilehden Get External Data – From Text -toiminnolla. Jos olen jo avannut tekstitiedoston Exceliin, niin valitsen sarakkeen , jossa tiedot ovat ja valitsen Data (Tiedot) -välilehdeltä Text to Columns (Tiedot sarakkeisiin). Ohjatussa toiminnossa on 3 vaihetta:

1 Valitsen tilanteen mukaan joko Delimited tai Fixed width -muodon. Seuraavassa olen valinnut Delimited, aloitan tuonnin riviltä 7 ja olen määrittänyt, että otsikkorivi on tekstitiedostossa mukana.

datoja3

2 Valitsen erottimena käytetyt merkit (Delimited-muoto) tai määritän sarakkeiden rajakohdat (Fixed width -muoto). Seuraavassa olen määrittänyt erotinmerkiksi puolipisteen.

datoja4

3 Määritän sarakkeiden tietotyypit. Advanced-painikkeella pääsen määrittämään desimaalierottimen ja tuhaterottimen. Jos tekstitiedoston desimaalierottimena on käytetty pistettä, niin se on tärkeää käydä määrittämässä, koska muutoin Excel muuntaa desimaalilukuja päivämääriksi. Seuraavassa olen määrittänyt desimaalierottimeksi pilkun ja tuhaterottimeksi välilyönnin.

datoja5

Finish-painikkeen painamisen jälkeen pääsen vielä valitsemaan mihin tiedot tuodaan.

datoja6

Jos tuonti ei onnistu toivotulla tavalla, niin kannattaa kokeilla Query (Kysely) -työkalua.

Nettisivulle sijoitettu taulukko

Osa avoimesta datasta on nettisivuilla erilaisina taulukoina. Voin käyttää Excelin Query (Kysely) -työkalua tiedon tuontiin ja muotoiluun. Joissain tapauksissa data on ohjelmallisesti tuotettu siten, että en saa tuotua sitä Exceliin.

Relaatiotietokanta

Relaatiotietokannasta voin tuoda yhden tai useampia taulukoita. Suoritan tuonnin Query (Kysely) -työkalulla.

Mainokset