Data kertoo enemmän kuin mutu

Konsultti Heidi Enho innostui avoimien datavarantojen penkomisesta toden teolla, kun Power BI -ohjelma julkistettiin 2015.

Heidi Enho
Heidi Enho on vetänyt Power BI -kursseja muun muassa toimittajille. Helppokäyttöisistä data-analyysityökaluista on hyötyä myös journalisteille. “Toimittajat pystyvät kaivamaan jutun aiheita tutkimalla dataa, ja tiedon visualisointi on helppoa.

Visualisointi euroviisuvoittajista kautta aikojen, Alkon interaktiivinen tuoteluettelo, Helsingin seudun liikenteen nousijamäärät kartalla, … Sulava Oy:n konsulttina työskentelevän Heidi Enhon dataharrastus ei pääty siihen, kun työpaikan ovi takana sulkeutuu. Useimmat vapaa-ajalla tehdyt datavisualisoinnit ovat syntyneet Microsoftin uudella Power BI -ohjelmistolla.

Enhon suosikkityökalun valtti on helppokäyttöisyys. “Jos datasetti on yksittäinen csv-tiedosto ja data on siistissä kunnossa, ensimmäinen Power BI -visualisointisi on valmis puolessa tunnissa”, Enho lupaa.

Tiedon visualisointityökalut ovat viime vuosina kehittyneet aimo harppauksin. Datan analysoinnin ja visualisoinnin konkarit, 1990-luvulla esitelty Qlik ja 2000-luvun alussa esitelty Tableau, ovat saaneet roppakaupalla haastajia bisnestiedon penkomiseen.

Microsoftin vuonna 2015 esittelemä Power BI on näille varteenotettava haastaja. Hinnoittelumallikin on dataharrastajia houkutteleva, aivan kuten kilpailijoillakin: jos valmiit tuotokset jakaa koko maailmalle, pärjää ilmaisversiolla.

Karttavisualisointi syntyy pikavauhdilla

Enho näyttää, miten hänen HRI-palvelun kautta avattua dataa hyödyntänyt suosikkivisualisointinsa Vantaan avoimista työpaikoista syntyi. Vantaan kaupunki on rakentanut avoimen REST-rajapinnan, josta voi ladata reaaliaikaiset tiedot kaupungin avoimista työpaikoista.

Enho kirjoittaa rajapinnan www-kutsun, ja Power BI Desktop -ohjelman näytölle ilmestyy lista rajapinnan sisältämistä tietueista. “Tuon kaikki tiedot ohjelmaan. Datan formaatti on ihanteellinen, yksi työpaikka yhdellä rivillä”, Heidi Enho kiittelee.

Vantaan avoimet työpaikat kartalla.

Enho määrittelee vielä työpaikkojen sijaintisarakkeiden tyypit pituus- ja leveysasteiksi ja ryhtyy tekemään varsinaista visualisointia. Muutamassa minuutissa rajapinnan data on visualisoituna ruudulla. Työpaikat komeilevat ammattialoittain Vantaan kartalla. “Tänään näyttää olevan tarjolla 71 työpaikkaa”, Enho kertoo ja lisää tiedon työpaikkamäärästä karttanäkymän alle.

Kuka?

Heidi Enho s. 1967
Koulutus: tietojenkäsittelytieteen opintoja, Helsingin yliopisto
Työpaikka: Sulava Oy, vanhempi konsultti, kouluttaja

Avoimen datan suosikkityökalut1. Power BI -visualisointiohjelmisto “Power BI:ssä on helppo käyttöliittymä ja erinomaiset datan siivous- ja muokkaustyökalut. Lisäksi sen avulla voi yhdistää dataa eri tietolähteistä.”
2. Excel-taulukkolaskenta “Excel on paljon enemmän kuin pelkkä taulukkolaskenta. Esimerkiksi sen 3D Map -lisäosalla voi kertoa kolmiulotteisia, paikkatietoon perustuvia animoituja tarinoita, kuten Helsingin pysäköintivirheiden animointi.”
3. Vesa Tikkasen koodaama Q4.fi-työkalu “Työkalu luo skriptin, jonka voi kopioida Power BI:hin tai Exceliin ja saada ohjelman lukemaan dataa suoraan erilaisista PX-Web -tietolähteistä, kuten Tilastokeskuksen ja Verohallinnon tietokannoista.”

Mitä tehnyt avoimella datallaValtion hankinnat eli ostolaskut, Vantaan työpaikat kartalla, Suomen lämpötila ja sadetilastot vuodesta 2016 ja noin 10 muuta PowerBI-visualisointia vilahdus.fi-blogissa.

Mikä data kiinnostaisi Koko pääkaupunkiseudun kuntien avoimet työpaikat (kuten Vantaa). Tai esim. HSL:n nousijat bussilinjoittain (nyt kaiketi vain pysäkeittäin eli linjatietoa ei ole).

Mac, Windows vai Linux Windows

Heidi Enhon HExcelligent.fi -blogi

Työstä tuli harrastus

Microsoft-tuotteiden koulutus on Heidi Enhon päivätyö. Ennen eniten työllistivät Excel-koulutukset. “Nykyisin pidän Power BI -kursseja paljon enemmän kuin Excel-kursseja. Kysyntä on tosi suurta.”

Helppokäyttöisistä datan analysointityökaluista lähti liikkeelle myös Enhon oma avoimen datan harrastus. Ensimmäiset analyysit syntyivät Excelillä. “Se oli sellaista datalla leikkimistä. Oli hauska miettiä, että miten tätä tietoa visualisoisi. Ja tietysti sitä teki ihan oppiakseen.”

Kun Trafi julkaisi koko Suomen ajoneuvokannan avoimena datana, selvitti Enho ensi töikseen, missä päin Suomea ajellaan Enhon omalla ajopelillä, Fiat 500:lla.

Mikä saa it-konsultin penkomaan datavarantoja myös vapaa-ajalla? Enho paljastaa, että töissä saa kyllikseen myyntiluvuista väännetyistä talousraporteista. “On hauskaa tutkia myös muita datalähteitä”, Heidi Enho naurahtaa. ”Lisäksi on hyvä tuntea avoimia datavarantoja, jotta voi kertoa niiden hyödyntämismahdollisuuksista asiakkaille.”

Data raakana, kiitos

Aktiivisella dataharrastajalla on avoimen datan julkaisijoille yksi toive. Useimmat julkaistavat aineistot ovat liian pitkälle pureksittuja. Monet aineistot sisältävät jonkin muuttujan, kuten vuodet, omina sarakkeinaan. “Se ei ole dataa, vaan raportti.”

Tässä tulevat apuun suosikkityökalun hyvät datan siivous- ja muokkausominaisuudet. “Power BI:llä saa rakenteellisesti hankalasta datasta muokattua määrämuotoisen taulun.” Kätevä on ominaisuus, joka nauhoittaa datan siivouksesta automaattisesti scriptin. Sen avulla kaikki vaiheet on helppo toistaa, kun aineisto päivittyy.

Viimeksi Enho oli avoimen datan kimpussa viime viikonloppuna, kun häneltä pyydettiin puheenvuoroa firman kesäjuhlille. “Tuntui että koko kesän on satanut. Halusin katsoa, että oliko todella näin.”

Heidi Enho haki Ilmatieteen laitoksen avoimen datan palvelusta lämpötilojen ja sademäärien kuukausikeskiarvot vuodesta 1961 alkaen.

Heidi Enhon visualisointeja esittelevästä Vilahdus.fi-blogista löytyvä Power BI -visualisointi paljastaa, että ainakaan Helsingissä vettä ei ole tullut tolkuttomasti. “Data kertoo enemmän kuin mutu. Helsingissä satoi tämän vuoden heinäkuussa vain 59 % pitkän ajan keskiarvosta. Kesäkuussa mentiin yli keskiarvon, mutta toukokuu oli vastaavasti erittäin kuiva, sademäärä vain 38 prosenttia keskiarvosta.”