Tema: Informasjonsteknologi
Big Data
Datamengdene i dag er enorme. De to siste årene har vi skapt 90 % av alle digitale data. I dag er 10 milliarder maskiner koblet sammen og snakker med hverandre. I 2020 vil det være 50 milliarder.
Big Data var tema på et frokostseminar i regi av CIO Forum 10. oktober.
Datamengdene i dag er enorme. Vi må stadig lære oss nye tallbegreper for å henge med: Terabyte (TB=1024 GigaByte (GB=1024 MegaByte (MB= 1024 KiloByte (KB = 1024 Byte (B = 8 bits))))) er i dag bare småtteri.
Nei, vi snakker PetaByte (1024 TB) , ExaByte (1024 PB), ZettaByte (1024 EB) og YottaByte(1024 ZB). Det er store tall. Vi trenger 25 tall foran komma for å representere en YB.
Volume, velocity, variety
Big Data dreier seg altså om store mengder data, som prosesseres og analyseres raskt. Og det dreier seg ofte om varierte data, både ustrukturerte og strukturerte. Sistnevnte er data som ligger tilgjengelig i tabeller eller databaser.
Hele 80 % av verdens data er ustrukturert.
Big Data er overalt. Mengder av data kan trekkes ut av sosiale medier, webkameraer, bildedatabaser, produktsporing, satellittbilder, trafikkoptimalisering, seismiske data, kundedatabaser, for å nevne noe.
Slik jobber et av verdens største selskaper med store data
I foredraget til Kenneth Thomas fra Hitachi fikk vi høre at 10 milliarder maskiner er koblet sammen og snakker med hverandre i dag og at 50 milliarder maskiner vil være sammenkoblet i 2020.
Når det gjelder Big Data og lagring gjelder det ikke bare å få større og større datamengder lagret på mindre og mindre plass, men det har også vært en utfordring å finne datalagringsmedier som ikke forvitres over tid. Alle lagringsformer har begrenset levetid.
Hitachi jobber med quartz-glass som lagringsmedium, et medie som skal kunne holde i noen hundre millioner år.
Thomas pekte på den nødvendige utviklingen at maskinene tar beslutninger basert på real-time prosessering av store datamengder. Vi lager prosessene, men maskinene tar beslutningene. Et vellykket eksempel på dette, var høyhastighetstog i Japan som under alvorlige jordskjelv i 2011 automatisk satte farten ned fra 270 km/t og stanset, basert på seismiske data. Togulykker ble dermed forhindret.
Slik blir Big Data et konkurransevåpen
Espen Andersen fra BI holdt foredraget: Slik blir Big Data et konkurransevåpen. Han snakket om hva Big Data er, og hvordan de kan brukes til å bli kjent med kundene dine.
Han pekte på viktigheten av å trekke lærdom av hva folk gjør. Ikke anta at det du tror de gjør er riktig. Gjerne A/B teste hypotesene dine ute hos brukerne.
Espen pekte på Google som en aktør som utnytter Big Data med stor suksess. Google utnytter hele verdikjeden til Big Data, de samler inn og analyserer brukerdata, og bruker dette til å presentere brukerne for nye relevante tjenester.
– Ikke forveksle samvariasjon med kausalitet, sa Espen Andersen og vitset om samvariasjonen mellom økte lærerlønninger og økt omsetning på polet.
Han var lite glad i den mer gammeldagse segmenteringen av målgrupper som gir lite rom for varians.
Både Kenneth Thomas og Espen Andersen poengterte at datamodellene må være riktige.
Motsetningene Big Data og personvern
Big Data handler om registrering av mest mulig data, mens personvern handler om registrering av minst mulig data.
En annen motsetning er at Big Data handler om å bruke gamle data til nye formål, mens personvern handler om å ikke bruke data til andre formål enn de er samlet inn til.
Ett av temaene på frokostseminaret fokuserte på disse motsetningene:
Big Data – personvernsprinsipper under press
Big Data: er deg! – sa Catharina Nes fra Datatilsynet som videre pekte på at det er mulig å ta i bruk Big Data på en personvennlig måte.
Datatilsynet kom nylig ut med en rapport: Big Data – personvernsprinsipper under press.
-Det er to enkle prinsipper, sa Catharina Nes:
1) anonyme data er OK.
2) om dataene ikke brukes anonymisert skal man ha fått samtykke til å bruke dem. Og i samtykket skal det være spesifisert hva dataene skal brukes til.
Når dette er sagt, dukker det opp en utfordring når store datamengder sammenstilles og krysskobles: Anonymiteten kan mistes, identifisering kan bli mulig og sensitive data kan avsløres.
Catharina pekte spesielt på sensitive områder som:
- – seksuell legning
- – sykdommer
- – politisk overbevisning
En annen utfordring er at det er ikke alltid slik at sporene dine på nett forteller sannheten om hvem du er. Det blir et problem dersom du opplever at du har blitt fortolket på bakgrunn av data som ikke er korrekte. Beslutninger som gir konsekvenser for deg skal være basert på korrekte opplysninger, sier datatilsynet i sin rapport.
– Men så lenge dataene har en stor verdi. Hvem har lyst til å slette data? – slette penger? spurte Catharina. – Og dessuten, i dag koster det mer å slette data enn å spare dem, sier hun videre.
Disse tingene gjør personvernet vanskelig.
Mer om Big Data
En supplerende artikkel fra Digi: Hva kan Big Data gjøre for oss?