Tema: IKT
Podkaster om big data
Få med deg podkaster om big data.
Lurer du på hva big data (stordata) er, og hva det kan brukes til? Her er noen samtaler om big data som kanskje gjør deg litt klokere.
Anders Løland: Store muligheter, keiserens nye klær, og noen farer
Anders Løland, assisterende forskningssjef i Norsk Regnesentral og co-director i Big Insight, forklarer stordata på denne måten: – Det er så mye data at ting blir tungvint. Det går ikke an å trekke en eksakt grense. Det kan være at det som var stordata for fem år siden, ikke er stordata lenger. Det kan være at det som er stort for deg er lite for meg, eller omvendt. Så jeg tenker det er når det er så mye data, eller så mange ulike formater og typer data, at ting begynner å bli kronglete. Da begynner vi å nærme oss stordata.
Han sier at stordata fører med seg store muligheter, men også at feltet bærer litt preg av keiserens nye klær. – Stordata er jo bare mye data, og kanskje analyse av disse dataene.
Samtidig understreker han at stordata kan løse virkelige, praktiske problemer. – En morsom ting vi har jobbet med, er det jeg kaller en lun lånerobot, forteller han. Mens banker tradisjonelt har bestemt hvem som skal få innvilget lån basert på kriterier som eksempelvis inntekt, alder og bosted, har stordata-analyser vist at trender og svingninger i kundenes kontobevegelser, kan brukes til å si ganske treffsikkert om kunden vil klare eller ikke klare å betale ned lånet sitt. – Vi kan enkelt sile ut i hvert fall de som er «grønne» kunder, de som er ok.
Hør mer om dette, men også om hvorfor Løland fraråder å samle inn så mye data som mulig, i podkast-episoden
Ansvarlig bruk av stordata:
Heidi E. I. Dahl: – Big data er volum, fart og variasjon
Hva som utgjør stordata, utdypes av Heidi E. I. Dahl, seniorforsker i SINTEF Digital og leder av Tekna Big Data: – På engelsk pleier man å snakke om de tre V-ene volume, velocity and variety, altså volum, fart og variasjon.
Hun eksemplifiserer volum med Sjøkartverkets kartlegging av havbunnen og Rikshospitalets MR- og CT-skanninger av pasienter. Begge deler gir store datamengder som må bearbeides før mennesker kan nyttiggjøre seg informasjonen.
Det mest spektakulære eksempelet på fart er det såkalte Higgs-bosonet, også omtalt som «gudspartikkelen». I CERN ble elementærpartikler sendt mot hverandre i to år, med 40 millioner kollisjoner per sekund, noe som stilte enorme krav til prosesseringsfart. Så ble da også arbeidet belønnet med en Nobelpris. Men det finnes også mer praktiske anvendelser, ikke minst knyttet til sensorer. – Du kan tenke deg en selvkjørende bil som samler inn informasjon om omverden ved sensorer, sier Heidi. – Den har ikke lang tid på å avgjøre om den skal reagere eller ikke. Du har tilsvarende problemstillinger i industrien når du skal få industrielle roboter til å samarbeide med mennesker.
Den tredje v-en er altså variasjon. Et eksempel er fjernstyrte flyplasser. – Norge har veldig mange små flyplasser, der det ikke nødvendigvis er veldig mange flyvninger, forteller Dahl. Med et sentral kontrolltårn som får inn høyoppløselig video med mulighet for å zoome inn, kombinert med en 3D-modell av terrenget, værradar-data, lyd og sensor-data fra flyet, kan man sette sammen informasjon på en måte som gjør det mulig for en flygeleder å ta en beslutning. – Dette er virkelig variasjon med mange typer data som da igjen skal håndteres i sanntid.
Hør Dahl fortelle mer om dette, og om noen av farene med stordata, i podkast-episoden
Big Data, kunstig intelligens og geometrisk modellering:
Simen Sommerfeldt: – Vi i Europa har vært litt heldig med GDPR
Simen Sommerfeldt, teknologisjef i Bouvet og en av initiativtakerne til Lær Kidsa Koding, sier at stordata kan brukes for å søke etter mønstre og sammenhenger man kanskje ikke visste var der. Samtidig understreker han at stordata ikke er en quick fix. – Vi opplever at det har blitt solgt inn som en slags magi: Det er bare å samle inn masse data og så kan du bli forklart løsningen på problemene dine og orientert om de problemene du ikke visste du hadde. Men det er ikke sånn det er.
I stedet må man typisk jobbe lenge med dataene før man ser resultater. Han forklarer hvordan de selv jobber i sirkler med problemstillingene de står overfor, med metoden kalt CRISP: – Vi begynner sammen med kunden og ser hva problemet deres er og om de har noen hypoteser. Og er dette et big data problem i det hele tatt? Så må vi jobbe med å få tak i dataene og se hva slags big-data- eller metoder innen maskinlæring som passer til problemet. Deretter gjelder det å kjøre beregninger og se om hypotesen stemmer.
Et eksempel er et prosjekt som skulle forhindre egg fra å knuse idet de kommer inn i Norturas eggemaskiner, noe som fører til man må vaske ned hele maskinen. For å redusere dette problemet, gikk de gjennom hele livsløpet til hønene. – Det var veldig mange variabler; det var fôr, temperatur, vaksiner, alder, opprinnelse, rase og mange ting. Vi fikk bøndene til å skrive inn veldig mye data, og så kunne vi prøve ut forskjellige hypoteser.
Det som i størst grad påvirket kvaliteten på eggeskallet og avgjorde om de knuste i maskinen eller ikke, viste seg overraskende nok å være burtypen.
Sommerfeldt mener for øvrig at den nye personopplysningsloven, GDPR, kom akkurat i tide og kan gjøre Europa til en foregangsverdensdel. – Jeg er veldig glad for at GPDR kom samtidig med at vi fikk en oppsving av stordata, sier Sommerfeldt. – Da kan vi utnytte stordata på en måte som ikke bidrar til å undertrykke innbyggerne, eller ha overvåkning, eller at selskaper kan flå kunder.
Hør eksempler på hvordan stordata kan brukes på negative måter i land som ikke har GDPR, samt hvordan AirBnB og Uber bruker big data til å forbedre konkurransesituasjonen sin, i podkast-episoden
Hva er CRISP-metoden?
Lise Lyngsnes Randeberg: – Store muligheter, men tenk på etikken
For Lise Lyngsnes Randeberg, professor ved NTNU og president i Tekna, handler big-data-analyser om å finne system i kaos. – For meg ble det en dyd av nødvendighet da jeg satt med store, komplekse datasett.
Hun jobber med medisinsk forskning og ønsker å bruke lys til å diagnostisere sykdommer, som for eksempel leddgikt. I dag må leddgiktrammede gå til flere ulike spesialister, og det tar gjerne 3–6 måneder før man er gjennom alle undersøkelsene. – Samtidig har du et vindu for å behandle sykdommen på 3–6 måneder for å unngå å skade leddene dine for fremtiden, understreker Randeberg. Hun samler derfor inn store mengder data for å finne mønstre i sykdommen, og hun er optimistisk med tanke på å finne en løsning som kan diagnostisere sykdommen nærmest umiddelbart.
Men for å lykkes, holder det ikke å bare forstå stordata. – Du må kombinere kunnskap om biologi, fysikk med dataverktøy. Du er avhengig av å forstå det du jobber med.
Hun poengterer også at algoritmer ikke er ufeilbarlige. Hun var selv vitne til et talende eksempel på en konferanse, der det ble vist en film av hvordan insulin beveget seg inne i en celle. – Men så sier han som har laget algoritmen at en tredjedel av de insulin-molekylene som finnes på skjermen nå, de finnes ikke, foreller hun. Algoritmen hadde rett og slett laget fake data. Dataene var begravet i støy, og algoritmen trodde den så data som ikke egentlig var der.
– Nybegynnere skal lære av erfarne fjellfolk, konkluderer hun. – Foreløpig trenger vi at mennesker og maskiner jobber sammen.
Hør Randeberg fortelle mer om dette og blant annet problemet med svarte bokser, i podkast-episoden
Fysikk + statistikk = diagnostistikk:
PS: Har du selv eksempler, kommentarer eller anbefalt lesestoff om stordata? Har du sett filmen som blir anbefalt i to av de fire podkastene over, og har lyst til å kommentere den? Eller har du spørsmål? Bruk gjerne kommentarfeltet nedenfor.