I 2008 annoncerede Google en spændende ny tjeneste kaldet Google Flu Trends. Ingeniører i virksomheden havde observeret, at visse søgeforespørgsler (som f.eks. Ordene "feber" eller hoste) syntes at øge hver influenza sæson. Deres idé var at bruge hyppigheden af disse søgninger til at beregne landsdækkende influenzaforhold hurtigere end kunne være udført med konventionelle data (som normalt tager et par uger at indsamle og analysere) og lade folk vide, hvornår de skal tage ekstra forholdsregler for at undgå at få virussen.
Relateret indhold
- Hvordan vejrmodeller og Google kunne hjælpe med at forudsige influenza sæson
- Big Data eller for meget information?
Medier (denne reporter inkluderede) skyndte sig at lykønske Google med en sådan indsigtsfuld, innovativ og forstyrrende brug af big data. Det eneste problem? Google Flu Trends har ikke fungeret særlig godt.
Tjenesten har konsekvent overvurderet influenza, sammenlignet med konventionelle data, der er indsamlet bagefter af CDC, og estimerer forekomsten af influenza til at være højere, end den faktisk var i 100 ud af 108 uger mellem august 2011 og september 2013. I januar 2013, hvor nationale influenzahastigheden toppede, men Google Flu Trends-estimater var dobbelt så høje som de virkelige data, dens unøjagtighed begyndte endelig at samle pressedækning.
Den mest almindelige forklaring på uoverensstemmelsen har været, at Google ikke har taget højde for den uptick i influenzarelaterede forespørgsler, der opstår som et resultat af den mediedrevne influenzahysteri, der opstår hver vinter. Men denne uge i Science foreslår en gruppe samfundsvidenskabsfolk ledet af David Lazer en alternativ forklaring: at Googles egne justeringer til dens søgerealgoritme er skylden.
Det er ganske vist svært for udenforstående at analysere Google Flu Trends, fordi virksomheden ikke offentliggør de specifikke søgeudtryk, den bruger som rå data, eller den bestemte algoritme, det bruger til at konvertere frekvensen af disse udtryk til influenzaevalueringer. Men forskerne gjorde deres bedste for at udlede betingelserne ved hjælp af Google Correlate, en tjeneste, der giver dig mulighed for at se på satserne for bestemte søgeudtryk over tid.
Da forskerne gjorde dette for en række influenzarelaterede forespørgsler i løbet af de sidste par år, fandt de, at et par nøglesøgninger (dem til influenza-behandlinger, og dem, der spurgte, hvordan man adskiller influenza fra kulden) spores nærmere med Google Flu Tendenser 'estimater end med faktiske influenza, især når Google overvurderede udbredelsen af lidelsen. Disse særlige søgninger, det ser ud til, kunne være en enorm del af unøjagtighedsproblemet.
Der er en anden god grund til at formode, at dette kan være tilfældet. I 2011 begyndte Google som en del af en af dens almindelige søgningsalgoritme-justeringer at anbefale relaterede søgeudtryk til mange forespørgsler (inklusive liste over en søgning efter influenzabehandlinger efter nogen Googled mange influenzarelaterede udtryk), og i 2012 begyndte virksomheden at give potentielle diagnoser som svar på symptomer i søgninger (herunder liste over både "influenza" og "forkølelse" efter en søgning, der inkluderede udtrykket "ondt i halsen", for eksempel, hvilket muligvis fik en bruger til at søge efter, hvordan man skelner mellem de to). Disse tilpasninger, hævder forskerne, sandsynligvis kunstigt drev op på satserne for de søgninger, de identificerede som ansvarlige for Googles overvurderinger.
Hvis denne hypotese var sand, ville det naturligvis ikke betyde, at Google Flu Trends uundgåeligt er dømt til unøjagtighed, bare at den skal opdateres for at tage hensyn til søgemaskinens konstante ændringer. Men Lazer og de andre reserachers hævder, at sporing af influenza fra big data er et særligt vanskeligt problem.
En enorm del af de søgetermer, der korrelerer med CDC-data om influenzaforhold, skyldes det, skyldes ikke, at folk får influenza, men af en tredje faktor, der påvirker både søgemønstre og influenzatransmission: vinter. Faktisk rapporterede udviklerne af Google Flu Trends, at de kom på bestemte vilkår - dem, der f.eks. Var relateret til gymnasiums basketball, som var korreleret med influenza over tid men tydeligt ikke havde noget at gøre med virussen.
Med tiden fjernede Google-ingeniører manuelt mange udtryk, der korrelerer med influenzasøgninger, men har intet at gøre med influenza, men deres model var tydeligvis stadig for afhængig af sæsonbetonede søgetrends uden influenza - en del af grunden til, at Google Flu Trends ikke reflekterede 2009-epidemien af H1N1, der skete i løbet af sommeren. Især i sine tidligere versioner var Google Flu Trends "en del influenza detektor, en del vinter detektor", skriver forfatterne af Science papiret.
Men alt dette kan være en lektion til brug af big data i projekter som Google Flu Trends, snarere end en blanket anklager for det, siger forskerne. Hvis den opdateres korrekt for at tage højde for justeringer af Googles egen algoritme og grundigt analyseres for at fjerne rent sæsonbetonede faktorer, kan det være nyttigt at dokumentere landsdækkende influenza - især når det kombineres med konventionelle data.
Som en test skabte forskerne en model, der kombinerede Google Flu Trends-data (som i det væsentlige er realtid, men potentielt unøjagtige) med to uger gamle CDC-data (som er dateret, fordi det tager tid at indsamle, men stadig kunne være noget indikativt for den aktuelle influenzahastighed). Deres hybrid matchede de faktiske og aktuelle influenzadata meget tættere end Google Flu Trends alene og præsenterede en måde at få disse oplysninger meget hurtigere på end at vente to uger på de konventionelle data.
"Vores analyse af Google Flu viser, at de bedste resultater kommer fra at kombinere information og teknikker fra begge kilder, " sagde Ryan Kennedy, en professor i universitetsvidenskab, politisk videnskab og medforfatter, i en pressemeddelelse. "I stedet for at tale om en 'big data-revolution', skulle vi diskutere en 'all data-revolution'."