BIG DATA BLEV LIGE STØRRE, DA IBM'S WATSON MØDER LIVETS ENCYKLOPÆDI | HOS SMEDEN. | SMITHSONIAN - ARTIKLER PÅ SMITHSONIAN, NY FORSKNING PÅ SMITHSONIAN, INNOVATION, TEKNOLOGI, VIDENSKAB, VORES PL

Efter 2.000 år er det ultimative encyklopædi af livet i centrum af en ny datadrevet æra. Et tilskud fra National Science Foundation er blevet tildelt The Encyclopedia of Life (EOL), IBM og Georgia Institute of Technology. Tilskuddet vil gøre det muligt for store mængder data at blive behandlet og krydsindekseret på måder, der giver mulighed for banebrydende videnskab.

Relateret indhold

Foreslået nyt marinreservesystem giver Rosy Outlook for både hummer og hummerfisker

I år 77 e.Kr. begyndte den ældre Plinius at skrive verdens første encyklopædi, Natural History. Det omfattede alt fra astronomi til botanik til zoologi til antropologi og mere. Plinius forsøgte at placere alt, hvad han personligt kunne samle om den naturlige verden, i et enkelt skriftligt værk. I de sidste 2.000 år har en lang række forskere inspireret af Pliny forfulgt den samme vision.

Plinius omfattede 20.000 emner i 36 bind, men løb ind i begrænsningerne for, hvad en enkelt person kan opdage, registrere og behandle inden for en menneskelig levetid. Han døde under udbruddet af Mount Vesuv, før han kunne afslutte en endelig redigering af hans magnum opus. Selv i hans egen æra var det ikke muligt for en person at læse alle bøgerne, lære alle tingene og forklare det hele for verden.

Som senere videnskabsmænd, redaktører og bibliotekarer opdaget i en verden, der tilføjer mere skriftlig viden med hvert år, der går, selvom du kunne gemme alle verdens bøger og forskning i en bygning, er det en udfordring at stille al relevant information til rådighed for forskere under begrænsningerne i deres korte menneskeliv.

EOL kan muligvis ændre det ved at anvende avanceret computerkraft til at skelne samlinger af biologiske data. Projektet er en gratis og åben digital samling af fakta, artikler og multimedia om biodiversitet, en af de største i verden. Hovedkvarter ved Smithsonian Institution og med sine 357 partnere og indholdsudbydere, herunder Harvard University og New Library of Alexandria i Egypten, er EOL vokset fra 30.000 sider, da det blev lanceret i 2008 til mere end 2 millioner, med 1, 3 millioner sider med tekst, kort, video, lyd og fotografier og understøtter 20 sprog.

”Jeg kom til Smithsonian i 2010 fra softwarebranchen, ” siger EOL-direktør Bob Corrigan. ”En af de opdagelser, jeg fandt frem til her, er, at selvom it er overalt, har det ikke trængt ind i museets verden på samme måde som det har trængt ind i den kommercielle verden. Især inden for biologi er de vigtigste data begravet i lærebøger og regneark. ”

Hvordan kan biologiske data i forskellige former kombineres og udvindes for ny indsigt i livet på Jorden? Hvad hvis data om, for eksempel, biodiversitet af sommerfugle i Afrika i løbet af et årti, blev kombineret med data om landbrugspraksis og regnfald? Kan der læres noget nyt? Det kræver noget større end en menneskelig hjerne for at gøre dette. Noget som IBMs Watson supercomputer.

”IBM bidrager med indsats og adgang til en version [af Watson], der ikke er offentligt tilgængelig, ” siger Jennifer Hammock, programdirektør hos EOL. ”De vil også have folk, der arbejder på det. IBM gør dette som et naturligt bidrag. ”

Watson er en supercomputer, der ikke bare knaster tallene i store mængder. Det bruger kunstig intelligens for at give brugerne mulighed for at stille spørgsmål på almindeligt sprog.

”Jeg vil sige fra brugerens synspunkt, at det betyder, at databasen er noget, du kan gå op til og stille et spørgsmål, som om du ville have et menneske, ” siger Hammock. "Kan du sige, om denne lilla sommerfugl forekommer i Afrika?"

”At besvare et enkelt spørgsmål på ethvert sprog forudsætter eksistensen af en masse viden bag kulisserne, ” siger Corrigan. ”Selv [ordet] lilla antager det, at vi ved, hvad lilla er. Eller en sommerfugl, [computeren] er nødt til at forstå forskellen mellem en sommerfugl og en møll. Oven i dette har datasætene forskellige måder at tænke på disse forskellige udtryk. Alle disse data har været vanskelige at finde uden en Rosetta-sten. Og det er en del af magien i, hvad EOL gør. ”

Et videnskabeligt spørgsmål, som partnerskabet mellem EOL, IBM og Georgia Tech håber at løse, er planktonets paradoks.

Ifølge Hammock prøver forskere, der arbejder med computersimuleringer, ”at modellere, hvad der sker i havet ved at sige, at solen skinner ind, og algene vokser. . . det har en grov tilnærmelse, men de kan ikke få [økosystemets computermodel] til at være stabil. De går et stykke tid, og så går de ned. Fordi de er for enkle. De håber, at hvis de kan vise lidt mere mangfoldighed i deres modellerede biosfære, vil de blive mere stabile. . . .paradokset er: hvordan findes havets biosfære? Hvorfor går det ikke ned? ”

”Folk sidder på data, ” siger Corrigan. ”Der er utrolige reservoirer af målinger af biodiversitet overalt på planeten. Jeg får en masse telefonopkald fra folk, der sidder på disse data og ønsker hjælp til at sætte dem i en bredere sammenhæng. Det er vigtigt, fordi vi er i et løb for at studere denne planet og lære, hvordan vores udvikling understreger vores meget begrænsede ressourcer. . . Smithsonian kan spille en rolle i stigningen i viden fra alle disse kilder og være en reel magt til at sprede den. ”

En fjerdedel af tilskuddet på 1 million $ vil blive tildelt Smithsonian for sin andel af arbejdet, men EOL inkluderer en masse andre spillere. Nogle udviklere er i Egypten; et uddannelsesteam er baseret fra Harvard; og den spanske sproglige enhed er i Mexico City.

Alle data fra EOL vil fortsat være enten i det offentlige domæne eller licenseret under Creative Commons. Forskningen og dataene er beregnet til at være offentligt tilgængelige og ikke skjult bag en paywall.

”Det er en meget gammel drøm, ” siger Hammock. ”Et menneske kan sandsynligvis ikke lære det hele. Det er svært at placere alt på et sted, hvor det bevidst kan kontrolleres mod sig selv. Men nu har vi computere. ”

Plinius ville være meget glad eller meget jaloux.