https://frosthead.com

Hvordan kunstig intelligens kunne revolutionere Archival Museum Research

Når du tænker på kunstig intelligens, er området botanik sandsynligvis ikke det øverste i dit sind. Når du tegner indstillinger for avanceret beregningsundersøgelse, er det århundrede gamle museer måske ikke på listen. Og alligevel viser en lige offentliggjort artikel i Biodiversity Data Journal, at nogle af de mest spændende og bærende innovationer inden for maskinlæring finder sted på ingen anden end National Herbarium of National Museum of Natural History i Washington, DC

Papiret, der viser, at digitale neurale netværk er i stand til at skelne mellem to lignende planterfamilier med en nøjagtighed på over 90 procent, indebærer en række muligheder for mundvand for forskere og akademikere fremover. Undersøgelsen er afhængig af software, der er baseret på ”dyb læring” -algoritmer, der tillader computerprogrammer at hente erfaring på meget den samme måde som menneskelige eksperter gør, og hæver deres spil hver gang de kører. Snart kunne denne teknik muliggøre sammenlignende analyser af millioner af forskellige prøver fra alle hjørner af kloden - et forslag, som tidligere ville have krævet en uholdbar mængde menneskelig arbejdskraft.

”Denne forskningsretning viser meget løfte, ” siger Stanford-professor Mark Algee-Hewitt, en fremtrædende stemme i den digitale humanistiske bevægelse og assisterende fakultetsdirektør ved universitetets Center for Spatial and Textual Analyse. ”Disse metoder har evnen til at give os enorme mængder information om, hvad samlinger indeholder, ” siger han, og ”på den måde gør de disse data tilgængelige.”

Disse nye fund bygger på mange års arbejde, der blev udført ved Smithsonian Institution for systematisk at digitalisere sine samlinger til akademisk og offentlig adgang online, og repræsenterer et bemærkelsesværdigt tværfagligt tankemøde: botanikere, digitaliseringseksperter og datavidenskabsmænd havde alle en rolle at spille i at bringe disse resultater til lys.

Historien starter i oktober 2015, da installationen af ​​et kamera- og transportbåndapparat under Natural History Museum enormt forenklet bestræbelser på at digitalisere Smithsonians botaniske samling. I stedet for at skulle manuelt scanne hver presset blomst og klump af græs i deres opbevaringssted, kunne arbejderne nu stå i kø med hele matriser af prøver, lade bæltet arbejde sin magi og hente og katalogisere dem ved halens ende. En tre-personers besætning har overvåget bæltet siden sin debut, og de gennemgår omkring 750.000 eksemplarer hvert år. Inden længe vil Smithsonian's herbariumbeholdning, fem millioner stærke prøver, være helt online.

Hver prøve er mærket med et grundigt identifikationskort, der giver information om dets oprindelse samt vigtige statistiske data. Indholdet af disse kort er blevet transkriberet og uploadet ved siden af ​​de digitale billeder, hvilket giver et omfattende overblik over hvert element i samlingen for dem med tilbøjelighed til at søge.

I Smithsonians digitaliserede botaniske arkiv er billeder i høj opløsning af eksemplarer parret med transkriptioner af de praktiske ID-tags, der er påført dem. I Smithsonians digitaliserede botaniske arkiv er billeder i høj opløsning af eksemplarer parret med transkriptioner af de praktiske ID-tags, der er påført dem. (National Museum of Natural History)

"Det gør vores samling tilgængelig for alle, der har en computer og en internetforbindelse, " siger museumsbotanikstol Laurence Dorr, "hvilket er godt til at besvare visse spørgsmål." Alligevel fandt Dorr, at han ikke kunne ryste en følelse af uudnyttet potentiale . Visst, massive mængder af eksempeldata var nu tilgængelige for online-samfundet, men at analysere dem samlet var forbløffende. Det var let nok at slå op på bestemte prøver og små kategorier af prøver, men Dorr spekulerede på, om der eksisterede en måde at udnytte dataene til at drage konklusioner om tusinder af eksemplarer. ”Hvad kan du gøre med disse data?” Husker han undrende. En mand ved navn Adam Metallo gav snart et overbevisende svar.

Metallo, en officer med Smithsonians kontor for digitaliseringsprogram, havde deltaget på en konference, hvor den teknologiske gigantiske NVIDIA - elskede af pc-spillere overalt - udstillede næste generations grafikbehandlingsenheder eller GPU'er. Metallo var der på udkig efter måder at forbedre Smithsonian's 3D digitale gengivelsesfunktioner, men det var en stort set ikke-relateret nugget af information, der fandt hans opmærksomhed og sad sammen med ham. Ud over at generere dynamisk 3D-visualitet med høj kvalitet, sagde han, var NVIDIAs GPU'er velegnet til big data-analyse. Især var øde GPU'er netop det, der var nødvendigt for intensiv digital mønstergenkendelse; mange af maskinlæringsalgoritmerne var blevet optimeret til NVIDIA-platformen.

Metallo blev øjeblikkelig fascineret. Denne ”dyb læring” -teknologi, der allerede er implementeret i nisjesektorer som selvkørende biludvikling og medicinsk radiologi, indeholdt et stort potentiale for museernes verden - som, som Metallo påpeger, udgør ”det største og ældste datasæt, som vi nu har adgang til til."

”Hvad betyder det for de store datasæt, vi opretter på Smithsonian gennem digitalisering?” Ville Metallo vide. Hans spørgsmål spejdede perfekt med Laurence Dorr, og når de to var forbundet, begyndte gnister at flyve. ”Botanik-samlingen var en af ​​de største samlinger, vi sidst havde arbejdet på, ” husker Metallo. Et samarbejde foreslog sig selv.

Mens mange former for maskinlæring kræver, at forskere markerer nøgle matematiske markører i de billeder, der skal analyseres - en omhyggelig proces, der svarer til at holde computeren i hånden - kan moderne dyb læringsalgoritmer lære sig selv, hvilke markører de skal kigge efter på jobbet og spare tid og åbne døren til større undersøgelser. Ikke desto mindre var det en vanskelig forretning at skrive et Smithsonian-specifikt dybtuddannelsesprogram og kalibrere det til diskrete botaniske forskningsspørgsmål - Dorr og Metallo havde brug for hjælp fra dataforskere til at gøre deres vision til virkelighed.

Dataforskere udarbejder træningseksempler til det neurale netværk i løbet af hvad Paul Frandsen husker som Dataforskere udarbejder træningseksempler til det neurale netværk under det, som Paul Frandsen husker som "en kold januardag". (National Museum of Natural History)

En af specialisterne, de bragte ombord, var Smithsonian forskningsdataforsker Paul Frandsen, som straks erkendte potentialet i at skabe et NVIDIA GPU-drevet neuralt netværk, der kunne bære den botaniske samling. For Frandsen symboliserede dette projekt et vigtigt første skridt ned ad en vidunderlig og uudforsket sti. Snart siger han, ”vi vil begynde at lede efter morfologiske mønstre på verdensplan, og vi vil være i stand til at besvare disse virkelig store spørgsmål, der traditionelt ville have taget tusinder eller millioner menneskelige timer gennem litteraturen og klassificering af ting. Vi vil være i stand til at bruge algoritmer til at hjælpe os med at finde disse mønstre og lære mere om verden. ”

De netop offentliggjorte konklusioner er et slående bevis på begrebet. Genereret af et team på ni ledet af forskningsbotanisten Eric Schuettpelz og dataforskerne Paul Frandsen og Rebecca Dikow, sigter undersøgelsen at besvare to store spørgsmål om maskinlæring og herbariet. Den første er, hvor effektivt et trænet neuralt netværk kan være til sortering af kviksølvfarvede prøver fra ikke-udtagne. Det andet, højdepunktet i papiret, er, hvor effektivt et sådant netværk kan være til at skelne medlemmer af to overfladisk ensartede planterfamilier - nemlig fern allierede familierne Lycopodiaceae og Selaginellaceae .

Den første forsøg krævede, at holdet skulle gennemgå tusindvis af prøver på forhånd og bemærkede endeligt, hvilke der var synligt forurenet med kviksølv (en formue for forældede botaniske konserveringsteknikker). De ville være sikre på, at de vidste med 100 procent sikkerhed, som var farvede, og som ikke var - ellers ville det ikke være muligt at vurdere programmets nøjagtighed. Teamet kirsebærplukket næsten 8.000 billeder af rene prøver og 8.000 mere af farvede prøver, som de skal træne og teste computeren med. Da de var færdige med at finjustere de neurale netværksparametre og trak al menneskelig hjælp, kategoriserede algoritmen eksempler, som den aldrig havde set før, med 90 procents nøjagtighed. Hvis de mest tvetydige prøver - fx dem, hvor farvning var minimal og / eller meget svag - blev kastet ud, steg tallet til 94 procent.

Dette resultat indebærer, at dyb læringssoftware snart kunne hjælpe botanikere og andre forskere med at undgå at spilde tid på kedelige sorteringsopgaver. "Problemet er ikke, at et menneske ikke kan bestemme, om et præparat er farvet med kviksølv eller ej, " klargør Metallo, men snarere at "det er vanskeligt manuelt at sortere og finde ud af, hvor forureningen findes, " og ikke fornuftigt at gør det fra et tidsstyringsmæssigt standpunkt Heldigvis kunne maskinlæring forvandle en større tidsdykning til højst et par dage med hurtig automatiseret analyse.

Poring over prøver ad gangen kræver en masse energi og gør det vanskeligt at drage store konklusioner. Nu giver big data-analyse museer nye måder at henvende sig til deres samlinger på. Poring over prøver ad gangen kræver en masse energi og gør det vanskeligt at drage store konklusioner. Nu giver big data-analyse museer nye måder at henvende sig til deres samlinger på. (Arnold Arboretum)

Arten diskrimineringsdel af undersøgelsen er endnu mere spændende. Forskere trænede og testede det neurale netværk med ca. 9.300 klubmoss og 9.100 spikemoss-prøver. Som med farvningseksperimentet blev ca. 70 procent af disse prøver anvendt til indledende kalibrering, 20 procent blev anvendt til forfining, og de sidste 10 procent blev brugt til formelt at vurdere nøjagtigheden. Når koden var optimeret, var computerens succesrate ved at skelne mellem de to familier 96 procent - og næsten perfekte 99 procent, hvis de vanskeligste prøver blev udeladt.

En dag spekulerer Frandsen, programmer som denne kunne håndtere en foreløbig prøvekategorisering på museer over hele kloden. ”På ingen måde tror jeg, at disse algoritmer vil gøre noget for at erstatte kuratorer, ” siger han hurtigt, ”men i stedet tror jeg, at de kan hjælpe kuratorer og mennesker, der er involveret i systematik, til at være mere produktive, så de kan gøre deres arbejde meget hurtigere."

Neuralnetværkets succes med denne undersøgelse baner også vejen for hurtig test af videnskabelige hypoteser på tværs af massive samlinger. Dorr ser i holdets fund muligheden for at gennemføre omfattende morfologiske sammenligninger af digitaliserede prøver - sammenligninger, der kan føre til betydelige videnskabelige gennembrud.

Det betyder ikke, at dyb læring vil være en sølvkugle inden for forskning overalt. Stanfords Mark Algee-Hewitt påpeger, at "det er næsten umuligt at rekonstruere hvorfor og hvordan et neuralt netværk træffer sine beslutninger", når det først er blevet konditioneret; Bestemmelser, der overlades til computerprogrammer, skal altid være ukomplicerede og verificerbare, hvis de skal have tillid.

”Det er klart, ” siger Dorr, et autonomt computerprogram, ”ikke vil teste for genetiske sammenhænge, ​​lignende ting” - mindst når som helst i den nærmeste fremtid. ”Men vi kan begynde at lære om fordeling af karakteristika efter geografisk region eller efter taksonomisk enhed. Og det bliver virkelig magtfuldt. ”

Mere end noget andet er denne forskning et springpunkt. Det er nu klart, at dyb læringsteknologi har et stort løfte for forskere og andre akademikere over hele verden såvel som for den nysgerrige offentlighed, som de producerer viden for. Det resterende er et strengt opfølgningsarbejde.

”Dette er et lille skridt, ” siger Frandsen, ”men det er et trin, der virkelig fortæller os, at disse teknikker kan arbejde på digitaliserede museumsprøver. Vi er glade for at oprette flere projekter i de næste par måneder for at prøve at teste dens grænser lidt mere. ”

Hvordan kunstig intelligens kunne revolutionere Archival Museum Research