https://frosthead.com

Hvordan Margaret Dayhoff bragte moderne computere til biologi

I 1984 lancerede National Biomedical Research Foundation en gratis online database indeholdende over 283.000 proteinsekvenser. Proteininformationsressourcen giver i dag forskere over hele verden mulighed for at tage et ukendt protein, sammenligne det med de tusinder af kendte proteiner i databasen og bestemme, hvordan det er ens og anderledes. Fra disse data kan de hurtigt og nøjagtigt udlede et proteins evolutionshistorie og dets forhold til forskellige livsformer.

Den ydmyge oprindelse til denne massive online database starter længe før internettet. Det hele begyndte med Atlas of Protein Sequence and Structure, en 1965 trykt bog indeholdende de 65 daværende kendte proteinsekvenser, samlet af en kvinde ved navn Margaret Dayhoff. For at skabe hendes Atlas anvendte Dayhoff avancerede computerteknologier for at finde løsninger på biologiske spørgsmål og hjælpe med at indlede fødslen af ​​et nyt felt, vi nu kalder bioinformatik. Dayhoff, der oprindeligt var en kemiker, udnyttede nye og udviklende teknologier fra computertiden efter 2. verdenskrig til at være pionerværktøjer, som kemikere, biologer og astronomer både kunne bruge i den tværfaglige undersøgelse af livets oprindelse på Jorden.

Dayhoff (dengang Margaret Oakley) blev født i Philadelphia den 11. marts 1925 til Ruth Clark, en matematiklærer i gymnasiet, og Kenneth Oakley, en ejer af en lille virksomhed. I en alder af ti flyttede hendes familie til New York City. Der gik hun på offentlige skoler og blev til sidst valedictorian for Bayside High i 1942. Hun gik på Washington Square College i New York University på et stipendium, hvor hun graduerede magna cum laude i matematik blot tre år senere i 1945.

Samme år gik Dayhoff ind i Columbia University for at få sin ph.d. i kvantekemi under mentorskab af den fremtrædende kemiker og anden verdenskrigsoperationsforsker George Kimball. Hendes accept var en sjældenhed for tiden. Efter 2. verdenskrig gik flere mænd ind i videnskaberne, og kemi blev endnu mere mandsdomineret end i det foregående årti, hvor kun fem procent af kemi-ph.d.er gik til kvinder, ned fra otte procent.

I løbet af Dayhoffs tid på universitetet var Columbia et arnested for computerteknologi. Det pralede af nogle af de første computelaboratorier i USA, og i 1945 blev hjemsted for IBM Watson Scientific Laboratory ledet af astronom WJ Eckert. Watson-laboratoriet havde først fungeret som et computercenter for de allierede i de sidste måneder af 2. verdenskrig. Efter krigen blev det et sted til udvikling af nogle af de første supercomputere, inklusive den selektive sekvens elektroniske lommeregner (SSEC), som Eckert senere brugte til at beregne månebane til Apollo-missionerne.

Med denne teknologi lige ved hånden kombinerede Dayhoff sin interesse for kemi med computing ved hjælp af stansede kortmaskiner - i det væsentlige tidlige digitale computere. Maskinerne gjorde det muligt for Dayhoff at automatisere hendes beregninger ved at gemme en algoritme på et sæt kort og data på et andet. Ved hjælp af maskinen var hun i stand til at behandle beregninger langt hurtigere og nøjagtigt end for hånd.

Dayhoffs særlige emne af interesse var polycykliske organiske forbindelser, som er molekyler, der består af tre eller flere atomer, der er forbundet i en tæt ring. Hun brugte udstansede kortmaskiner til at udføre et stort antal beregninger af molekylenes resonante energier (forskellen mellem et molekyls potentielle energi i en bestemt tilstand og gennemsnitstilstand) for at bestemme sandsynligheden for molekylær binding og bindingsafstand.

Dayhoff uddannede sig med sin doktorgrad i kvantekemi på blot tre år. Forskningen, som hun foretog som kandidatstuderende, blev offentliggjort med Kimball som medforfatter i 1949 i Journal of Chemical Physics under den enkle titel Stanset kortberegning af resonansenergier.

Også i 1948 giftede Dayhoff sig med Edward Dayhoff, en studerende i eksperimentel fysik, som hun havde mødt i Columbia. I 1952 flyttede parret til Washington, DC, hvor Edward tiltrådte en stilling ved National Bureau of Standards og Dayhoff fødte sin første af to døtre, Ruth. Dayhoff droppede snart ud af forskning for at blive en hjemme-mor til Ruth og hendes yngre datter Judith, med undtagelse af en to-årig postdoktorstilling ved University of Maryland.

Da hun vendte tilbage til forskning og begyndte at ansøge om tilskud til at finansiere sit arbejde i 1962, blev hun mødt med et chok. De nationale institutter for sundhed afviste en bevillingsansøgning, der anførte Dayhoff som hovedundersøger, med forklaringen om, at "[Dayhoff] har været ude af virkelig intimt kontakt i nogen tid ... med dette komplicerede og hurtigt fremskridende område, " som historikeren Bruno Strasser skriver i hans kommende bog Samle eksperimenter: Making Big Data Biology . Denne form for bjergbestigning for kvinder, der har taget tid til at opdrage børn, er blot en af ​​måderne, som videnskabelige institutioner hindrede - og fortsætter med at hindre - kvinders fremskridt.

På trods af NIHs manglende støtte var Dayhoff ved at gå ind i det mest efterfølgende årti af hendes karriere. I 1960 accepterede hun en skæbnesvart invitation fra Robert Ledley, en banebrydende biofysiker, som hun mødte gennem sin mand, til at slutte sig til ham på National Biomedical Research Foundation i Silver Spring, Maryland. Ledley vidste, at Dayhoffs computerfærdigheder ville være afgørende for fundamentets mål om at kombinere computere, biologi og medicin. Hun ville fungere som hans associerede direktør i 21 år.

En gang i Maryland havde Dayhoff frie tøjler til at bruge til Georgetown Universitets splinternye IBM 7090 mainframe. IBM-systemet blev designet til at håndtere komplekse applikationer med computerværdier seks gange hurtigere end tidligere modeller. Denne hastighed blev opnået ved at erstatte langsommere, bulkere vakuumrørteknologi med hurtigere og mere effektive transistorer (komponenterne, der producerer 1'erne og 0'erne af computere). Ved hjælp af hovedrammen begyndte Dayhoff og Ledley at søge efter og sammenligne peptidsekvenser med FORTRAN-programmer, som de havde skrevet selv i et forsøg på at samle delvise sekvenser til et komplet protein.

IBM 7090 IBM 7090-operatørkonsol på NASA Ames Research Center i 1961 med to banker af IBM 729 magnetbånddrev. (NASA)

Dayhoff og Ledleys forpligtelse til at anvende computeranalyse til biologi og kemi var usædvanligt. "Kulturen for statistisk analyse, så meget mindre digital computing, var helt fremmed for de fleste [biokemikere], " forklarer Strasser i et interview med Smithsonian.com . "Nogle stolte endda på at ikke være 'teoretikere', hvilket er, hvordan de forstod dataanalyse ved hjælp af matematiske modeller."

En videnskabelig disciplin, hvor Dayhoffs computerkyndige var mere værdsat, var imidlertid astronomi. Denne interesse for computere var delvis takket være WJ Eckhart, der i 1940 havde brugt IBM stansede kortmaskiner til at forudsige planetariske kredsløb. Og i 1960'erne var den amerikanske interesse for rumforskning i fuld gang, hvilket betød finansiering til NASA. På University of Maryland mødte Dayhoff spektroskopist Ellis Lippincott, der bragte hende ind i et seks-årigt samarbejde med Carl Sagan på Harvard i 1961. De tre udviklede termodynamiske modeller for den kemiske sammensætning af stof, og Dayhoff udtænkte et computerprogram, der kunne beregne ligevægtskoncentrationer af gasser i planetariske atmosfærer.

Med Dayhoffs program var hun, Lippincott og Sagan i stand til at vælge et element, der skulle analyseres, så de kunne undersøge mange forskellige atmosfæriske kompositioner. I sidste ende udviklede de atmosfæriske modeller til Venus, Jupiter, Mars og endda en overjordisk atmosfære af Jorden.

Mens han udforskede himlen, tog Dayhoff også et spørgsmål, som forskere havde undersøgt siden mindst 1950'erne: hvad er proteins funktion? Sekventering af proteiner var et middel til at komme til svaret, men sekventering af individuelle proteiner var meget ineffektivt. Dayhoff og Ledley indtog en anden tilgang. I stedet for at analysere proteiner isoleret sammenlignede de proteiner, der stammer fra forskellige plante- og dyrearter. "Ved at sammenligne sekvenserne for det samme protein i forskellige arter kunne man observere, hvilke dele af sekvensen der altid var identiske i alle arter, en god indikation af, at denne del af sekvensen var afgørende for proteinets gavn, " siger Strasser.

Dayhoff satte sig dybere, og så på proteinernes fælles historie. Hun analyserede ikke kun de dele, der var ens på tværs af arter, men også deres variationer. ”De tog disse forskelle som et mål for evolutionære afstande mellem arter, som gjorde det muligt for dem at rekonstruere fylogenetiske træer, ” forklarer Strasser.

Dayhoff, altid klar til at udnytte kraften i ny teknologi, udviklede edb-metoder til at bestemme proteinsekvenser. Hun kørte en computeranalyse af proteiner i en lang række arter, fra candida-svampen til hvalen. Derefter brugte hun deres forskelle til at bestemme deres forfædres forhold. I 1966 skabte Dayhoff ved hjælp af Richard Eck den første rekonstruktion af et fylogenetisk træ.

I en Scientific American- artikel fra 1969, "Computer Analysis of Protein Evolution", præsenterede Dayhoff for offentligheden et af disse træer sammen med sin forskning ved hjælp af computere til sekventering af proteiner. ”Hver proteinsekvens, der er etableret, hver evolutionær mekanisme, der er belyst, hver større innovation i fylogenetisk historie, der er afsløret, vil forbedre vores forståelse af livshistorien, ” skrev hun. Hun forsøgte at vise biovidenskabssamfundet potentialet ved edb-modeller.

Hendes næste mål var at samle alle kendte proteiner et sted, hvor forskere kunne finde sekvenser og sammenligne dem med andre. I modsætning til i dag, når det er let at hente kilder til en elektronisk database med blot et nøgleord, var Dayhoff nødt til at skure fysiske tidsskrifter for at finde de proteiner, hun ledte efter. I mange tilfælde betød det, at man kontrollerede medforskerens arbejde for fejl. Selv ved hjælp af en computer krævede arbejdet med at indsamle og katalogisere sekvenserne rigelige mængder tid og et kræsent videnskabeligt øje.

Ikke alle så værdien i det, hun gjorde. For andre forskere lignede Dayhoffs arbejde indsamlings- og katalogiseringsarbejdet fra det 19. århundredes naturhistorie snarere end det eksperimentelle arbejde fra det 20. århundredes videnskabsmand. ”At samle, sammenligne og klassificere ting fra naturen virkede gammeldags for mange eksperimentelle biologer i anden halvdel af det 20. århundrede, ” siger Stasser. Han omtaler Dayhoff som en "outsider." "Hun bidrog til et felt, der ikke eksisterede og dermed ikke havde nogen professionel anerkendelse, " siger han.

I 1965 offentliggjorde Dayhoff først sin samling af de 65 kendte proteiner i Atlas of Protein Sequence and Structure, en trykt version af hendes database. Til sidst flyttede dataene til magnetbånd, og nu lever de online, hvor forskere fortsætter med at bruge hendes data til at finde tusinder mere proteiner. Andre biomedicinske databaser er kommet med i overskriften, herunder Protein Data Bank, en samarbejdssamling af protein og nukleinsyrer, der blev lanceret i 1971, og GenBank, den genetiske sekvensdatabase, der blev lanceret i 1982. Dayhoff startede en videnskabelig revolution.

”I dag indeholder hver enkelt publikation i eksperimentel biologi en kombination af nye eksperimentelle data og konklusioner trukket fra sammenligninger med andre data, der er gjort tilgængelige i en offentlig database, en tilgang, som Dayhoff startede for et halvt århundrede siden, ” siger Strasser.

Efterhånden som bioinformatik voksede, faldt opgaverne med indsamling og beregning stort set til kvinder. Dayhoffs samarbejdspartnere på Atlas var alle kvinder undtagen Ledley. Ligesom de kvindelige "computere" fra NASA i 1960'erne og de kvindelige codebreakers fra 2. verdenskrig, blev disse kvinder hurtigt skubbet til kanten af ​​den videnskabelige praksis. Med henvisning til ”ENIAC-pigerne”, der programmerede den første digitale computer til generelle formål, skriver informationshistorikeren Jennifer Light, at ”det er inden for rammerne af netop sådanne erhvervsklassifikationer med lav status, at kvinder beskæftigede sig med hidtil uset arbejde.”

I sin biografiske skitse af Dayhoff skrev Lois T. Hunt, der arbejdede på Atlas med hende, at Dayhoff troede, at hendes undersøgelse af Jordens oprindelige atmosfære muligvis kunne give hende "de forbindelser, der er nødvendige for dannelse af liv." Dette, måske endda mere end beregning, er det, der binder de forskellige dele af Dayhoffs videnskabelige forskning sammen. Fra det lille protein til den enorme atmosfære søgte Dayhoff efter hemmelighederne i livets opkomst på denne planet. Selvom hun ikke låste dem op, gav hun moderne videnskab værktøjer og metoder til at fortsætte søgningen.

Hvordan Margaret Dayhoff bragte moderne computere til biologi