TURINGTESTEN MÅLER NOGET, MEN DET ER IKKE "INTELLIGENS" | INNOVATION | SMITHSONIAN - ARTIKLER, INNOVATION, TEKNOLOGI, VIDENSKAB, TEKNOLOGI OG RUM

Alan Turing, en af faderne i computeralderen, var en usædvanligt klog mand. Så smart, faktisk, at han forstod, at udtrykket ”maskineintelligens” næsten var meningsløst. Bedre, begrundede han for at tale om, hvad en maskine faktisk kan gøre: Kan den tale? Kan det holde en samtale nede? I det mindste er det noget, vi kan forsøge at studere. Turing foreslog til sidst, hvad der er blevet kendt som ”Turing-test”: Hvis en dommer ikke kan fortælle, hvilken af to skjulte enheder der er et menneske, og som er en kunstig, har maskinen ”bestået” testen - hvilket er nøjagtigt hvad siges at være sket den sidste lørdag i London.

Relateret indhold

Silicon Valley skylder sin succes med dette tekniske geni, du aldrig har hørt om
Alan Turing's 60-årige forudsigelse om mønstre i naturen beviset sandt

”Vi er ... stolte over at erklære, at Alan Turing's test blev bestået for første gang, ” sagde en af arrangørerne, Kevin Warwick fra University of Reading, da resultaterne blev annonceret. Den vindende chatbot kaldes ”Eugene Goostman”, et computerprogram, der emulerer personligheden af en 13-årig ukrainsk dreng. "Eugene" formåede at overbevise 33 procent af dommerne om, at det var menneskeligt ved lørdagens begivenhed, der blev afholdt på Royal Society's kontorer i London på 60-årsdagen for Turing's død. (Turing, en homoseksuel, blev dømt for grov uanstændighed i 1952 og blev beordret til at gennemgå hormonel "behandling" som led i en anbringende om aftale. To år senere døde han af cyanidforgiftning i et tilsyneladende selvmord.)

Men et ord af forsigtighed er i orden. "Intelligens" har altid været et glat emne, og især Turing-testen har længe været fyldt med kontrovers. Turing beskrev, hvordan det ville fungere i et papir fra 1950 med titlen ”Computing machines and intelligence.” Han tog ideen fra et traditionelt victoriansk parlour-spil, hvor du prøver at finde ud af, om personen, der er skjult bag et gardin, er en mand eller en kvinde, bare ved at stille spørgsmål. (Svarene på spørgsmålene måtte skrives ned, fordi stemmen ville være en gave.) Sådan fungerer Turing's version: Du ville have en dommer, der sad foran to gardiner uden nogen måde at vide, hvad der bag dem. . Bag et gardin er et menneske; bag den anden er en computer. Dommeren kan stille spørgsmål til en af de to skjulte enheder. Baseret på svarene prøver dommeren at finde ud af, om den skjulte enhed er et menneske eller en maskine. (Turing så for sig, at samtalen blev formidlet af teletypemaskiner; i dag kan vi bruge enhver form for elektronisk, tekstbaseret grænseflade, som den slags, der bruges i internetchatrum, eller instant messaging.)

Turing spekulerede i, at i år 2000 "vil en gennemsnitlig forhør ikke have mere end 70 pct. Chance for at foretage den rigtige identifikation" - det vil sige, at computerprogrammer ville forvirre dommerne 30 pct. Af tiden - efter fem minutters forespørgsel. De "fem minutter" er vigtige. Turing talte ikke om en tidsbegrænsning som en iboende del af testen, og man kunne hævde, at for en maskine, der virkelig skal bestå testen, burde den kunne håndtere enhver mængde af spørgsmål. Formodentlig var kriterierne på fem minutter en vilkårlig, men nødvendig grænse. Året 2000 kom og gik, med chatbots der kun stoppede fremskridt. (I et mere sober øjeblik, svarende på et spørgsmål fra en BBC-interviewer i 1952, sagde Turing, at det ville gå 100 år, før en maskine bestod testen.)

Tilbage i 2012 var jeg dommer i et ”Turing-testmaraton”, det største nogensinde sæt Turing-tests, der blev gennemført på én gang; det blev afholdt i Bletchley Park, England, stedet for Turing's vigtige kodebrydende arbejde i de sidste år af den anden verdenskrig. (Det blev arrangeret af det samme hold, der kørte lørdagens begivenhed, og en tidligere version af Eugene var også vinderen den gang.) Opsætningen til lørdagens begivenhed var den samme som i 2012: Dommerne skrev deres spørgsmål på en computer, ventede derefter på, at svarene skulle vises på deres skærme; chatbotterne sammen med de ”skjulte mennesker” var i et andet rum uden for syne.

Den første ting, jeg blev hyperbevidst om, er, at når du er dommer i en Turing-test, går fem minutter ret hurtigt. Og jo kortere samtalen er, jo større er computerens fordel; jo længere afhør, jo større er sandsynligheden for, at computeren giver sig selv. Jeg kan godt lide at kalde dette mannequin-effekten: Har du nogensinde undskyldt et stormagasin-mannequin, idet du antager, at du lige havde stødt på et levende menneske? Hvis mødet kun varer en brøkdel af et sekund, mens du vender den anden vej, kan du forestille dig, at du lige har pustet op mod et menneske. Jo længere møde, jo tydeligere er mannequinens mannequin.

Det er det samme med chatbots. En udveksling af hellos afslører intet - men jo længere du kommer ind i det, desto flere problemer opstår. Chatbots, jeg fandt, synes tilbøjelige til at ændre emnet uden grund. Ofte kan de ikke besvare enkle spørgsmål. Risikoen for at lyde vagt, lyder de bare ikke menneskelige . I en af mine samtaler i 2012 indtastede jeg en simpel vittighed - og den enhed, som jeg talte med, ændrede øjeblikkeligt emnet til hamburgere. (Computer videnskabsmand Scott Aaronson havde for nylig en lignende oplevelse, da han chattede med Eugene via botens hjemmeside. Aaronson spurgte Eugene, hvor mange ben en kamel har; den svarede: "Noget mellem 2 og 4. Måske tre? :-)))" Senere, da Aaronson spurgte, hvor mange ben en maur har, hostede Eugene nøjagtigt det samme svar, triple-smiley og alt sammen.)

Bemærk også, at Eugene ikke emulerer en indfødt-engelsktalende voksen; det foregiver at være en ung og lidt flippende ukrainsk teen, der snakker på rimelig god (men langt fra perfekt) engelsk. Som Vladimir Veselov, en af programudviklerne, fortalte Mashable.com : ”Vi brugte meget tid på at udvikle en karakter med en troværdig personlighed.” Selvom Eugene vil engagere nogen på ethvert emne, gør hans alder ”det helt rimeligt, at han ikke gør det ved ikke alt. ”Eugene kommer ikke lige ud og meddeler sin alder og nationalitet; men han vil afsløre det, hvis det bliver spurgt - og slutresultatet kan være en vis grad af lempelse fra dommerne, især hvad angår engelsk grammatik og ordbrug. (Jeg antager, at de fleste af dommerne lørdag var engelsktalende, selvom jeg ikke ved dette med sikkerhed.) Tabellerne ville sandsynligvis være vendt, hvis Eugene nogensinde skulle møde en indfødt ukrainsk taler som dommer.

Kampen for at bygge en talende maskine fremhæver netop, hvor komplekst sprog er. Det er ikke kun et spørgsmål om at tale - du er nødt til at tale om noget, og hvad du siger skal give mening - og det skal være fornuftigt i sammenhæng med det, den anden person lige har sagt. For os er det let; til computere, ikke så meget. Og så chatbots er afhængige af et udvalg af tricks: Husk megabyte med konserverede svar, eller skure internettet for dialog, der muligvis kan tilnærme sig den samtale, de er i øjeblikket midt i. Med andre ord, hvad en maskine mangler i intelligens, kan den muligvis kompensere for i rå computerkraft. Dette er grunden til, at Google eller Siri (iPhone-personens assistent) kan virke så smarte for os: Siri har muligvis ikke et "sind", men det har adgang til en så stor database med information, det kan fungere som om den gør. Det var den samme form for brute-force-tilgang, der gjorde det muligt for IBM's "Watson" at vinde på Jeopardy! i 2011.

Alt dette rejser et afgørende spørgsmål: Hvad er det nøjagtigt, at Turing-testen måler? Nogle kritikere har antydet, at det belønner trickery snarere end intelligens. NYU-psykolog Gary Marcus, der skriver på NewYorker.com, siger, at Eugene lykkes med "at udføre en række 'ploys' designet til at maskere programmets begrænsninger." Steven Harnad, en psykolog og datalogi ved University of Quebec i Montreal, var endnu mere skeptisk og fortæller The Guardian, at det var "komplet vrøvl" at hævde, at Eugene havde bestået Turing-testen. (Til hans ære var Turing vel opmærksom på dette spørgsmål; han kaldte sin idé "efterligningsspil" og talte kun sparsomt om intelligens.) Endnu mere ubehageligt er computeren i modsætning til det menneskelige tvunget til at bedrag. ”Turing-testen er virkelig en test for at være en succesrig løgner, ” fortalte Pat Hayes, en computer videnskabsmand ved Institute for Human and Machine Cognition i Pensacola, Florida, mig efter Turing-testmarathon i 2012. ”Hvis du havde noget, der virkelig kunne passere Turing's efterligningsspil, ville det være en meget succesrig 'menneskelig efterligning'.”

Og "menneske" er det andet nøglepunkt: Er det ikke muligt, at der er andre former for intelligens i verden ud over den slags, der vises af vores art? En virkelig intelligent maskine ville have utallige praktiske applikationer, men hvorfor fokusere på at skabe flere ”mennesker”? Når alt kommer til alt har vi masser af mennesker allerede. Som sprogforskeren Noam Chomsky har påpeget, når vi bestræber os på at bygge en maskine, der bevæger sig under vand, kræver vi ikke, at den "svømmer" - og en ubåd er ikke mindre en præstation for dens manglende evne til at gøre modstød.

Ja, Eugene er imponerende, i det mindste i små bursts. Og alligevel, selv de bedste chatbots, snubler over spørgsmål, som et barn, der er halvt Eugens foregive-alder, kunne klare breezily. Måske ikke overraskende, at de fleste AI-forskere bruger lidt tid på besættelse over Turing-testen. Maskinens intelligens går faktisk fremad og temmelig hurtigt. Voice-to-text-oversættelsessoftware, som var ret patetisk for bare få år siden, forbedrer sig hurtigt, ligesom sprogoversættelsesprogrammer er. Amazon har ofte en ret god idé om, hvad du vil købe, før du gør det. Og Googles selvkørende bil ville have været ren fantasi for et årti siden. Men samtalen, som vi fortsætter med at opdage, er virkelig hård, og det er sandsynligvis ikke den grænse, hvor AI lyser mest lysende. For nu, hvis du leder efter nogen at chatte med, anbefaler jeg et rigtigt menneske.

Dan Falk er en videnskabsjournalist med base i Toronto.