https://frosthead.com

Kunstig intelligens genererer menneskers ansigter baseret på deres stemmer

Et nyt neuralt netværk udviklet af forskere fra Massachusetts Institute of Technology er i stand til at konstruere en grov tilnærmelse af et individs ansigt udelukkende baseret på et uddrag af deres tale, et papir, der er offentliggjort i pre-print server arXiv- rapporter.

Holdet uddannede det kunstige intelligensværktøj - en maskinlæringsalgoritme, der er programmeret til at ”tænke” meget som den menneskelige hjerne - ved hjælp af millioner af online klip, der fanges mere end 100.000 forskellige højttalere. Kaldes Speech2Face, det neurale netværk brugte dette datasæt til at bestemme forbindelser mellem vokale signaler og specifikke ansigtstræk; som forskerne skriver i undersøgelsen, alder, køn, formen på ens mund, læbestørrelse, knoglestruktur, sprog, accent, hastighed og udtale alt indgår i talemekanikken.

Ifølge Gizmodos Melanie Ehrenkranz trækker Spe22face på foreninger mellem udseende og tale for at generere fotorealistiske gengivelser af indvendige personer med neutrale udtryk. Selvom disse billeder er for generiske til at identificere som en bestemt person, peger de fleste af dem nøjagtigt på højttalernes køn, race og alder.

Interessant nok forklarer Jackie Snow for Fast Company, at den nye forskning ikke kun bygger på tidligere forskning vedrørende forudsigelser om alder og køn fra tale, men også fremhæver forbindelser mellem stemme og "kraniofaciale træk" som næsestruktur.

Forfatterne tilføjer, "Dette opnås uden forudgående information eller eksistensen af ​​nøjagtige klassificeringsmaskiner for disse typer fine geometriske træk."

Algoritmen har stadig sine mangler. Som Live Science 's Mindy Weisberger bemærker, har modellen problemer med at analysere sprogvariationer. Når man for eksempel spillede et lydklip af en asiatisk mand, der talte kinesisk, producerede Speech2Face et ansigt med den rigtige etnicitet, men da den samme person blev optaget og talte engelsk, frembragte AI et billede af en hvid mand.

I andre tilfælde blev højhøjde, inklusive børn, fejlagtigt identificeret som hunner, hvilket afslørede modellens kønsfordeling ved at knytte stemmer med lavt toneangivelse til mænd og højtstående kvinder med kvinder. I betragtning af det faktum, at træningsdataene stort set stammer fra uddannelsesvideoer, der blev lagt ud på YouTube, påpeger forskerne endvidere, at algoritmen ikke "repræsenterer lige så stor verdensbefolkningen."

Ifølge Slate 's Jane C. Hu er lovligheden af ​​at bruge YouTube-videoer til videnskabelig forskning ret klar. Sådanne klip betragtes som offentligt tilgængelige oplysninger; selv hvis en bruger ophavsretten til deres videoer, kan forskere inkludere materialerne i deres eksperimenter under en "fair use" -klausul.

Men etik i denne praksis er mindre ligetil. I en tale med Hu sagde Nick Sullivan, leder af kryptografi hos Cloudflare, at han var overrasket over at se et foto af sig selv indeholdt i MIT-holdets undersøgelse, da han aldrig havde underskrevet en undtagelse eller hørt direkte fra forskerne. Selvom Sullivan fortæller Hu, at det ville have været "rart" at blive underrettet om hans optagelse i databasen, erkender han, at i betragtning af den store størrelse af datapuljen, ville det være vanskeligt for forskerne at nå ud til alle afbildede.

Samtidig konkluderer Sullivan, ”Da mit billede og stemme blev udpeget som et eksempel i Speech2Face-papiret snarere end bare brugt som et datapunkt i en statistisk undersøgelse, ville det have været høfligt at nå ud til at informere mig eller bede om min tilladelse. ”

En potentiel applikation i virkeligheden for Speech2Face er at bruge modellen til at "knytte et repræsentativt ansigt" til telefonopkald på baggrund af en talers stemme. Snow tilføjer, at stemmegenkendelsesteknologi allerede bruges på flere områder - ofte uden enkeltpersoners udtrykkelige viden eller samtykke. Sidste år lancerede Chase et “Voice ID” -program, der lærer at genkende kreditkortkunder, der ringer til banken, mens kriminalvæsenets institutioner over hele landet bygger databaser over indespærrede individers ”stemmeaftryk”.

Kunstig intelligens genererer menneskers ansigter baseret på deres stemmer