https://frosthead.com

En søgemaskine, der matcher dine tegninger med fotografier, er ikke for langt væk

For et par uger siden var jeg i et indkøbscenter, da jeg bemærkede en kvinde med en stor håndtaske med et reblignende strop. Da jeg er på markedet efter en ny tote, overvejede jeg at spørge hende, hvor hun fik den. Men før jeg kunne komme i gang, forsvandt hun rundt om et hjørne. Da jeg kom hjem, prøvede jeg at google posen. Men jeg er ingen fashionista, og jeg fandt, at jeg ikke havde ordforrådet til at beskrive, hvad jeg havde set. ”Læderhåndtaske med løbebånd” var ikke rigtigt. Hverken var "pung med rebhåndtag" eller "taske med snorrem." Til sidst gav jeg op.

Nu sigter en ny teknologi til at hjælpe folk med at søge efter ting, de ikke nødvendigvis kan beskrive med ord.

James Hays, en datalogi ved Georgia Institute of Technology, har oprettet et computerprogram, der er i stand til at matche håndtegnede billeder til fotografier. Dette kan i sidste ende føre til et program, der kan kæmpe internetbilledsøgningstjenester, såsom Google Billeder, og finde fotografier, der nøjagtigt matcher brugernes tegninger.

”Målet er at være i stand til at relatere eller matche fotos og skitser i begge retninger, ligesom en menneskelig dåse, ” siger Hays. ”Et menneske kan se en dårligt tegnet skitse og finde ud af, hvilket foto det ser ud til at matche. Vi vil have den samme kapacitet beregningsmæssigt. ”

For at skabe programmet hyrede Hays næsten 700 arbejdere fra Amazon Mechanical Turk, et markedsplads for crowddsourcing, der matcher arbejdstagere med mennesker, der har brug for opgaver, der er udført. Hans team viste arbejderne fotos af almindelige genstande og dyr, såsom egern, tepotter og bananer, så de kunne se på billedet i to sekunder. Arbejderen tog derefter genstanden ud af hukommelsen. Holdet samlet efterhånden mere end 75.000 skitser af 12.500 genstande. De kaldte dette "Sketchy-databasen."

Programmet analyserede derefter skitser og matchede dem med det fotografi, de ligner mest. Teknologien identificerede det korrekte foto 37 procent af tiden. Til sammenligning var mennesker korrekte omkring 54 procent af tiden. Selvom 37 procent måske ikke virker imponerende, er det faktisk et ret spring for computere.

”Mennesker er allerede så overraskende gode til visioner, vi genkender billeder ubesværet, ” siger Hays. ”Det er faktisk overraskende vanskeligt beregningsmæssigt.”

En af de største udfordringer med at forbedre programmet er, at de fleste mennesker er temmelig elendige kunstnere. Som Hays og hans team skrev i en artikel om emnet: ”Former og skalaer er forvrænget. Objektdele er karikerede (store ører på en elefant), antropomorfiseret (smilende mund på en edderkop) eller forenklet (lemmer med stavfigurer). ”

Historisk set har forskning i at få computere til at genkende skitser fokuseret på ting som fordeling af linjer i en tegning, retningen, linjerne går i, eller hvor grænserne for tegningen er. Men da mennesker kun tegner det, der er vigtigt for mennesker (øjne for eksempel er altid inkluderet i skitser, selvom de er relativt små), er det vigtigt for en computer at "lære", hvordan skitser tendens til at være ens, og hvordan de har tendens til være forskellig fra fotografier. Til dette bruger programmet to separate netværk, et, der evaluerer skitser, et, der evaluerer fotografier. Ved konstant analyse af et stort datasæt kan programmet kontinuerligt "lære".

Hays og hans team planlægger at fortsætte med at forbedre programmet ved at tilføje data. Fremskridt inden for computerindlæring skal også hjælpe med at forbedre matchfrekvenserne. I øjeblikket har programmet en ret høj matchfrekvens, når man sammenligner skitser med fotodatabaser på internet, inklusive Flickr, selvom det er vanskeligt at kvantificere, siger Hays.

Ud over den billedssøgning, der jeg har brug for så meget, har programmet et antal mindre useriøse mulige anvendelser. Politiet kunne scanne mistænkelige skitser og sammenligne dem med en database med kriminelle fotografier. Programmet kunne bruges af folk, der taler og skriver på ethvert sprog, eller som overhovedet ikke kan skrive.

”Et mål med at forstå skitser er, at de er et noget universelt sprog, ” siger Hays. ”Det er ikke bundet til et bestemt skriftsprog, og det er overhovedet ikke bundet til læsefærdighed. [Et program som dette kunne bringe] adgang til information uden skriftsprog. ”

Programmet kunne også bruges kunstnerisk til at skabe fotorealistiske scener ud af skitser. Har du altid forestillet dig at bo i et slot på månen? Tegn det, og programmet kunne en dag oprette et fotobillede til dig ved at sy sammen stykker af andre billeder.

Oplysninger indsamlet af Hays og hans team kan også hjælpe med at løse nogle spørgsmål om neurovidenskab og psykologi, siger Hays.

”Disse skit-fotopar siger noget om menneskets opfattelse, om hvad vi synes er fremtrædende, hvilke dele af billeder der fanger vores opmærksomhed, ” siger Hays. ”På nogle måder koder denne database ganske godt. Der kan være noget, der kan drilles ud af det, hvis du vil sige noget om mennesker selv. ”

En søgemaskine, der matcher dine tegninger med fotografier, er ikke for langt væk