https://frosthead.com

Sådan slipper Google din spam fra din indbakke

Bag alle Googles informationsknusning - fra at finde ud af, hvilke søgeresultater der er de vigtigste, til at læse og holde faner på din e-mail - er der noget interessant matematik. Og for nylig holdt Javier Tordable, en softwareingeniør, en præsentation på den og åbnede et vindue ind i den nørdige Google-verden bare en knæk.

Lad os starte med Gmail. Nogle gange får du spam-mail, men Gmail er temmelig god til at finde ud af, at når en korrespondent prøver at få dig til at investere i en nigeriansk prins, vil du sandsynligvis ikke have det stykke mail i din indbakke. Hvordan ved det? Trin et: Træn maskinen. Trin to: sæt den i gang.

Det kaldes maskinlæring, og Google gør masser af det. I trin et skal du gøre, hvad computerforskere kalder "karakteriser en instans." I matematisk tale betyder det:

Generelt kan egenskaberne ved et eksempel betragtes som elementer i en vektor i et ndimensionalt euklidisk rum i et stort n (100-1000 dimensioner er normalt, 1M-10M er ikke uhørt)

Men her er hvordan man tænker over det, hvis du stoppede matematik efter Calc 1. Gmail kan trække et par centrale oplysninger fra en bestemt e-mail. Hvor lang er den? Hvor mange store bogstaver er der? Er det fra nogen, du har fået en e-mail fra før? Du vil ikke have de oplysninger, der kræves for at tage beslutningen om at være for svært at få eller håndtere, fordi det vil bremse og mindske nøjagtigheden af ​​din maskine. Så Google tegner en linje baseret på hvad den ved om spam. De e-mails, der kommer igennem, falder på den ene side af linjen og de spammy-e-mails på den anden.

Mere matematisk tale:

En simpel klassificeringsmodel er et hyperplan i egenskabernes rum. Dataforekomster på den ene side af hyperplanet klassificeres som gyldige e-mails, og forekomster på den anden side klassificeres som spam.

Hvad med stemmesøgning - også kaldet automatisk talegenkendelse eller ASR? Ligesom maskinlæring, sker ASR i to dele: at behandle lyden der kommer ind og finde ud af, hvad du siger. Den første del involverer Fourier-transformeringer, der isolerer de vigtige bit, som computeren kan oversætte. Den anden del er modellering af tale ved hjælp af det, der kaldes en "skjult Markov-model." Tordable forklarer:

I denne model er tilstande bogstaverne i meddelelsen, og hændelsesforløbet er lydsignalet. Viterbi-algoritmen kan bruges til at opnå sekvensen af ​​tilstande med maksimal sandsynlighed.

Google ville meget gerne gøre stemmegenkendelse bedre og lettere. I denne casestudie skriver en gruppe af Google-suser:

Et mål hos Google er at gøre tale-adgang allestedsnærværende tilgængelig. Vi vil gerne lade brugeren vælge - de skal være i stand til at tage det for givet, at talte interaktioner altid er en mulighed. Opnåelse af allestedsnærværende kræver to ting: tilgængelighed (dvs. indbygget i enhver mulig interaktion, hvor taleinput eller output kan give mening), og ydelse (dvs. fungerer så godt, at modaliteten ikke tilføjer interaktion til friktion).

Et andet område, hvor Google bruger matematik, er i deres kort - i lyset for nylig efter at Apple debuterede deres kortlægningssystem til betydelig kritik. I hjertet af Google Maps er grundlæggende grafteori - regnestykket med at komme fra et sted til et andet, mens du rejser på den korteste afstand. Men det er selvfølgelig mere kompliceret end det. Tordable skriver, "Et unikt problem er, at de grafer, der bruges i Google Maps, indeholder millioner af noder, men algoritmerne skal køre i millisekunder."

Google fortæller os ikke, hvordan de gør det. Ellers ville Apple ikke have løbet ind i sit problem, men det grundlæggende involverer at ryste Dijsktras algoritme (sandsynligvis den mest almindeligt anvendte grafsøgningsalgoritme). For et par år tilbage beskrev computerforskere ved Universitetet i Karlsruhe en ny måde at rangere stedsforespørgsler for at få meget hurtigere resultater. De skrev:

Vores algoritme forbehandler det ottecifrede antal noder, der er behov for kort over USA eller Vesteuropa på få timer ved hjælp af lineær plads. Korteste (dvs. hurtigste) forespørgsler tager derefter omkring otte millisekunder for at producere nøjagtige korteste stier. Dette er cirka 2.000 gange hurtigere end ved at bruge Dijkstra's algoritme.

Tordable gennemgår en række andre matematiske værktøjer, der bruges af Google, herunder dem, der er involveret i Google Bøger, billedsøgninger, Analytics, YouTube, Google Translate, Google Earth og Picasa. Du kan se hele sæt lysbilleder her.

Mere fra Smithsonian.com:

Smithsonian bliver Google kortlagt
Spor madtrends med Google Bøger

Sådan slipper Google din spam fra din indbakke