https://frosthead.com

Kan en statistisk model forudsige nøjagtige antallet af olympiske medaljer?

Hvis nogen bad dig om at forudsige antallet af medaljer, som hvert land vinder i dette års OL, ville du sandsynligvis forsøge at identificere de foretrukne atleter i hver begivenhed, og det samlede forventede sejr for hvert land vil nå til et resultat.

Tim og Dan Graettinger, brødrene bag dataminingfirmaet Discovery Corps, Inc., har en ganske anden tilgang. De ignorerer atleterne helt.

I stedet ser deres model for Sochi-spil på hvert lands geografiske område, BNP pr. Indbygger, den samlede værdi af eksport og breddegrad for at bestemme, hvor mange medaljer hvert land vinder. I tilfælde af at du spekulerer på, forudser det, at USA vil komme ud på toppen, med i alt 29 medaljer.

Graettingerne er ikke de første til at bruge denne slags datadrevet, top-down tilgang til at forudsige medaljetællinger. Daniel Johnson, en professor i økonomi i Colorado College, byggede lignende modeller til de fem olympiske lege mellem 2000 og 2008 - opnåede en 94 nøjagtighed samlet set ved at forudsige hvert lands antal medaljer - men skabte ikke en model for Sochi.

Dan og Tim er nyere i spillet. Dan - der typisk arbejder med mere konventionelle dataminingprojekter, for eksempel at forudsige et virksomheds potentielle kunder - blev først interesseret i at bruge modeller til at forudsige konkurrencer for fire år siden, under Vancouver vinter-OL. "Jeg bruger data om fortiden til at forudsige fremtiden hele tiden, " siger han. "Hver aften viste de medaljetællingen på tv, og jeg begyndte at spørge mig om vi kunne forudsige det."

Selvom individuelle atleters præstationer kan variere uforudsigeligt, forklarede han, kan der være et overordnet forhold mellem et lands grundlæggende karakteristika (dets størrelse, klima og mængde af rigdom, for eksempel) og antallet af medaljer, det sandsynligvis ville tage med hjem. Denne form for tilgang ville ikke være i stand til at sige, hvilken konkurrent, der muligvis vinder en given begivenhed, men med nok data kan den muligvis være i stand til nøjagtigt at forudsige de samlede medaljetællinger for hvert land.

Oprindeligt arbejdede han og hans bror med at udvikle en foreløbig model til London-kampene i 2012. Til at begynde med indsamlede de en lang række forskellige typer datasæt om alt fra et lands geografi til dets historie, religion, rigdom og politiske struktur. Derefter brugte de regressionsanalyser og andre dataknusningsmetoder for at se, hvilke variabler der havde det tætteste forhold til historiske data om olympiske medaljer.

De fandt ud af, at en model, der indarbejdede et lands bruttonationalprodukt, befolkning, breddegrad og samlet økonomisk frihed (som målt ved Heritage Foundation's indeks), korrelerede bedst med sommerlandets kampe bedst med hvert lands medaljetælling for de foregående to sommer-OL (2004) og 2008). Men på det tidspunkt kunne deres foreløbige model kun forudsige, hvilke lande der ville vinde to eller flere medaljer, ikke antallet af medaljer pr. Land.

De besluttede at forbedre det til Sochi-spil, men kunne ikke stole på deres tidligere model, fordi de lande, der har succes om vinteren, adskiller sig så meget fra sommeren. Deres nye Sochi-model løser problemet med at forudsige medaljetællinger i to trin. Fordi omkring 90 procent af landene aldrig har vundet en eneste vinter-olympiske medalje (ingen mellemøstlig, sydamerikansk, afrikansk eller caribisk atlet nogensinde har vundet), adskiller den først de ti procent, der sandsynligvis vinder mindst en, forudsiger så hvor mange hver vinder.

"Nogle tendenser er stort set hvad du ville forvente - når et lands befolkning bliver større, er der større sandsynlighed for, at det vinder en medalje, " siger Tim. "Til sidst har du dog brug for nogle mere kraftfulde statistiske maskiner, der kan slibes gennem en masse variabler og rangordne dem, hvis form er de mest forudsigelige."

Til sidst kom de på nogle få variabler, der nøjagtigt adskiller de halvfems procent af de ikke-medalje-vindende lande fra de ti procent, der sandsynligvis vil vinde: Disse omfattede migrationsrate, antal læger pr. Indbygger, breddegrad, bruttonationalprodukt og om landet havde vandt en medalje i de foregående sommerkampe (intet land havde nogensinde vundet en vintermedalje uden at vinde en den foregående sommer, delvis fordi puljen af ​​sommervindere er så meget større end vinteren). Ved at køre denne model på de sidste to vinter-OL, bestemte denne model, hvilke nationer tog hjem en medalje med 96, 5 procents nøjagtighed.

Da 90 procent af landene blev fjernet, anvendte Graettingers lignende regressionsanalyser til at skabe en model, der med tilbagevirkende kraft forudsagde, hvor mange medaljer hvert resterende land vandt. Deres analyse fandt, at en lidt anden liste over variabler bedst passer til de historiske medaljedata. Disse variabler sammen med forudsigelser for Sochi-spilene er nedenfor:

Billede 4-forudsagt medalje tabel 2 - med border.png Modelens forudsigelser for Sochi-spil (Graf høflighed Discovery Corps, Inc.)

Nogle af variablerne, der viste sig at være korrelative, er ikke et stort chok - det giver mening at lande med højere breddegrad klarer sig bedre ved begivenhederne, der blev spillet under vinterkampene - men nogle var mere overraskende.

”Vi troede, at befolkning, ikke landareal, ville være vigtigt, ” siger Dan. De er usikre på, hvorfor det geografiske område ender med at passe de historiske data nærmere, men det kan skyldes, at et par lande med høj befolkning, der ikke vinder vintermedaljer (som Indien og Brasilien), kaster dataene væk. Ved i stedet at bruge landområde undgår modellen disse landes store indflydelse, men bevarer stadig en grov tilknytning til befolkningen, fordi lande med større områder samlet set har større befolkning.

Naturligvis er modellen ikke perfekt, selv ikke i matchende historiske data. "Vores tilgang er den 30.000 fods tilgang. Der er variabler, som vi ikke kan redegøre for, " siger Tim. Nogle lande har gentagne gange overgået modellens forudsigelser (inklusive Sydkorea, der vinder en uforholdsmæssig mængde korte skridt på skøjteløb), mens andre konsekvent underpresterer (som Det Forenede Kongerige, der ser ud til at gøre langt bedre til sommerbegivenheder, som man kunne forvente, måske fordi det - trods dets breddegrad - får langt mere regn end sne).

Derudover er en konsekvent undtagelse, som de har fundet i modellens forudsigelser, at værtslandet poser flere medaljer, end det ellers ville være, simpelthen baseret på dataene. Både Italien (i løbet af Turin-kampene i 2006) og Canada (i Vancouver-kampene i 2010) udførte modellen, hvor Canada satte sin rekord for hele tiden i at vinde 14 guld.

Baseret på deres statistisk-strenge tilgang er Graettingerne stadig sikre på, at deres model stort set vil forudsige de endelige medaljetællinger med en relativt høj grad af nøjagtighed.

Hvordan kan deres forudsigelser sammenlignes med dem fra eksperter, der bruger mere konventionelle strategier? Eksperterne adskiller sig ikke dramatisk, men de har nogle få traditionelt succesrige lande (Norge, Canada, Rusland), der vinder et større antal medaljer sammen med et par andre (Kina, Holland, Australien), der hver vinder et par færre.

Indtil videre har Graettingers ikke lagt nogen væddemål på deres forudsigelser, men de planlægger at sammenligne deres model output med odds odds lige før kampene starter. Hvis de ser uoverensstemmelser, de gerne vil udnytte, kan de ende med at lægge deres penge, hvor deres mund er.

Kan en statistisk model forudsige nøjagtige antallet af olympiske medaljer?