VED HJÆLP AF MATEMATIK TIL AT UNDERSØGE IRANS VALGRESULTATER | VIDENSKAB | SMITHSONIAN - ARTIKLER, BLOGS, OVERRASKENDE VIDENSKAB, VIDENSKAB, MENNESKELIG ADFÆRD

Statistikere og politiske videnskabsmænd har haft en feltdag med resultaterne fra det iranske valg tidligere i denne måned. Var valget rigget? Vi ved måske aldrig, men der er nok begravet i matematikken til at få os til at tro, at det måske har været sådan. Selv da er der dog også nok til at få os til at tro, at alt er legitimt. Her er et par analyser, som jeg fandt særlig interessant:

Rens data

Umiddelbart efter valget blev der rejst tvivl om legitimiteten af dataene, fordi hver gang der frigives en ny gruppe af afstemningsresultater (de kommer ud i stykker i Iran, svarende til De Forenede Stater), andelen af stemmene, der gik til præsident Mahmoud Ahmadinejad var den samme: 67 procent. Data er normalt ikke rene, og nogle begyndte at undre sig over, om resultaterne var fremstillet.

En analyse fra University of Wisconsin matematikprofessor Jordan Ellenberg i Slate dykker imidlertid dybere ind i dataene for at vise, at de faktisk var mere messier end man kunne forvente. Resultaterne kom ikke ud by for by, men i store partier, der kombinerede data fra flere områder, hvilket betød, at Ahmadinejads afstemningstal virkelig var gennemsnit. Og loven om store numre dikterer, som Ellenberg skrev:

Gennemsnit med vidt forskellige mængder kan og giver normalt resultater, der ser næsten perfekt ensartede ud. Givet tilstrækkelige data, har outliers en tendens til at annullere hinanden.

Ellenberg konkluderer, at dataene er "bestemt rodet nok til at være sandt."

Benfords lov

Flere analyser har set på de første cifre i Iran-valgresultaterne for at se, om de overholder Benfords lov, som er:

I lister over tal fra mange (men ikke alle) virkelige datakilder distribueres det førende ciffer på en bestemt, ikke-ensartet måde. I henhold til denne lov er det første ciffer 1 næsten en tredjedel af tiden, og større cifre forekommer som det førende ciffer med lavere og lavere frekvens, til det punkt, hvor 9 som et første ciffer forekommer mindre end en gang i tyve. Denne fordeling af første cifre opstår logisk, når et sæt værdier distribueres logaritmisk.

En analyse ved hjælp af denne tak fra Boudewijn Roukema fra Nicolaus Copernicus Universitet i Polen konkluderede, at der var næsten dobbelt så mange stemmetællinger, der startede med tallet 7 for Mehdi Karroubi, end man kunne forvente med Benfords lov. Derudover mistænkte Roukema, at resultaterne for Ahmadinejad, hvor der var færre 1'ere og flere 2'ere og 3'ere end forventet, ville have været sandsynligt, hvis nogen valgte at manipulere resultaterne ved at ændre 1'erne ved afslutningen af afstemningen til 2s og 3s. Det ville også have ført til en overvurdering af Ahmadinejads samlede antal med flere millioner stemmer.

Walter Mebane, en statsvidenskabsmand og statistiker ved University of Michigan, anvendte også Benfords lov i sin analyse, hvor han også finder flere uregelmæssigheder i valgresultaterne i Iran. Men selv han indrømmer, at selv om hans resultater er "forenelige med omfattende svindel", er de også "kompatible med, at Ahmadinejad faktisk har vundet."

De sidste to cifre

To kandidatstuderende i statsvidenskab ved Columbia University tog endnu en tredje opgave ved dataene. I en analyse, som de opsummerede i en Washington Post- op-ed, undersøgte de de to sidste cifre i afstemningstællingerne fra 29 provinser for hver af de fire kandidater (f.eks. Hvis nogen fik 14.579 stemmer, blev kun 7 og 9 overvejet i analysen).

De sidste to cifre i valgresultaterne er tilfældig støj, og fordelingen af cifre skal være temmelig jævn - hvert ciffer skal vises omkring 10 procent af tiden. Mennesker er dog dårlige generatorer af tilfældigt antal, og når vi udgør tal, har vi en tendens til at vælge nogle numre oftere end andre. I Iran-resultaterne ender kun 4 procent af tallene i cifferet 5, mens cifferet 7 vises 17 procent af tiden. Resultater, der afviger så meget, kunne forventes i ca. fire af hvert 100 valg.

Mennesker har også problemer med at skabe tal, der har ikke-tilstødende cifre (dvs. du er mindre tilbøjelige til at komme med 72 end med 23), men disse tal skal også følge tilfældige mønstre, og ca. 70 procent af parene skal bestå af ikke-tilstødende cifre. I Iran-resultaterne er det kun 62 procent, der gør det. Igen forventes disse resultater i ca. 4 af hvert 100 valg. Men kombinationen af de to resultater forventes kun i 1 af hvert 200 valg. Usandsynlig, måske, men ikke umulig.

Hvor forlader det os? Vi ved måske aldrig, om de rapporterede resultater er reelle eller ikke. Min personlige favoritbit af data fra alt dette kræver dog ingen beregninger for at føre til spørgsmål om valg af legitimitet. Dette citat fra Abbas-Ali Kadkhodaei, en talsmand for Irans Guardian Council, ville få næsten enhver til at tænke to gange:

Statistik leveret af Mohsen Resaei, hvor han hævder, at mere end 100% af de berettigede har afgivet deres afstemning i 170 byer er ikke nøjagtige - hændelsen er sket i kun 50 byer.

(Se Nate Silver på fivethirtyeight.com for at få flere oplysninger om valgresultatet i Iran.