Tweets fra hele verden, afbildet efter placering som en del af en ny undersøgelse. Klik for at forstørre. Billede via første mandag / Leetaru et. al.
Det er svært at forstå, hvor hurtigt og grundigt Twitter har overtaget verden. For kun syv år siden, i 2006, var det en idé skitseret på en papirpude. Nu bruges tjenesten af anslåede 554 millioner brugere - et antal, der svarer til næsten 8 procent af alle mennesker på kloden - og anslået 170 milliarder tweets er sendt, hvor antallet klatrer med ca. 58 millioner hver eneste dag .
Alle disse tweets giver en uvurderlig kilde til nyheder, underholdning, samtale og forbindelse mellem mennesker. Men for forskere er de også værdifulde som noget temmelig anderledes: rå data.
Fordi Twitter har et åbent API (som giver mulighed for at downloade tweets som rå, analyserbare data) og mange tweets er geotagget, kan forskere bruge milliarder af disse tweets og analysere dem efter placering for at lære mere om menneskers geografi over hele planeten. Sidste efterår, som en del af Global Twitter Heartbeat, analyserede et team af University of Illinois sproget og placeringen af over en milliard tweets fra hele USA for at skabe sofistikerede kort over ting som positive og negative følelser udtrykt under orkanen Sandy eller støtte til Barack Obama eller Mitt Romney under præsidentvalget.
Som Joshua Keating bemærkede på bloggen for udenrigspolitikken War of Ideas, er medlemmer af den samme gruppe, ledet af Kalev Leetaru, for nylig gået et skridt videre. Som offentliggjort i en ny undersøgelse tidligere i denne uge i onlinetidsskriftet Første mandag analyserede de placeringer og sprog på 46.672.798 tweets sendt mellem 23. oktober og 30. november sidste år for at skabe et fantastisk portræt af menneskelig aktivitet rundt om i planeten, vist på toppen af indlægget. De benyttede sig af Twitter-decahose, en datastrøm, der fanger en tilfældig 10 procent af alle tweets over hele verden til enhver tid (som i alt udgjorde 1.535.929.521 i tidsperioden) og simpelthen fokuserede på tweets med tilhørende geografiske data.
Som forskerne bemærker, matcher tweets geografiske tæthed i mange regioner - især i den vestlige verden, hvor computere, mobile enheder og Twitter alle bruges på højeste niveau - tæt på graden af elektrificering og belysningsbrug. Som et resultat ender kortene af tweets (f.eks. Det detaljerede udsigt over det kontinentale USA nedenfor) med at ligne meget satellitbilleder af kunstigt lys om natten.
Klik for at forstørre. Billede via første mandag / Leetaru et. al.
Som en test for at se, hvor godt tweets matchede brugen af kunstigt lys, skabte de det sammensatte kort nedenfor, hvor tweets vises som røde prikker og natbelysning vises som blå. Områder, hvor de svarer i frekvens (og effektivt annullerer hinanden) vises som hvide, og områder, hvor den ene opvejer den anden forbliver rød eller blå. Mange områder ender med at se temmelig hvide ud, med nogle centrale undtagelser: Iran og Kina, hvor Twitter er forbudt, er mærkbart blå, mens mange lande med relativt lave elektrificeringshastigheder (men hvor Twitter stadig er populære) fremstår som røde.
Klik for at forstørre. Billede via første mandag / Leetaru et. al.
Projektet blev endnu mere interessant, da forskerne brugte et automatiseret system til at nedbryde tweets efter sprog. Det mest almindelige sprog på Twitter er engelsk, der er repræsenteret i 38, 25 procent af alle tweets. Derefter kom japansk (11, 84 procent), spansk (11, 37 procent), indonesisk (8, 84 procent), norsk (7, 74 procent) og portugisisk (5, 58 procent).
Holdet konstruerede et kort over alle tweets skrevet på de 26 mest populære sprog, med hver repræsenteret af en anden farve, herunder:
Klik for at forstørre. Billede via første mandag / Leetaru et. al.
Mens de fleste lands tweets domineres af deres officielle sprog, afsløres mange for at inkludere tweets på en række andre sprog. Se nøje nok, og du vil se en regnbue med farver, der subtilt dukker ud fra de grå prikker (engelske tweets), der tæpper USA:
Klik for at forstørre. Billede via første mandag / Leetaru et. al.
Blandt andre analyser kiggede forskerteamet endda på geografien for at gentweet og henvise - den gennemsnitlige afstand mellem en bruger og en, han eller hun genvækker, samt den gennemsnitlige afstand mellem denne bruger og en, han eller hun blot refererer til i en tweet. I gennemsnit var afstanden til en retweet 1115 miles og 1.118 for en reference. Men modsat var der en positiv sammenhæng mellem antallet af gange, en given bruger gentweet eller henviste til en anden bruger og deres afstand: Par af brugere med bare en håndfuld interaktion, i det store og hele, var mere tilbøjelige til at være tættere på hinanden (500- 600 miles fra hinanden) end dem med dusinvis af retweets og referencer mellem dem.
Dette indikerer, at brugere, der bor langt fra hinanden, mere sandsynligt bruger Twitter til at interagere regelmæssigt. En forklaring kan være, at enheder med flest tilhængere - og dermed mest referencer og retweets - ofte er berømtheder, organisationer eller virksomheder, brugere, som folk er bekendt med, men som faktisk ikke har et personligt forhold til. Et globalt kort over genopfyldninger mellem brugere er nedenfor:
Klik for at forstørre. Billede via første mandag / Leetaru et. al.
Papiret blev endnu mere detaljeret beskrevet om andre data, der er forbundet med tweets: forholdet mellem mainstream nyhedsdækning og antallet af tweets i et land (Europa og USA får uforholdsmæssig mediedækning, mens Latinamerika og Indonesien overses), de steder, Twitter har tilføjede de fleste brugere for nylig (Mellemøsten og Spanien) og de steder, hvor brugerne i gennemsnit har flest følgere (Sydamerika og vestkysten).
Der er et par advarsler til alle disse data. For det første er de analyserede tweets antallet af titusinder af millioner, men de er stadig kun 0, 3 procent af alle sendte tweets, så de repræsenterer muligvis ikke tilstrækkeligt alle Twitter-mønstre, især hvis brugere, der aktiverer geotagging, opfører sig anderledes end andre. I den hurtigt skiftende verden af Twitter kan nogle tendenser muligvis allerede være ændret markant siden sidste efterår. Men når Twitter fortsætter med at vokse, og når flere data bliver tilgængelige, er det grund til, at denne slags analyse kun vil blive mere populær for demografer, computerforskere og andre forskere.