100 miljoner ord

Jag håller för närvarande på och skriver på en artikel till Historisk tidskrift, den har ett kommande temanummer om empiri. I texten presenterar jag en del av den forskning vi ägnat oss åt inom projektet Välfärdsstaten analyserad – liksom några tentativa resultat. Men mitt fokus ligger främst på det praktiska hantverket med att arbeta med storskalig empiri, på iordningställande och arbete med datakurering, samt de möjligheter och tillkortakommanden som sådana forskningspraktiker inbegriper. En fråga jag intresserar mig för är relationen mellan data och empiri. Som mediehistoriker, med ett intresse för forskningsarbete med digitala metoder, har jag återkommande funderat på vad som egentligen utgör empiri i min forskning, och vilken relation termer som data, empiri och information egentligen har till varandra. I skrivande stund ser anslaget till artikeln ut så här:

”Empiri är datainsamling genom vetenskapliga undersökningar av verkligheten”, kan man läsa på Wikipedia. Men hur är egentligen begrepp som som empiri och data relaterade? Det är förstås en omtvistad fråga, men som likväl kan undersökas – exempelvis genom att studera versionshistoriken av just termen empiri på Wikipedia. Även på svenska är data om posten mycket omfattande; under fliken ”Visa historik” återfinns hundratals ändringar publicerade under snart tjugo års tid. ”Empiri är vetenskapliga undersökningar av verkligheten”, hette det i den första artikeln från 2002. Några år senare hade den inledande meningen ändrats till: ”Empiri innebär när människan bygger en slutsats utav våra sinnen”, en något ålderdomlig formulering, men inte uppseendeväckande eftersom svenskt innehåll på Wikipedia ibland baserar sig på (mer eller mindre) automatgenererad, aggregerad text från inskannade äldre källor på webben, som exempelvis Uggleupplagan av Nordisk familjebok. Och det är förstås inte enbart text som autogenereras, en betydande del av ändringarna i artikelposten om empiri är utförda av botar, korta städalgoritmer som friserar (i regel) ovidkommande ändringar. Loggen för artikelposten vimlar av sådana ändringar: robot tar bort, gör ogjord, rullade tillbaka redigeringar. Dataflöden av text går alltså i olika riktningar, men merparten av datan om posten empiri går enkelt att studera online på Wikipedia. Vem som gjort ändringar framgår naturligtvis, och det är även möjligt att grafiskt via applikationen RevisionSlider jämföra olika poster med varandra, ”bläddra interaktivt i historiken”, där val av publiceringstidpunkt lätt kan specificeras. Sidstorlek (i antal byte) framgår då också, liksom positiv eller negativ ändringsstorlek på poster. Och är man lite fingerfärdig går empirin – om posten empiri – förstås att sätta samman och ladda ned som ett dataset.James Bridles bokinstallation, The Iraq war: A historiography of Wikipedia changelogs från 2012 – tryckt i ett enda exemplar om tolv volymer på sjutusen sidor med samtliga tolv tusen ändringar av den engelska artikelposten om Irakkriget mellan 2004–09 – är alltjämt det mest illustrativa exemplet på den enorma mängd textdata som en enskild artikel på Wikipedia kan innehålla. Bokverket samlar en sorts kulturell argumentationsprocess kring en minst sagt omtvistad fråga som också illustrerar den digitala teknikens väldiga dokumentationsförmåga, en svällande historiografisk empiri bokstavligen utan slut (bara under sommaren 2021 gjorde ytterligare hundratals ändringar i samma artikelpost). Att digitalt källmaterial ställer historikern inför betydande utmaningar är välbekant. Men vilken roll spelar skala och storlek på den empiri som historikern arbetar med? Kan ett dataset på flera hundra miljoner ord betraktas som historisk empiri? Om ja – vad är det då för sorts forskningspraktik som etableras när en sådan massiv empiri inte längre går att vare sig läsa eller förstå utan datorers hjälp? Och hur förändrar empiri som dataset de frågor som vi historiker ställer?

För en människa är det inte möjligt att läsa ett dataset med flera hundra miljoner ord – men med mjukvara går det. En återkommande frågeställning inom kunskapsfältet digital historia är därför vad tekniken uppfattar när exempelvis algoritmisk textanalys appliceras på ett omfattande empiriskt material. Jo Guldi har i en analys av politiska diskussioner om brittisk infrastruktur under 1800-talet, baserade på the Hansard – transkriberade debatter från Storbritanniens parlament, ett dataset på flera hundra miljoner ord – påpekat att storskalig textanalys gör det möjligt att spåra ”the invisible categories that structure mind, language, priorities, or prejudice in a given corpus”. Andra forskare har närmat sig en snarlik omfattande empiri utifrån ett begreppshistoriskt perspektiv; Matti La Mela har till exempel studerat hur ett begrepp som allemansrättenförändras i diskussioner och debatter i den finska riksdagen under 1900-talet. En annan metod som blivit vanlig bland historiker är så kallad topic modeling – temamodellering på svenska – ett samlingsnamn på en rad algoritmer som kan klassificera stora textkorpusar baserat på tematiska strukturer i textmassan. Genom temamodellering kan diskurser och begrepp urskiljas, baserade på ords statistiska sammanhang i ett mycket omfattande empiriskt material.

Ett dataset brukar ses som en större textsamling av strukturerad data. Själv brukar jag använda beteckningen kulturella dataset som ett sätt att antyda att data kommer från en kulturhistorisk sfär, exempelvis bestående av äldre dagspress, tidskrifter eller utredningar. Ett kulturellt dataset som jag själv återkommande arbetar med innehåller alla statliga offentliga utredningar mellan 1945 till 1989; det rör sig om fler än tre tusen utredningar. Använder man den algoritmiska temamodellen latent dirichlet allocation (lda) som kan dela in detta dataset i n teman, och i just detta fall sorterar datan i 500 teman, så är det möjligt att spåra ett som tydligt handlar om humaniora, historia och språk. I ett flertal SOU:er återfinns alltså ett humanioratema – i varierande procentuell styrka. I temamodellen urskiljs de ord som ingår, exakt vilka utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur det anknyter till andra teman och utredningar. Humanioratemat (godtyckligt numrerat som 396) är som starkast fram till omkring 1970; det innehåller frekventa ord som språk, historia, universitet, latin och litteratur – men även termer som beläsenhet och humanist. Temat kan i sin tur sättas i relation till andra teman som det delar ord med, till exempel ett universitetstema (med nummer 330), där de mest frekventa termerna är fakultet, universitet, högskola, ämne och undervisning, eller med ett kulturarvstema (nummer 386) med de mest prominenta orden byggnad, museum, kulturminnesvård, landsantikvarie och riksantikvarieämbetet.

Illustrationerna ovan ger en antydan om att statliga utredningar som sammansatt dataset är ett rikt forskningsmaterial; ett slags omfattande textarkiv som kan analyseras, läsas och visualiseras på många olika sätt, inbegripet såväl tematiska som kronologiska nedslag. Grundprincipen för all temamodellering är att ord samförekommer; temamodeller arbetar med statistisk analys av distribution av ord i form av sannolikhetsfördelning över alla ord i en textmassa. I fallet med humanioratema 396 så förekommer det i knappt två procent av de inalles 3154 utredningar från perioden. Det låter kanske lite, men det gäller alltså enbart detta mycket specifika tema. SOU-datan från denna period inbegriper 87 miljoner ord, en historisk empiri som är betydligt mer omfattande än den som historievetenskapen i regel använder sig av. När en beläsen humanist (för att nu knyta an till temat) som Reinhart Koselleck i sin Vergangene Zukunft (1979) metodologiskt redogör för sin begreppsorienterade empiri heter det att den baserar sig på läsning under tjugo års tid av tryckta tidsupplevelser formulerade av politiker, filosofer, teologer och diktare, liksom mer obekanta skrifter och ordböcker – samt förstås historikers egna utsagor. ”Solche Texte wurden gesucht und befragt”, som det står i original på tyska. Empirin har efter betydande forskarmödor tålmodigt letats fram i bibliotek och arkiv, ibland systematiskt får man förmoda, men stundtals också mer eller mindre godtyckligt. För det är ju så många historiker ofta arbetar; även jag själv – vi kan inte läsa allt. Devisen ”gesucht und befragt” gäller förstås inte för alla historiska studier, men ganska många skulle jag vilja hävda. Som mediehistoriker har jag metodologiskt arbetat ungefär på det sättet under mer än två decennier.

Men i takt med att allt mer historisk empiri (förstått i vid bemärkelse) blivit digital har den både blivit sökbar på nytt liksom möjlig att analysera med olika typer av mjukvara. Begreppsanvändning går nu att analysera på andra sätt än tidigare, och på grundval av en empiri som är betydligt mer omfattande – även om det i fallet med SOU-datan härrör sig från en enda materialkategori. Den traditionella metoden ”gesucht und befragt” har i så måtto ändrat karaktär när arkivdriven historievetenskap kompletterats med datadriven digital history, det senare ett kunskapfält som kommit att omfatta flera olika humanistiska discipliner. ”Digital history is an approach to examining and representing the past; it uses new communication technologies and media applications and experiments with computational methods for the analyses, production and dissemination of historical knowledge.” Ofta – men inte alltid – innebär det en metodologisk förskjutning från kvalitativa till kvantitativa studier där empirin ökat rejält i omfång. Andrew Piper har i en syrlig text om litteraturvetenskapens behov av att gå från när- till fjärrläsning, distant reading, exemplifierat med en annan tysk lärdomsgigant, Erich Auerbach, och frågat sig om ”verklighetsframställningen i den västerländska litteraturen” – undertiteln till Mimesis (1946) – verkligen går att analysera utifrån en skönlitterär empiri bestående av ett tjugotal kanoniserade böcker. Att Auerbach (liksom Koselleck) var en flitig läsare betvivlar ingen: ”Who would ever presume to have read more than Auerbach? But what if he actually hadn’t read enough?” 

I ett forskningsprojekt som jag leder – Välfärdsstaten analyserad. Textanalys och modellering av svensk politik, media och kultur 1945–1989 – arbetar vi med olika typer av algoritmisk textanalys av storskalig empiri från politikens sfär (allt digitaliserat riksdagstryck och alla statliga offentliga utredningar under perioden), digitaliserad dagspress (det rör sig om tiotalet dagstidningar) och skönlitteratur (alla svenska romaner utgivna under perioden håller på att digitaliseras), därtill har periodens mest prestigefulla kulturtidskrift, Bonniers litterära magasin digitaliserats och iordningställts som dataset. Det rör sig om en historisk empiri grupperad i flera dataset, vilka sammantagna omfattar hundratals miljoner ord. Lingvister och språkteknologer har under lång tid arbetat med snarlika, omfattande textkorpusar, och i vårt projekt använder vi både enklare språkteknologiska metoder som ordfrekvenser och kollokationer, bigrams (ordpar som uppträder tillsammans) liksom mer sofistikerade algoritmer som ovan nämnda temamodeller eller NER-algoritmer (Named-entity recognition) där personnamn, geografi och tidsmarkörer automatiskt kan taggas upp. Men vi är inte språkvetare; Välfärdsstaten analyserad är ett historievetenskapligt forskningsprojekt, där grundtanken är att studera diskursiva förändringar på makronivå inom tre olika samhällssfärer. Svensk efterkrigstid är en väl utforskad period, men genom att applicera digitala metoder på kurerade dataset kommer politikens, nyhetsmediernas och kulturens sfärer att kunna granskas på nytt.

I den här artikeln kommer jag att presentera en del av den forskning vi ägnat oss åt inom Välfärdsstaten analyserad – samt några tentativa resultat. Men mitt fokus ligger främst på det praktiska hantverket med att arbeta med storskalig empiri, på iordningställande och arbete med datakurering, samt de möjligheter och tillkortakommanden som sådana forskningspraktiker inbegriper. En fråga jag intresserar mig för är relationen mellan data och empiri; i vårt projekt har vi dels arbetat med redan existerande dataset (hämtade från Riksdagens öppna data) men även skapat nya dataset utifrån äldre textsamlingar som digitaliserats. Som mediehistoriker, med ett intresse för forskningsarbete med digitala metoder, har jag därför återkommande funderat på vad som egentligen utgör min empiri, och vilken relation termer som data, empiri och information egentligen har till varandra. Artikeln är ställvis personligt hållen och innehåller en rad reflektioner kring historikerns arbete med storskalig textuell empiri. En erfarenhet är att historikerns förhållande till empiri ändrar karaktär när denna blir så omfattande att den inte längre går att överblicka (utan datorers hjälp). En annan är att själva forskningspraktiken förändras, där exempelvis förändrade utfall av körningar gör att frågeställningar måste korrigeras. Det handlar inte enbart om lära sig att förstå kod (någorlunda), eller att samarbeta med programmerare. Som historiker måste man nu också samarbeta med statistiker och maskininlärningsexperter för att iordningställa och kurera dataset (vilket tar enormt med tid), liksom att arbeta med dessa dataset på nya sätt; att ladda olika modeller, att laborera med varierande ingångsvärden, att ändra parametrar och iordningställa utfall på ett sätt som ofta skiljer sig betydligt, för att inte säga radikalt från traditionell historievetenskaplig praktik.