87 miljoner tecken – ur en kommande artikel om temamodellering av SOUer
Jag håller på och skriver en artikel till tidskriften Scandia om temamodellering av 3154 statliga offentliga utredningar publicerade mellan 1945 och 1989. Mitt uppslag låter sig sammanfattas ungefär så här: om alla SOU:er betraktas som en enda enorm text som staten ’skriver’, vilka teman i denna text kan programvara ’läsa’ och uppfatta? I likhet med Nina Tahmasebi väljer jag att kalla topic modeling för temamodellering på svenska, för det rör sig om ämnen i form av olika (mer eller mindre tydliga) teman som algoritmerna urskiljer. Grundfrågan inom all temamodellering är vilka motiv och tematiker som kan ha tänkts skapat de dokument som forskaren intresserar sig för. Det finns flera olika modeller att arbeta med och de kan ställas in på väldigt många sätt. På Humlab har vi skapat åtta olika latent dirichlet allocation, lda-modeller, fyra så kallade gensim-lda-modeller och fyra mallet-lda-modeller. Utan att gå in på tekniska detaljer så består skillnaden i hur man skattar parametrar i en statistisk modell. Gensim använder en snabbare så kallad Variational Bayes samplingsmetod medan Mallet förlitar sig på vad som kallas Gibbsampling som har högre precision (men är något långsammare). För temamodeller hävdas det ofta att Gibbssampling har statistiska egenskaper som genererar tydligare resultat. Vi har valt att arbeta med temamodeller om 50, 100, 200 och 500 ord. Modellerna har gjorts åtkomliga för mig genom utvecklingsmiljön Jupyter Lab; i den kan man köra (och ändra på) Pythonkod direkt i webbläsaren. I Jupyter Lab har jag kunnat välja mellan gensim- och mallet-modeller (med olika många ord). Generellt har mallet-lda-modellerna genererat bättre resultat, det vill säga teman i SOU-datan vars ord och betydelser tydligt hänger samman. I den här artikeln är det därför främst mallet-lda-modellerna som jag använder. Nedan följer ett utkast av början av texten så som den ser ut:
Temamodeller arbetar med statistisk analys av distribution av ord, i form av sannolikhetsfördelning över alla ord i en textmassa. Modellerna kan urskilja vilka ord som ingår i ett tema, vilka statliga utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur temat anknyter till andra teman och utredningar. Grundprincipen är att ord samförekommer; det hela är inte konstigare än att det är mer sannolikt att ord som biograf och spelfilm förekommer i en SOU om filmpolitik än termer som fartyg, jordbruk eller arbetsmarknad. Teman figurerar därför med olika procentuella sannolikhetsvärden, probability score, som det heter på engelska. I ordmodeller som listar 200 eller 500 teman är dessa sannolikhetsvärden mycket låga (eftersom det handlar om många teman), medan de i ordmodeller om femtio teman är något högre. I 50-mallet-lda-modellen – som alltså delar in textmassan i alla 3154 SOU:er i femtio teman – så handlar ett tema (nummer 8) tydligt om medier. Temats procentuella sannolikhetsvärde är 1,37027961279058 vilket innebär att medierelaterade spörsmål diskuteras i 1,37 procent av alla utredningar. Inom detta medietema är därtill följande 15 ord procentuellt mest framträdande: film, tidning, radio, program, sverige, reklam, tv, år, skrift, verk, bild, medium, del, television och press. Film är alltså det medium som är mest diskuterat, det förekommer i 1,817154 procent inom temat att jämföra med 0,491520 procent för press.
Om temamodellering ger indikationer på hur övergripande tematiker fördelar sig över specifika SOU:er, hur de är relaterade och samförekommer – det vill säga, vilka utredningar som delar ett specifikt tema – liksom hur teman och förbindelser förändrar sig över tid, så är det av vikt att notera vilken typ av modell man som foskare använder. Modeller som delar in textmassan av utredningar i 50 teman ger generella resultat, medan modeller med 500 teman är mer specifika. Eftersom det är ord (som begrepp) som modellerna beräknar kan ordsammansättningar ibland förvilla. I 50-mallet-lda-modellen figurerar till exempel termen miljö i sju teman. I tema nummer 41 är ordet som starkast – men då handlar det främst om arbetsmiljö. I 100-mallet-lda-modellen däremot skiljs arbetsmiljö (tema 65) och miljövård (tema 21) tydligt åt. Det gäller därför att vara uppmärksam, men i huvudsak kan de olika ordmodellerna ses som sätt att zooma in och ut ur SOU-datan – från det övergripande till det mer partikulära. Temamodellering kan framstå som abstrakt, men i en Jupyter Lab-miljö är det inte speciellt komplicerat att utföra. Som forskare väljer man tema, tidpunkt eller tidsspann, man kan öka eller sänka viktning och så vidare. I allra högsta grad rör det sig om en explorativ forskningsverksamhet.
Generellt handlar tematiker i modellerna med 50 ord om bredare frågeställningar som återkommer i SOU-datan, som exempelvis undervisning (elever och skola), sjukvård (patient och läkare), bostadsfrågor (hushåll och hyra), kriminalvård (missbrukare och socialnämnd) eller kyrka (präster och församlingar). De sistnämnda kan förvåna, men i 50-mallet-lda-modellen finns ett tydligt kyrkotema och i 50-gensim-lda-modellen innehåller hela 26 procent av alla teman kyrkliga termer: församling, gudstjänst, psalmbok, kyrkoherde, Kristus, himmel, pastorat, begravningsplats – ja, till och med herren själv, Gud, figurerar. SOU-datan är full av kristen terminologi.
Eftersom temamodellering handlar om statistisk sannolikhet går det att i en Jupyter Lab-miljö laborera med parametrar och de resultat som modellerna genererar, exempelvis beträffande relationer mellan teman. Sätter man till exempel ett tröskelvärde på 0,3 då plottas alla utredningar som innehåller minst trettio procent av ett specifikt tema. Om tröskelvärdet sänks, så kommer följaktligen fler teman att hänga samman. Omvänt minskar kopplingen mellan teman om samma värden höjs. Men om tröskelvärden sätts alltför lågt (till bara några få procent) så finns risken att teman egentligen handlar om något helt annat. Exakt vilket värde som bör användas beror dock på hur många teman en modell har. I en 500-lda-modell är det konkurrens, där behövs låga tröskelvärden för att få korn på relationer. I en 50-lda-modell kan de vara betydligt högre.
På ett mer generellt plan gör temamodellering det möjligt att se hur en diskurs växer fram – och ibland ändrar karaktär. Miljö och invandring är illustrativa exempel. I den mer övergripande 50-mallet-lda-modellen figurerar miljötermen ungefär lika ofta i teman om familjemiljö och arbetsmiljö (som i miljövård), och det är först under 1970-talet som gröna miljöfrågor blir vanliga i SOU-datan. I 100-ordmodellen är samma mönster tydligt; tema 21 om miljövård återfinns exempelvis enbart i två utredningar före 1950, SOU 1946: 85 (om köttkontroll) och SOU 1949:3 (om livsmedel). Temat rör sig sedan över tid från livsmedelskontroll mot miljövård; de fem sista åren av 1980-talet återkommer det i nio utredningar som till exempel SOU 1987:32 För en bättre miljö eller SOU 1989:32 Miljöprojekt Göteborg. Ser man till 200- och 500-ordmodellerna är bilden densamma: det är först kring 1970 som gröna miljöfrågor blir vanliga. I sin bok Den gröna vändningen skriver David Larsson Heidenblad att miljöfrågor fick sitt samhälleliga genomslag först under 1970-talet. Hans breda och gröna kunskapshistoria bekräftas i så måtto av flera, olika temamodeller kring miljö i SOU-datan.
I den historiska forskning som bedrivits med hjälp av temamodeller brukar det påpekas att modellerna inte sällan bekräftar tidigare forskningsrön. Vän av ordning kan då invända att metoden framstår som historievetenskapligt redundant. Men man kan lika gärna hävda att modellerna verkligen fungerar, och som i exemplet med miljömodellerna och Larsson Heidenblad tydligt indikerar att miljödiskursen i Sverige ändrades vid en specifik tidpunkt. Ett tema som påminner om det kring miljö är temamodeller kring invandring och flyktingar. SOU-datan innehåller många utredningar som tangerar detta tema – från SOU 1946: 36 (om flyktingärenden och säkerhetstjänst) till SOU 1989: 111 (om invandrare i storstad). Söker man på besläktade termer i de olika mallet-lda-modellerna blir man snart varse att invandringstemat figurerar i en rad olika konstellationer i SOU-datan. I 50-ordmodellen finns exempelvis ett tydligt tema kring asyl och invandring (nummer 23), men de termer som är vanligast att förekomma där är snarare utlänning, polis, flykting och brott. Byter man till en 200-ordmodell är brottslighet och invandring inte längre samförekommande, snarare förknippas temat (nummer 91) med medborgarskap och undervisning. Och zoomar man ut ytterligare och använder en 500-ordmodell, så är teman kring utlänning och invandrare ofta skilda åt. Tema 109 behandlar flyktingar, utlänningar och polismyndighet, medan tema 384 handlar om invandrare, språk och undervisning. Noterbart är att dessa bägge teman förekommer i helt olika tidsspann; tema 109 är strikt relaterat till efterdyningarna av andra världskriget, medan tema 384 är förknippat med 1970- och 1980-talet. Bägge dessa teman är emellertid sammankopplade med tema nummer 227 som handlar om både utlänningar och flyktingar, liksom medborgare, polismyndighet och utlänningslag. Resonemang blir lätt abstrakta, men min poäng är att SOU-datan är rik; förbindelser går att spåra i många olika riktningar. I just detta fall kan en nätverksillustration av temamodell 227 därför länka samman SOU 1945:1 Utlänningslag och lag angående omhändertagande av utlänning i anstalt eller förläggning med senare utredningar om exempelvis invandrares rösträtt (SOU 1984:11). I det följande kommer jag att koncentrera mig på temamodeller kopplade till medier. Men som mina korta exempel kring kyrka, miljö och invandring antyder återfinns temamodeller i SOU-datan om de flesta områden som utredningskommittéer ägnat sig åt. Och det är som bekant väldigt, väldigt många.