Temamodeller arbetar med statistisk analys av distribution av ord, i form av sannolikhetsfördelning över alla ord i en textmassa. Modellerna kan urskilja vilka ord som ingår i ett tema, vilka statliga utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur temat anknyter till andra teman och utredningar. Grundprincipen är att ord samförekommer; det hela är inte konstigare än att det är mer sannolikt att ord som biograf och spelfilm förekommer i en SOU om filmpolitik än termer som fartyg, jordbruk eller arbetsmarknad. Teman figurerar därför med olika procentuella sannolikhetsvärden, probability score, som det heter på engelska. I ordmodeller som listar 200 eller 500 teman är dessa sannolikhetsvärden mycket låga (eftersom det handlar om många teman), medan de i ordmodeller om femtio teman är något högre. I 50-mallet-lda-modellen – som alltså delar in textmassan i alla 3154 SOU:er i femtio teman – så handlar ett tema (nummer 8) tydligt om medier. Temats procentuella sannolikhetsvärde är 1,37027961279058 vilket innebär att medierelaterade spörsmål diskuteras i 1,37 procent av alla utredningar. Inom detta medietema är därtill följande 15 ord procentuellt mest framträdande: film, tidning, radio, program, sverige, reklam, tv, år, skrift, verk, bild, medium, del, television och press. Film är alltså det medium som är mest diskuterat, det förekommer i 1,817154 procent inom temat att jämföra med 0,491520 procent för press.
Om temamodellering ger indikationer på hur övergripande tematiker fördelar sig över specifika SOU:er, hur de är relaterade och samförekommer – det vill säga, vilka utredningar som delar ett specifikt tema – liksom hur teman och förbindelser förändrar sig över tid, så är det av vikt att notera vilken typ av modell man som foskare använder. Modeller som delar in textmassan av utredningar i 50 teman ger generella resultat, medan modeller med 500 teman är mer specifika. Eftersom det är ord (som begrepp) som modellerna beräknar kan ordsammansättningar ibland förvilla. I 50-mallet-lda-modellen figurerar till exempel termen miljö i sju teman. I tema nummer 41 är ordet som starkast – men då handlar det främst om arbetsmiljö. I 100-mallet-lda-modellen däremot skiljs arbetsmiljö (tema 65) och miljövård (tema 21) tydligt åt. Det gäller därför att vara uppmärksam, men i huvudsak kan de olika ordmodellerna ses som sätt att zooma in och ut ur SOU-datan – från det övergripande till det mer partikulära. Temamodellering kan framstå som abstrakt, men i en Jupyter Lab-miljö är det inte speciellt komplicerat att utföra. Som forskare väljer man tema, tidpunkt eller tidsspann, man kan öka eller sänka viktning och så vidare. I allra högsta grad rör det sig om en explorativ forskningsverksamhet.
Generellt handlar tematiker i modellerna med 50 ord om bredare frågeställningar som återkommer i SOU-datan, som exempelvis undervisning (elever och skola), sjukvård (patient och läkare), bostadsfrågor (hushåll och hyra), kriminalvård (missbrukare och socialnämnd) eller kyrka (präster och församlingar). De sistnämnda kan förvåna, men i 50-mallet-lda-modellen finns ett tydligt kyrkotema och i 50-gensim-lda-modellen innehåller hela 26 procent av alla teman kyrkliga termer: församling, gudstjänst, psalmbok, kyrkoherde, Kristus, himmel, pastorat, begravningsplats – ja, till och med herren själv, Gud, figurerar. SOU-datan är full av kristen terminologi.
Eftersom temamodellering handlar om statistisk sannolikhet går det att i en Jupyter Lab-miljö laborera med parametrar och de resultat som modellerna genererar, exempelvis beträffande relationer mellan teman. Sätter man till exempel ett tröskelvärde på 0,3 då plottas alla utredningar som innehåller minst trettio procent av ett specifikt tema. Om tröskelvärdet sänks, så kommer följaktligen fler teman att hänga samman. Omvänt minskar kopplingen mellan teman om samma värden höjs. Men om tröskelvärden sätts alltför lågt (till bara några få procent) så finns risken att teman egentligen handlar om något helt annat. Exakt vilket värde som bör användas beror dock på hur många teman en modell har. I en 500-lda-modell är det konkurrens, där behövs låga tröskelvärden för att få korn på relationer. I en 50-lda-modell kan de vara betydligt högre.
På ett mer generellt plan gör temamodellering det möjligt att se hur en diskurs växer fram – och ibland ändrar karaktär. Miljö och invandring är illustrativa exempel. I den mer övergripande 50-mallet-lda-modellen figurerar miljötermen ungefär lika ofta i teman om familjemiljö och arbetsmiljö (som i miljövård), och det är först under 1970-talet som gröna miljöfrågor blir vanliga i SOU-datan. I 100-ordmodellen är samma mönster tydligt; tema 21 om miljövård återfinns exempelvis enbart i två utredningar före 1950, SOU 1946: 85 (om köttkontroll) och SOU 1949:3 (om livsmedel). Temat rör sig sedan över tid från livsmedelskontroll mot miljövård; de fem sista åren av 1980-talet återkommer det i nio utredningar som till exempel SOU 1987:32 För en bättre miljö eller SOU 1989:32 Miljöprojekt Göteborg. Ser man till 200- och 500-ordmodellerna är bilden densamma: det är först kring 1970 som gröna miljöfrågor blir vanliga. I sin bok Den gröna vändningen skriver David Larsson Heidenblad att miljöfrågor fick sitt samhälleliga genomslag först under 1970-talet. Hans breda och gröna kunskapshistoria bekräftas i så måtto av flera, olika temamodeller kring miljö i SOU-datan.
I den historiska forskning som bedrivits med hjälp av temamodeller brukar det påpekas att modellerna inte sällan bekräftar tidigare forskningsrön. Vän av ordning kan då invända att metoden framstår som historievetenskapligt redundant. Men man kan lika gärna hävda att modellerna verkligen fungerar, och som i exemplet med miljömodellerna och Larsson Heidenblad tydligt indikerar att miljödiskursen i Sverige ändrades vid en specifik tidpunkt. Ett tema som påminner om det kring miljö är temamodeller kring invandring och flyktingar. SOU-datan innehåller många utredningar som tangerar detta tema – från SOU 1946: 36 (om flyktingärenden och säkerhetstjänst) till SOU 1989: 111 (om invandrare i storstad). Söker man på besläktade termer i de olika mallet-lda-modellerna blir man snart varse att invandringstemat figurerar i en rad olika konstellationer i SOU-datan. I 50-ordmodellen finns exempelvis ett tydligt tema kring asyl och invandring (nummer 23), men de termer som är vanligast att förekomma där är snarare utlänning, polis, flykting och brott. Byter man till en 200-ordmodell är brottslighet och invandring inte längre samförekommande, snarare förknippas temat (nummer 91) med medborgarskap och undervisning. Och zoomar man ut ytterligare och använder en 500-ordmodell, så är teman kring utlänning och invandrare ofta skilda åt. Tema 109 behandlar flyktingar, utlänningar och polismyndighet, medan tema 384 handlar om invandrare, språk och undervisning. Noterbart är att dessa bägge teman förekommer i helt olika tidsspann; tema 109 är strikt relaterat till efterdyningarna av andra världskriget, medan tema 384 är förknippat med 1970- och 1980-talet. Bägge dessa teman är emellertid sammankopplade med tema nummer 227 som handlar om både utlänningar och flyktingar, liksom medborgare, polismyndighet och utlänningslag. Resonemang blir lätt abstrakta, men min poäng är att SOU-datan är rik; förbindelser går att spåra i många olika riktningar. I just detta fall kan en nätverksillustration av temamodell 227 därför länka samman SOU 1945:1 Utlänningslag och lag angående omhändertagande av utlänning i anstalt eller förläggning med senare utredningar om exempelvis invandrares rösträtt (SOU 1984:11). I det följande kommer jag att koncentrera mig på temamodeller kopplade till medier. Men som mina korta exempel kring kyrka, miljö och invandring antyder återfinns temamodeller i SOU-datan om de flesta områden som utredningskommittéer ägnat sig åt. Och det är som bekant väldigt, väldigt många.