Nytt forskningsprojekt beviljat av RJ

Jag fick idag glädjande besked av RJ om att projektansökan Moderna tider 1936 beviljats. Tillsammans med mina kollegor Maria Eriksson, Fredrik Norén och Emil Stjernholm kommer vi att undersöka vad samtida algoritmer för mönsterigenkänning ser och hör när de appliceras på mediehistoriskt källmaterial. All historieskrivning kräver förstås tolkningsarbete – men vilka algoritmiska uttolkningar av det förflutna åstadkommer mjukvara? En webbsida om projektet kommer att lanseras vad det lider – men anslaget till vår engelska ansökan ger en vink om vad vi tänker oss:

Media historians usually argue that the past is only available to us through media—be they antique graffiti, disintegrating newspapers, sepia-toned photographs, or last year’s YouTube clip. All humanistic infrastructures (such as libraries) can hence be seen as media archives, where media-specific conditions regulate what is discursively stored. Today, however, cultural heritage institutions are not simply storage facilities but dynamic repositories of digitized content that can be explored with computational methods in new and fascinating ways.

In 1991, Manuel de Landa forecasted a coming age of robots dedicated to understanding their historical origins; he even envisioned “specialized robot historians” committed to trace their genesis, writing “a different kind of history” than humans. Similarly, Hannes Alfvén’s 1966 Swedish science fiction novel, translated as The tale of the big computer conjured up a future where computers not only ruled the world but also had the power to write its past. All likely a computer (“en data”) narrated Alfvén’s story: “When a historian has reached his own time, he ought perhaps to lay down his pen … But how do computers view the problem of man?”

Today, we find ourselves in a situation where machines can be assigned the task of seeing and modeling the human past. What once had a sci-fi character is nowadays a scholarly reality. The project proposal Modern Times 1936— acronym MODERN-36—departs from the fact that the past is not only mediated but increasingly numerically stored and hence prone to computational analysis in ways once envisioned by Alfvén and de Landa. Yet—and this is the overarching research question—what exactly is it that software sees, hears, and perceives when technologies for pattern recognition are applied to sonic and visual media historical sources? MODERN-36 will examine machinic ways of interpreting expressions of modernity in media archival materials from 1936, intentionally zooming in on a comparatively non-spectacular year in Swedish history. Coincidentally, this was also the year when Charlie Chaplin’s film Modern Times premiered, with the little tramp struggling in an increasingly industrialized world—a film that has an iconic status as a critical comment on modernity.

MODERN-36 will focus on one year in order to study quotidian signs of the modern condition. 1936 was a fairly peaceful and politically stable year in Sweden where modernity is often said to have arrived late. At the same time, this was an era of dramatic transformation: several Swedish urban renewal projects were underway in the mid 1930s; technological developments reshaped manufacturing and consumption practices; and a series of new media (such as radio, sound film, and illustrated press) were becoming increasingly popular as sources of both entertainment and education, calling forth new forms of collective experiences and cultural encounters.

MODERN-36 will explore how artificial intelligence (AI) and machine learning (ML) methods can foster new and stimulating knowledge about the history of Swedish modernity—while at the same time developing, and critically scrutinizing, methodological toolboxes for the study of the past. The research is aligned with the recent turn towards large-scale computational analysis of sound and visual content in historical research, and focuses on sonic, photographic, and audiovisual collections from 1936: some 15,000 digitized photographs from DigitaltMuseum, all preserved radio programs from Swedish Radio (Radiotjänst), and all newsreels and short films produced by Svensk Filmindustri. Approaching these collections as datasets, MODERN-36 will develop, and critically explore state-of-the-art digital humanities methods such as speech recognition, object detection and probabilistic topic modeling in three ways: (1.) to examine how software can assist historians in discerning new historical knowledge, (2.) to construct midsize and curated datasets to increase the research capacity of media historical sources and ways of studying these, and (3.) to interrogate algorithmic detection by evaluating what machines can—and cannot—notice in the selected data. 

100 miljoner ord

Jag håller för närvarande på och skriver på en artikel till Historisk tidskrift, den har ett kommande temanummer om empiri. I texten presenterar jag en del av den forskning vi ägnat oss åt inom projektet Välfärdsstaten analyserad – liksom några tentativa resultat. Men mitt fokus ligger främst på det praktiska hantverket med att arbeta med storskalig empiri, på iordningställande och arbete med datakurering, samt de möjligheter och tillkortakommanden som sådana forskningspraktiker inbegriper. En fråga jag intresserar mig för är relationen mellan data och empiri. Som mediehistoriker, med ett intresse för forskningsarbete med digitala metoder, har jag återkommande funderat på vad som egentligen utgör empiri i min forskning, och vilken relation termer som data, empiri och information egentligen har till varandra. I skrivande stund ser anslaget till artikeln ut så här:

”Empiri är datainsamling genom vetenskapliga undersökningar av verkligheten”, kan man läsa på Wikipedia. Men hur är egentligen begrepp som som empiri och data relaterade? Det är förstås en omtvistad fråga, men som likväl kan undersökas – exempelvis genom att studera versionshistoriken av just termen empiri på Wikipedia. Även på svenska är data om posten mycket omfattande; under fliken ”Visa historik” återfinns hundratals ändringar publicerade under snart tjugo års tid. ”Empiri är vetenskapliga undersökningar av verkligheten”, hette det i den första artikeln från 2002. Några år senare hade den inledande meningen ändrats till: ”Empiri innebär när människan bygger en slutsats utav våra sinnen”, en något ålderdomlig formulering, men inte uppseendeväckande eftersom svenskt innehåll på Wikipedia ibland baserar sig på (mer eller mindre) automatgenererad, aggregerad text från inskannade äldre källor på webben, som exempelvis Uggleupplagan av Nordisk familjebok. Och det är förstås inte enbart text som autogenereras, en betydande del av ändringarna i artikelposten om empiri är utförda av botar, korta städalgoritmer som friserar (i regel) ovidkommande ändringar. Loggen för artikelposten vimlar av sådana ändringar: robot tar bort, gör ogjord, rullade tillbaka redigeringar. Dataflöden av text går alltså i olika riktningar, men merparten av datan om posten empiri går enkelt att studera online på Wikipedia. Vem som gjort ändringar framgår naturligtvis, och det är även möjligt att grafiskt via applikationen RevisionSlider jämföra olika poster med varandra, ”bläddra interaktivt i historiken”, där val av publiceringstidpunkt lätt kan specificeras. Sidstorlek (i antal byte) framgår då också, liksom positiv eller negativ ändringsstorlek på poster. Och är man lite fingerfärdig går empirin – om posten empiri – förstås att sätta samman och ladda ned som ett dataset.James Bridles bokinstallation, The Iraq war: A historiography of Wikipedia changelogs från 2012 – tryckt i ett enda exemplar om tolv volymer på sjutusen sidor med samtliga tolv tusen ändringar av den engelska artikelposten om Irakkriget mellan 2004–09 – är alltjämt det mest illustrativa exemplet på den enorma mängd textdata som en enskild artikel på Wikipedia kan innehålla. Bokverket samlar en sorts kulturell argumentationsprocess kring en minst sagt omtvistad fråga som också illustrerar den digitala teknikens väldiga dokumentationsförmåga, en svällande historiografisk empiri bokstavligen utan slut (bara under sommaren 2021 gjorde ytterligare hundratals ändringar i samma artikelpost). Att digitalt källmaterial ställer historikern inför betydande utmaningar är välbekant. Men vilken roll spelar skala och storlek på den empiri som historikern arbetar med? Kan ett dataset på flera hundra miljoner ord betraktas som historisk empiri? Om ja – vad är det då för sorts forskningspraktik som etableras när en sådan massiv empiri inte längre går att vare sig läsa eller förstå utan datorers hjälp? Och hur förändrar empiri som dataset de frågor som vi historiker ställer?

För en människa är det inte möjligt att läsa ett dataset med flera hundra miljoner ord – men med mjukvara går det. En återkommande frågeställning inom kunskapsfältet digital historia är därför vad tekniken uppfattar när exempelvis algoritmisk textanalys appliceras på ett omfattande empiriskt material. Jo Guldi har i en analys av politiska diskussioner om brittisk infrastruktur under 1800-talet, baserade på the Hansard – transkriberade debatter från Storbritanniens parlament, ett dataset på flera hundra miljoner ord – påpekat att storskalig textanalys gör det möjligt att spåra ”the invisible categories that structure mind, language, priorities, or prejudice in a given corpus”. Andra forskare har närmat sig en snarlik omfattande empiri utifrån ett begreppshistoriskt perspektiv; Matti La Mela har till exempel studerat hur ett begrepp som allemansrättenförändras i diskussioner och debatter i den finska riksdagen under 1900-talet. En annan metod som blivit vanlig bland historiker är så kallad topic modeling – temamodellering på svenska – ett samlingsnamn på en rad algoritmer som kan klassificera stora textkorpusar baserat på tematiska strukturer i textmassan. Genom temamodellering kan diskurser och begrepp urskiljas, baserade på ords statistiska sammanhang i ett mycket omfattande empiriskt material.

Ett dataset brukar ses som en större textsamling av strukturerad data. Själv brukar jag använda beteckningen kulturella dataset som ett sätt att antyda att data kommer från en kulturhistorisk sfär, exempelvis bestående av äldre dagspress, tidskrifter eller utredningar. Ett kulturellt dataset som jag själv återkommande arbetar med innehåller alla statliga offentliga utredningar mellan 1945 till 1989; det rör sig om fler än tre tusen utredningar. Använder man den algoritmiska temamodellen latent dirichlet allocation (lda) som kan dela in detta dataset i n teman, och i just detta fall sorterar datan i 500 teman, så är det möjligt att spåra ett som tydligt handlar om humaniora, historia och språk. I ett flertal SOU:er återfinns alltså ett humanioratema – i varierande procentuell styrka. I temamodellen urskiljs de ord som ingår, exakt vilka utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur det anknyter till andra teman och utredningar. Humanioratemat (godtyckligt numrerat som 396) är som starkast fram till omkring 1970; det innehåller frekventa ord som språk, historia, universitet, latin och litteratur – men även termer som beläsenhet och humanist. Temat kan i sin tur sättas i relation till andra teman som det delar ord med, till exempel ett universitetstema (med nummer 330), där de mest frekventa termerna är fakultet, universitet, högskola, ämne och undervisning, eller med ett kulturarvstema (nummer 386) med de mest prominenta orden byggnad, museum, kulturminnesvård, landsantikvarie och riksantikvarieämbetet.

Illustrationerna ovan ger en antydan om att statliga utredningar som sammansatt dataset är ett rikt forskningsmaterial; ett slags omfattande textarkiv som kan analyseras, läsas och visualiseras på många olika sätt, inbegripet såväl tematiska som kronologiska nedslag. Grundprincipen för all temamodellering är att ord samförekommer; temamodeller arbetar med statistisk analys av distribution av ord i form av sannolikhetsfördelning över alla ord i en textmassa. I fallet med humanioratema 396 så förekommer det i knappt två procent av de inalles 3154 utredningar från perioden. Det låter kanske lite, men det gäller alltså enbart detta mycket specifika tema. SOU-datan från denna period inbegriper 87 miljoner ord, en historisk empiri som är betydligt mer omfattande än den som historievetenskapen i regel använder sig av. När en beläsen humanist (för att nu knyta an till temat) som Reinhart Koselleck i sin Vergangene Zukunft (1979) metodologiskt redogör för sin begreppsorienterade empiri heter det att den baserar sig på läsning under tjugo års tid av tryckta tidsupplevelser formulerade av politiker, filosofer, teologer och diktare, liksom mer obekanta skrifter och ordböcker – samt förstås historikers egna utsagor. ”Solche Texte wurden gesucht und befragt”, som det står i original på tyska. Empirin har efter betydande forskarmödor tålmodigt letats fram i bibliotek och arkiv, ibland systematiskt får man förmoda, men stundtals också mer eller mindre godtyckligt. För det är ju så många historiker ofta arbetar; även jag själv – vi kan inte läsa allt. Devisen ”gesucht und befragt” gäller förstås inte för alla historiska studier, men ganska många skulle jag vilja hävda. Som mediehistoriker har jag metodologiskt arbetat ungefär på det sättet under mer än två decennier.

Men i takt med att allt mer historisk empiri (förstått i vid bemärkelse) blivit digital har den både blivit sökbar på nytt liksom möjlig att analysera med olika typer av mjukvara. Begreppsanvändning går nu att analysera på andra sätt än tidigare, och på grundval av en empiri som är betydligt mer omfattande – även om det i fallet med SOU-datan härrör sig från en enda materialkategori. Den traditionella metoden ”gesucht und befragt” har i så måtto ändrat karaktär när arkivdriven historievetenskap kompletterats med datadriven digital history, det senare ett kunskapfält som kommit att omfatta flera olika humanistiska discipliner. ”Digital history is an approach to examining and representing the past; it uses new communication technologies and media applications and experiments with computational methods for the analyses, production and dissemination of historical knowledge.” Ofta – men inte alltid – innebär det en metodologisk förskjutning från kvalitativa till kvantitativa studier där empirin ökat rejält i omfång. Andrew Piper har i en syrlig text om litteraturvetenskapens behov av att gå från när- till fjärrläsning, distant reading, exemplifierat med en annan tysk lärdomsgigant, Erich Auerbach, och frågat sig om ”verklighetsframställningen i den västerländska litteraturen” – undertiteln till Mimesis (1946) – verkligen går att analysera utifrån en skönlitterär empiri bestående av ett tjugotal kanoniserade böcker. Att Auerbach (liksom Koselleck) var en flitig läsare betvivlar ingen: ”Who would ever presume to have read more than Auerbach? But what if he actually hadn’t read enough?” 

I ett forskningsprojekt som jag leder – Välfärdsstaten analyserad. Textanalys och modellering av svensk politik, media och kultur 1945–1989 – arbetar vi med olika typer av algoritmisk textanalys av storskalig empiri från politikens sfär (allt digitaliserat riksdagstryck och alla statliga offentliga utredningar under perioden), digitaliserad dagspress (det rör sig om tiotalet dagstidningar) och skönlitteratur (alla svenska romaner utgivna under perioden håller på att digitaliseras), därtill har periodens mest prestigefulla kulturtidskrift, Bonniers litterära magasin digitaliserats och iordningställts som dataset. Det rör sig om en historisk empiri grupperad i flera dataset, vilka sammantagna omfattar hundratals miljoner ord. Lingvister och språkteknologer har under lång tid arbetat med snarlika, omfattande textkorpusar, och i vårt projekt använder vi både enklare språkteknologiska metoder som ordfrekvenser och kollokationer, bigrams (ordpar som uppträder tillsammans) liksom mer sofistikerade algoritmer som ovan nämnda temamodeller eller NER-algoritmer (Named-entity recognition) där personnamn, geografi och tidsmarkörer automatiskt kan taggas upp. Men vi är inte språkvetare; Välfärdsstaten analyserad är ett historievetenskapligt forskningsprojekt, där grundtanken är att studera diskursiva förändringar på makronivå inom tre olika samhällssfärer. Svensk efterkrigstid är en väl utforskad period, men genom att applicera digitala metoder på kurerade dataset kommer politikens, nyhetsmediernas och kulturens sfärer att kunna granskas på nytt.

I den här artikeln kommer jag att presentera en del av den forskning vi ägnat oss åt inom Välfärdsstaten analyserad – samt några tentativa resultat. Men mitt fokus ligger främst på det praktiska hantverket med att arbeta med storskalig empiri, på iordningställande och arbete med datakurering, samt de möjligheter och tillkortakommanden som sådana forskningspraktiker inbegriper. En fråga jag intresserar mig för är relationen mellan data och empiri; i vårt projekt har vi dels arbetat med redan existerande dataset (hämtade från Riksdagens öppna data) men även skapat nya dataset utifrån äldre textsamlingar som digitaliserats. Som mediehistoriker, med ett intresse för forskningsarbete med digitala metoder, har jag därför återkommande funderat på vad som egentligen utgör min empiri, och vilken relation termer som data, empiri och information egentligen har till varandra. Artikeln är ställvis personligt hållen och innehåller en rad reflektioner kring historikerns arbete med storskalig textuell empiri. En erfarenhet är att historikerns förhållande till empiri ändrar karaktär när denna blir så omfattande att den inte längre går att överblicka (utan datorers hjälp). En annan är att själva forskningspraktiken förändras, där exempelvis förändrade utfall av körningar gör att frågeställningar måste korrigeras. Det handlar inte enbart om lära sig att förstå kod (någorlunda), eller att samarbeta med programmerare. Som historiker måste man nu också samarbeta med statistiker och maskininlärningsexperter för att iordningställa och kurera dataset (vilket tar enormt med tid), liksom att arbeta med dessa dataset på nya sätt; att ladda olika modeller, att laborera med varierande ingångsvärden, att ändra parametrar och iordningställa utfall på ett sätt som ofta skiljer sig betydligt, för att inte säga radikalt från traditionell historievetenskaplig praktik.

Bokrecension i Respons

I det senaste numret av tidskriften Respons har litteraturvetaren Per Israelson vid Stockholms universitet recenserat min bok Kultararvets mediehistoria. Det är en mycket välvillig text – som naturligtvis glädjer mig. Det är inte minst en recension som tar fasta på att boken visserligen behandlar en äldre mediehistoria, men samtidigt bör läsas i ljuset av den medietransfer som all samtida digitalisering innebär. Respons öppnar upp sina recensioner efter en tid – men eftersom jag sitter i tidskriftens redaktionsråd tar jag mig friheten att publicera en PDF av Israelsons text:

Recension av Mediernas historia i HT

I ett av de senare numren av Historisk tidskrift har vår bok Mediernas historia recenserats av professor emeritus Sverker Jonsson vid Göteborgs universitet. Han är överlag positiv till vår bok, men har även ett par invändningar. Recensioner i HT blir open access efter en tid, men jag tar mig friheten att länka upp en ful-PDF av recensionen:

1909 – Video Reuse Detector

I am currently devoting my time to the EU-project European History Reloaded. Together with my colleague Maria Eriksson and developer Tomas Skotare at Humlab, I have started working on an article that will analyse reuse of old film footage via a new application that Eriksson and Skotare have developed at Humlab – the Video Reuse Detector. The VRD is a tool that uses machine learning to identify visual similarities within a given audiovisual archive or database. It can hence identify reuse of videos in major audiovisual databases. Within the project Eriksson and Skotare are currently working on an open Jupyter Notebook that will make it possible to test the tool. In the meantime I have started working on an article that will both test the VRD tool and exemplify its concrete usage in an archival setting. The film that we will work with is from 1964, Brefven från Stockholm – en film om sommaren 1909, a compilation film made by Gardar Sahlberg. He was responsible for the so called SF-archive, which Swedish Radio purchased from Swedish Film Industry in 1963. The SF-archive – SF:s journalarkiv as it was called in Swedish – contained some 5500 films from 1897 until 1960, and was later frequently reused within Swedish television. In Sahlberg’s film, footage and film fragments from the SF-archive are reused, and we will particularly look at the way in which parts and sequences from four film fragments from the archive – SF2061A, SF2061B, SF2063 and SF2066 – are reused by Sahlberg. By using the VRD tool, the idea is on the one hand to test the ability of the tool, and on the other to discuss novel ways of analysing how history programs on television – or compilation videos on YouTube – remix and reappropriate audiovisual archival footage.

Gör debut i tysk teve

För någon vecka sedan hade jag ett tyskt teve-team hemma på besök i lägenheten; det var en rättså lång inspelning som handlade om Spotify. Nu är programmet “Streaming-Gigant: Die Macht Spotifys” tillgängligt på tyska public service-kanalen ARD. Jag talar ju tyska – men det kändes lite svårt att prata om ett forskningsprojekt på detta språk så intervjun gjordes på engelska. Men eftersom voice-over alltid läggs över alla internationella språk i Tyskland – så hörs jag själv knappt, endast en tysk översättning vad jag säger.

Practices of Parliament

Together with my colleague Fredrik Norén, I have become active in an international network with academics interested in parliamentary data in various countries. There is naturally a linkage to our reserch project Westac. During 2020 a number of “The Text Mining Parliamentary Data Seminars” were held, and on Thursday March 18th 2021, another seminar will be organised with the title: “Practices of Parliament”. Documenting parliamentary debates can be tricky. On the one hand, a record of discussions needs to be true and authentic, and on the other hand such a record is always an interpretation – to be apprehended for future generations. As a number of historical investigations have noticed, practices of marking up parliamentary debates diers, for example between countries. Today, within digital history projects there hence exists an increased awareness of accurate curation of parliamentary data. Issues are often mundane: are there clear starting and ending points dividing up previous documentation? How to classify events in the chamber – besides actual speeches? The workshop brings together a group of scholars and practitioners with different experiences of documenting parliamentary debates in four European countries: Sweden, the Czech Republic, Poland and Finland. The workshop includes five short presentations as well as a panel discussion.

The workshop is open to all – more information can be found on this flyer:

Från chiffer till klartext

I veckan ska jag presentera ett artikelutkast på högre seminariet i Umeå. Det rör sig om text jag skrivit inom ramen för forskningsprojektet Välfärdsstaten analyserad som handlar om temamodellering av mer än 3000 statliga offentliga utredningar. Min ambition är att skicka in den till tidskriften Scandia. Fokus ligger på hur medier och medierelaterade termer förekommer i SOU-datan, men jag gör inledningsvis också några mer generella analyser av andra temamodeller kring miljö, religion och invandring. Nedan finns en PDF av min kommande artikel, en zip-fil med artikelns illustrationer och grafer – som bör betraktas på skärm – liksom en zip-fil med de temamodeller jag använder.

87 miljoner tecken – ur en kommande artikel om temamodellering av SOUer

Jag håller på och skriver en artikel till tidskriften Scandia om temamodellering av 3154 statliga offentliga utredningar publicerade mellan 1945 och 1989. Mitt uppslag låter sig sammanfattas ungefär så här: om alla SOU:er betraktas som en enda enorm text som staten ’skriver’, vilka teman i denna text kan programvara ’läsa’ och uppfatta? I likhet med Nina Tahmasebi väljer jag att kalla topic modeling för temamodellering på svenska, för det rör sig om ämnen i form av olika (mer eller mindre tydliga) teman som algoritmerna urskiljer. Grundfrågan inom all temamodellering är vilka motiv och tematiker som kan ha tänkts skapat de dokument som forskaren intresserar sig för. Det finns flera olika modeller att arbeta med och de kan ställas in på väldigt många sätt. På Humlab har vi skapat åtta olika latent dirichlet allocation, lda-modeller, fyra så kallade gensim-lda-modeller och fyra mallet-lda-modeller. Utan att gå in på tekniska detaljer så består skillnaden i hur man skattar parametrar i en statistisk modell. Gensim använder en snabbare så kallad Variational Bayes samplingsmetod medan Mallet förlitar sig på vad som kallas Gibbsampling som har högre precision (men är något långsammare). För temamodeller hävdas det ofta att Gibbssampling har statistiska egenskaper som genererar tydligare resultat. Vi har valt att arbeta med temamodeller om 50, 100, 200 och 500 ord. Modellerna har gjorts åtkomliga för mig genom utvecklingsmiljön Jupyter Lab; i den kan man köra (och ändra på) Pythonkod direkt i webbläsaren. I Jupyter Lab har jag kunnat välja mellan gensim- och mallet-modeller (med olika många ord). Generellt har mallet-lda-modellerna genererat bättre resultat, det vill säga teman i SOU-datan vars ord och betydelser tydligt hänger samman. I den här artikeln är det därför främst mallet-lda-modellerna som jag använder. Nedan följer ett utkast av början av texten så som den ser ut:

Temamodeller arbetar med statistisk analys av distribution av ord, i form av sannolikhetsfördelning över alla ord i en textmassa. Modellerna kan urskilja vilka ord som ingår i ett tema, vilka statliga utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur temat anknyter till andra teman och utredningar. Grundprincipen är att ord samförekommer; det hela är inte konstigare än att det är mer sannolikt att ord som biograf och spelfilm förekommer i en SOU om filmpolitik än termer som fartyg, jordbruk eller arbetsmarknad. Teman figurerar därför med olika procentuella sannolikhetsvärden, probability score, som det heter på engelska. I ordmodeller som listar 200 eller 500 teman är dessa sannolikhetsvärden mycket låga (eftersom det handlar om många teman), medan de i ordmodeller om femtio teman är något högre. I 50-mallet-lda-modellen – som alltså delar in textmassan i alla 3154 SOU:er i femtio teman – så handlar ett tema (nummer 8) tydligt om medier. Temats procentuella sannolikhetsvärde är 1,37027961279058 vilket innebär att medierelaterade spörsmål diskuteras i 1,37 procent av alla utredningar. Inom detta medietema är därtill följande 15 ord procentuellt mest framträdande: film, tidning, radio, program, sverige, reklam, tv, år, skrift, verk, bild, medium, del, television och press. Film är alltså det medium som är mest diskuterat, det förekommer i 1,817154 procent inom temat att jämföra med 0,491520 procent för press.

Om temamodellering ger indikationer på hur övergripande tematiker fördelar sig över specifika SOU:er, hur de är relaterade och samförekommer – det vill säga, vilka utredningar som delar ett specifikt tema – liksom hur teman och förbindelser förändrar sig över tid, så är det av vikt att notera vilken typ av modell man som foskare använder. Modeller som delar in textmassan av utredningar i 50 teman ger generella resultat, medan modeller med 500 teman är mer specifika. Eftersom det är ord (som begrepp) som modellerna beräknar kan ordsammansättningar ibland förvilla. I 50-mallet-lda-modellen figurerar till exempel termen miljö i sju teman. I tema nummer 41 är ordet som starkast – men då handlar det främst om arbetsmiljö. I 100-mallet-lda-modellen däremot skiljs arbetsmiljö (tema 65) och miljövård (tema 21) tydligt åt. Det gäller därför att vara uppmärksam, men i huvudsak kan de olika ordmodellerna ses som sätt att zooma in och ut ur SOU-datan – från det övergripande till det mer partikulära. Temamodellering kan framstå som abstrakt, men i en Jupyter Lab-miljö är det inte speciellt komplicerat att utföra. Som forskare väljer man tema, tidpunkt eller tidsspann, man kan öka eller sänka viktning och så vidare. I allra högsta grad rör det sig om en explorativ forskningsverksamhet.

Generellt handlar tematiker i modellerna med 50 ord om bredare frågeställningar som återkommer i SOU-datan, som exempelvis undervisning (elever och skola), sjukvård (patient och läkare), bostadsfrågor (hushåll och hyra), kriminalvård (missbrukare och socialnämnd) eller kyrka (präster och församlingar). De sistnämnda kan förvåna, men i 50-mallet-lda-modellen finns ett tydligt kyrkotema och i 50-gensim-lda-modellen innehåller hela 26 procent av alla teman kyrkliga termer: församling, gudstjänst, psalmbok, kyrkoherde, Kristus, himmel, pastorat, begravningsplats – ja, till och med herren själv, Gud, figurerar. SOU-datan är full av kristen terminologi.

Eftersom temamodellering handlar om statistisk sannolikhet går det att i en Jupyter Lab-miljö laborera med parametrar och de resultat som modellerna genererar, exempelvis beträffande relationer mellan teman. Sätter man till exempel ett tröskelvärde på 0,3 då plottas alla utredningar som innehåller minst trettio procent av ett specifikt tema. Om tröskelvärdet sänks, så kommer följaktligen fler teman att hänga samman. Omvänt minskar kopplingen mellan teman om samma värden höjs. Men om tröskelvärden sätts alltför lågt (till bara några få procent) så finns risken att teman egentligen handlar om något helt annat. Exakt vilket värde som bör användas beror dock på hur många teman en modell har. I en 500-lda-modell är det konkurrens, där behövs låga tröskelvärden för att få korn på relationer. I en 50-lda-modell kan de vara betydligt högre.

På ett mer generellt plan gör temamodellering det möjligt att se hur en diskurs växer fram – och ibland ändrar karaktär. Miljö och invandring är illustrativa exempel. I den mer övergripande 50-mallet-lda-modellen figurerar miljötermen ungefär lika ofta i teman om familjemiljö och arbetsmiljö (som i miljövård), och det är först under 1970-talet som gröna miljöfrågor blir vanliga i SOU-datan. I 100-ordmodellen är samma mönster tydligt; tema 21 om miljövård återfinns exempelvis enbart i två utredningar före 1950, SOU 1946: 85 (om köttkontroll) och SOU 1949:3 (om livsmedel). Temat rör sig sedan över tid från livsmedelskontroll mot miljövård; de fem sista åren av 1980-talet återkommer det i nio utredningar som till exempel SOU 1987:32 För en bättre miljö eller SOU 1989:32 Miljöprojekt Göteborg. Ser man till 200- och 500-ordmodellerna är bilden densamma: det är först kring 1970 som gröna miljöfrågor blir vanliga. I sin bok Den gröna vändningen skriver David Larsson Heidenblad att miljöfrågor fick sitt samhälleliga genomslag först under 1970-talet. Hans breda och gröna kunskapshistoria bekräftas i så måtto av flera, olika temamodeller kring miljö i SOU-datan.

I den historiska forskning som bedrivits med hjälp av temamodeller brukar det påpekas att modellerna inte sällan bekräftar tidigare forskningsrön. Vän av ordning kan då invända att metoden framstår som historievetenskapligt redundant. Men man kan lika gärna hävda att modellerna verkligen fungerar, och som i exemplet med miljömodellerna och Larsson Heidenblad tydligt indikerar att miljödiskursen i Sverige ändrades vid en specifik tidpunkt. Ett tema som påminner om det kring miljö är temamodeller kring invandring och flyktingar. SOU-datan innehåller många utredningar som tangerar detta tema – från SOU 1946: 36 (om flyktingärenden och säkerhetstjänst) till SOU 1989: 111 (om invandrare i storstad). Söker man på besläktade termer i de olika mallet-lda-modellerna blir man snart varse att invandringstemat figurerar i en rad olika konstellationer i SOU-datan. I 50-ordmodellen finns exempelvis ett tydligt tema kring asyl och invandring (nummer 23), men de termer som är vanligast att förekomma där är snarare utlänning, polis, flykting och brott. Byter man till en 200-ordmodell är brottslighet och invandring inte längre samförekommande, snarare förknippas temat (nummer 91) med medborgarskap och undervisning. Och zoomar man ut ytterligare och använder en 500-ordmodell, så är teman kring utlänning och invandrare ofta skilda åt. Tema 109 behandlar flyktingar, utlänningar och polismyndighet, medan tema 384 handlar om invandrare, språk och undervisning. Noterbart är att dessa bägge teman förekommer i helt olika tidsspann; tema 109 är strikt relaterat till efterdyningarna av andra världskriget, medan tema 384 är förknippat med 1970- och 1980-talet. Bägge dessa teman är emellertid sammankopplade med tema nummer 227 som handlar om både utlänningar och flyktingar, liksom medborgare, polismyndighet och utlänningslag. Resonemang blir lätt abstrakta, men min poäng är att SOU-datan är rik; förbindelser går att spåra i många olika riktningar. I just detta fall kan en nätverksillustration av temamodell 227 därför länka samman SOU 1945:1 Utlänningslag och lag angående omhändertagande av utlänning i anstalt eller förläggning med senare utredningar om exempelvis invandrares rösträtt (SOU 1984:11). I det följande kommer jag att koncentrera mig på temamodeller kopplade till medier. Men som mina korta exempel kring kyrka, miljö och invandring antyder återfinns temamodeller i SOU-datan om de flesta områden som utredningskommittéer ägnat sig åt. Och det är som bekant väldigt, väldigt många.