Från chiffer till klartext

I veckan ska jag presentera ett artikelutkast på högre seminariet i Umeå. Det rör sig om text jag skrivit inom ramen för forskningsprojektet Välfärdsstaten analyserad som handlar om temamodellering av mer än 3000 statliga offentliga utredningar. Min ambition är att skicka in den till tidskriften Scandia. Fokus ligger på hur medier och medierelaterade termer förekommer i SOU-datan, men jag gör inledningsvis också några mer generella analyser av andra temamodeller kring miljö, religion och invandring. Nedan finns en PDF av min kommande artikel, en zip-fil med artikelns illustrationer och grafer – som bör betraktas på skärm – liksom en zip-fil med de temamodeller jag använder.

87 miljoner tecken – ur en kommande artikel om temamodellering av SOUer

Jag håller på och skriver en artikel till tidskriften Scandia om temamodellering av 3154 statliga offentliga utredningar publicerade mellan 1945 och 1989. Mitt uppslag låter sig sammanfattas ungefär så här: om alla SOU:er betraktas som en enda enorm text som staten ’skriver’, vilka teman i denna text kan programvara ’läsa’ och uppfatta? I likhet med Nina Tahmasebi väljer jag att kalla topic modeling för temamodellering på svenska, för det rör sig om ämnen i form av olika (mer eller mindre tydliga) teman som algoritmerna urskiljer. Grundfrågan inom all temamodellering är vilka motiv och tematiker som kan ha tänkts skapat de dokument som forskaren intresserar sig för. Det finns flera olika modeller att arbeta med och de kan ställas in på väldigt många sätt. På Humlab har vi skapat åtta olika latent dirichlet allocation, lda-modeller, fyra så kallade gensim-lda-modeller och fyra mallet-lda-modeller. Utan att gå in på tekniska detaljer så består skillnaden i hur man skattar parametrar i en statistisk modell. Gensim använder en snabbare så kallad Variational Bayes samplingsmetod medan Mallet förlitar sig på vad som kallas Gibbsampling som har högre precision (men är något långsammare). För temamodeller hävdas det ofta att Gibbssampling har statistiska egenskaper som genererar tydligare resultat. Vi har valt att arbeta med temamodeller om 50, 100, 200 och 500 ord. Modellerna har gjorts åtkomliga för mig genom utvecklingsmiljön Jupyter Lab; i den kan man köra (och ändra på) Pythonkod direkt i webbläsaren. I Jupyter Lab har jag kunnat välja mellan gensim- och mallet-modeller (med olika många ord). Generellt har mallet-lda-modellerna genererat bättre resultat, det vill säga teman i SOU-datan vars ord och betydelser tydligt hänger samman. I den här artikeln är det därför främst mallet-lda-modellerna som jag använder. Nedan följer ett utkast av början av texten så som den ser ut:

Temamodeller arbetar med statistisk analys av distribution av ord, i form av sannolikhetsfördelning över alla ord i en textmassa. Modellerna kan urskilja vilka ord som ingår i ett tema, vilka statliga utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur temat anknyter till andra teman och utredningar. Grundprincipen är att ord samförekommer; det hela är inte konstigare än att det är mer sannolikt att ord som biograf och spelfilm förekommer i en SOU om filmpolitik än termer som fartyg, jordbruk eller arbetsmarknad. Teman figurerar därför med olika procentuella sannolikhetsvärden, probability score, som det heter på engelska. I ordmodeller som listar 200 eller 500 teman är dessa sannolikhetsvärden mycket låga (eftersom det handlar om många teman), medan de i ordmodeller om femtio teman är något högre. I 50-mallet-lda-modellen – som alltså delar in textmassan i alla 3154 SOU:er i femtio teman – så handlar ett tema (nummer 8) tydligt om medier. Temats procentuella sannolikhetsvärde är 1,37027961279058 vilket innebär att medierelaterade spörsmål diskuteras i 1,37 procent av alla utredningar. Inom detta medietema är därtill följande 15 ord procentuellt mest framträdande: film, tidning, radio, program, sverige, reklam, tv, år, skrift, verk, bild, medium, del, television och press. Film är alltså det medium som är mest diskuterat, det förekommer i 1,817154 procent inom temat att jämföra med 0,491520 procent för press.

Om temamodellering ger indikationer på hur övergripande tematiker fördelar sig över specifika SOU:er, hur de är relaterade och samförekommer – det vill säga, vilka utredningar som delar ett specifikt tema – liksom hur teman och förbindelser förändrar sig över tid, så är det av vikt att notera vilken typ av modell man som foskare använder. Modeller som delar in textmassan av utredningar i 50 teman ger generella resultat, medan modeller med 500 teman är mer specifika. Eftersom det är ord (som begrepp) som modellerna beräknar kan ordsammansättningar ibland förvilla. I 50-mallet-lda-modellen figurerar till exempel termen miljö i sju teman. I tema nummer 41 är ordet som starkast – men då handlar det främst om arbetsmiljö. I 100-mallet-lda-modellen däremot skiljs arbetsmiljö (tema 65) och miljövård (tema 21) tydligt åt. Det gäller därför att vara uppmärksam, men i huvudsak kan de olika ordmodellerna ses som sätt att zooma in och ut ur SOU-datan – från det övergripande till det mer partikulära. Temamodellering kan framstå som abstrakt, men i en Jupyter Lab-miljö är det inte speciellt komplicerat att utföra. Som forskare väljer man tema, tidpunkt eller tidsspann, man kan öka eller sänka viktning och så vidare. I allra högsta grad rör det sig om en explorativ forskningsverksamhet.

Generellt handlar tematiker i modellerna med 50 ord om bredare frågeställningar som återkommer i SOU-datan, som exempelvis undervisning (elever och skola), sjukvård (patient och läkare), bostadsfrågor (hushåll och hyra), kriminalvård (missbrukare och socialnämnd) eller kyrka (präster och församlingar). De sistnämnda kan förvåna, men i 50-mallet-lda-modellen finns ett tydligt kyrkotema och i 50-gensim-lda-modellen innehåller hela 26 procent av alla teman kyrkliga termer: församling, gudstjänst, psalmbok, kyrkoherde, Kristus, himmel, pastorat, begravningsplats – ja, till och med herren själv, Gud, figurerar. SOU-datan är full av kristen terminologi.

Eftersom temamodellering handlar om statistisk sannolikhet går det att i en Jupyter Lab-miljö laborera med parametrar och de resultat som modellerna genererar, exempelvis beträffande relationer mellan teman. Sätter man till exempel ett tröskelvärde på 0,3 då plottas alla utredningar som innehåller minst trettio procent av ett specifikt tema. Om tröskelvärdet sänks, så kommer följaktligen fler teman att hänga samman. Omvänt minskar kopplingen mellan teman om samma värden höjs. Men om tröskelvärden sätts alltför lågt (till bara några få procent) så finns risken att teman egentligen handlar om något helt annat. Exakt vilket värde som bör användas beror dock på hur många teman en modell har. I en 500-lda-modell är det konkurrens, där behövs låga tröskelvärden för att få korn på relationer. I en 50-lda-modell kan de vara betydligt högre.

På ett mer generellt plan gör temamodellering det möjligt att se hur en diskurs växer fram – och ibland ändrar karaktär. Miljö och invandring är illustrativa exempel. I den mer övergripande 50-mallet-lda-modellen figurerar miljötermen ungefär lika ofta i teman om familjemiljö och arbetsmiljö (som i miljövård), och det är först under 1970-talet som gröna miljöfrågor blir vanliga i SOU-datan. I 100-ordmodellen är samma mönster tydligt; tema 21 om miljövård återfinns exempelvis enbart i två utredningar före 1950, SOU 1946: 85 (om köttkontroll) och SOU 1949:3 (om livsmedel). Temat rör sig sedan över tid från livsmedelskontroll mot miljövård; de fem sista åren av 1980-talet återkommer det i nio utredningar som till exempel SOU 1987:32 För en bättre miljö eller SOU 1989:32 Miljöprojekt Göteborg. Ser man till 200- och 500-ordmodellerna är bilden densamma: det är först kring 1970 som gröna miljöfrågor blir vanliga. I sin bok Den gröna vändningen skriver David Larsson Heidenblad att miljöfrågor fick sitt samhälleliga genomslag först under 1970-talet. Hans breda och gröna kunskapshistoria bekräftas i så måtto av flera, olika temamodeller kring miljö i SOU-datan.

I den historiska forskning som bedrivits med hjälp av temamodeller brukar det påpekas att modellerna inte sällan bekräftar tidigare forskningsrön. Vän av ordning kan då invända att metoden framstår som historievetenskapligt redundant. Men man kan lika gärna hävda att modellerna verkligen fungerar, och som i exemplet med miljömodellerna och Larsson Heidenblad tydligt indikerar att miljödiskursen i Sverige ändrades vid en specifik tidpunkt. Ett tema som påminner om det kring miljö är temamodeller kring invandring och flyktingar. SOU-datan innehåller många utredningar som tangerar detta tema – från SOU 1946: 36 (om flyktingärenden och säkerhetstjänst) till SOU 1989: 111 (om invandrare i storstad). Söker man på besläktade termer i de olika mallet-lda-modellerna blir man snart varse att invandringstemat figurerar i en rad olika konstellationer i SOU-datan. I 50-ordmodellen finns exempelvis ett tydligt tema kring asyl och invandring (nummer 23), men de termer som är vanligast att förekomma där är snarare utlänning, polis, flykting och brott. Byter man till en 200-ordmodell är brottslighet och invandring inte längre samförekommande, snarare förknippas temat (nummer 91) med medborgarskap och undervisning. Och zoomar man ut ytterligare och använder en 500-ordmodell, så är teman kring utlänning och invandrare ofta skilda åt. Tema 109 behandlar flyktingar, utlänningar och polismyndighet, medan tema 384 handlar om invandrare, språk och undervisning. Noterbart är att dessa bägge teman förekommer i helt olika tidsspann; tema 109 är strikt relaterat till efterdyningarna av andra världskriget, medan tema 384 är förknippat med 1970- och 1980-talet. Bägge dessa teman är emellertid sammankopplade med tema nummer 227 som handlar om både utlänningar och flyktingar, liksom medborgare, polismyndighet och utlänningslag. Resonemang blir lätt abstrakta, men min poäng är att SOU-datan är rik; förbindelser går att spåra i många olika riktningar. I just detta fall kan en nätverksillustration av temamodell 227 därför länka samman SOU 1945:1 Utlänningslag och lag angående omhändertagande av utlänning i anstalt eller förläggning med senare utredningar om exempelvis invandrares rösträtt (SOU 1984:11). I det följande kommer jag att koncentrera mig på temamodeller kopplade till medier. Men som mina korta exempel kring kyrka, miljö och invandring antyder återfinns temamodeller i SOU-datan om de flesta områden som utredningskommittéer ägnat sig åt. Och det är som bekant väldigt, väldigt många.

Bok om kulturarvets mediehistoria

Så var den till slut klar, min bok Kulturarvets mediehistoria: dokumentation och representation 1750–1950, som jag arbetat med under en längre tid. Idag digitaliserar arkiv, bibliotek och museer sina samlingar– men vad gjorde de tidigare? Att kulturarvet har en mediehistoria uppmärksammas inte så ofta. Min bok handlar om hur en rad svenska och internationella museer, bibliotek och enstaka arkiv använde medier under en mycket lång tidsperiod – från cirka 1750 till 1950 – för att både dokumentera och representera kulturarv. Boken redogör för mediehistoriska diskussioner inom biblioteks- och museiväsendet, hur medier testades och modifierades för att så småningom praktiskt börja användas. Motståndet var ibland betydande, ointresset likaså. Men medier var i högsta grad involverade i själva processen av att sär- och urskilja vad som skulle betraktas som kulturarv – genom själva medieringsakten. Det är den tjugoandra bok jag publicerar – och den allra snyggaste. Bokmakare Johan Laserna har lagt ned ett fantastiskt arbete på både form och illustrationsmaterial. Boken är väl värd att införskaffa i fysiskt format – men är också öppet tillgänglig och kan laddas ned här:

PDF

Kulturarvets mediehistoria – manus klart

Det bokmanuskript jag arbetat med under en längre tid är nu klart. Boken Kulturarvets mediehistoria. Dokumentation och representation 1750–1950 utkommer i bokserien Mediehistoriskt arkiv under september. Det kommer att vara en omfattande bok – förmodligen mer än 600 sidor lång och med fler än 250 illustrationer. Boken innehåller fem kapitel om lika många mediala modaliteter: modeller, kataloger, fotografi, fonograf och kinematografi. Därtill ingår en rättså omfattande inledning samt en kortare avslutning. Jag är mycket nöjd med resultatet och givetvis kommer en CC-licensierade PDF av boken att vara fritt tillgänglig för nedladdning.

Recension av Mediernas historia i Respons

I det senaste numret av tidskriften Respons har professor Jesper Olsson vid Linköpings universitet skrivit en fin recension av boken Mediernas historia som jag skrivit med mina kollegor Johan Jarlbrink och Patrik Lundell. “Var och en med intresse för medier, i vid bemärkelse, har något att lära sig och förundras av. Jarlbrink, Lundell och Snickars har skrivit en bok jag tveklöst rekommenderar”, skriver Olsson. Mediernas historia “lär bli en självklar referens på ett av samtidens viktigaste kunskapsfält.” Recensionen ligger inte öppet online, men jag tar sig friheten att publicera en ful-PDF av den som kan läsas här:

Kulturarvets mediehistoria – om fonografen

Mitt bokmanus om kulturarvets mediehistoria växer stadigt till sig. Nu är ett utkast till kapitlet om fonografens roll i dokumentationen av ett audiellt och immateriellt kulturarv klart. Fokus ligger på årtiondet efter 1900 – både internationellt och i Sverige. För den intresserade finns en PDF att ladda ned. Min ambition är att ha hela boken färdig till sommaren.

Dokumentation & representation. Om kulturarvets mediehistoria 1750–1980

I mediehistorien uppmärksammas sällan det mycket omfattande mediebruk och den diversifierade medieanvändning som präglat de institutioner som haft till uppdrag att bevara kulturarvet. Idag digitaliserar de flesta kulturarvsinstitutioner sina samlingar, men denna medietransfer har sin förhistoria i en mängd olika skiftande mediepraktiker. Objekt och mänskliga aktiviteter i det förflutna har modellerats, katalogiserats, fotograferats och filmats. Om skiftande historiska kulturtekniker (skriva, läsa, räkna, måla) är aktiviteter beroende av sådana medietekniker – ja, då framstår allt kulturarv som medietekniskt konstituerat. Vårt gemensamma kulturarv är därför på många sätt en effekt av de medier som dokumenterat det.

Det bokmanus jag arbetar med börjar nu allt mer ta form. I skrivande stund är tre kapitel färdiga. Den som är intresserad kan ladda ned dem nedan. Därtill finns ett kort boksynopsis hur jag tänker mig det hela. Ambitionen är att bokmanus ska vara färdigt under senvåren 2020.

Mediernas historia. Från big bang till big data

Tillsammans med mina kollegor Johan Jarlbrink och Patrik Lundell har jag skrivit boken Mediernas historia. Från big bang till big data. I boken skildras en mycket lång mediehistoria. Att mäta medievanor genom big data är idag vanligt – men även urknallen big bang är ett medialt fenomen vars kosmiska bakgrundsstrålning inte kan studeras utan att först registreras. Med en disposition i 44 avsnitt betonar boken olika mediekulturers särprägel, samtidigt som den lyfter fram hur ett myller av medier har interagerat – från beständiga lertavlor över predikstolar och tidigmodern visuell kommunikation till strömmande medier. Istället för att framhäva mediehistoriska brott och revolutioner synlig­ gör boken kontinuiteter ifråga om hur medier har etablerats, använts och förändrats fram till vår egen tid. Relationen mellan vår samtids sociala medier och traditionella mass­ medier utgör här endast ett exempel på den komplexa väv av sinsemellan hopflätade kommunikationsformer som historien består av.