1909 – Video Reuse Detector

I am currently devoting my time to the EU-project European History Reloaded. Together with my colleague Maria Eriksson and developer Tomas Skotare at Humlab, I have started working on an article that will analyse reuse of old film footage via a new application that Eriksson and Skotare have developed at Humlab – the Video Reuse Detector. The VRD is a tool that uses machine learning to identify visual similarities within a given audiovisual archive or database. It can hence identify reuse of videos in major audiovisual databases. Within the project Eriksson and Skotare are currently working on an open Jupyter Notebook that will make it possible to test the tool. In the meantime I have started working on an article that will both test the VRD tool and exemplify its concrete usage in an archival setting. The film that we will work with is from 1964, Brefven från Stockholm – en film om sommaren 1909, a compilation film made by Gardar Sahlberg. He was responsible for the so called SF-archive, which Swedish Radio purchased from Swedish Film Industry in 1963. The SF-archive – SF:s journalarkiv as it was called in Swedish – contained some 5500 films from 1897 until 1960, and was later frequently reused within Swedish television. In Sahlberg’s film, footage and film fragments from the SF-archive are reused, and we will particularly look at the way in which parts and sequences from four film fragments from the archive – SF2061A, SF2061B, SF2063 and SF2066 – are reused by Sahlberg. By using the VRD tool, the idea is on the one hand to test the ability of the tool, and on the other to discuss novel ways of analysing how history programs on television – or compilation videos on YouTube – remix and reappropriate audiovisual archival footage.

Gör debut i tysk teve

För någon vecka sedan hade jag ett tyskt teve-team hemma på besök i lägenheten; det var en rättså lång inspelning som handlade om Spotify. Nu är programmet “Streaming-Gigant: Die Macht Spotifys” tillgängligt på tyska public service-kanalen ARD. Jag talar ju tyska – men det kändes lite svårt att prata om ett forskningsprojekt på detta språk så intervjun gjordes på engelska. Men eftersom voice-over alltid läggs över alla internationella språk i Tyskland – så hörs jag själv knappt, endast en tysk översättning vad jag säger.

Practices of Parliament

Together with my colleague Fredrik Norén, I have become active in an international network with academics interested in parliamentary data in various countries. There is naturally a linkage to our reserch project Westac. During 2020 a number of “The Text Mining Parliamentary Data Seminars” were held, and on Thursday March 18th 2021, another seminar will be organised with the title: “Practices of Parliament”. Documenting parliamentary debates can be tricky. On the one hand, a record of discussions needs to be true and authentic, and on the other hand such a record is always an interpretation – to be apprehended for future generations. As a number of historical investigations have noticed, practices of marking up parliamentary debates diers, for example between countries. Today, within digital history projects there hence exists an increased awareness of accurate curation of parliamentary data. Issues are often mundane: are there clear starting and ending points dividing up previous documentation? How to classify events in the chamber – besides actual speeches? The workshop brings together a group of scholars and practitioners with different experiences of documenting parliamentary debates in four European countries: Sweden, the Czech Republic, Poland and Finland. The workshop includes five short presentations as well as a panel discussion.

The workshop is open to all – more information can be found on this flyer:

Från chiffer till klartext

I veckan ska jag presentera ett artikelutkast på högre seminariet i Umeå. Det rör sig om text jag skrivit inom ramen för forskningsprojektet Välfärdsstaten analyserad som handlar om temamodellering av mer än 3000 statliga offentliga utredningar. Min ambition är att skicka in den till tidskriften Scandia. Fokus ligger på hur medier och medierelaterade termer förekommer i SOU-datan, men jag gör inledningsvis också några mer generella analyser av andra temamodeller kring miljö, religion och invandring. Nedan finns en PDF av min kommande artikel, en zip-fil med artikelns illustrationer och grafer – som bör betraktas på skärm – liksom en zip-fil med de temamodeller jag använder.

87 miljoner tecken – ur en kommande artikel om temamodellering av SOUer

Jag håller på och skriver en artikel till tidskriften Scandia om temamodellering av 3154 statliga offentliga utredningar publicerade mellan 1945 och 1989. Mitt uppslag låter sig sammanfattas ungefär så här: om alla SOU:er betraktas som en enda enorm text som staten ’skriver’, vilka teman i denna text kan programvara ’läsa’ och uppfatta? I likhet med Nina Tahmasebi väljer jag att kalla topic modeling för temamodellering på svenska, för det rör sig om ämnen i form av olika (mer eller mindre tydliga) teman som algoritmerna urskiljer. Grundfrågan inom all temamodellering är vilka motiv och tematiker som kan ha tänkts skapat de dokument som forskaren intresserar sig för. Det finns flera olika modeller att arbeta med och de kan ställas in på väldigt många sätt. På Humlab har vi skapat åtta olika latent dirichlet allocation, lda-modeller, fyra så kallade gensim-lda-modeller och fyra mallet-lda-modeller. Utan att gå in på tekniska detaljer så består skillnaden i hur man skattar parametrar i en statistisk modell. Gensim använder en snabbare så kallad Variational Bayes samplingsmetod medan Mallet förlitar sig på vad som kallas Gibbsampling som har högre precision (men är något långsammare). För temamodeller hävdas det ofta att Gibbssampling har statistiska egenskaper som genererar tydligare resultat. Vi har valt att arbeta med temamodeller om 50, 100, 200 och 500 ord. Modellerna har gjorts åtkomliga för mig genom utvecklingsmiljön Jupyter Lab; i den kan man köra (och ändra på) Pythonkod direkt i webbläsaren. I Jupyter Lab har jag kunnat välja mellan gensim- och mallet-modeller (med olika många ord). Generellt har mallet-lda-modellerna genererat bättre resultat, det vill säga teman i SOU-datan vars ord och betydelser tydligt hänger samman. I den här artikeln är det därför främst mallet-lda-modellerna som jag använder. Nedan följer ett utkast av början av texten så som den ser ut:

Temamodeller arbetar med statistisk analys av distribution av ord, i form av sannolikhetsfördelning över alla ord i en textmassa. Modellerna kan urskilja vilka ord som ingår i ett tema, vilka statliga utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur temat anknyter till andra teman och utredningar. Grundprincipen är att ord samförekommer; det hela är inte konstigare än att det är mer sannolikt att ord som biograf och spelfilm förekommer i en SOU om filmpolitik än termer som fartyg, jordbruk eller arbetsmarknad. Teman figurerar därför med olika procentuella sannolikhetsvärden, probability score, som det heter på engelska. I ordmodeller som listar 200 eller 500 teman är dessa sannolikhetsvärden mycket låga (eftersom det handlar om många teman), medan de i ordmodeller om femtio teman är något högre. I 50-mallet-lda-modellen – som alltså delar in textmassan i alla 3154 SOU:er i femtio teman – så handlar ett tema (nummer 8) tydligt om medier. Temats procentuella sannolikhetsvärde är 1,37027961279058 vilket innebär att medierelaterade spörsmål diskuteras i 1,37 procent av alla utredningar. Inom detta medietema är därtill följande 15 ord procentuellt mest framträdande: film, tidning, radio, program, sverige, reklam, tv, år, skrift, verk, bild, medium, del, television och press. Film är alltså det medium som är mest diskuterat, det förekommer i 1,817154 procent inom temat att jämföra med 0,491520 procent för press.

Om temamodellering ger indikationer på hur övergripande tematiker fördelar sig över specifika SOU:er, hur de är relaterade och samförekommer – det vill säga, vilka utredningar som delar ett specifikt tema – liksom hur teman och förbindelser förändrar sig över tid, så är det av vikt att notera vilken typ av modell man som foskare använder. Modeller som delar in textmassan av utredningar i 50 teman ger generella resultat, medan modeller med 500 teman är mer specifika. Eftersom det är ord (som begrepp) som modellerna beräknar kan ordsammansättningar ibland förvilla. I 50-mallet-lda-modellen figurerar till exempel termen miljö i sju teman. I tema nummer 41 är ordet som starkast – men då handlar det främst om arbetsmiljö. I 100-mallet-lda-modellen däremot skiljs arbetsmiljö (tema 65) och miljövård (tema 21) tydligt åt. Det gäller därför att vara uppmärksam, men i huvudsak kan de olika ordmodellerna ses som sätt att zooma in och ut ur SOU-datan – från det övergripande till det mer partikulära. Temamodellering kan framstå som abstrakt, men i en Jupyter Lab-miljö är det inte speciellt komplicerat att utföra. Som forskare väljer man tema, tidpunkt eller tidsspann, man kan öka eller sänka viktning och så vidare. I allra högsta grad rör det sig om en explorativ forskningsverksamhet.

Generellt handlar tematiker i modellerna med 50 ord om bredare frågeställningar som återkommer i SOU-datan, som exempelvis undervisning (elever och skola), sjukvård (patient och läkare), bostadsfrågor (hushåll och hyra), kriminalvård (missbrukare och socialnämnd) eller kyrka (präster och församlingar). De sistnämnda kan förvåna, men i 50-mallet-lda-modellen finns ett tydligt kyrkotema och i 50-gensim-lda-modellen innehåller hela 26 procent av alla teman kyrkliga termer: församling, gudstjänst, psalmbok, kyrkoherde, Kristus, himmel, pastorat, begravningsplats – ja, till och med herren själv, Gud, figurerar. SOU-datan är full av kristen terminologi.

Eftersom temamodellering handlar om statistisk sannolikhet går det att i en Jupyter Lab-miljö laborera med parametrar och de resultat som modellerna genererar, exempelvis beträffande relationer mellan teman. Sätter man till exempel ett tröskelvärde på 0,3 då plottas alla utredningar som innehåller minst trettio procent av ett specifikt tema. Om tröskelvärdet sänks, så kommer följaktligen fler teman att hänga samman. Omvänt minskar kopplingen mellan teman om samma värden höjs. Men om tröskelvärden sätts alltför lågt (till bara några få procent) så finns risken att teman egentligen handlar om något helt annat. Exakt vilket värde som bör användas beror dock på hur många teman en modell har. I en 500-lda-modell är det konkurrens, där behövs låga tröskelvärden för att få korn på relationer. I en 50-lda-modell kan de vara betydligt högre.

På ett mer generellt plan gör temamodellering det möjligt att se hur en diskurs växer fram – och ibland ändrar karaktär. Miljö och invandring är illustrativa exempel. I den mer övergripande 50-mallet-lda-modellen figurerar miljötermen ungefär lika ofta i teman om familjemiljö och arbetsmiljö (som i miljövård), och det är först under 1970-talet som gröna miljöfrågor blir vanliga i SOU-datan. I 100-ordmodellen är samma mönster tydligt; tema 21 om miljövård återfinns exempelvis enbart i två utredningar före 1950, SOU 1946: 85 (om köttkontroll) och SOU 1949:3 (om livsmedel). Temat rör sig sedan över tid från livsmedelskontroll mot miljövård; de fem sista åren av 1980-talet återkommer det i nio utredningar som till exempel SOU 1987:32 För en bättre miljö eller SOU 1989:32 Miljöprojekt Göteborg. Ser man till 200- och 500-ordmodellerna är bilden densamma: det är först kring 1970 som gröna miljöfrågor blir vanliga. I sin bok Den gröna vändningen skriver David Larsson Heidenblad att miljöfrågor fick sitt samhälleliga genomslag först under 1970-talet. Hans breda och gröna kunskapshistoria bekräftas i så måtto av flera, olika temamodeller kring miljö i SOU-datan.

I den historiska forskning som bedrivits med hjälp av temamodeller brukar det påpekas att modellerna inte sällan bekräftar tidigare forskningsrön. Vän av ordning kan då invända att metoden framstår som historievetenskapligt redundant. Men man kan lika gärna hävda att modellerna verkligen fungerar, och som i exemplet med miljömodellerna och Larsson Heidenblad tydligt indikerar att miljödiskursen i Sverige ändrades vid en specifik tidpunkt. Ett tema som påminner om det kring miljö är temamodeller kring invandring och flyktingar. SOU-datan innehåller många utredningar som tangerar detta tema – från SOU 1946: 36 (om flyktingärenden och säkerhetstjänst) till SOU 1989: 111 (om invandrare i storstad). Söker man på besläktade termer i de olika mallet-lda-modellerna blir man snart varse att invandringstemat figurerar i en rad olika konstellationer i SOU-datan. I 50-ordmodellen finns exempelvis ett tydligt tema kring asyl och invandring (nummer 23), men de termer som är vanligast att förekomma där är snarare utlänning, polis, flykting och brott. Byter man till en 200-ordmodell är brottslighet och invandring inte längre samförekommande, snarare förknippas temat (nummer 91) med medborgarskap och undervisning. Och zoomar man ut ytterligare och använder en 500-ordmodell, så är teman kring utlänning och invandrare ofta skilda åt. Tema 109 behandlar flyktingar, utlänningar och polismyndighet, medan tema 384 handlar om invandrare, språk och undervisning. Noterbart är att dessa bägge teman förekommer i helt olika tidsspann; tema 109 är strikt relaterat till efterdyningarna av andra världskriget, medan tema 384 är förknippat med 1970- och 1980-talet. Bägge dessa teman är emellertid sammankopplade med tema nummer 227 som handlar om både utlänningar och flyktingar, liksom medborgare, polismyndighet och utlänningslag. Resonemang blir lätt abstrakta, men min poäng är att SOU-datan är rik; förbindelser går att spåra i många olika riktningar. I just detta fall kan en nätverksillustration av temamodell 227 därför länka samman SOU 1945:1 Utlänningslag och lag angående omhändertagande av utlänning i anstalt eller förläggning med senare utredningar om exempelvis invandrares rösträtt (SOU 1984:11). I det följande kommer jag att koncentrera mig på temamodeller kopplade till medier. Men som mina korta exempel kring kyrka, miljö och invandring antyder återfinns temamodeller i SOU-datan om de flesta områden som utredningskommittéer ägnat sig åt. Och det är som bekant väldigt, väldigt många.

Bok om kulturarvets mediehistoria

Så var den till slut klar, min bok Kulturarvets mediehistoria: dokumentation och representation 1750–1950, som jag arbetat med under en längre tid. Idag digitaliserar arkiv, bibliotek och museer sina samlingar– men vad gjorde de tidigare? Att kulturarvet har en mediehistoria uppmärksammas inte så ofta. Min bok handlar om hur en rad svenska och internationella museer, bibliotek och enstaka arkiv använde medier under en mycket lång tidsperiod – från cirka 1750 till 1950 – för att både dokumentera och representera kulturarv. Boken redogör för mediehistoriska diskussioner inom biblioteks- och museiväsendet, hur medier testades och modifierades för att så småningom praktiskt börja användas. Motståndet var ibland betydande, ointresset likaså. Men medier var i högsta grad involverade i själva processen av att sär- och urskilja vad som skulle betraktas som kulturarv – genom själva medieringsakten. Det är den tjugoandra bok jag publicerar – och den allra snyggaste. Bokmakare Johan Laserna har lagt ned ett fantastiskt arbete på både form och illustrationsmaterial. Boken är väl värd att införskaffa i fysiskt format – men är också öppet tillgänglig och kan laddas ned här:

PDF

Kulturarvets mediehistoria – manus klart

Det bokmanuskript jag arbetat med under en längre tid är nu klart. Boken Kulturarvets mediehistoria. Dokumentation och representation 1750–1950 utkommer i bokserien Mediehistoriskt arkiv under september. Det kommer att vara en omfattande bok – förmodligen mer än 600 sidor lång och med fler än 250 illustrationer. Boken innehåller fem kapitel om lika många mediala modaliteter: modeller, kataloger, fotografi, fonograf och kinematografi. Därtill ingår en rättså omfattande inledning samt en kortare avslutning. Jag är mycket nöjd med resultatet och givetvis kommer en CC-licensierade PDF av boken att vara fritt tillgänglig för nedladdning.

Recension av Mediernas historia i Respons

I det senaste numret av tidskriften Respons har professor Jesper Olsson vid Linköpings universitet skrivit en fin recension av boken Mediernas historia som jag skrivit med mina kollegor Johan Jarlbrink och Patrik Lundell. “Var och en med intresse för medier, i vid bemärkelse, har något att lära sig och förundras av. Jarlbrink, Lundell och Snickars har skrivit en bok jag tveklöst rekommenderar”, skriver Olsson. Mediernas historia “lär bli en självklar referens på ett av samtidens viktigaste kunskapsfält.” Recensionen ligger inte öppet online, men jag tar sig friheten att publicera en ful-PDF av den som kan läsas här: