Jag har påbörjat arbete med ett nytt bokmanus – med arbetstiteln Medier och arkiv 1945–89. Utgångspunkten för det hela är de olika typer av distansläsning och temamodellering av statliga utredningar som jag ägnade mig åt under förra året inom ramen för forskningsprojektet Välfärdsstaten analyserad. Statens intresse för medier under välfärdsåren handlade i stor utsträckning om att skapa ekonomiska förutsättningar för medieproduktion: etableringen av public service, den successiva ökningen av presstöd liksom inrättandet av Svenska filminstitutet är tre exempel. Men med hjälp av temamodellering går det att visa att staten också i nästan lika hög utsträckning intresserade sig för hur medier skulle sparas. Statlig mediepolitik ägnades åt både produktion och bevarande, något som tidigare mediehistorisk forskning inte uppmärksammat speciellt mycket. Gemensamt för de temamodeller jag använt är att de listar de betänkanden som procentuellt starkast innehåller ett tema. I en modell som delar in alla statliga utredningar mellan 1945–89 i 50 teman är följande fem utredningar vanligast förekommande i det enda medietema som återfinns: Ljud och bild för eftervärlden (SOU 1987:51), TV-politiken (SOU 1989:73), Svensk press (SOU 1974:102), Bevara ljud och bild (SOU 1974:94) och Radio i utveckling (SOU 1973:8). Vad som är slående är att två av dessa fem betänkanden handlar om hur medier skulle bevaras. Många medieutredningar var förstås inriktade på framtidsfrågor, men arkiveringen av samma medieformer var något som staten intresserade sig för i lika stor utsträckning.
Det är denna insikt – med digitala metoders hjälp – som ligger till grund för det bokmanus jag nu påbörjat. Det hela är också tänkt som en fortsättning på min bok Kulturarvets mediehistoria som gjorde halt ungefär vid mitten av 1900-talet. Upplägget kommer därför att vara snarlikt – med fokus på olika medieformer: film, ljud, etermedia och data utgör preliminära kapitelrubriker. Eftersom temamodellering av utredningar utgör ett slags övergripande raster för mitt manus så kommer jag också att använda medieutredningar – och framför allt de kommittéarkiv som finns bevarade på Riksarkivet – som återkommande empiri. I skrivande stund ägnar jag mig åt filmmediet, med fokus på periodens filmutredningar från tidigt fyrtiotal till mitten av sextiotalet.
Jag fick idag glädjande besked av RJ om att projektansökan Moderna tider 1936 beviljats. Tillsammans med mina kollegor Maria Eriksson, Fredrik Norén och Emil Stjernholm kommer vi att undersöka vad samtida algoritmer för mönsterigenkänning ser och hör när de appliceras på mediehistoriskt källmaterial. All historieskrivning kräver förstås tolkningsarbete – men vilka algoritmiska uttolkningar av det förflutna åstadkommer mjukvara? En webbsida om projektet kommer att lanseras vad det lider – men anslaget till vår engelska ansökan ger en vink om vad vi tänker oss:
Media historians usually argue that the past is only available to us through media—be they antique graffiti, disintegrating newspapers, sepia-toned photographs, or last year’s YouTube clip. All humanistic infrastructures (such as libraries) can hence be seen as media archives, where media-specific conditions regulate what is discursively stored. Today, however, cultural heritage institutions are not simply storage facilities but dynamic repositories of digitized content that can be explored with computational methods in new and fascinating ways.
In 1991, Manuel de Landa forecasted a coming age of robots dedicated to understanding their historical origins; he even envisioned “specialized robot historians” committed to trace their genesis, writing “a different kind of history” than humans. Similarly, Hannes Alfvén’s 1966 Swedish science fiction novel, translated as The tale of the big computer conjured up a future where computers not only ruled the world but also had the power to write its past. All likely a computer (“en data”) narrated Alfvén’s story: “When a historian has reached his own time, he ought perhaps to lay down his pen … But how do computers view the problem of man?”
Today, we find ourselves in a situation where machines can be assigned the task of seeing and modeling the human past. What once had a sci-fi character is nowadays a scholarly reality. The project proposal Modern Times 1936— acronym MODERN-36—departs from the fact that the past is not only mediated but increasingly numerically stored and hence prone to computational analysis in ways once envisioned by Alfvén and de Landa. Yet—and this is the overarching research question—what exactly is it that software sees, hears, and perceives when technologies for pattern recognition are applied to sonic and visual media historical sources? MODERN-36 will examine machinic ways of interpreting expressions of modernity in media archival materials from 1936, intentionally zooming in on a comparatively non-spectacular year in Swedish history. Coincidentally, this was also the year when Charlie Chaplin’s film Modern Times premiered, with the little tramp struggling in an increasingly industrialized world—a film that has an iconic status as a critical comment on modernity.
MODERN-36 will focus on one year in order to study quotidian signs of the modern condition. 1936 was a fairly peaceful and politically stable year in Sweden where modernity is often said to have arrived late. At the same time, this was an era of dramatic transformation: several Swedish urban renewal projects were underway in the mid 1930s; technological developments reshaped manufacturing and consumption practices; and a series of new media (such as radio, sound film, and illustrated press) were becoming increasingly popular as sources of both entertainment and education, calling forth new forms of collective experiences and cultural encounters.
MODERN-36 will explore how artificial intelligence (AI) and machine learning (ML) methods can foster new and stimulating knowledge about the history of Swedish modernity—while at the same time developing, and critically scrutinizing, methodological toolboxes for the study of the past. The research is aligned with the recent turn towards large-scale computational analysis of sound and visual content in historical research, and focuses on sonic, photographic, and audiovisual collections from 1936: some 15,000 digitized photographs from DigitaltMuseum, all preserved radio programs from Swedish Radio (Radiotjänst), and all newsreels and short films produced by Svensk Filmindustri. Approaching these collections as datasets, MODERN-36 will develop, and critically explore state-of-the-art digital humanities methods such as speech recognition, object detection and probabilistic topic modeling in three ways: (1.) to examine how software can assist historians in discerning new historical knowledge, (2.) to construct midsize and curated datasets to increase the research capacity of media historical sources and ways of studying these, and (3.) to interrogate algorithmic detection by evaluating what machines can—and cannot—notice in the selected data.
Jag håller för närvarande på och skriver på en artikel till Historisk tidskrift, den har ett kommande temanummer om empiri. I texten presenterar jag en del av den forskning vi ägnat oss åt inom projektet Välfärdsstaten analyserad – liksom några tentativa resultat. Men mitt fokus ligger främst på det praktiska hantverket med att arbeta med storskalig empiri, på iordningställande och arbete med datakurering, samt de möjligheter och tillkortakommanden som sådana forskningspraktiker inbegriper. En fråga jag intresserar mig för är relationen mellan data och empiri. Som mediehistoriker, med ett intresse för forskningsarbete med digitala metoder, har jag återkommande funderat på vad som egentligen utgör empiri i min forskning, och vilken relation termer som data, empiri och information egentligen har till varandra. I skrivande stund ser anslaget till artikeln ut så här:
”Empiri är datainsamling genom vetenskapliga undersökningar av verkligheten”, kan man läsa på Wikipedia. Men hur är egentligen begrepp som som empiri och data relaterade? Det är förstås en omtvistad fråga, men som likväl kan undersökas – exempelvis genom att studera versionshistoriken av just termen empiri på Wikipedia. Även på svenska är data om posten mycket omfattande; under fliken ”Visa historik” återfinns hundratals ändringar publicerade under snart tjugo års tid. ”Empiri är vetenskapliga undersökningar av verkligheten”, hette det i den första artikeln från 2002. Några år senare hade den inledande meningen ändrats till: ”Empiri innebär när människan bygger en slutsats utav våra sinnen”, en något ålderdomlig formulering, men inte uppseendeväckande eftersom svenskt innehåll på Wikipedia ibland baserar sig på (mer eller mindre) automatgenererad, aggregerad text från inskannade äldre källor på webben, som exempelvis Uggleupplagan av Nordisk familjebok. Och det är förstås inte enbart text som autogenereras, en betydande del av ändringarna i artikelposten om empiri är utförda av botar, korta städalgoritmer som friserar (i regel) ovidkommande ändringar. Loggen för artikelposten vimlar av sådana ändringar: robot tar bort, gör ogjord, rullade tillbaka redigeringar. Dataflöden av text går alltså i olika riktningar, men merparten av datan om posten empiri går enkelt att studera online på Wikipedia. Vem som gjort ändringar framgår naturligtvis, och det är även möjligt att grafiskt via applikationen RevisionSlider jämföra olika poster med varandra, ”bläddra interaktivt i historiken”, där val av publiceringstidpunkt lätt kan specificeras. Sidstorlek (i antal byte) framgår då också, liksom positiv eller negativ ändringsstorlek på poster. Och är man lite fingerfärdig går empirin – om posten empiri – förstås att sätta samman och ladda ned som ett dataset.James Bridles bokinstallation, The Iraq war: A historiography of Wikipedia changelogs från 2012 – tryckt i ett enda exemplar om tolv volymer på sjutusen sidor med samtliga tolv tusen ändringar av den engelska artikelposten om Irakkriget mellan 2004–09 – är alltjämt det mest illustrativa exemplet på den enorma mängd textdata som en enskild artikel på Wikipedia kan innehålla. Bokverket samlar en sorts kulturell argumentationsprocess kring en minst sagt omtvistad fråga som också illustrerar den digitala teknikens väldiga dokumentationsförmåga, en svällande historiografisk empiri bokstavligen utan slut (bara under sommaren 2021 gjorde ytterligare hundratals ändringar i samma artikelpost). Att digitalt källmaterial ställer historikern inför betydande utmaningar är välbekant. Men vilken roll spelar skala och storlek på den empiri som historikern arbetar med? Kan ett dataset på flera hundra miljoner ord betraktas som historisk empiri? Om ja – vad är det då för sorts forskningspraktik som etableras när en sådan massiv empiri inte längre går att vare sig läsa eller förstå utan datorers hjälp? Och hur förändrar empiri som dataset de frågor som vi historiker ställer?
För en människa är det inte möjligt att läsa ett dataset med flera hundra miljoner ord – men med mjukvara går det. En återkommande frågeställning inom kunskapsfältet digital historia är därför vad tekniken uppfattar när exempelvis algoritmisk textanalys appliceras på ett omfattande empiriskt material. Jo Guldi har i en analys av politiska diskussioner om brittisk infrastruktur under 1800-talet, baserade på the Hansard – transkriberade debatter från Storbritanniens parlament, ett dataset på flera hundra miljoner ord – påpekat att storskalig textanalys gör det möjligt att spåra ”the invisible categories that structure mind, language, priorities, or prejudice in a given corpus”. Andra forskare har närmat sig en snarlik omfattande empiri utifrån ett begreppshistoriskt perspektiv; Matti La Mela har till exempel studerat hur ett begrepp som allemansrättenförändras i diskussioner och debatter i den finska riksdagen under 1900-talet. En annan metod som blivit vanlig bland historiker är så kallad topic modeling – temamodellering på svenska – ett samlingsnamn på en rad algoritmer som kan klassificera stora textkorpusar baserat på tematiska strukturer i textmassan. Genom temamodellering kan diskurser och begrepp urskiljas, baserade på ords statistiska sammanhang i ett mycket omfattande empiriskt material.
Ett dataset brukar ses som en större textsamling av strukturerad data. Själv brukar jag använda beteckningen kulturella dataset som ett sätt att antyda att data kommer från en kulturhistorisk sfär, exempelvis bestående av äldre dagspress, tidskrifter eller utredningar. Ett kulturellt dataset som jag själv återkommande arbetar med innehåller alla statliga offentliga utredningar mellan 1945 till 1989; det rör sig om fler än tre tusen utredningar. Använder man den algoritmiska temamodellen latent dirichlet allocation (lda) som kan dela in detta dataset i n teman, och i just detta fall sorterar datan i 500 teman, så är det möjligt att spåra ett som tydligt handlar om humaniora, historia och språk. I ett flertal SOU:er återfinns alltså ett humanioratema – i varierande procentuell styrka. I temamodellen urskiljs de ord som ingår, exakt vilka utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur det anknyter till andra teman och utredningar. Humanioratemat (godtyckligt numrerat som 396) är som starkast fram till omkring 1970; det innehåller frekventa ord som språk, historia, universitet, latin och litteratur – men även termer som beläsenhet och humanist. Temat kan i sin tur sättas i relation till andra teman som det delar ord med, till exempel ett universitetstema (med nummer 330), där de mest frekventa termerna är fakultet, universitet, högskola, ämne och undervisning, eller med ett kulturarvstema (nummer 386) med de mest prominenta orden byggnad, museum, kulturminnesvård, landsantikvarie och riksantikvarieämbetet.
Illustrationerna ovan ger en antydan om att statliga utredningar som sammansatt dataset är ett rikt forskningsmaterial; ett slags omfattande textarkiv som kan analyseras, läsas och visualiseras på många olika sätt, inbegripet såväl tematiska som kronologiska nedslag. Grundprincipen för all temamodellering är att ord samförekommer; temamodeller arbetar med statistisk analys av distribution av ord i form av sannolikhetsfördelning över alla ord i en textmassa. I fallet med humanioratema 396 så förekommer det i knappt två procent av de inalles 3154 utredningar från perioden. Det låter kanske lite, men det gäller alltså enbart detta mycket specifika tema. SOU-datan från denna period inbegriper 87 miljoner ord, en historisk empiri som är betydligt mer omfattande än den som historievetenskapen i regel använder sig av. När en beläsen humanist (för att nu knyta an till temat) som Reinhart Koselleck i sin Vergangene Zukunft (1979) metodologiskt redogör för sin begreppsorienterade empiri heter det att den baserar sig på läsning under tjugo års tid av tryckta tidsupplevelser formulerade av politiker, filosofer, teologer och diktare, liksom mer obekanta skrifter och ordböcker – samt förstås historikers egna utsagor. ”Solche Texte wurden gesucht und befragt”, som det står i original på tyska. Empirin har efter betydande forskarmödor tålmodigt letats fram i bibliotek och arkiv, ibland systematiskt får man förmoda, men stundtals också mer eller mindre godtyckligt. För det är ju så många historiker ofta arbetar; även jag själv – vi kan inte läsa allt. Devisen ”gesucht und befragt” gäller förstås inte för alla historiska studier, men ganska många skulle jag vilja hävda. Som mediehistoriker har jag metodologiskt arbetat ungefär på det sättet under mer än två decennier.
Men i takt med att allt mer historisk empiri (förstått i vid bemärkelse) blivit digital har den både blivit sökbar på nytt liksom möjlig att analysera med olika typer av mjukvara. Begreppsanvändning går nu att analysera på andra sätt än tidigare, och på grundval av en empiri som är betydligt mer omfattande – även om det i fallet med SOU-datan härrör sig från en enda materialkategori. Den traditionella metoden ”gesucht und befragt” har i så måtto ändrat karaktär när arkivdriven historievetenskap kompletterats med datadriven digital history, det senare ett kunskapfält som kommit att omfatta flera olika humanistiska discipliner. ”Digital history is an approach to examining and representing the past; it uses new communication technologies and media applications and experiments with computational methods for the analyses, production and dissemination of historical knowledge.” Ofta – men inte alltid – innebär det en metodologisk förskjutning från kvalitativa till kvantitativa studier där empirin ökat rejält i omfång. Andrew Piper har i en syrlig text om litteraturvetenskapens behov av att gå från när- till fjärrläsning, distant reading, exemplifierat med en annan tysk lärdomsgigant, Erich Auerbach, och frågat sig om ”verklighetsframställningen i den västerländska litteraturen” – undertiteln till Mimesis (1946) – verkligen går att analysera utifrån en skönlitterär empiri bestående av ett tjugotal kanoniserade böcker. Att Auerbach (liksom Koselleck) var en flitig läsare betvivlar ingen: ”Who would ever presume to have read more than Auerbach? But what if he actually hadn’t read enough?”
I ett forskningsprojekt som jag leder – Välfärdsstaten analyserad. Textanalys och modellering av svensk politik, media och kultur 1945–1989 – arbetar vi med olika typer av algoritmisk textanalys av storskalig empiri från politikens sfär (allt digitaliserat riksdagstryck och alla statliga offentliga utredningar under perioden), digitaliserad dagspress (det rör sig om tiotalet dagstidningar) och skönlitteratur (alla svenska romaner utgivna under perioden håller på att digitaliseras), därtill har periodens mest prestigefulla kulturtidskrift, Bonniers litterära magasin digitaliserats och iordningställts som dataset. Det rör sig om en historisk empiri grupperad i flera dataset, vilka sammantagna omfattar hundratals miljoner ord. Lingvister och språkteknologer har under lång tid arbetat med snarlika, omfattande textkorpusar, och i vårt projekt använder vi både enklare språkteknologiska metoder som ordfrekvenser och kollokationer, bigrams (ordpar som uppträder tillsammans) liksom mer sofistikerade algoritmer som ovan nämnda temamodeller eller NER-algoritmer (Named-entity recognition) där personnamn, geografi och tidsmarkörer automatiskt kan taggas upp. Men vi är inte språkvetare; Välfärdsstaten analyserad är ett historievetenskapligt forskningsprojekt, där grundtanken är att studera diskursiva förändringar på makronivå inom tre olika samhällssfärer. Svensk efterkrigstid är en väl utforskad period, men genom att applicera digitala metoder på kurerade dataset kommer politikens, nyhetsmediernas och kulturens sfärer att kunna granskas på nytt.
I den här artikeln kommer jag att presentera en del av den forskning vi ägnat oss åt inom Välfärdsstaten analyserad – samt några tentativa resultat. Men mitt fokus ligger främst på det praktiska hantverket med att arbeta med storskalig empiri, på iordningställande och arbete med datakurering, samt de möjligheter och tillkortakommanden som sådana forskningspraktiker inbegriper. En fråga jag intresserar mig för är relationen mellan data och empiri; i vårt projekt har vi dels arbetat med redan existerande dataset (hämtade från Riksdagens öppna data) men även skapat nya dataset utifrån äldre textsamlingar som digitaliserats. Som mediehistoriker, med ett intresse för forskningsarbete med digitala metoder, har jag därför återkommande funderat på vad som egentligen utgör min empiri, och vilken relation termer som data, empiri och information egentligen har till varandra. Artikeln är ställvis personligt hållen och innehåller en rad reflektioner kring historikerns arbete med storskalig textuell empiri. En erfarenhet är att historikerns förhållande till empiri ändrar karaktär när denna blir så omfattande att den inte längre går att överblicka (utan datorers hjälp). En annan är att själva forskningspraktiken förändras, där exempelvis förändrade utfall av körningar gör att frågeställningar måste korrigeras. Det handlar inte enbart om lära sig att förstå kod (någorlunda), eller att samarbeta med programmerare. Som historiker måste man nu också samarbeta med statistiker och maskininlärningsexperter för att iordningställa och kurera dataset (vilket tar enormt med tid), liksom att arbeta med dessa dataset på nya sätt; att ladda olika modeller, att laborera med varierande ingångsvärden, att ändra parametrar och iordningställa utfall på ett sätt som ofta skiljer sig betydligt, för att inte säga radikalt från traditionell historievetenskaplig praktik.
I am currently devoting my time to the EU-project European History Reloaded. Together with my colleague Maria Eriksson and developer Tomas Skotare at Humlab, I have started working on an article that will analyse reuse of old film footage via a new application that Eriksson and Skotare have developed at Humlab – the Video Reuse Detector. The VRD is a tool that uses machine learning to identify visual similarities within a given audiovisual archive or database. It can hence identify reuse of videos in major audiovisual databases. Within the project Eriksson and Skotare are currently working on an open Jupyter Notebook that will make it possible to test the tool. In the meantime I have started working on an article that will both test the VRD tool and exemplify its concrete usage in an archival setting. The film that we will work with is from 1964, Brefven från Stockholm – en film om sommaren 1909, a compilation film made by Gardar Sahlberg. He was responsible for the so called SF-archive, which Swedish Radio purchased from Swedish Film Industry in 1963. The SF-archive – SF:s journalarkiv as it was called in Swedish – contained some 5500 films from 1897 until 1960, and was later frequently reused within Swedish television. In Sahlberg’s film, footage and film fragments from the SF-archive are reused, and we will particularly look at the way in which parts and sequences from four film fragments from the archive – SF2061A, SF2061B, SF2063 and SF2066 – are reused by Sahlberg. By using the VRD tool, the idea is on the one hand to test the ability of the tool, and on the other to discuss novel ways of analysing how history programs on television – or compilation videos on YouTube – remix and reappropriate audiovisual archival footage.
Together with my colleague Fredrik Norén, I have become active in an international network with academics interested in parliamentary data in various countries. There is naturally a linkage to our reserch project Westac. During 2020 a number of “The Text Mining Parliamentary Data Seminars” were held, and on Thursday March 18th 2021, another seminar will be organised with the title: “Practices of Parliament”. Documenting parliamentary debates can be tricky. On the one hand, a record of discussions needs to be true and authentic, and on the other hand such a record is always an interpretation – to be apprehended for future generations. As a number of historical investigations have noticed, practices of marking up parliamentary debates diers, for example between countries. Today, within digital history projects there hence exists an increased awareness of accurate curation of parliamentary data. Issues are often mundane: are there clear starting and ending points dividing up previous documentation? How to classify events in the chamber – besides actual speeches? The workshop brings together a group of scholars and practitioners with different experiences of documenting parliamentary debates in four European countries: Sweden, the Czech Republic, Poland and Finland. The workshop includes five short presentations as well as a panel discussion.
The workshop is open to all – more information can be found on this flyer: