Om Nils Keyland i Populär Historia

I senaste numret av tidskriften Populär Historia har den ansvarige redaktören Jacob Wiberg skrivit en fin text – en sorts mini-essä i form av en bildtext till ett fotografi av Nils Keyland. Texten refererar till mitt kapitel i den nya boken Fotografihistorier – fotografi och bildbruk i Sverige från 1839 till idag. Med tanke på att det nu är kräftskivornas tid så handlar det förstås om Keylands fotografi av håvning av kräftor från cirka 1910. Jag tar mig friheten att lägga upp en PDF av Wibergs utmärkta text:

Digital tools

Together with my colleague Maria Eriksson, we are guest editors of an upcoming issue on digital tools in the Journal of Digital History. The background for our interest in DH-tools is the research we have conducted and been involved within the project European History Reloaded. Curation and Appropriation of Digital Audiovisual Heritage. Within this project we developed a video reuse application – the VRD-tool. The Video Reuse Detector uses methods and combines convolutional neural networks, indexation libraries, filtering techniques, and visualization tools. In the upcoming special issue of the Journal of Digital History we will describe it in more detail. The cfp for the special issue has recently been put online, and we welcomes contributions that introduce and discuss digital toolkits for exploring historic source materials, be they sonic, textual, visual, or audiovisual. The aim is to collect a broad range of publications that demonstrate and critically analyses new ways of exploring the past through computational means and strive to open up and problematize the use of digital methods in historic research.

Om Nationalfonoteket

Mitt bokmanus om de audiovisuella arkivens historia under svensk efterkrigstid växer till sig så smått. Om kapitel ett handlade om film, så är det nu dags att i kapitel skriva om ljud. Fokus ligger framför allt på det så kallade Nationalfonoteket som etablerades på Kungliga biblioteket under andra halvan av 1950-talet. Anslaget till kapitlet lyder för närvarande som nedan.

En tisdagsafton i september 1955 gjorde riksbibliotekarie Uno Willers debut som plattvändare i radio – och det på bästa sändningstid. ”En grammofontimme med Uno Willers” bjöd bland annat på musik av Bach, inspelningar med en ung Jussi Björling, den värmländska folkvisan Jänta och ja, liksom ett tal av Hjalmar Branting och en upptagning med äkta Shakespeare-engelska, ”allt sammanfogat med en personlig ton som aldrig lät en förgäta att det var en bibliotekarie och arkivman som förde ordet”. Av radiorecensioner att döma var programmet uppskattat, om än med förbehållet att det inte fanns så mycket annat att lyssna på – en andra kanal, P2, lanserades först i december 1955. På kortvåg kunde man visserligen höra BBC på svenska, men just denna kväll var det ovanligt mycket störningar i etern. Willers hade också konkurrens från IBRA radio och ”andliga sånger på grammofon” – pingströrelsens radioutsändningar från Tanger i Marocko hade påbörjats sommaren 1955 eftersom pastor Lewi Pethrus var missnöjd med programutbudet hos Radiotjänst. Dagens Nyheters anmälare menade att programserien med ”skivbytare vid grammofonen” nog hade bjudit på förnämlig musik. Men de som ”beledsagade de arkiverade tonerna” hade i regel varit opersonliga och torftiga presentatörer. ”Vem kunde tro att slentrianen där skulle brytas av en riksbibliotekarie?” Med osviklig säkerhet och smak gjorde Willers en klarsynt resumé över den inspelade musikens betydelse, hette det. Han berättade om de många folk- och stadsbibliotek som inrättat lyssnarrum. Vid bibliotekens musikavdelningar – diskotek med tidens terminologi – fick låntagaren ”sin skiva vid disken och försvinner in i stillheten”. Att lyssna på ”seriös musik” – även det en återkommande, tidstypisk term – var som att försjunka i en god bok. Men på Luleå stadsbibliotek framhöll Willers, ja där stod till och med dansskivor till förfogande. Även tidningen Arbetaren menade att Willers serverat ”intressanta upplysningar om bibliotekens allt livligare samlande och utlåning av grammofonskivor”. Expressen framhöll i sin tur att Willers ”fakta och önskningar [om] den nya biblioteksformen, skivarkiv” lovade gott inför framtiden.Det är en mediehistorisk ironi att Uno Willers grammofontimme hösten 1955 inte bevarats av Sveriges Radio. Äldre radioinspelningar har endast sparas i begränsad omfattning och Willers program tillhör tyvärr den kategori som skickades ut i etern – och därefter aldrig hördes av. Vad riksbibliotekarien egentligen pratade om går det därför bara att rekonstruera utifrån det tryckta kulturarv som sedan trehundra år bevarats på det nationalbibliotek han var chef över. Det hela är något av en mediearkivarisk malör eftersom ”En grammofontimme med Uno Willers” var allra första gången som riksbibliotekarien publikt lanserade idén om ett ”centralt skivbibliotek” (Arbetaren), alternativt kallat ett ”statligt arkiv [med] varje inhemsk grammofonskiva” (DN). Exakt hur Willers formulerade sig är oklart, men hans uppslag skulle sedermera omsättas i både ett Nationalfonotek och så småningom i en utvidgning av den nationella pliktexemplarslagen till att omfatta även audiovisuellt material. Willers tanke var enkel: på samma sätt som pliktexemplarslagen stipulerade att ett exemplar av varje trycksak skulle levereras till Kungliga biblioteket så borde skivbolagen skicka sina nypressade grammofonskivor till Humlegården i Stockholm. Förebilden var internationell; ”så sker i de stora kulturländerna”, menade DN. ”Inte bara toner skulle på det sättet förvaras, utan också intalade plattor. Hjalmar Brantings inlägg i rösträttsfrågan 1918 och ett skoltal av [ärkebiskop] Nathan Söderblom” – som Willers spelade i sitt program – ”visade vad som kunde vinnas i den vägen”. Frågan följdes upp i en artikel i Svenska Dagbladet dagen därpå. Den handlade både om de många diskotek som etablerats på landets folkbibliotek och de sätt som Willers tänkte sig ett centralt skivarkiv. Uppenbarligen var franska Phonothèque Nationale ett föredöme för honom. Willers aviserade att han hade för avsikt att ta upp frågan med landets skivproducenter, något han möjligen också berörde i sitt radioprogram. ”Att söka få fram en lagstadgad leverans enligt franskt mönster blir väl inte aktuellt. Jag tror på en frivillig anslutning som en snabbare väg”, menade riksbibliotekarien – ord som skulle visa sig bli betydelsefulla framgent.

Före 1960 innehöll Kungl.bibliotekets årsberättelse knappt ett ord om radio – än mindre om enskilda radioprogram. Men i Riksbibliotekariens ämbetsberättelse, som Willers från och med 1959 kallade KB:s årsredovisning, så återkom han till sitt eget radioprogram från 1955. Såsom han aviserat hade han nämligen tagit kontakt med representanter för den svenska grammofonskiveindustrin liksom med Radiotjänst. I november 1955 hade en grupp herrar (får man förmoda) samlats på KB för ”en preliminär diskussion av frågan om en central arkivering av svenska grammofonskivor”, detta enligt ett (dessvärre) förkommet mötesprotokoll. De närvarande skivproducenterna hade förklarat sig vara villiga att ställa ett exemplar av varje skiva med svenskt innehåll – ”tal av svenskar, musik av svenska tonsättare eller med svenska exekutörer” – till det kommande skivarkivets förfogande, förutsatt att skivbranschen inte behövde betala försäljningsskatt på dessa frivilliga grammofonexemplar. Det var en hel drös skivbolag som var närvarande på KB, i regel i egenskap som filialer till internationella aktörer: Svenska Philips-Sonora, Svenska Siemens, Swedish Society Discofil – som trots namnet var ett svenskt skivbolag med fokus på klassisk musik inspelad med hög ljudkvalitet – samt Skandinaviska Grammophon, den senare en underavdelning till brittiska The Gramophone Co., Emil Berliners skapelse samt etiketten Husbondens röst. Att Radiotjänst medverkade var också symptomatiskt; Sveriges Radio – som bolaget kallade sig efter 1957 – ägde landets absolut största samling med grammofonskivor. Riksradions grammofonarkiv hade påbörjats redan 1928. Men Sveriges Radio var förstås ingen statlig arkivinstitution, snarare ett företagsarkiv som använde sina grammofonskivor i programsyfte. Och något bevarandeansvar förelåg förstås inte hos SR. Att Willers eget radioprogram 1955 inte sparats bär syn för sägen, och framöver skulle landets större kulturarvsinstitutioner (främst KB och Riksarkivet) återkommande ha synpunkter på Sveriges Radios mediala arkivpraktiker.Svensk musikhistorisk forskning har i detalj kartlagt ljud- och reproduktionsteknikernas kultur- och mediehistoria under första halvan av 1900-talet. Det är en historia som delvis handlade om att uppgradera inspelad musik, vilken under lång tid motarbetades och ofta betraktades som sekundär och rent av perifer i jämförelse med musikframträdanden och konserter. Om poeten och teaterkritikern Bo Bergmans recension av Victor Sjöströms Terje Vigen (1917) av filmhistorisk forskning lyfts fram som en vändpunkt varefter spelfilm kunde betraktas som konst, har musikvetaren Ulrik Volgsten hävdat att 1928 utgjorde en snarlik brytpunkt för den inspelade grammofonmusiken. För då började musikskribenten och kompositören Moses Pergament att publicera en serie skärskådande skivrecensioner under rubriken ”Grammofonmusik under kritik” i Svenska Dagbladet, vilka bland annat kom att behandla ”de tekniska förbättringar som grammofonen genomgått, samt kulturella och underhållningsmässiga företräden hos både seriösa och populära repertoarer”. Grammofonskivor betraktades till en början inte som ett specifikt ljudmedium, snarare som en del av skivspelaren. Men under mellankrigstiden introducerades den elektriska fonogramteknologin, med följden att musikbranschen började delas upp i hårdvaruföretag (grammofoner) och mjukvara (inspelningar). De senare så kallade skivbolagen publicerade musik med olika etikettnamn, knutna till en bestämd repertoar (ett för konstmusik, ett för jazz etcetera). Under andra världskriget stagnerade den tekniska utvecklingen inom radio- och grammofonindustrin, men efterkrigstiden kom att präglas av en stark expansion av musikbranschen. Musikvetaren Pekka Gronow – under lång tid chef för den finska rundradions grammofonarkiv och ljudarkiv – har hävdat att det 1945 enbart i USA såldes 200 miljoner grammofonskivor. Inspelningstekniken förbättrades och stenkakor (78-varvsskivor) kom att ersättas av nya format, framför allt LP-skivan (long play eller long playing) med just längre speltid. I en historik i Fonogrammen i musiklivet (SOU 1971:73) hette det att ”avsättningen av grammofoner och grammofonskivor [ökade] högst avsevärt [under 1950-talet]. Orsakerna härtill var många. Det rådde i det hela taget goda konjunkturer med stigande köpkraft i alla folklager”. Ökad kvalitet på inspelningar skapade också ett intresse för bättre uppspelningsapparater, speciellt efter det att stereotekniken introducerats mot slutet av 1950-talet. I samma utredning framgick (med statistik från IFPI, International Federation of the Phonographic Industry) att försäljningen av skivor per individ år 1957 uppgick till 1,6 i USA och 1,4 i England. I Sverige köpte varje svensk 0,6 grammofonskiva i genomsnitt – vilket motsvarade cirka fyra miljoner sålda skivor detta år.

Riksbibliotekarie Uno Willers propå 1955 om inrättandet av ett statligt skivarkiv måste betraktas utifrån den framväxande mediala inspelningskontext som jag i korta ordalag skrivit fram. Grammofonskivor blev alltmer populära kring 1950, i synnerhet LP-skivor. Som Willers påpekade i sitt radioprogram så var folkbibliotekssektorns inrättande av diskotek ett svar på den utvecklingen. Men om jag i mitt förra kapitel om film beskrev hur de Filmhistoriska Samlingarna utvecklade sig till ett slags pappersarkiv om film, så hade Willers idé om ett grammofonarkiv en helt annan mediemateriell framtoning. Till skillnad från celluloidremsor var grammofonskivor biblioteksvänliga objekt med omslag, titel och artist som påminde om böcker (och andra tryckalster). Betraktade som insamlingsobjekt var skivor och böcker snarlika. Visserligen krävde grammofonskivor en apparatur för avlyssning, men skivor kunde liksom böcker ordnas i hyllor, samlas och förtecknas på ungefär samma sätt. Det är talande att Sveriges allmänna biblioteksförening redan 1962 gav ut en småskrift med titeln Grundläggande katalogregler för svenska diskotek. Om Einar Lauritzen hävdade att insamlandet av filmrelaterat material inte sågs med blida ögon av biblioteks- och arkivsektorn i efterkrigstidens Sverige, så låg det nära till hand att tro att bevarandet av inspelad musik var suspekt av snarlika skäl. Men så var inte fallet, för om mediematerialiteten var en gemensam nämnare mellan böcker och skivor så var läsar- och lyssnarpraktiken också likartad. Tystnad och läsro har av tradition karakteriserat biblioteksrummet, de kan förefalla helt inkommensurabelt med grammofonlyssnande. Men med hörlurar var musiklyssnande på bibliotek en mycket tyst verksamhet – i paritet med bokläsande försvann biblioteksbesökaren in i stillheten – även om hörlurens mediehistoria ännu är ett oskrivet kapitel.

Det här kapitlet handlar om framväxten av inspelade musiksamlingar på bibliotek och arkiv under 1950-talet, men fokuserar framför allt på det Nationalfonotek som byggdes upp på Kungliga biblioteket under 1960-talet. Det är en institution som tidigare musikhistorisk forskning intresserar sig mycket sparsamt för – och då mest i förbigående. I sin närmast encyklopediska genomgång av ämnesområdet musikvetenskap noterade Ingmar Bengtsson exempelvis i början av 1970-talet med endast en mening att Nationalfonoteket hade en skivsamling. På samma sätt tog tidens statliga utredningar sparsamt notis om Nationalfonotekets verksamhet, exempelvis (med en rad) i Utbildning för bibliotek, arkiv och informatik (SOU 1969: 37) och Ny kulturpolitik (SOU 1972:66). Ett undantag utgörs av den tidigare nämnda utredningen Fonogrammen i musiklivet (något som jag återkommer till). I musikvetenskapliga sammanhang kom Nationalfonotekets verksamhet därför främst att uppmärksammas genom de diskografier som fonotekets medarbetare Ulf Abel och Björn Englund (samt Karleric Liliedahl) sammanställde under en lång serie av år, exempelvis genom kartläggning av den svenska grammofonproduktion under den så kallade 78-varvsepoken. De inkluderade också förteckningar av sådant som inspelade Svenska diktarröster, liksom diskografier av enskilda artister, bland andra revykungen Ernst Rolf och schlagersångaren Harry Brandelius.Att musikvetare (varken då eller nu) inte ägnade speciellt många tankar åt Nationalfonoteket hindrade inte att denna mediearkivariska institution uppmärksammades i andra sammanhang. Materialet i dagspressen är rikhaltigt och Willers såg också till att hans fonotek figurerade i riksdagssammanhang. I ett PM 1967 försökte han exempelvis få till stånd att röstprov av alla riksdagens medlemmar skulle spelas in, ett uppslag som i princip var detsamma som Nils Flygs filmarkivariska motion från 1936. Willers förefaller också haft kontakt med ett antal folkpartister som 1967 motionerade om ökade resurser till ”landets riksfonotek”, och ett år senare invigde ecklesiastikminister Olof Palme ”en klingande utställning” som firade Nationalfonotekets första tio år, en invigning som passande nog spelades in på ljudband. I detta kapitel kommer jag just att använda en hel del ljudande empiri, för även om Willers radioprogram 1955 gått förlorat finns det gott om andra inspelningar, både på ljudband, skiva och i radio. I början av 1980-talet gav Englund exempelvis ut en grammofonskiva med inspelningar från och kommentarer om Nationalfonoteket, Ett svenskt ljudarkiv 25 år. Om det förra kapitlet handlade om hur en filmarkivarisk diskurs växte fram i Sverige under efterkrigstiden är det nu alltså istället musik och ljud som står i centrum. För Nationalfonoteket – eller Ljudarkivet som det till en början kallades i KB:s årsberättelser – handlade lika mycket om ljudande dokumentärt material som om musik. ”Nationalfonotekets material omfattar svenska grammofonskivor och ljudband – framställda dels i Sverige, dels utomlands med svensk musik/text/exekutör – samt dessutom utländskt ljudmaterial av historiskt eller litteraturhistoriskt intresse”, som Willers slog fast i ljudarkivets första nominalkatalog 1962.

Filmkapitel till bokmanus

Jag arbetar för närvarande med ett bokmanus om audiovisuella medier och arkiv 1945 till 1989. Det första kapitlet som behandlar film är nu färdigskrivet. Det ägnas framför allt åt uppkomst (och fall) av de så kallade Filmhistoriska Samlingarna som arkivarie Einar Lauritzen mycket förtjänstfullt (för framtida filmforskning) etablerade på Tekniska museet i Stockholm. För den intresserade finns kapitlet som PDF nedan. Man bör notera att mina data-analyser – kopplade till projektet Välfärdsstaten analyserad – ännu inte är helt färdiga.

Nytt arbete vid Lunds universitet

Idag har rektor vid Lunds universitet beslutat om innehavare av professuren i digitala kulturer – som råkar vara jag. Jag byter alltså lärosäte – från norr till söder. Det ska bli väldigt roligt att börja arbeta i Lund vid Institutionen för kulturvetenskaper. Ser fram emot att träffa nya kollegor, utveckla ämnet digitala kulturer och initiera nya samarbeten. Jag tillträder min nya tjänst i maj.

Bokmanus under arbete

Jag har påbörjat arbete med ett nytt bokmanus – med arbetstiteln Medier och arkiv 1945–89. Utgångspunkten för det hela är de olika typer av distansläsning och temamodellering av statliga utredningar som jag ägnade mig åt under förra året inom ramen för forskningsprojektet Välfärdsstaten analyserad. Statens intresse för medier under välfärdsåren handlade i stor utsträckning om att skapa ekonomiska förutsättningar för medieproduktion: etableringen av public service, den successiva ökningen av presstöd liksom inrättandet av Svenska filminstitutet är tre exempel. Men med hjälp av temamodellering går det att visa att staten också i nästan lika hög utsträckning intresserade sig för hur medier skulle sparas. Statlig mediepolitik ägnades åt både produktion och bevarande, något som tidigare mediehistorisk forskning inte uppmärksammat speciellt mycket. Gemensamt för de temamodeller jag använt är att de listar de betänkanden som procentuellt starkast innehåller ett tema. I en modell som delar in alla statliga utredningar mellan 1945–89 i 50 teman är följande fem utredningar vanligast förekommande i det enda medietema som återfinns: Ljud och bild för eftervärlden (SOU 1987:51), TV-politiken (SOU 1989:73), Svensk press (SOU 1974:102), Bevara ljud och bild (SOU 1974:94) och Radio i utveckling (SOU 1973:8). Vad som är slående är att två av dessa fem betänkanden handlar om hur medier skulle bevaras. Många medieutredningar var förstås inriktade på framtidsfrågor, men arkiveringen av samma medieformer var något som staten intresserade sig för i lika stor utsträckning.

Det är denna insikt – med digitala metoders hjälp – som ligger till grund för det bokmanus jag nu påbörjat. Det hela är också tänkt som en fortsättning på min bok Kulturarvets mediehistoria som gjorde halt ungefär vid mitten av 1900-talet. Upplägget kommer därför att vara snarlikt – med fokus på olika medieformer: film, ljud, etermedia och data utgör preliminära kapitelrubriker. Eftersom temamodellering av utredningar utgör ett slags övergripande raster för mitt manus så kommer jag också att använda medieutredningar – och framför allt de kommittéarkiv som finns bevarade på Riksarkivet – som återkommande empiri. I skrivande stund ägnar jag mig åt filmmediet, med fokus på periodens filmutredningar från tidigt fyrtiotal till mitten av sextiotalet.

Nytt forskningsprojekt beviljat av RJ

Jag fick idag glädjande besked av RJ om att projektansökan Moderna tider 1936 beviljats. Tillsammans med mina kollegor Maria Eriksson, Fredrik Norén och Emil Stjernholm kommer vi att undersöka vad samtida algoritmer för mönsterigenkänning ser och hör när de appliceras på mediehistoriskt källmaterial. All historieskrivning kräver förstås tolkningsarbete – men vilka algoritmiska uttolkningar av det förflutna åstadkommer mjukvara? En webbsida om projektet kommer att lanseras vad det lider – men anslaget till vår engelska ansökan ger en vink om vad vi tänker oss:

Media historians usually argue that the past is only available to us through media—be they antique graffiti, disintegrating newspapers, sepia-toned photographs, or last year’s YouTube clip. All humanistic infrastructures (such as libraries) can hence be seen as media archives, where media-specific conditions regulate what is discursively stored. Today, however, cultural heritage institutions are not simply storage facilities but dynamic repositories of digitized content that can be explored with computational methods in new and fascinating ways.

In 1991, Manuel de Landa forecasted a coming age of robots dedicated to understanding their historical origins; he even envisioned “specialized robot historians” committed to trace their genesis, writing “a different kind of history” than humans. Similarly, Hannes Alfvén’s 1966 Swedish science fiction novel, translated as The tale of the big computer conjured up a future where computers not only ruled the world but also had the power to write its past. All likely a computer (“en data”) narrated Alfvén’s story: “When a historian has reached his own time, he ought perhaps to lay down his pen … But how do computers view the problem of man?”

Today, we find ourselves in a situation where machines can be assigned the task of seeing and modeling the human past. What once had a sci-fi character is nowadays a scholarly reality. The project proposal Modern Times 1936— acronym MODERN-36—departs from the fact that the past is not only mediated but increasingly numerically stored and hence prone to computational analysis in ways once envisioned by Alfvén and de Landa. Yet—and this is the overarching research question—what exactly is it that software sees, hears, and perceives when technologies for pattern recognition are applied to sonic and visual media historical sources? MODERN-36 will examine machinic ways of interpreting expressions of modernity in media archival materials from 1936, intentionally zooming in on a comparatively non-spectacular year in Swedish history. Coincidentally, this was also the year when Charlie Chaplin’s film Modern Times premiered, with the little tramp struggling in an increasingly industrialized world—a film that has an iconic status as a critical comment on modernity.

MODERN-36 will focus on one year in order to study quotidian signs of the modern condition. 1936 was a fairly peaceful and politically stable year in Sweden where modernity is often said to have arrived late. At the same time, this was an era of dramatic transformation: several Swedish urban renewal projects were underway in the mid 1930s; technological developments reshaped manufacturing and consumption practices; and a series of new media (such as radio, sound film, and illustrated press) were becoming increasingly popular as sources of both entertainment and education, calling forth new forms of collective experiences and cultural encounters.

MODERN-36 will explore how artificial intelligence (AI) and machine learning (ML) methods can foster new and stimulating knowledge about the history of Swedish modernity—while at the same time developing, and critically scrutinizing, methodological toolboxes for the study of the past. The research is aligned with the recent turn towards large-scale computational analysis of sound and visual content in historical research, and focuses on sonic, photographic, and audiovisual collections from 1936: some 15,000 digitized photographs from DigitaltMuseum, all preserved radio programs from Swedish Radio (Radiotjänst), and all newsreels and short films produced by Svensk Filmindustri. Approaching these collections as datasets, MODERN-36 will develop, and critically explore state-of-the-art digital humanities methods such as speech recognition, object detection and probabilistic topic modeling in three ways: (1.) to examine how software can assist historians in discerning new historical knowledge, (2.) to construct midsize and curated datasets to increase the research capacity of media historical sources and ways of studying these, and (3.) to interrogate algorithmic detection by evaluating what machines can—and cannot—notice in the selected data. 

100 miljoner ord

Jag håller för närvarande på och skriver på en artikel till Historisk tidskrift, den har ett kommande temanummer om empiri. I texten presenterar jag en del av den forskning vi ägnat oss åt inom projektet Välfärdsstaten analyserad – liksom några tentativa resultat. Men mitt fokus ligger främst på det praktiska hantverket med att arbeta med storskalig empiri, på iordningställande och arbete med datakurering, samt de möjligheter och tillkortakommanden som sådana forskningspraktiker inbegriper. En fråga jag intresserar mig för är relationen mellan data och empiri. Som mediehistoriker, med ett intresse för forskningsarbete med digitala metoder, har jag återkommande funderat på vad som egentligen utgör empiri i min forskning, och vilken relation termer som data, empiri och information egentligen har till varandra. I skrivande stund ser anslaget till artikeln ut så här:

”Empiri är datainsamling genom vetenskapliga undersökningar av verkligheten”, kan man läsa på Wikipedia. Men hur är egentligen begrepp som som empiri och data relaterade? Det är förstås en omtvistad fråga, men som likväl kan undersökas – exempelvis genom att studera versionshistoriken av just termen empiri på Wikipedia. Även på svenska är data om posten mycket omfattande; under fliken ”Visa historik” återfinns hundratals ändringar publicerade under snart tjugo års tid. ”Empiri är vetenskapliga undersökningar av verkligheten”, hette det i den första artikeln från 2002. Några år senare hade den inledande meningen ändrats till: ”Empiri innebär när människan bygger en slutsats utav våra sinnen”, en något ålderdomlig formulering, men inte uppseendeväckande eftersom svenskt innehåll på Wikipedia ibland baserar sig på (mer eller mindre) automatgenererad, aggregerad text från inskannade äldre källor på webben, som exempelvis Uggleupplagan av Nordisk familjebok. Och det är förstås inte enbart text som autogenereras, en betydande del av ändringarna i artikelposten om empiri är utförda av botar, korta städalgoritmer som friserar (i regel) ovidkommande ändringar. Loggen för artikelposten vimlar av sådana ändringar: robot tar bort, gör ogjord, rullade tillbaka redigeringar. Dataflöden av text går alltså i olika riktningar, men merparten av datan om posten empiri går enkelt att studera online på Wikipedia. Vem som gjort ändringar framgår naturligtvis, och det är även möjligt att grafiskt via applikationen RevisionSlider jämföra olika poster med varandra, ”bläddra interaktivt i historiken”, där val av publiceringstidpunkt lätt kan specificeras. Sidstorlek (i antal byte) framgår då också, liksom positiv eller negativ ändringsstorlek på poster. Och är man lite fingerfärdig går empirin – om posten empiri – förstås att sätta samman och ladda ned som ett dataset.James Bridles bokinstallation, The Iraq war: A historiography of Wikipedia changelogs från 2012 – tryckt i ett enda exemplar om tolv volymer på sjutusen sidor med samtliga tolv tusen ändringar av den engelska artikelposten om Irakkriget mellan 2004–09 – är alltjämt det mest illustrativa exemplet på den enorma mängd textdata som en enskild artikel på Wikipedia kan innehålla. Bokverket samlar en sorts kulturell argumentationsprocess kring en minst sagt omtvistad fråga som också illustrerar den digitala teknikens väldiga dokumentationsförmåga, en svällande historiografisk empiri bokstavligen utan slut (bara under sommaren 2021 gjorde ytterligare hundratals ändringar i samma artikelpost). Att digitalt källmaterial ställer historikern inför betydande utmaningar är välbekant. Men vilken roll spelar skala och storlek på den empiri som historikern arbetar med? Kan ett dataset på flera hundra miljoner ord betraktas som historisk empiri? Om ja – vad är det då för sorts forskningspraktik som etableras när en sådan massiv empiri inte längre går att vare sig läsa eller förstå utan datorers hjälp? Och hur förändrar empiri som dataset de frågor som vi historiker ställer?

För en människa är det inte möjligt att läsa ett dataset med flera hundra miljoner ord – men med mjukvara går det. En återkommande frågeställning inom kunskapsfältet digital historia är därför vad tekniken uppfattar när exempelvis algoritmisk textanalys appliceras på ett omfattande empiriskt material. Jo Guldi har i en analys av politiska diskussioner om brittisk infrastruktur under 1800-talet, baserade på the Hansard – transkriberade debatter från Storbritanniens parlament, ett dataset på flera hundra miljoner ord – påpekat att storskalig textanalys gör det möjligt att spåra ”the invisible categories that structure mind, language, priorities, or prejudice in a given corpus”. Andra forskare har närmat sig en snarlik omfattande empiri utifrån ett begreppshistoriskt perspektiv; Matti La Mela har till exempel studerat hur ett begrepp som allemansrättenförändras i diskussioner och debatter i den finska riksdagen under 1900-talet. En annan metod som blivit vanlig bland historiker är så kallad topic modeling – temamodellering på svenska – ett samlingsnamn på en rad algoritmer som kan klassificera stora textkorpusar baserat på tematiska strukturer i textmassan. Genom temamodellering kan diskurser och begrepp urskiljas, baserade på ords statistiska sammanhang i ett mycket omfattande empiriskt material.

Ett dataset brukar ses som en större textsamling av strukturerad data. Själv brukar jag använda beteckningen kulturella dataset som ett sätt att antyda att data kommer från en kulturhistorisk sfär, exempelvis bestående av äldre dagspress, tidskrifter eller utredningar. Ett kulturellt dataset som jag själv återkommande arbetar med innehåller alla statliga offentliga utredningar mellan 1945 till 1989; det rör sig om fler än tre tusen utredningar. Använder man den algoritmiska temamodellen latent dirichlet allocation (lda) som kan dela in detta dataset i n teman, och i just detta fall sorterar datan i 500 teman, så är det möjligt att spåra ett som tydligt handlar om humaniora, historia och språk. I ett flertal SOU:er återfinns alltså ett humanioratema – i varierande procentuell styrka. I temamodellen urskiljs de ord som ingår, exakt vilka utredningar som innehåller detta tema, hur det fördelar sig över tid liksom hur det anknyter till andra teman och utredningar. Humanioratemat (godtyckligt numrerat som 396) är som starkast fram till omkring 1970; det innehåller frekventa ord som språk, historia, universitet, latin och litteratur – men även termer som beläsenhet och humanist. Temat kan i sin tur sättas i relation till andra teman som det delar ord med, till exempel ett universitetstema (med nummer 330), där de mest frekventa termerna är fakultet, universitet, högskola, ämne och undervisning, eller med ett kulturarvstema (nummer 386) med de mest prominenta orden byggnad, museum, kulturminnesvård, landsantikvarie och riksantikvarieämbetet.

Illustrationerna ovan ger en antydan om att statliga utredningar som sammansatt dataset är ett rikt forskningsmaterial; ett slags omfattande textarkiv som kan analyseras, läsas och visualiseras på många olika sätt, inbegripet såväl tematiska som kronologiska nedslag. Grundprincipen för all temamodellering är att ord samförekommer; temamodeller arbetar med statistisk analys av distribution av ord i form av sannolikhetsfördelning över alla ord i en textmassa. I fallet med humanioratema 396 så förekommer det i knappt två procent av de inalles 3154 utredningar från perioden. Det låter kanske lite, men det gäller alltså enbart detta mycket specifika tema. SOU-datan från denna period inbegriper 87 miljoner ord, en historisk empiri som är betydligt mer omfattande än den som historievetenskapen i regel använder sig av. När en beläsen humanist (för att nu knyta an till temat) som Reinhart Koselleck i sin Vergangene Zukunft (1979) metodologiskt redogör för sin begreppsorienterade empiri heter det att den baserar sig på läsning under tjugo års tid av tryckta tidsupplevelser formulerade av politiker, filosofer, teologer och diktare, liksom mer obekanta skrifter och ordböcker – samt förstås historikers egna utsagor. ”Solche Texte wurden gesucht und befragt”, som det står i original på tyska. Empirin har efter betydande forskarmödor tålmodigt letats fram i bibliotek och arkiv, ibland systematiskt får man förmoda, men stundtals också mer eller mindre godtyckligt. För det är ju så många historiker ofta arbetar; även jag själv – vi kan inte läsa allt. Devisen ”gesucht und befragt” gäller förstås inte för alla historiska studier, men ganska många skulle jag vilja hävda. Som mediehistoriker har jag metodologiskt arbetat ungefär på det sättet under mer än två decennier.

Men i takt med att allt mer historisk empiri (förstått i vid bemärkelse) blivit digital har den både blivit sökbar på nytt liksom möjlig att analysera med olika typer av mjukvara. Begreppsanvändning går nu att analysera på andra sätt än tidigare, och på grundval av en empiri som är betydligt mer omfattande – även om det i fallet med SOU-datan härrör sig från en enda materialkategori. Den traditionella metoden ”gesucht und befragt” har i så måtto ändrat karaktär när arkivdriven historievetenskap kompletterats med datadriven digital history, det senare ett kunskapfält som kommit att omfatta flera olika humanistiska discipliner. ”Digital history is an approach to examining and representing the past; it uses new communication technologies and media applications and experiments with computational methods for the analyses, production and dissemination of historical knowledge.” Ofta – men inte alltid – innebär det en metodologisk förskjutning från kvalitativa till kvantitativa studier där empirin ökat rejält i omfång. Andrew Piper har i en syrlig text om litteraturvetenskapens behov av att gå från när- till fjärrläsning, distant reading, exemplifierat med en annan tysk lärdomsgigant, Erich Auerbach, och frågat sig om ”verklighetsframställningen i den västerländska litteraturen” – undertiteln till Mimesis (1946) – verkligen går att analysera utifrån en skönlitterär empiri bestående av ett tjugotal kanoniserade böcker. Att Auerbach (liksom Koselleck) var en flitig läsare betvivlar ingen: ”Who would ever presume to have read more than Auerbach? But what if he actually hadn’t read enough?” 

I ett forskningsprojekt som jag leder – Välfärdsstaten analyserad. Textanalys och modellering av svensk politik, media och kultur 1945–1989 – arbetar vi med olika typer av algoritmisk textanalys av storskalig empiri från politikens sfär (allt digitaliserat riksdagstryck och alla statliga offentliga utredningar under perioden), digitaliserad dagspress (det rör sig om tiotalet dagstidningar) och skönlitteratur (alla svenska romaner utgivna under perioden håller på att digitaliseras), därtill har periodens mest prestigefulla kulturtidskrift, Bonniers litterära magasin digitaliserats och iordningställts som dataset. Det rör sig om en historisk empiri grupperad i flera dataset, vilka sammantagna omfattar hundratals miljoner ord. Lingvister och språkteknologer har under lång tid arbetat med snarlika, omfattande textkorpusar, och i vårt projekt använder vi både enklare språkteknologiska metoder som ordfrekvenser och kollokationer, bigrams (ordpar som uppträder tillsammans) liksom mer sofistikerade algoritmer som ovan nämnda temamodeller eller NER-algoritmer (Named-entity recognition) där personnamn, geografi och tidsmarkörer automatiskt kan taggas upp. Men vi är inte språkvetare; Välfärdsstaten analyserad är ett historievetenskapligt forskningsprojekt, där grundtanken är att studera diskursiva förändringar på makronivå inom tre olika samhällssfärer. Svensk efterkrigstid är en väl utforskad period, men genom att applicera digitala metoder på kurerade dataset kommer politikens, nyhetsmediernas och kulturens sfärer att kunna granskas på nytt.

I den här artikeln kommer jag att presentera en del av den forskning vi ägnat oss åt inom Välfärdsstaten analyserad – samt några tentativa resultat. Men mitt fokus ligger främst på det praktiska hantverket med att arbeta med storskalig empiri, på iordningställande och arbete med datakurering, samt de möjligheter och tillkortakommanden som sådana forskningspraktiker inbegriper. En fråga jag intresserar mig för är relationen mellan data och empiri; i vårt projekt har vi dels arbetat med redan existerande dataset (hämtade från Riksdagens öppna data) men även skapat nya dataset utifrån äldre textsamlingar som digitaliserats. Som mediehistoriker, med ett intresse för forskningsarbete med digitala metoder, har jag därför återkommande funderat på vad som egentligen utgör min empiri, och vilken relation termer som data, empiri och information egentligen har till varandra. Artikeln är ställvis personligt hållen och innehåller en rad reflektioner kring historikerns arbete med storskalig textuell empiri. En erfarenhet är att historikerns förhållande till empiri ändrar karaktär när denna blir så omfattande att den inte längre går att överblicka (utan datorers hjälp). En annan är att själva forskningspraktiken förändras, där exempelvis förändrade utfall av körningar gör att frågeställningar måste korrigeras. Det handlar inte enbart om lära sig att förstå kod (någorlunda), eller att samarbeta med programmerare. Som historiker måste man nu också samarbeta med statistiker och maskininlärningsexperter för att iordningställa och kurera dataset (vilket tar enormt med tid), liksom att arbeta med dessa dataset på nya sätt; att ladda olika modeller, att laborera med varierande ingångsvärden, att ändra parametrar och iordningställa utfall på ett sätt som ofta skiljer sig betydligt, för att inte säga radikalt från traditionell historievetenskaplig praktik.

Bokrecension i Respons

I det senaste numret av tidskriften Respons har litteraturvetaren Per Israelson vid Stockholms universitet recenserat min bok Kultararvets mediehistoria. Det är en mycket välvillig text – som naturligtvis glädjer mig. Det är inte minst en recension som tar fasta på att boken visserligen behandlar en äldre mediehistoria, men samtidigt bör läsas i ljuset av den medietransfer som all samtida digitalisering innebär. Respons öppnar upp sina recensioner efter en tid – men eftersom jag sitter i tidskriftens redaktionsråd tar jag mig friheten att publicera en PDF av Israelsons text:

Recension av Mediernas historia i HT

I ett av de senare numren av Historisk tidskrift har vår bok Mediernas historia recenserats av professor emeritus Sverker Jonsson vid Göteborgs universitet. Han är överlag positiv till vår bok, men har även ett par invändningar. Recensioner i HT blir open access efter en tid, men jag tar mig friheten att länka upp en ful-PDF av recensionen: