Mediehistoriskt VR-projekt kring storskalig textanalys

Häromdagen erhöll jag ett betydande forskningsanslag på nästan 23 miljoner från Vetenskapsrådet för ett mediehistoriskt forskningsprojekt i samarbete med Kungliga biblioteket. Projektet involverar flera forskare, utvecklare och datakuratorer. Den svenska titeln är – “Välfärdsstaten analyserad. Textanalys och modellering av svensk politik, media och kultur, 1945-1989” (akronymen är WeStAc) – och den svenska sammanfattningen lyder som nedan. Jag kommer naturligtvis att återkomma till detta femåriga projekt här på bloggen.

De svenska välfärdsåren utgör en period av förändring, med utbyggda institutioner, nya levnadsmönster och förändrade relationer till omvärlden. Inte minst 1960-talet har framhävts som decenniet då politik och kultur radikaliserades, gamla auktoriteter utmanades och nya delar av världen placerades på kartan. Men trots att perioden är väl utforskad finns det anledning att återvända till den med metoder som låter oss studera diskursiva förändringar på makronivå. Med tillgång till storskaliga digitaliserade textsamlingar från politikens, nyhetsmediernas och kulturens sfärer kan gamla frågor ställas på nytt, samtidigt som relationen mellan de olika samhällssfärerna kan utforskas i detalj.

WeStAc är ett samarbete mellan Umeå universitet och Kungliga biblioteket (KB) och har ett tvådelat syfte: att etablera system och rutiner för att digitalisera och kurera stora textmaterial som möter de krav som digital forskning ställer, samt att kartlägga diskursiva mönster i välfärdsårens texter. Ofta har massdigitalisering bedrivits utan insikter och krav från forskare som arbetar med hela textkorpusar och digitala metoder. Inte sällan har därför digitala resultat varit så bristfälliga att det varit svårt att använda i sådan forskning. WeStAc angriper detta problem genom att bedriva digitalisering och digital forskning parallellt – och i samspel med varandra. I projektet digitaliseras och kureras texter i syfte att möta forskningskraven, samtidigt som projektets empiriska forskningsdel ger kontinuerlig feedback tillbaka till de instanser som digitaliserar och iordningställer texterna som dataset.

WeStAc kommer att arbete med tre massiva dataset: “politik” – 3 100 SOUer och allt riksdagsmaterial mellan 1945 och 1989; “media” – två dagstidningar, Aftonbladet och Dagens Nyheter från samma period, och “kultur” – kulturtidskriften Bonniers Litterära Magasin (BLM) samt alla svenska romaner som publicerades under perioden. Projektet är indelat i tre arbetspaket: (WP1) digitalisering & datakurering, (WP2) textanalys & modelering samt (WP3) välfärdsstaten analyserad. I korthet utgör grundfrågorna till alla dataset om övergripande diskursiva förändringar är lika påtagliga som tidigare forskning antagit, eller om de uppvisar oväntade kontinuiteter. Finns det exempelvis kvardröjande diskurser, eller är diskursiva förändringar mer påtagliga i vissa sfärer och genrer jämfört med andra?

Texterna från Sveriges riksdag (protokoll, motioner, propositioner och offentliga utredningar) samt dagtidningsmaterialet är redan digitaliserat. Det förra består av uppskattningsvis 700 miljoner ord, det senare av omkring två miljarder ord. För att öka värdet av dessa digitala samlingar kommer de att kureras och förses med metadata på KB, bland annat för att göra det möjligt att särskilja aktörer i riksdagens debatter och märka upp enskilda delar i dagstidningarna, exempelvis kultursidorna. Detta arbete utförs parallellt med, och utifrån feedback från projektets forskningsdel. Därtill kommer WeStAc att digitalisera BLM, på omkring 28 000 sidor, samt alla på svenska publicerade romaner 1945–89, omkring 22 000 stycken vilka innehåller uppskattningsvis tre miljoner sidor. Tidskriften och romanerna utgör nya dataset, som tillsammans med riksdagsmaterialet och dagstidningarna gör det möjligt att spåra språkliga förändringar och ämnesmässiga förskjutningar över genregränserna.

De olika textsamlingarna är valda för att representera tre centrala sfärer i det svenska välfärdssamhället: politikens, mediernas och kulturens. Tre tidstypiska metatrender kommer att utforskas med den samlade textmassan som grund: globalisering, individualisering och emancipation. WeStAc kommer att använda tre metodologiska modeller för att fånga språkliga och ämnesmässiga mönster över tid: topic modeling – som utifrån samförekommande ord kan identifiera innehållsliga ämnen och diskurser samt deras utbredning, named entity recognition (NER) – som lokaliserar person-, organisation- och platsnamn i texterna, samt så kallad word embedding – som gör det möjligt att beräkna relationen mellan enskilda ord och den omgivande språkliga kontexten. Med dessa metoder kan förekomster av geografiska platser studeras över tid, liksom innehållsliga teman i politiska debatter, romaner och nyhetstexter, samt enskilda nyckelords användning och skiftande betydelser. Härutöver undersöks enskilda dataset med metodologiska modeller anpassade för specifika genrer.

Tekniska museet och det mekaniska alfabetet

Tillsammans med min kollega, teknikhistorikern Anders Houltz skriver jag för närvarande på en artikel om Tekniska museet och Christopher Polhems så kallade mekaniska alfabet. Artikeln kommer att ingå i en kommande bok som vi håller på att sammanställa kring projektet Digitala modeller. Projektet kommer också att resultera i en mindre utställning på Tekniska museet som öppnar i februari nästa år. Den liksom den kommande boken bildar ett av forskningsresultaten från vårt projekt. Anders och jag har kommit en bit på vår artikel – det kommer att bli en längre text, och anslaget ser för närvarande ut så här:

I mars 1939 höll chefen för Tekniska museet, Torsten Althin, ett föredrag i rundradion. Ämnet var ”Tekniskt-historiskt varjehanda: Mekaniska alfabetet” och handlade om de gamla trämodeller som Christopher Polhem tros var upphovsman till åren omkring 1700. Det brukar anföras att Polhems mekaniska alfabet bestod av cirka 80 små trämodeller som praktiskt illustrerade ”grundläggande maskinelement”, till exempel hävstången, hjulet eller skruven. Althin hade alltsedan han i mitten av 1920-talet började sin egentliga museibana varit mycket intresserad av dessa trämodeller; han hade skrivit och föreläst om dem i flera olika sammanhang. Under slutet av 1920-talet hade han lyckats få Kungliga Tekniska Högskolan i Stockholm att deponera ett trettiotal av modellerna till det nya Tekniska museet, och därtill övertygat svenska regeringen att anslå en betydande summa pengar för att restaurera ”Polhems originalmodeller” eftersom de utgjorde en ”enastående kulturskatt [som det] knappast finnes motstycke [till] i något annat land.”

För Althin var modellerna lika unika som användbara. Genom att publicera artiklar om dem, föreläsa i diverse sammanhang – och inte minst berätta om dem i radio – spred han information och kunskap om teknikhistoria i allmänhet och Polhems modeller i synnerhet. Althin var en folkbildare av rang, och radiomediet hade en betydande räckvidd. Han inledde därför retoriskt sitt föredrag 1939 med att påpeka att konst- och litteraturhistoria står ”på schemat vid våra läroanstalter”, men var finner man ”ämnet teknisk historia någonstans?” Teknikhistoria var visserligen ett helt nytt kunskapsfält, hävdade Althin, och ”än så länge håller man på med en första grov plöjning inom denna viktiga vetenskap.” Men teknikens historia i allmänhet, och kunskap om mekanik i synnerhet, hade betydande svenska anor – ”mekaniskt alfabet” var därför ”underrubrik för dagens kåseri”.

Programtablåer för AB Radiotjänst innehöll under 1930-talet ofta folkbildande föredrag om kulturhistoria. Genren kunde vara träig. Men den passade Althin; han var en skicklig teknikhistorisk berättare och hade föreläst i radio vid flera tillfällen – till och med om samma tema. I april 1931 hade han exempelvis berättat om ett fiktivt ”besök hos Polhem på Stjernsund 1729”. Vårvintern 1939 var fokus delvis ett annat, och Althins idé var ”att berätta om de nära nog eviga tankar och problem som ha rört sig i människornas hjärnor och som ha krävt sin tekniska lösning”.

Dessvärre har själva radioprogrammet från 1939 inte bevarats, däremot Althins manuskript i hans personarkiv på Tekniska museet. Eftersom han kunde Polhem och historien om det mekaniska alfabetet på sina fem fingrar, är det verkligt intressanta med radioföredraget 1939 hur Althin i radiostudion på ett meta-teknologiskt sätt reflekterade över Polhems trämodeller och deras pedagogiska funktion i ljuset av modern teknik och nya medier. Den ”märklige ingenjör” Polhems ”tekniska undervisning”, hävdade Althin, var ”så modernt upplagd, att vi knappast ha kommit längre … idag.” Poängen med dess modeller var att visa grundläggande maskinelement; det handlade om att åskådliggöra och visualisera mekanik och tekniska idéer genom trämodeller, ett slags kommunikativa medieformer från gångna tider.

Men att påvisa hur dessa modeller fungerade rent praktiskt var förstås inte så lätt i radio. När jag nu ”sitter här framför mikrofonen” så är det en sak som ”jag livligt saknar”, påpekade därför Althin. Det är något som ”ännu inte är teknisk färdigt i praktiken i vårt land, och det är televisionen.” Althin talade alltså om den tidigmoderna tidens kanske främsta mediala åskådningsform (modeller), i modernitetens mest framträdande och publika medieform (radio) men beklagade sig över att han inte kunde visa upp dem (i television). ”Bilder och åskådningsmaterial är ju ganska nödvändigt att kunna visa fram, när man skall tala om tekniska ting, men den dagen är kanske inte långt avlägsen, då Ni på Edra radioapparater kan få beskåda modeller och maskiner, som det talas om från studion.”


Tingens biografi – om artikeln
Om man ska tro Althin hade televisionen 1939 varit det optimala mediet för att visa upp de gamla trämodeller som tillskrivs Polhem. Tv-tekniken hade introducerats under trettiotalet framför allt i England, men också i Tyskland under de olympiska spelen i Berlin 1936. Althin var väl förtrogen med det nya bildmediet, liksom med fotografi och film. Som museiman påpekade han ofta att de ting och objekt som ställdes ut på Tekniska museet skulle levandegöras – gärna med hjälp av visuella medier som planscher, modeller eller film. Med inspiration från Nordiska museets filmverksamhet startade han till exempel tidigt produktion av teknikhistorisk film; redan 1922 höll Althin faktiskt ett föredrag om ”Filmen i kulturminnesforskningens tjänst”.

Med det var ändå (skal)modeller som utgjorde förebild för hur ett skrymmande industriarv kunde åskådliggöras. Efter att Althin ordnat medel från staten kunde det mekaniska alfabetet restaureras under 1920- och 1930-talet. Modellerna gömdes undan på säker plats under andra världskriget, och från 1947 ingick de i princip alltid i Tekniska museets basutställningar (med lite olika variationer under årens lopp). Skalan är central för att förstå varför modellerna var viktiga för Althin. Att ställa ut gamla smedjor eller valsverk på museum i skala 1:1 var praktiskt omöjligt, men modellerna i det mekaniska alfabetet var både musealt hanterbara och pedagogiskt illustrativa. Det fanns också en lång teknikhistorisk tradition att falla tillbaka på – och hämta legitimitet ur. Den så kallade Kungliga modellkammaren hade instiftats redan 1756. I den samsades Polhems småmodeller med elaborerade modeller av gruvmaskiner och sinnrika lantbruksmodeller. Besökare tyckte om att titta på dem, modellkammaren var närmast en turistattraktion, och dårtidens modeller bör därför också ses som ett slags underhållningsmedium; några framstod rentav ”som praktpjäser – en teknologisk fantastik.”

I forskningsprojektet ”Digitala modeller” har – som påtalats i den här bokens introduktion – trämodellerna i det mekaniska alfabetet digitaliserats på olika sätt: som CT-skannade objekt, som 3D-modeller, som datorgenererade videoanimationer, eller som virtuella objekt i en datorsimulerad VR-miljö. Med Althin har det handlat om att åskådliggöra hur ny teknik, denna gång digital – snarare än televisuell som han tänkte sig 1939 – kan ge nya perspektiv på äldre former av tekniskt-pedagogiska hjälpmedel. Det finns med andra ord en betydande kontinuitet mellan hur Polhem (och hans elever) tänkte sig att modellerna skulle användas, hur Althin (och andra intendenter) ställde ut dem på Tekniska museet, och de sätt som vi i vår forskargrupp arbetat med att digitalisera dem. Faktum är att det finns än mer precisa kopplingar; Althin menade som sagt i radio att tv varit allra bäst för att ”beskåda” dessa modeller, och när en ny ”Polhemsutställning” invigdes med modellerna 1970 var de ”kompletterade med audiovisuella presentationer”.

Syftet med denna artikel är meta-musealt – på två olika sätt. Ambitionen är att med Polhems mekaniska alfabet som fallstudie både säga något om dessa trämodellers fascinerande historia, och om tillblivelsen av Tekniska museet, en institution som i hög grad formerades med hjälp av, och kring dessa modeller. Med inspiration från forskningsfältet kring materiella kulturstudier, där museala objekt och deras ’liv’ i skiftande historiska kontexter görs till studieobjekt, är tanken med vår artikel att skissera det mekaniska alfabetets långa historia. Tingens biografier kan avslöja vad som annars förblir dolt, har antropologen Igor Kopytoff hävdat. Den typen av resonemang ingick i en bok, The social life of things. Commodities in cultural perspective – redigerad av antropologen Arjun Appadurai 1986 – en studie som fått stor betydelse för den här typen av perspektiv. På senare år har den så kallade ”objektbiografiska metoden” ytterligare accentuerat sådana synsätt, inte minst för att ge ”konkret tyngd åt mer filosofiska resonemang kring det materiella.”

Även inom vetenskapshistorien har studiet av objekt och vetenskapliga praktiker blivit allt vanligare. Vetenskapshistorikern Lorraine Daston gav till exempel år 2000 ut forskningsantologin, Biographies of Scientific Objects, i vilken en återkommande tanke var att vetenskapliga objekt görs genom praktik, förevisningar, laboratoriearbete eller publika demonstrationer. Faktum är att det mekaniska alfabetet utgör ett synnerligen illustrativt exempel på vad Daston kallat för ”the coming into being of scientific objects.” En biografi kring det mekaniska alfabetet kan därför säga oss en hel del om hur relationer mellan människor och ting förändrats över tid.

Även vetenskapliga modeller har analyserats med en materiell-historiskt vokabulär. I Tyskland publicerades till exempel för några år sedan boken, Das materielle Modell. Objektgeschichten aus der wissenschaftlichen Praxis där objektshistorier och vetenskapliga praktiker studerades. De utgick från konkreta vetenskapliga modeller som övergivits på unversitetsvindar och i källarförråd, men där modellerna (som vetenskapliga objekt) fortsatt berättar om gångna tiders akademiska synsätt och pedagogiska ideal. Det är just sådana användningsområden och praktiker som vi är intresserade av i den här artikeln. Genom att anlägga ett mycket långt tidsperspektiv – från trämodellernas möjliga ursprung (proveniensen är oklar) i Polhems Laboratorium mechanicum 1696, över etableringen av Kungliga modellkammaren 1756, till samlingens spridning och skiftande öden i allehanda utställningskontexter och användningsområden under 1800-talet – där modellerna gick från att ha varit högt skattade pedagogiska hjälpmedel på Teknologiska Institutet i Stockholm till KTH-vindskammrarnas undanskuffade tillvaro – för att till sist genom Althins försorg kring 1930 omskapas till uppburna museala objekt och en ”enastående kulturskatt”, menar vi att det är möjligt att säga något väsentligt nytt både om Tekniska museet som institution och hur teknikhistoria har profilerats och positionerats inom ett museipolitiskt fält. Det är alltså inte Polhem som står i centrum för vår artikel – han är snarast en bifigur – utan fastmer de sätt som hans ”originalmodeller” transformeras från tidigmoderna pedagogiska redskap till vindsskräp, för att till sist betraktas som uppburna auratiska museiobjekt.

Torsten Althin intar en särställning i sammanhanget. I egenskap av grundare av Tekniska museet är han centralfigur i vår berättelse, både i kraft av att bokstavligen räddat det mekaniska alfabetet från förgängelse och snillrikt ha profiterat på dess oklara proveniens. För att använda en mekanisk metafor blev Polhems teknikhistoriskt uppburna persona och hans åldriga modeller en hävstång för Althin i hans arbete under det sena 1920-talet med att etablera och formera ett tekniskt museum. Om man betänker att han 1924 anställdes som chef för Tekniska museet – vilket då ”bestod av ett tomt skrivbord” i Ingenjörsvetenskapsakademiens bibliotek – framstår det som en minst sagt remarkabel insats. Lika slugt som drivet lyckades Althin med att bygga upp sitt museum kring dessa modellers biografiska legend. ”Tekniska museet kan sägas ha de äldsta anorna, ty det härstammar från Christopher Polhems tid”, kunde man exempelvis läsa i en ingress till en artikel av honom 1932. Museet har ”lyckan att kunna utgå från en samling modeller [vilka senare] under namn av K. Modellkammaren utgjorde såväl ett institut som ock ett – tekniskt museum.” ”Jag vågar gå så långt”, påpekade han till och med i en tillbakablick några år senare, ”att jag påstår att det icke i något annat land finnes ett tekniskt museum, som i grund och botten kan leda sina anor så långt tillbaka i tiden och har ett så förnämligt ursprung som museet i Stockholm.”

I fokus för den här omfattande artikel står alltså några små trämodellers biografiska liv under drygt tre hundra år. De har kommit att kallas ”det mekaniska alfabetet”, även om Polhem aldrig benämnde dem så. Inte heller är det troligt att de modeller som idag finns kvar är ”Polhems originalmodeller” (som Althin hävdade). Modellerna var sköra och sammansatta av en mängd olika små träbitar (sammanfogade med metallstift). De användes flitigt under årens lopp, behandlades inte speciellt varsamt och bevarades (före 1930) inte alls som museiföremål. Tvärtom, eftersom tanken med dem var att visa rörelsemoment – exempelvis hur en roterande rörelse övergick till en horiosontell rörelse – så kom de förstås att användas både av besökare på Kungliga modellkammaren och senare av studenter på Teknologiska Institutet under 1800-talet. Och eftersom modellerna var bräckliga får man förmoda att de gick sönder när de nyttjades år efter år av nya besökare och nya studentomgångar.

När Althin väl såg till att ta hand om dem, lagades och restaurerades de av modellmakare på Tekniska museet. Modellerna lappades samman, delar byttes ut, man rekonstruerade bitar som fattades etcetera – varför det idag inte är mycket som talar för att beteckningen ”originalmodeller” är en adekvat beskrivning. Möjligen kan några få delar vara ålderstigna och datera sig till 1700-talet, men att det skulle handla om originalmodeller – på det sätt som man vanligen betraktar ett original – är inte sannolikt. Det är därför mycket svårt att fastställa hur gamla de egentligen är; modellerna är också för små att analysera med hjälp av dendrokronologi (det vill säga, att datera trä med hjälp av årsringar).

Icke desto mindre är vi i det följande intresserade av de trettiotalet modeller som både ställts ut och bevarats på Tekniska museet, liksom av samlingens fascinerande öde – själva tingens biografi. Å den ena sidan försöker artikeln frilägga de mest centrala utställnings- och användningsområdena för dessa modeller under en längre tidsrymd, å den andra sidan står skiftande minnes- och museipolitiska handlingsprogram (som modellerna gav upphov till) i fokus. Här är Althin förstås central, men Polhems modeller gav redan vid mitten av 1700-talet institutionsbyggande impulser. Ingenjörsofficeren Carl Knutberg pläderade exempelvis redan 1754 om behovet av en nationell modellkammare, Tal om nyttan af et laboratorium mechanicum.

Vår artikel är strukturerad i fyra separata men sammanhängande delar, en sorts materiella berättelser som tar avstamp i lika många historiska kontexter – Carl Johan Cronstedts skissbok från 1729, trämodellernas funktion på Teknologiska Institutet under 1800-talet, Torsten Althins vurm för och institutionella användandet av det mekaniska alfabetet under 1920- och 30-talet, samt trämodellernas utställningssammanhang på Tekniska museet efter 1950. Avslutningsvis diskuterar vi hur vårt eget forskningsprojektet ”Digitala modeller” dels kuggar in i, och (för närvarande) utgör en sorts slutstation för det mekaniska alfabetets biografi, dels hur vårt projekt (genom bland annat den här artikeln) givit upphov till en ganska ovanlig, reflexiv forskningsinsats kring en för Tekniska museet mycket central samling av objekt.

Folkbibliotek och digitalisering

Idag på Umeå universitet höll jag en föreläsning för biblioteksstudenter på momentet “Bibliotekets historia och samhällsroller”. “Folkbibliotek och digitalisering” kallade jag det hela, och tanken var att ge en bred idébaserad introduktion till hur biblioteket som idé och funktion förändras i och med digitaliseringen av informationslandskapet. Slides från föreläsningen kan laddas ned här: snickars_bib_infovetenskap_2018.

datalab.kb.se – A Report for the National Library of Sweden

About a year ago I was asked if I had an interest to examine, survey and evaluate in what ways a library lab might – or could be – established at the National Library of Sweden. As a media studies professor at Umeå University, I have for a number of years worked and done research at the digital humanities center Humlab. I accepted the offer and from January 2018 I have been working (part time) during nine months with my report (and ways to prepare the ground for making my recommendations a reality). Funding for my work was made available by Riksbankens jubileumsfond and the National Library of Sweden. Lars Björk (at the National Library) has functioned as my co-worker. The report is entitled datalab.kb.se — it is a term Björk and I suggest for naming an eventual datalab at the Swedish KB, where the digital and Swedish connotation are obvious (including a necessary distinction and contrast to the Danish and Dutch KB Lab). The report can be downloaded here: datalab.kb.se.

Towards a first draft of my report on the library lab – datalab.kb.se

My work with writing a report for the National Library of Sweden on the establishment of library lab is progressing fine. The text should be finished in a few weeks time, and presently the first pages – in a first draft – reads as follows:


Introduction
The Annual Report from the British Library usually offers insights into the many domains and whereabouts of national libraries—not the least in terms of future directions. In the latest report (from 2017/18) it is, for example, stated that the British Library “Digital Scholarship team” continues to “undertake innovative research with digital collections and open up new datasets for use by researchers.” One way to facilitate digital scholarship is to start a lab, and the British Library set up a library lab environment already in 2013. Ever since the British Library Labs has been inviting researchers, developers and artists “from around the world” to undertake “creative endeavours” using the library’s digitally curated collections, content and data. Following the latest Annual Report, the Library Labs team has now “facilitated the use of over 180 terabytes of data including 97 freely available datasets at data.bl.uk. One example is the In the Spotlight project which makes digitised entertainment playbills from the 1730s to the 1950s available as a single dataset.”

Digital scholarship, curated data, single datasets, invited developers and programmers—these are all present buzzwords and novel categories within the library domain. Before computational expertise were necessary and primarily required for internal workflow within IT departments—now such skills and competencies are increasingly turning into a prerequisite for doing actual research in a gradually altered library infrastructure that is increasingly turning digital. This infrastructural and scholarly transformation can appear as swift and sudden. Yet, digitisation activities within the ALM-sector (archives, libraries and museums) has been a harbinger of novel times to come—both in terms of scholarly perspectives and library practices.
National libraries have been digitising their collections for decades—in Sweden digitisation work started already in the late 1990s. For a number of years, collections were digitised primarily for preservational purposes, but after the millenium—due to the rise of the Web and initiatives as Google Books—digital access to library collections steadily became more important. Permission to use library collections were, however, often hindered by copyright legislation, and digital access was foremost given to older (textual) collections prior to the 20th century.

Digitisation work performed at the National Library of Sweden has in general been similar to other European countries. The library has digitised a major amount of its audiovisual collections, various selected works from the print collections, and a large amount of newspapers. The latter has been a prioritised category since newspapers are an important research material for many users. Born digital collections have also grown through web archiving activities (Kulturarw3) and audiovisual deposits, and even more so since 2015 when (some) electronic materials became subject to legal deposit. Regarding the digital trajectory that the National Library has undertaken during the last 15 years, preservation was most important at first, then digitisation for access was increasingly advocated. There are, however, also good reasons to question the distinction between digitising for access and digitising for preservation. Some scholars have even argued that the split “is artificial and misleading” since access to collections are usually “a given” and an outcome of all digital transformation—even if usage is fully realised only through functioning electronic networks and the legal frameworks that manage permissions.

Nevertheless, during recent years digital scholarship within the ALM-sector has expanded the focus of digitisation activities towards different forms of investigations and explorations. Thus, there has been a scholarly driven progression within the institutional heritage domain from preservation to access—to analyses. Today all forms of digital heritage are computationable—hence, how to enhance and increase the research potential of this material? If humanities and social science scholars traditionally were interested in the collections that archives and libraries had to offer deep down in their stacks and vaults, such archival driven humanities research has thus turned into data driven research due to the digitisation of heritage. And more data is better data (as Google would have it).

The long-term magnitude of this ongoing transformation is striking—both for scholars and libraries. Within the library sector the gradual alteration effects the very foundation and principles of what libraries are—and should be at a time when ‘the digital’ is slowly becoming default. Today, governmental decrees for national libraries (and similar statutes för university libraries) usually stipulate that libraries are to provide a beneficial infrastructure for research. During centuries great book and manuscript collections at university libraries and national libraries played a pivotal role for the humanities and social sciences. They were envisioned as a key infrastructures for scholarship. National libraries and deposit laws are, in fact, illustrative examples of how traditional knowledge structures were enacted through concrete and primarily humanistic infrastructures. They have essentially remained the same over centuries, but have during the last decade—due to repeated digitisation efforts—begun to alter.
As digital copies of heritage start to become a preservational focus for the ALM-sector, novel ways of giving access and sustaining digital scholarship are the flip coin of the same digital development. In short, mass digitisation combined with new media, technology and distribution networks has transformed the possibilities for libraries and their users. Emerging scholarly disciplines—from data science and data journalism to the digital humanities—all take advantage of new computing tools and infrastructure, and provide different models for creating new forms of access to and analyses of library collections. Especially within digital humanities scholarship the systematic intertwining of research questions, digital materials, and tools have stressed the need to reformulate what an apt library and research infrastructure for the humanities (and social sciences) should pertain. Digitisation has in essence begun to transform the epistemic foundation of the library. The knowledge than can be deduced from collections in digital form is different—and foremost one of scale. So called distant reading of major textual corpora have even been envisioned as a new “condition of knowledge”.


About the Report
About a year ago I was asked if I had an interest to examine, survey and evaluate in what ways a lab might—or could be—established at the National Library of Sweden. As a media studies professor at Umeå University (a chair directed towards the digital humanities) I have for a number of years worked and done research at the digital humanities center Humlab. I accepted the offer and applied for the position—a PM for a “pilot study” on a data lab at the National Library was drafted by library personnel Lars Björk and Peter Krantz, and additional funding was made available by Riksbankens jubileumsfond.

Together with professor Patrik Svensson (Umeå University / UCLA), I had at the same time (during autumn 2017) organised a conference on data driven humanities research at KTH, partly aimed at guiding (and hopefully influencing) preparatory work at the Swedish Research Council and its future funding for research project grants around “digitisation and accessibility of cultural heritage collections” (a call that went public in May 2018). Together with Svensson (and a distinguished group of Swedish humanist) I have also been active in raising awareness (or lobbying) for the need of strengthening and developing new forms of humanistic infrastructures. The idea to investigate how a lab at the National Library could be initiated was thus consistent with a number of similar research activities and ideas, including work at funding agencies—a call committed to quantitative and qualitative methods has also been in preparation at Riksbankens jubileumsfond.

From January 2018 I have been working (part time) during nine months with this report— including ways to prepare the ground for making my recommendations a reality. Lars Björk has functioned as my co-worker. During winter, spring and summer 2018 we visited a number of scholarly environments, university libraries and research groups in Sweden with an interest in using a lab at the National Library. We have thus talked to many Swedish scholars and librarians with an interest in the matter; we established both a reference group and a steering committee for our work; we made a study trip to the British Library Labs and the Dutch KB Lab; we sent out a survey regarding available digital collections within the ALM-sector in Sweden (Appendix A), and we presented and discussed our work within the “Group for digitisation and digital access” (with me as chair and Björk as secretary), a group that is part of the “Forum for national library collaboration and development”. I have also made a number of presentations of our lab ideas at Swedish universities, at the management board of the National Archives, at the Research board of the National Library, and at national and international conferences. Furthermore I organised a workshop on digital scholarship at the National Library (in April 2018) with some 25 scholars and librarians (funded by Riksbankens jubileumsfond). Our preparatory work, conversations and scholarly visits have been thorough.

This report is entitled datalab.kb.se—it is a term Björk and I suggest for naming an eventual lab, where the digital and Swedish connotation are obvious (including a necessary distinction and contrast to the Danish and Dutch KB Lab). The report is divided into three subsequent sections—“Library Labs” and “Digital Scholarship” (with some subsections)—as well as a final part on “Recommendations”. The first part sketches and maps the international terrain of current library labs, with a focus on different lab environments at national libraries. The second section puts novel forms of computational scholarship at the center of attention, with a particular emphasis on methods and (necessary) curation of datasets. In the final section on recommendations I suggest how a lab at the National Library could be organised, focusing both on actual tasks and workflow, as well as job descriptions and required skill sets.


Library Labs
Digitally inclined research within the humanities and social sciences have during the last decade started to influence both national and university libraries to take advantage of the scholarly possibilities that arise when documents as data are sharable and networked, linkable and traceable, reusable and processable. The development and set up of library labs is one concrete result. The primary function of library labs are to deliver digital collections as data (or datasets) to researchers and other interested users. Following the literal meaning of the term laboratory—“a room or building equipped for scientific experiments”—library labs are usually devoted to experimentation with provided datasets. “British Library Labs – experiment with our collections”, as the slogan goes. Library labs can hence be envisioned as a scholarly, artistic or creative industries playground. The British Library Labs is an endeavor that supports and “inspires the public use of the British Library’s digital collections and data in exciting and innovative ways.” In a similar manner the Dutch KB Lab wants to be experimental; “we try out new techniques and tinker with tools to make our content as accessible as we can. Warning, that means stuff can be broken.”

However, since library labs are becoming more and more common, the focus on experimentation can also become misleading. Providing datasets and working with these in different ways is today hardly cutting edge. Hence library labs can also increasingly be perceived as a core service that national libraries provide, with the lab (or its services) becoming an integrated part of a developed digital infrastructure. Such perspectives were advocated at a recent conference at the British Library, Building Library Labs in mid September 2018. It brought some 40 libraries and partner institutions from North America, Europe, Asia and Africa—with no less than ten national libraries present. “Around the world, leading national, state, university and public libraries are creating ‘digital lab type environments’”, the conference program stated. The aim is to develop novel forms of library usage, where library labs ensure that “digitised and born digital collections / data can be opened up and re­used for creative, innovative and inspiring projects by everyone such as digital researchers, artists, entrepreneurs and educators.”

The issue of library labs is hence timely. Presentations and discussions in London evolved around issues as labs services and spaces, technical infrastructures, the values of a library lab, planning a lab and establishing it, as well as various funding models for labs. Usage, research and different presentations of ongoing projects were also on the agenda. One result of the conference was a supportive network, another a forthcoming global report on library labs. Most libraries and institutions present did also take part in a library lab survey. The results are in no way conclusive, but rather give a tentative impression of how major libraries presently deal with lab issues (Appendix B). One thing to note was that library labs started to emerge between 2013 and 2015, and that this first wave of initiatives is now reinforced by a more general trend (following the survey some 20 libraries are about to launch a lab in 2019 or 2020). Most of the existing library labs are furthermore aimed to serve academic research followed by internal staff, the general public or creative industries. The most common tasks according to the survey were “facilitating access to data & digital collections at scale” and “creating new datasets & digital collections”, followed by “providing training in digital methods & tools” and “public engagement”. Half of the library labs provided access to restricted digital collections (through various contracts), and (only) half of them offered a physical space in the library—thus for many library labs focus is mostly put on web based presence. The Austrian National Library lab, ÖNB-LAB, for example (to be launched in November 2018) will foremost devote its activities to a homepage with datasets and tools, including code and tutorials provided through Gitlab.

At present there is, in short, a considerable international interest in library lab issues (and the prime reason why this report is written in English). Even if library labs are usually established with the purpose to enhance and amplify digital usage of digitised (or born digital) collections and datasets they differ in approach, scope and orientation. The library lab at the Yale University Library, for example, has a distinct digital humanities agenda, all in order to help “scholars in their own engagement with digital tools and methods in the pursuit of humanistic questions.” Therefore a brief description of some different types of library labs can serve as a smorgasbord of how labs can be designed, organised and accustomed.

Cornelia Vismann om akternas mediehistoria

I det mediehhistoriska manus som jag (tillsammans med Johan Jarlbrink och Patrik Lundell) nu i dagarna lägger sista handen vid ingår ett tjugotal utvikningar kring centrala mediehistoriska frågeställningar. Vi har valt att använda oss av tongivande forskare för att kort beskriva olika positioner visavi mediehistorien – dessa så kallade “klassikerrutor” får inte vara längre än 500 ord har vi föresatt oss. En av dem som vi inkluderat är den tyska medie- och rättshistorikern Cornelia Vismann – hennes avhandling Akten från år 2000 översattes för en tid sedan till svenska – och texten om henne ser i nuläget ut så här:

På 530-talet i det östromerska riket förordnade kejsar Justinianus I en kodifiering av de lagar som styrt Romarriket. Traderade lagsamlingar (som Tolv tavlornas lag), domar och rättsfall hade under århundraden nedtecknats på separata papyrus- och pergamenttrullar. Nu skulle de sammanställas i en enhetlig form. En codex blev resultatet, det vill säga en bok (inbunden i pärmar) i vilken (ett urval) lösa skrivark sattes samman. Justinianus lagsamling har den kallats, eller Corpus juris civilis. Den romerska rätten tog form som en bok – på vilken all lagstiftning i västvärlden sedan vilar.

Men vad innebär det att medie- och rättshistorien sammanfaller i lagboken? Spelar det roll hur och på vilket sätt som lagar och domar skrivs, och senare administreras som akter i svällande arkiv? Sådana frågor är ämne för den tyska rätts- och mediehistorikern Cornelia Vismanns studie, Akten – Medientechnik und Recht från år 2000 (på svenska Lagen och arkivet. Akternas mediehistoria). Det speciella med den är att Vismann inte intresserar sig för vad som står i akterna eller hur lagstiftningen utvecklats. Hon fokuserar istället på de praktiska och administrativa sätt som akter tillkommit. Hennes bok handlar om hur lagen görs – för akter är processgenererande; som arkivariska handlingar är akter både dokument och aktivitet.

Genom att studera ”nedskrivningens medietekniska villkor” och akternas förhållande till rättssystemet försöker Vismann förstå dess utveckling. Med sitt historiska perspektiv blir Vismanns bok samtidigt till en mediehistoria om Västeuropas administrativa förvaltning under tvåtusen år. Den sträcker sig från det romerska centralarkivet Aerarium med sina papyrusrullar och dess övergång i det kejserliga kansliet Tabularium (78 f.Kr.) – med tillägget: quod non est in actis non est in mundo – ”det som inte förekommer i akterna finns inte i världen”. Kanslirutinernas materialitet skärskådas under medeltiden, från förvaring i aktskåp och protestantiska ämbetsmannaideal till skrivbiträden och uppgifter för kopister (vilka inte behövde förstå de juridiska underlag de kopierade, snarare tvärtom). Vismann redogör vidare för skrivakter i kanslier och registraturer under den tidigmoderna tiden, där ett manierat skrivsätt alltmer övergavs till förmån för en språkekonomi där akterna alltid skulle (be)skrivas enligt samma kriterier. Under 1800-talet undersöks den preussiska förvaltningens aktproduktion, vilken växte så fort att proveniensprincipen etablerades (där arkivbildares handlingar bevarades som en organisk helhet). Väl framme i 1900-talet handlar det mer om pärmar och hålslag, om karbonpapper och dokumentsystem. Vismann påpekar också hur akterna nu, trots att de uppfattats som ”omfattande nedskrivningsapparater” fick konkurrens av audiovisuella medier. För tidens kanslister blev det smärtsamt uppenbart hur ”inexakta” akternas var jämfört med ”recording-machines” vilka angav en ny ”standard för exakt registrering.”

Om samtidens digitala aktproduktion skriver Vismann inte mycket, men att hennes studie publicerades vid millennieskiftet är talande. När akterna datoriserats och omvandlas till ”mappar” i digitala gränssnitt kunde hon nämligen få korn på deras mediehistoria. Hennes intressen kan förefalla vardagliga – men anspråken är betydande. För när fokus flyttas från innehåll till form, från det partikulära juridiska fallet till det generella lagstiftningsmaskineriet som medial verksamhet, ja då blir det möjligt för Vismann att frilägga ”akternas delaktighet i utvecklingen av sanningsformer, statsbegrepp och subjektföreställningar i Västerlandets historia.”

1 & 0 – kort om den ultimata maskinen

1952 arbetade den unge matematikern Marvin Minsky på Bell Labs i New York under ett par veckor. Tillsammans med Claude Shannon försökte han där att hitta på en rad olika maskiner och apparater som hade med informationshantering att göra. Efter andra världskrigets slut hade Bell Labs utvecklats till ett av världens mest innovativa tekniska laboratorier; strax före att Minsky kom dit hade tre Bell-ingenjörer exempelvis uppfunnit transistorn, en komponent som var viktig för den japanska elektronikbranschens framväxt. Marvin Minsky skulle sedermera göra en enastående karriär som datavetare och bli en av pionjärerna inom forskningsområdet kring artificiell intelligens (AI); redan i slutet av 1950-talet startade han ett Artificial Intelligence Laboratory på MIT i Boston. Men på Bell-laboratoriet arbetade han tillsammans med Shannon ännu i skärningspunkten mellan elektronik, mekanik och matematik. En av de apparater som Minsky hittade på (och som Shannon sedan konkret byggde samman) har kallats för den ”ultimata maskinen”. Den bestod av en mindre trälåda och en liten spak med två lägen, på och av. När man slog på den öppnades en lucka, en mekanisk arm åkte ut – som petade till spaken och slog av apparaten, varefter luckan stängdes. Den ultimata maskinen var alltså en apparat som hade ett enda syfte: att slå av sig själv. Minskys och Shannons apparat har ibland betraktats som ett sorts fundament för det digitala informationssamhället; den ultimata maskinens lekfulla 1 och 0 framstår som en sorts grundidé för all slags datoriserad information. Dels illustrerade och visade den praktiskt på en mediehistorisk kontinuitet mellan mekaniska (analoga) och elektroniska (digitala) medier, dels antydde den på ett mer konceptuellt plan dataålderns framväxt, vilket förstås accentuerades genom Shannons revolutionerande informationsteori och Minskys senare AI-arbete.

Spotify och skivbolag

För en tid sedan gjorde Sveriges Radio P1 Kulturnytt och journalisten Morris Wikström ett inslag om Spotify och bolagets relation till skivbolagsbranschen. Jag är intervjuad i inslaget, där det bland annat påpekas att Spotify bekräftat att man nu sluter avtal direkt med somliga artister, men att bolaget inte vill utmana skivbolagen. Hårda förhandlingar med skivbolagen och artisterna har alltid varit en del av Spotifys tillvaro, och numera finns det flera argument till varför Spotify skulle vilja bli mer självständiga i förhållande till skivbolagen. Hör inslaget här: Spotify köper licenser direkt av artister.

Mediehistorier om Japan och dess elektronikindustri

Arbetet med bokmanus till min, Johan Jarlbrinks och Patrik Lundells mediehistoriska översiktsbok är nu inne i slutfasen. Vid ett inplanerat manusmöte i Berlin i slutet av augusti ska vi försöka att få till ett genomarbetat manus. Jag ägnade några svettiga julidagar åt att skriva ihop ett sista kapitel om digitala medier. Det måste förvisso revideras, men på det stora hela ligger texten nog fast. I ett försök att inte bara skriva västvärldens mediehistoria ingår även ett stycka om elektronikbranschens framväxt i Japan under 1960- och 70-talen, inklusive en kort fallstudie kring den mobila bandspelaren Sony Walkman. I manusform ser partiet ut som följer:

Om mediehistorien länge var västorienterad, så förflyttades dess geografiskt fokus under 1960- och 1970-talen österut, detta i takt med att japansk elektronik kom att dominera marknaden. Efter andra världskriget (åter)uppstod en rad medieföretag i Japan med inriktning på konsumentorienterad mikroelektronik, ibland kallat för hemelektronik. De flesta av dessa bolag hade startats före kriget, men genom export av alltmer avancerade, mediala industriprodukter kom japanska bolag att bli världsledande. Exemplen kan lätt mångfaldigas: Sharp (grundat 1912) med fokus på radio- och tv-apparater, Hitatchi (grundat 1910) som producerade stordatorer och elektronikkomponenter, Fuji-koncernen (grundat 1923) med inriktning på elektrisk utrustning och television, kameratillverkaren Nikon (grundat 1917), Casio med sina miniräknare och klockor (grundat 1946), JVC (Japan Victor Company) med tillverkning av ljud-, video- och konsumentelektronik (grundat 1927) – på 1950-talet uppköpt av Matsushita, senare mer bekant som Panasonic – för att inte tala om spelbolaget Nintendo (grundat 1889), som först tillverkade spelkort men senare alltmer inriktade sig på tv- och dataspel.

Främst bland de japanska medieföretagen var dock Sony, grundat 1946 och idag ett av världens största multinationella teknik-konglomerat. Genom att få tillstånd att använda amerikansk transistorteknologi började Sony tidigt att producera transistorradio-apparater som blev mycket populära. 1955 lanserade bolaget sin första transistorradio, några år senare den allra första transistor-tv:n. Framgångsrecept byggde på tekniska innovationer, hög produktkvalitet och avancerad design. Sony blev snabbt marknadsledande, även om somliga försök – som med videoformatet Betamax (lanserat 1975) – blev misslyckande. Det formatet konkurrerades nämligen ut av VHS (Video Home System, producerat av företaget JVC) under det så kallade videotape format war som rasade till mitten av 1980-talet. Ibland hävdas att Betamax tekniskt var ett bättre format (exempelvis beträffande bildkvalité), men att JVC var skickligare på att marknadsföra sitt VHS-format. Sedermera kom VHS att dominera den privata videomarknaden tills introduktionen av lagringsformatet DVD i slutet av 1990-talet.

Medan andra företag producerade allt större apparater satsade Sony på mobilitet och precisionsteknologi. Under det sena 1970-talet ledde det till lanseringen av Sony Walkman, en liten bärbara kassettbandspelare som både kom att förändra musiklyssnandet och bli närmast synonym med en helt ny typ av mediebruk. Sony Walkman blev en försäljningssuccé, och under de kommande åren skulle den sälja i nästan 190 miljoner exemplar världen över (i en rad olika versioner). Mediehistorien kring Sony Walkman är emellertid en smula udda, för av marknadsföringsskäl kallades apparaten för olika saker i olika länder. I Japan gick den under namnet ”Walkman”, i USA (till en början) för ”Soundabout”, i Storbritannien för ”Stowaway”, i andra länder för ”Disco Jogger” – och i Sverige för (det lätt obegripliga) ”Freestyle”. Svenska Språknämnden ansåg att den rätta benämningen borde vara ”bärspelare”, men beteckningen ”freestyle” hade då redan fått fäste i svenskt språkbruk och förblev intakt. Framöver kom freestyle därför att på svenska bli en generell benämning på portabla bandspelare.

Att Sony Walkman blev liktydigt med en viss typ av mobil medieanvändning antyder den popularitet som denna lilla apparat genererade. Under hela 1980-talet var ”walkman” i anglo-sachsiska länder synonymt med en portabel kassettbandspelare, på samma sätt som andra framgångsrika medieprodukter blivit generiska för andra typer av medieanvändning. Att göra fotostat-kopior i USA kallas till exempel för ”xeroxing” (efter företaget Xerox som började sälja kopieringsmaskiner under 1960-talet), och att använda en ”diktafon”, det vill säga en kontorsmaskin för in- och avspelning av diktamen, var från början egentligen namnet på ett av telefonpionjären Bells många företag. I mediehistorien är det inte ovanligt med den här typen av generiska beteckningar, samtidigt antyder de också det sätt som vissa medier blev starkt normerande – på gott och ont, för inte sällan har teknikföretag haft svårt att uppgradera produkter med ett sådant generiskt genomslag. I slutet av 1990-talet blev mobiltelefonen BlackBerry i USA till exempel mer eller mindre liktydigt med mobil e-posthantering, bara för att mindre än tio år senare tappa hela denna marknad till Apple och Samsung. Samma sak gällde för mobiltelefoniföretaget Nokia i Indien: eftersom Nokia-mobiler helt dominerade marknaden där, var ”Nokia” ordet som användes för mobiltelefon (och hur det sedan gick för den finska mobilgiganten är allom bekant). Främst är det emellertid en radda Apple-produkter som på detta sätt blivit stilbildande och smittat av sig som generella beteckningar på en medieform. En iPod var ju efter millennieskiftet i princip liktydigt med mobilt och personfierat lyssnande, liksom en viss typ av radio, poddradio (eller podcasting).

Eftersom Sony så småningom utvecklades till en multinationell elektronikkoncern är bolaget också ett bra exempel på de sätt som hårdvarutillverkare och innehållsproducenter under 1980-talet började närma sig varandra. Horisontell integration blev nu ett framgångskoncept för flera teknik- och mediebolag, och ett sätt att bygga upp företag till att omfatta likartade funktioner från olika värdekedjor. Under 1980-talet började Sony exempelvis att köpa in sig i både musik- och filmbranschen genom införlivandet av amerikanska CBS Records (1987) och filmbolaget Columbia Pictures (1989). 1994 diversifierade man verksamheten ytterligare genom att ta sig an marknaden för datorspel då spelkonsolen PlayStation introducerades – som snabbt tog stora andelar av marknaden från tidigare etablerade aktörer som Nintendo.

Även tv- och dataspelens utveckling kan i mycket hänföras till den japanska elektronikmarknades dominans. Dataspelens mediehistoria är dessutom intressant som en form av kombination mellan publik och privat underhållning. Spel- och underhållningsföretag Nintendo tillverkade exempelvis både programvaruprodukter för publika och offentliga spelarkader liksom för hemmabruk, därtill med en tradition av att låta speltitlar, figurer och karaktärer återkomma – från rörmokaren Mario till apan Donkey Kong – allt i syfte att skapa ett igenkännbart speluniversium.

Ett japanskt dataspel som ofta brukar lyftas fram i mediehistorien som speciellt stilbildande, och som både utgjorde en produktionsteknisk och publik framgång, var Space Invaders. Det lanserades som arkadspel 1978, och detta tvådimensionella och svartvita spel gick ut på att skjuta dalande rymdvarelser med hjälp av en laserkanon som rörde sig i sidled längst ned på skärmen. Genom en spelmekanik som svarade på spelarens agerande (genom att rymdvarelser anpassade sig till hur spelaren styrde sin kanon) blev spelet en formidabel succé i japanska arkadhallar. Enbart under det första året installerades fler än 100 000 spelmaskiner med Space Invaders i Japan. Det har till och med hävdats att tillsammans med tennisspelet Pong – lanserat några år tidigare av spelföretaget Atari – så banade Space Invaders väg för den senare tv- och dataspelsindustrins publika genombrott under de kommande decennierna.

Sammanfattningsvis finns flera mediehistoriska anledningar till att japanska elektronikföretag blev så framgångsrika mellan 1960 och 1990: introduktionen av helt ny teknik och ledarstil (i en av kriget sönderslagen infrastruktur), entreprenörskap och innovationsdriven industri med stark politisk uppbackning, fokus på internationella marknader. Likheterna med den likaledes framgångsrika japanska bilindustrin är också stora. I efterhand kan man konstatera att den japanska elektronikbranschen producerade fantastisk precisionsteknologi, vilken framför allt var elektrisk och mekanisk – som Sony Walkman. Just den apparaten (liksom många andra) innehöll dock ingen mjukvara alls. När mediekulturen kring millennieskiftet blev alltmer digital, med en snabb övergång till helt elektroniska (och digitala) medieapparater, ja då skulle den japanska elektronikindustrin få problem med att bibehålla sin popularitet och dominans.