Mediehistoriskt VR-projekt kring storskalig textanalys

Häromdagen erhöll jag ett betydande forskningsanslag på nästan 23 miljoner från Vetenskapsrådet för ett mediehistoriskt forskningsprojekt i samarbete med Kungliga biblioteket. Projektet involverar flera forskare, utvecklare och datakuratorer. Den svenska titeln är – “Välfärdsstaten analyserad. Textanalys och modellering av svensk politik, media och kultur, 1945-1989” (akronymen är WeStAc) – och den svenska sammanfattningen lyder som nedan. Jag kommer naturligtvis att återkomma till detta femåriga projekt här på bloggen.

De svenska välfärdsåren utgör en period av förändring, med utbyggda institutioner, nya levnadsmönster och förändrade relationer till omvärlden. Inte minst 1960-talet har framhävts som decenniet då politik och kultur radikaliserades, gamla auktoriteter utmanades och nya delar av världen placerades på kartan. Men trots att perioden är väl utforskad finns det anledning att återvända till den med metoder som låter oss studera diskursiva förändringar på makronivå. Med tillgång till storskaliga digitaliserade textsamlingar från politikens, nyhetsmediernas och kulturens sfärer kan gamla frågor ställas på nytt, samtidigt som relationen mellan de olika samhällssfärerna kan utforskas i detalj.

WeStAc är ett samarbete mellan Umeå universitet och Kungliga biblioteket (KB) och har ett tvådelat syfte: att etablera system och rutiner för att digitalisera och kurera stora textmaterial som möter de krav som digital forskning ställer, samt att kartlägga diskursiva mönster i välfärdsårens texter. Ofta har massdigitalisering bedrivits utan insikter och krav från forskare som arbetar med hela textkorpusar och digitala metoder. Inte sällan har därför digitala resultat varit så bristfälliga att det varit svårt att använda i sådan forskning. WeStAc angriper detta problem genom att bedriva digitalisering och digital forskning parallellt – och i samspel med varandra. I projektet digitaliseras och kureras texter i syfte att möta forskningskraven, samtidigt som projektets empiriska forskningsdel ger kontinuerlig feedback tillbaka till de instanser som digitaliserar och iordningställer texterna som dataset.

WeStAc kommer att arbete med tre massiva dataset: “politik” – 3 100 SOUer och allt riksdagsmaterial mellan 1945 och 1989; “media” – två dagstidningar, Aftonbladet och Dagens Nyheter från samma period, och “kultur” – kulturtidskriften Bonniers Litterära Magasin (BLM) samt alla svenska romaner som publicerades under perioden. Projektet är indelat i tre arbetspaket: (WP1) digitalisering & datakurering, (WP2) textanalys & modelering samt (WP3) välfärdsstaten analyserad. I korthet utgör grundfrågorna till alla dataset om övergripande diskursiva förändringar är lika påtagliga som tidigare forskning antagit, eller om de uppvisar oväntade kontinuiteter. Finns det exempelvis kvardröjande diskurser, eller är diskursiva förändringar mer påtagliga i vissa sfärer och genrer jämfört med andra?

Texterna från Sveriges riksdag (protokoll, motioner, propositioner och offentliga utredningar) samt dagtidningsmaterialet är redan digitaliserat. Det förra består av uppskattningsvis 700 miljoner ord, det senare av omkring två miljarder ord. För att öka värdet av dessa digitala samlingar kommer de att kureras och förses med metadata på KB, bland annat för att göra det möjligt att särskilja aktörer i riksdagens debatter och märka upp enskilda delar i dagstidningarna, exempelvis kultursidorna. Detta arbete utförs parallellt med, och utifrån feedback från projektets forskningsdel. Därtill kommer WeStAc att digitalisera BLM, på omkring 28 000 sidor, samt alla på svenska publicerade romaner 1945–89, omkring 22 000 stycken vilka innehåller uppskattningsvis tre miljoner sidor. Tidskriften och romanerna utgör nya dataset, som tillsammans med riksdagsmaterialet och dagstidningarna gör det möjligt att spåra språkliga förändringar och ämnesmässiga förskjutningar över genregränserna.

De olika textsamlingarna är valda för att representera tre centrala sfärer i det svenska välfärdssamhället: politikens, mediernas och kulturens. Tre tidstypiska metatrender kommer att utforskas med den samlade textmassan som grund: globalisering, individualisering och emancipation. WeStAc kommer att använda tre metodologiska modeller för att fånga språkliga och ämnesmässiga mönster över tid: topic modeling – som utifrån samförekommande ord kan identifiera innehållsliga ämnen och diskurser samt deras utbredning, named entity recognition (NER) – som lokaliserar person-, organisation- och platsnamn i texterna, samt så kallad word embedding – som gör det möjligt att beräkna relationen mellan enskilda ord och den omgivande språkliga kontexten. Med dessa metoder kan förekomster av geografiska platser studeras över tid, liksom innehållsliga teman i politiska debatter, romaner och nyhetstexter, samt enskilda nyckelords användning och skiftande betydelser. Härutöver undersöks enskilda dataset med metodologiska modeller anpassade för specifika genrer.