SwePrint – om en kommande VR-infra-ansökan

I skrivande stund håller jag på med en större ansökan till Vetenskapsrådet om att bygga en infrastruktur för digitalisering av svenskt tryck. Den bygger på det tidigare samarbete mellan en rad universitetsbibliotek (det så kallade DST-projektet) liksom min egen forskningsverksamhet inom VR-projektet Välfärdsstaten analyserad, där vi både digitaliserat tretusen svenska romaner, samt arbetat en hel del med KB-labb. Det lär finnas uppemot 70TB med redan digitaliserat svenskt tryck, ett material som den nya infrastrukturen är tänkt att aggregera. I skrivande stund lyder sammanfattningen av ansökan sä här:

Digitaliserat svenskt tryck (SwePrint) avser att konstruera en nationell digital infrastruktur som ger tillgång till enorma mängder svenskt tryck, både när det gäller enstaka böcker och kurerade datamängder. SwePrint utgör därför både ett viktigt bidrag till demokratiseringen av kunskap, liksom en humanistisk infrastruktur som ska underlätta ny och banbrytande forskning. Syftet med infrastrukturen är att stödja all typ av forskning som intresserar sig för svenskt textmaterial genom att bygga en digital plattform (både front- och backend), massdigitalisera svenskt tryck och aggregera och samla in tidigare digitaliserat textmaterial. SwePrint kommer att säkerställa lättillgänglig och förenklad forskartillgång till både äldre tryck och mer samtida böcker – inklusive hantering av rättighetsfrågor – på en gemensam plattform. Infrastrukturen kommer också att erbjuda stöd för och främjande av avancerade digitala analysmetoder, inklusive nya sätt att modellera textdata. SwePrint baseras på ett konsortium av de fem största universitetsbiblioteken i Sverige (Lund, Umeå, Uppsala, Stockholm och Göteborg) samt Kungliga biblioteket. Svenska Akademien stödjer också SwePrint. En utgångspunkt för infrastrukturen är att Sverige ligger efter andra jämförbara europeiska länder när det gäller att digitalisera det tryckta kulturarvet. Skapandet av en nationell infrastruktur för digitalisering av svenskt tryck och ökad tillgång till digitala texter kommer att gynna många forskningsområden inom svensk humaniora och samhällsvetenskap. Som digital infrastruktur kommer SwePrint att stödja både storskalig textanalys och mer traditionellt kvalitativ forskning av enskilda texter, där fritextsök (genom OCR) gör det möjligt att både hitta och söka i texter på helt nya sätt. SwePrint kommer också att tillgodose forskningsbehov inom statistik, datavetenskap, maskininlärning och AI, givet ett ökat intresse inom dessa forskningsområden för att träna algoritmer och stora språkmodeller.