Maskinläsning
Tillsammans med min kollega Johan Jarlbrink arbetar jag för närvarande på en artikel inom ramen för forskningsprojektet Digitala lägg. Om pressens gränssnitt 1800. Arbetstiteln är “Maskinläsning” och vi tänker oss en möjlig publikation framöver i Nordicoms medietidskrift. Artikeln tar i nuvarande skick sin början så här:
Hösten 2014 samlades ett sjuttiotal bibliotekarier, forskare, byråkrater och representanter för tidningsbranschen på British Library i London för en konferens om digitalisering av äldre dagspress inom ramen för kulturarvsportalen Europeana. Projektet Europeana Newspapers har haft ambitionen att digitalisera 18 miljoner tidningssidor, varav drygt hälften kommer att vara sökbara i fulltext genom så kallad ”optisk teckenigenkänning” när projektet är avslutat. Just OCR, ”Optical Character Recognition”, var ett av konferensen mest omdiskuterade teman. Det är inte förvånande eftersom OCR på flera sätt är den teknik som gör digitaliserad dagspress till en helt ny typ av forskningsmaterial. OCR konverterar dagspressen som medium – från tidning till maskintext – genom en närmast cirkulär textuell migreringsprocess där tidningssida blir inskannad bild, vilken därefter omkodas till maskinläsbar text. Ur den senare kan dels genereras inherent data, extrapolerad ur det inskannade materialet, dels möjliggör den maskinkodade texten storskaliga kvantitativa analyser av exempelvis ords samförekomster.
Samtidigt är OCR-tekniken fortsatt behäftad med problem, vilket London-konferensen gav besked om. Har vi nått ”peak OCR” var det flera deltagare som undrade. Särskilt tröstlöst tycktes läget vara i länder där frakturstilen dominerat. 1930 publicerades exempelvis fortfarande omkring 60 procent av alla trycksaker i Tyskland i fraktur, och frakturstilen var även vanlig i Sverige fram till 1800-talets slut. Men även den latinska tryckstilen, antikva, orsakar fortsatt igenkänningsproblem menade andra. Det marknadsledande företaget ProQuest, och deras inskanning av 472 brittiska tidskrifter mellan 1681 och sent 1930-tal, ger exempelvis fantastisk access till ett omfattande källmaterial, och samtidigt har forskare påpekat att till och med ProQuest sofistikerade OCR-algoritmer fortsatt inte riktigt går att lita på. I en genomgång av viktorianska influenser på Kuba i det inskannade brittiska tidskriftsmaterialet har Albert D. Pionke bland annat visat på betydande svårigheter för Proquests algoritmer att urskilja ordet”Cuba” från ord som: ”cash”, ”Cheap”, ”Cheapest”, ”Colours”, ”cube”, ”Curacies”, ”curator” eller ”cure” (Pionke, 2014: 391). Det säger sig självt att sådana ”bad matches” kan leda till felaktiga slutsatser och forskningsresultat.
Den här artikeln handlar om digitaliserad (och maskinläsbar) äldre svensk dagspress och de möjligheter som nya digitala metoder ger den mediehistoriska forskningen. Utifrån en mediehistorisk infallsvinkel uppmärksammar artikeln den digitala teknikens möjligheter att på ett generellt plan analysera stora textmängder på jakt efter lingvistiska mönster, bland annat genom så kallad ”distant reading”, en sorts data-metodologisk distansläsning av tiotusentals inskannade böcker som utvecklats av litteraturvetaren Franco Moretti med fokus på 1800-talets skönlitteratur (Moretti, 2013). Samtidigt pläderar artikeln för en mediehistorisk specifik analys, där man som forskare inte bör reducera gamla tidningar till enbart en samling text: bilder, layout, annonsers placering på sidan etcetera är samtliga också delar av det som vi kallar en tidning.
Ingen forskare kan emellertid läsa hela 1800-talets svenska press – enbart datorer. Digitala metoders forskningspotential är därför betydande, om så i form av ”topic modeling”, ”macroanalyses”, ”pattern recognition”, ”cultural analytics” eller andra former av algoritmiska användningsområden för analys av stora kulturella dataset som den digitaliserad dagspressen utgör. Vår artikel väjer dock inte för de problem (och ofta bristfälliga resultat) som den mediehistoriska forskningen än så länge uppvisar på området. Med andra ord handlar det om att uppmärksamma en i allra högsta grad aktuell forskningsdialektik där digitala metoder dels innebär betydande möjligheter för medieforskningen, dels att förhålla sig kritiskt till resultat de genererar.