Information som problem – om en kommande konferens på KB

Beräkningar gör gällande att under 2011 – 350 år efter den svenska pliktexemplarslagens införande – så kommer det skapas 2 000 exabytes data på internet, det vill säga 10 (upphöjt i 18) bytes – eller en miljon terrabytes. Det är ofantliga mängder information. Att samla in, lagra och tillgängligöra sådan information har sedan århundraden varit KB:s uppgift. Det är en lika angelägen uppgift som den är mödosam. Webbens överflöd av information ställer ett nationalbibliotek inför närmast bibliska svårigheter, problem som kommer att accentueras när den leveransplikt för elektroniska dokument (som är på gång) implementeras.

Men situationen är inte ny. Information har alltid varit ett problem och den pliktlag som infördes i Sveriges 1661 var just en kontrollmekanism från kronans sida. Lagen var en censuråtgärd – inte något kulturarvsinstrument. Det primära syftet var att kontrollera det tryckta ordet; avsikten att berika de offentliga samlingarna i bästa fall sekundär. Bevarandeaspekten tycks heller inte ha beaktats i någon större utsträckning. En stor del av det tryck som levererades från rikets boktryckare gallrades, även om den så kallade “fullständighetsprincipen” omhuldades – vilken efter hand blev till rättesnöre. Allt tryck bevarades, åtminstone i teorin.

Pliktlagen 1661 har därför många gånger framhållits som startpunkten för KB:s historia. Det är dock en sanning med modifikation, och lagen i sig är heller på intet sätt unik. Med den sällade sig Sverige snarare till en mängd andra länder som infört liknande bestämmelser något tidigare eller senare. Det är alltså inte KB som institution som firar 350 år under 2011 – utan en gammal pliktlag. Den förtjänar dock uppmärksamhet i sin egen rätt, inte minst då en ny e-plikt är på gång. Beträffande webben är det omöjligt att samla in allt, och e-plikten kommer därför innebära en ovillkorlig brytpunkt. Men man kan också se pliktexemplarslagens utvidgande 1978 till att omfatta audiovisuella medier som ett brott, eller för den delen betrakta pliktlagen 1661 som en slutpunkt – snarare än som ett startår.

Den 18/11 anordnar KB konferensen Information som problem – en konferens om KB och pliktleveranser under 350 år. Mer info om evenemanget återfinns här.

Himalaya of Data

I have previously done some writing on WikiLeaks, a review for instance of Daniel Domscheit-Berg’s experience of this ‘organization’, and recently I submitted a first draft of an article – in an upcoming book on WikiLekas, edited by Christian Christensen (and hopefully published next year by Peter Lang), which tries to situate WikiLeaks within a broader archival discourse on data distribution. What type of ‘archive’ (or database) is WikiLeaks, and how does the site challenge traditional archives and libraries through new forms of massive information and data retrieval, as well as user oriented exploration? If (more or less) public data can be found online by anyone at all times, what are the implications for, and the contemporary role of archives and libraries (understood in a broad sense)? Naturally, the controversial nature of the leaked information from WikiLeaks is truly ‘hot data’, which is hardly the case at most heritage institutions. Still, the way the site’s massive amounts of freely distributed documents have entered the cultural circulation of the digital domain in general, as well as more media specific and web 2.0 areas in particular, does hint at various emerging archival models, where free access to hitherto locked material can generate innumerrous forms of new knowledge (of the past and sometimes even the future)—which, after all, is the purpose of most memory institutions. Hence, the importance of WikiLeaks as sort of a new archival modality. The article takes of using the Wayback Machine:

The Wayback Machine is truly an incredible piece of crawler software. Through its three dimensional index, basically anything that has appeared online in the last couple of years can be made visible again. This particular search engine, in fact, serves as a correction to the general newness and ‘flatness’ of digital culture—even if some would indeed argue that the web means the end of forgetting. All likely, we are only beginning to grasp what it means that so much of what we say, think and write in print and pixel is in the end transformed into permanent (and publicly distributed) digital files—whether leaked or not. Then again, all code is deep, and the Wayback Machine is, arguably, one of the more sophisticated digital methods to extract and visualize the specific historicity of the web medium. Essentially, the Wayback Machine (run by the Internet Archive) stores screen shots of various GUIs. This means that the web cannot be surfed through its interface, rather specific URLs are always needed. Still, some 150 billion web pages have been crawled since 1996. In fact, archived versions of web pages across time and space appear through the Wayback Machine’s digital time capsule almost akin to magic.

On January 17, 2007, the Wayback Machine’s software crawler captured wikileaks.org for the first time. The crawler’s act of harvesting and documenting the web, hence, meta stored a developing site for “untraceable mass document leaking”—all in the form of an “anonymous global avenue for disseminating documents”, to quote the archived image of the site. The initial WikiLeaks captures in the beginning of 2007, and there were additional sweeps stored during the following months, vividly illustrates how WikiLeaks gradually developed into a site of almost unprecedented global media attention. The WikiLeaks logo, with it’s blue-green hourglass, was, for example, graphically present right from the start, with subsequent headings to the right as ‘news’, ‘FAQ’, ‘support’, ‘press’ and ‘links’—the latter directing users to various network services for anonymous data publication as i2P.net or Tor. Interestingly, links to the initial press coverage is kept (and can still be accessed). Apparently, one of the first online article’s to mention what the site was all about stated: “a new internet initiative called WikiLeaks seeks to promote good government and democratization by enabling anonymous disclosure and publication of confidential government records.”

Looking and clicking at, reading and thinking about the first stored captures of wikileaks.org through the Wayback Machine, one cannot help but notice how the site initially wanted to become a new Wikipedia. In short, WikiLeaks strived to ‘wikify’ leaking by way of incorporating advanced cryptographic technologies for anonymity and untraceability, all in the form of a wiki. Massive amounts of documents were to be combined with “the transparency and simplicity of a wiki interface”, at least according to initial FAQs. To users, WikiLeaks will “look very much like Wikipedia. Anybody can post to it, anybody can edit it. No technical knowledge is required. Leakers can post documents anonymously and untraceably.” Furthermore, it was argued that all users can “publicly discuss documents and analyze their credibility and veracity.” As a consequence, users of the site would have the ability to openly “discuss interpretations and context and collaboratively formulate collective publications.”

As is well known, WikiLeaks did not become what it promised back in January 2007. Rather—to quote the site it wanted to resemble—WikiLeaks was “originally launched as a user-editable wiki (hence its name), but has progressively moved towards a more traditional publication model and no longer accepts either user comments or edits.” What did not change, however, is the fact that WikiLeaks was (and is) a distinct archival phenomenon, more or less aptly described as a database of scanned documents, forming a giant information repository. It comes as no surprise that web captures of the site in February 2008—a little more than a year after WikiLeaks was launched—claimed a database of more than 1,2 million documents.

Kritisk medieteori på KTH

Till våren 2012 gör jag en doktorandkurs på KTH (Skolan för datavetenskap och kommunikation) under rubriken “Kritisk medieteori”. Informationen om kursen finns nu utlagd på KTHs hemsida – och är man intresserad får man gärna höra av sig till mig. Enligt kursbeskrivningen kommer det hela att handla om följande:

Vad är ett medium? En till synes enkel fråga – dock utan entydiga svar. Om medierna i dag konvergerar i digitala gränssnitt gäller detta knappast 1900-talets mediala teoribildning. Den är snarare lika häpnadsväckande brokig som full av sylvassa uppslag; och därtill ständigt pådriven av introduktionen av nya mediala kommunikationsformer. Tanken med doktorandkursen Kritisk medieteori är att syna olika medieteorier och deras förmåga att förklara exempelvis medial utveckling. Kursen syftar till att beskriva och utforska ett vidsträckt panorama över skilda föreställningar och idéer kring medier – från skrift, press, foto och film över grammofon, radio och television till dagens digitala medielandskap. Ett särskilt fokus kommer att riktas mot kritisk medieteori, ett annat mot teoretiska föreställningar kring det ”digitala”. Kursen kommer i ett antal diskussionsbaserade föreläsningar och seminarier att resonera omkring grundläggande medieteoretiska frågeställningar som: Vad är ett medium? Vad innebär kommunikation? Hur förhåller sig kommunikation till medium? Kursen kommer också genom olika medieteoretiska konstellationer – som till exempel: Kracauer-Benjamin-Adorno/Horkheimer, Williams-Barthes-Debord, Foucault-Baudrillard-Kittler, Virilio-Flusser-Manovich eller Shannon-Innis-McLuhan – utforska medieteoretiska brott och kontinuiteter. Kursens mål är att ge doktoranderna såväl en god överblick som djupgående insikter i en vital och skiftande medial teoribildning.

Sökningens kris

Är det kanske så att datorskärmens tomma sökruta skrämmer oss alltmer? Har ett slags informationssökningens kris så sakteliga infunnit sig i ett allt tunnare gränssnitt mellan diverse databaser? Google arbetar naturligtvis på att ständigt förbättra sin sökmotor. Följer man Eric Schmidt, är just ”search – one of the great intellectual challenges of our time. Last year we tested over twenty thousand improvements to search and launched roughly 500.” Men det räcker inte; information overload förefaller likafullt vara ett faktum. Å den ena sidan existerar på nätet sedan en tid en trend där olika curators väljer material åt oss. I Holland har exempelvis Upload Cinema – specifikt urvalda webbvideos visade på biograf – blivit populärt. Webbens styrka (och svaghet) är det oändliga utbudet Ändå är det något av en paradox att först i analog form på bio så hittar publiken de videos man vill se. Å den andra sidan är algoritmiska rekommendationer allt mer centrala som urvalsmekanismer för det mediematerial vi ägnar oss åt. Nyligen påtalade tidigare nämnde Schmidt i ett anförande om televisionens framtid, detta apropå Googles satsningar in i TV-branschen, att 60 procent av alla kundval på den amerikanska filmuthyrningssajten Netflix utgår från automatiserade tips. Smart kod genererar enorma inkomster. Visserligen är den beroende av, och utgår ifrån mänskligt urval – och möjligen bör man därför också räkna in en tredje slags rekommendationsekonomi i denna ‘sökningens kris’, nämligen den kring sociala nätverk. Det är förstås ingen nyhet att ‘vänners’ urval och sociala rekommendationer blir en allt viktigare mekanism för hur material synliggörs på webben. Vars stora bristvara – som bekant – är uppmärksamhet.

If Content is King, Context is its Crown

One of the major projects at the Resaearch Department that I am heading (at the National Library of Sweden) is EUscreen – a beta version of this televisual heritage portal is up and running at euscreen.eu. One of the subtask attached to this project is establishing an academic journal, all likely in association with Critical Studies in Television. I have promised to write a piece for the very first issue to appear next year, and the other day I submitted a first draft of an article entitled “If Content is King, Context is its Crown”. The quote in the title is taken from Eric Schmidt’s recent MacTaggart lecture in Edinburgh, and, if the future of television is located online, Google is naturally bound to have an interest. In short, the article tries to reflect on new tele-computational structures, modes and search modalities in relation to digital media collections online (as euscreen.eu), and the ways that ‘context of data’ might differ and alternate at major media sites as, for example, YouTube. The article starts as follows:

Some people truly believe that “the Internet is fundamental to the future of TV”. Be that as it may; given the convergence of televisual and net based interactivity, similar software and hardware screens—or even program formats for that matter—such a claim could, naturally, be regarded as merely stating the obvious. But if delivered by Eric Schmidt, former CEO at Google, it somehow makes a difference. As a television industry outsider, in late August 2011 Schmidt presented “a hard-hitting MacTaggart address to TV broadcasters in Edinburgh”, according to the contextual description accompanying the video of the filmed event on YouTube. As the first non-broadcaster to deliver the MacTaggart lecture in 35 years, Schmidt’s talk on Google’s ‘small tube business’ has been widely debated, and is, indeed, interesting on many levels. Centered on viewers ability to mix web and television content on TV screens via a Google Chrome browser (on a PC, Android smart phone or tablet), it can arguably be perceived as one of the more intriguing speeches in recent years on upgraded forms of television and computational mode(l)s to come.

If the default value of ‘digital TV’ has shifted towards online, executives within the industry—like in other media sectors—are, nevertheless, still trying hard to think about, and try to come up with viable commercial and public service strategies for ‘old media’. The stakes are high, and as a web tech insider, Schmidt’s take is, of course, different, literally suggesting new ways of looking. So, even if seen as “a CompSci guy in the world of telly”, as one commentator put it on YouTube, his talk is nevertheless illustrative for a shift of perspective, accentuating a web centric view of the televisual landscape, notably with various forms of catch-up and on-demand TV services like the hugely popular BBC iPlayer. From a Google perspective with its clear cut mission (and commercial strategy) to attract as many users as possible, Schmidt was crystal clear in his talk about the company’s absolute commitment to its Google TV launch during 2012, as well as a strait forward acceptance that TV “is clearly winning the competition for attention”. Despite the hype in recent years around new media in general and the video vortex online in particular, global viewing patterns for traditional forms of television still outnumber web usage. All digerati knows this; lack of attending eyeballs remains a problematic, not the least financially since online advertisement is akin to follow the decreased formula of trading ‘analog dollar into digital dimes’. In the UK alone, for example, adults spend more time watching television in four days then they do using the web in a month. However, according to Schmidt, “you ignore the Internet at your peril. The Internet is fundamental to the future of Television for one simple reason: because it’s what people want. Technologically, the Internet is a platform for things that traditional TV cannot support. It makes TV more personal, more participative, more pertinent.”

Biblioteken & rävsaxen

Idag har jag publicerat en understreckare i SvD apropå bokens och bibliotekens förändrade situation. “I dag öppnar Bok- och biblioteksmässan, ­samtidigt som såväl böckernas framtid som bibliotekens roll är otydligare än någonsin. Litteraturens digitalisering är på ­samma gång en demokratisk utopi och ett hot mot hela branschen”, kan man läsa i ingressen. Själva artikeln, Biblioteken sitter fast i en rävsax inleds annars så här:

En dag som denna, då bok- och biblioteksmässan öppnar i Göteborg, kan man möjligen ägna en stilla tanke åt vad detta evenemang handlar om, och på vilken grund det egentligen vilar. Med sin sjöjungfruläsande logga baserar sig bokmässan på två samhällskulturella fundament, boken och biblioteket, vilka förändrats, ja rentav eroderat under senare år och numera är på digital drift i okända vatten. Möjligen är jungfrun en siren som lockar, eller kanhända en binär Skylla invid den digitala malströmmens Karybdis? Hur det än förhåller sig med saken, behöver man inte vara lika slug som Odysseus för att inse att såväl ”boken” som ”biblioteket” inte längre är vad de en gång var. Det är dock långt ifrån någon enkel fråga att greppa förändringen av dessa institutionella (kommunikations)former, givet en lika snabb som oförutsägbar medial utveckling. Boken, denna urgamla medieform, har på få år genomgått en remarkabel förändring med lika flytande som upplösta gränser mellan bok och numerisk icke-bok – om så i strömmande skepnad eller robotförfattad av en algoritm. I Googles tidsålder har biblioteket förstås också stöpts om till ett slags distribuerad informationsnod, även om de fysiska platserna (än så länge) finns kvar.

Öppna arkiven

Skyddstiderna för arkivmaterial har nu återigen förlängts – denna gång beträffande musik. Trots att abm-sektorn i åratal påpekat den minst sagt problematiska situation som uppstår när kulturarvet låses in, så lyssnar politiker (i synnerhet inom EU) till helt andra aktörer. Det är beklämmande. Likt en skiva med hack gäller dock maximen att fortsatt propagera för behovet av att öppna arkiven. Under tiden kan man exempelvis roa sig med att titta på den utmärkta filmen, Knowledge Is – a short film about opening up access to archives, i vilken man bland annat kan lära sig att BBC skulle behöva 685 års arbetstid för att klarera rättigheterna till sitt arkiv för webbanvändning.

DIKs digitala agenda

I en tid när regeringen nu (äntligen) satsar pengar på kulturarvssektorn – om än med vissa beting – hakar fackkförbundet DIK (dokumentation, information & kultur) på med en ny skrift, Digital agenda för Sverige– för öppen kunskap och information. Ordförande för DIK, Karin Linder, har på ett föredömligt sätt hårdprofilerat digitala frågor, och skriften lyfter fram sex framtida, strategiska områden: öppna kulturarvet, potentiell mångmiljardmarknad, analog/digital, skolbibliotek, biblioteksansvar och EU:s digitala agenda. Inledning låter aningen utopisk – men hoppas kan man ju:

“År 2020 har de digitala klyftorna övervunnits. Biblioteken är spjutspetsar i det livslånga lärandet. Alla elever har tillgång till ett skolbibliotek som utvecklar ungas informationskompetens. Bibliotekariers och lärares gemensamma kunskap vägleder eleverna till kompetenta medborgare i kunskapssamhället. Kulturen spelar en grundläggande roll i det demokratiska samhället. Kulturarvet är tillgängligt bland annat genom mobila enheter som tablets och smartphones. Minnesinstitutionerna har skapat och förvaltar en informationsallmänning på internet. Denna allmänning är integrerad med EU:s gemensamma kulturportal som möjliggör för alla att på ett enkelt och effektivt sätt få tillgång till Europas samlade kunskap.”

Inför bokmässan

Om mindre än två veckor är det dags för bok- och biblioteksmässan i Göteborg. Jag skall dels vara med i ett seminarium (och ett kort forskartorgsevenemang) på torsdagen den 22/9 kring Boken och biblioteket (samarrangerat av Riksbankens jubileumsfond och Ink förlag), som är relaterat till lanseringen av Rasmus Fleischers nya bok, Boken och biblioteket (som jag också för närvarande också håller på att skriva en artikel om för SvD). Under fredagen 23/9 är det så dags för ett mer KB-relaterat seminarium kring kulturarvsportalen Europeana, Ett arv bevaras bit för bit, där jag kommer att moderera en diskussion med utgångspunkt i nedanstående beskrivning:

Europeana, en EU-finansierad webbportal med bidrag från tusentals kulturinstitutioner, har 12 miljoner digitala manuskript, kartor, fotografier och tv-program tillgängliga online. Nyligen uppmanades medlemsstaterna att göra ännu fler verk tillgängliga både för forskare och allmänheten. Är det viktigt att digitalisera vårt kulturarv? Vilka utmaningar står svenska kulturarvsförvaltare inför, och hur kan kulturarvet förvandla Europa till en avancerad informationsekonomi? Medverkande: Christer Nylander, riksdagsledamot (FP) och vice ordförande i riksdagens kulturutskott, Louise Edwards, administrativ chef för The European Library, Jill Cousins, arbetande styrelsemedlem, Europeana och Karin Linder, ordförande för DIK.

Against Search

The other day I submitted a first draft of an article entitled, “Against Search—Towards A New Computational Logic of Media Accessibility”, to be published within the fortcoming Blackwell Companion to New Media Dynamics, edited by John Hartley, Jean Burgess and Axel Bruns. The article tries to map out, explain and understand, as well as situate and critically examine new search modalities within a larger framework of information retrieval in general, and alternative forms of media archival accessibility in particular. In short, I argue that new forms of different computational logics should be deployed in order to facilitate access to deep data as well quantitative surface data in both web n.0 media collections and at more traditional digital archives and libraries currently being coded online. I look forward to the editors comments – the article begins like this:

Let’s start off with one of the most compelling questions of our time: what does it mean to be human in the digital age? Well, one overwhelming challenge facing us all is having digital access to more information, data and knowledge than any previous generation of humankind. A burden perhaps—at least for some. But for the majority of us, a blessing. The often invoked libertarian information-wants-to-be-free paradigm not only insists on free flow of data. All these bits and bytes in the digital domain has to be organized and found, which needless to say is the underlying rationale for the most successful web behemoth of all. Suffice to say, we all live with an increased screen attention (of various sizes), and giving computers (and their mobile clones) textual and haptical commands has also become a ubiquous normality. Access to whatever we want literally lies at our fingertips; information is there somewhere waiting—and the question are always where to look. So, you search.

Ever since Google introduced its white and clean search box interface in the late 1990s—Internet Archive crawled the site for the first time in mid November 1998—the blank frame has been waiting for input. During the last decade this peculiar type of white box has become the new search default, especially within the information retrieval sector par excellence at archives, libraries and museums. “Search the Collections”, is the standard phrase awaiting every online user, implying a more or less vague notion that one already needs to know what one came for. Users are, of course, experienced since surfing the web basically means searching it. Subsequently, the notion of ‘search’ is key for the digital domain in general, and the web in particular. Understanding Google, Steven Levy notes, is trying to “grasp our technological destiny.” From a more scholarly perspective, ‘Search Studies’ is on the brink of developing into an academic field; ‘search’ is, after all, the primary human-computer interaction mode. Mining search patterns and optimizing the engine is what Google and other search companies does on a daily basis, and through online ‘search’ events IRL, like the spread of flues, can increasingly be anticipated. Search per se has in many ways somewhat paradoxically become the answer to questions asked.

To diagnose the cultural logic of online search is, naturally, a vast topic—ranging from the omnipresent potential of Google analytics to the critique of the ‘googlization of everything’ and unfiltered initiatives like Scroogle. Being coded and technical by nature ‘search’ remains highly complicated, with constant upgraded algorithms exploiting the link structure of the web. Since studying tech infrastructures is a blind spot for media studies, complexities are particularly striking from this perspective. Accessibility to various media content in an age characterized by dynamics and volatility is, however, regulated by notions of search, and therefore it remains essential to analyze and grasp how and why ‘search’ has become so important. During the last decade the notion of search has also been challenged by new and alternative computational modes of accessibility, which is yet another argument why ‘search’ needs to be taken seriously (and, admittedly, few would argue otherwise). Tags, folksonomies, or social tagging are, for example, new transformative web based practices and methods to annotate and categorize information and media content in an effort to collectively classify, tease out and find data in other ways than simply through the mantra, ‘search the collections’. Online browsing is, of course, a widely used option, as well as simply ‘clicking’. On YouTube—the quintessential new digital ‘archive’—one textual search is often enough, and then tags and linked videos leads the user into a streaming vortex of differentiated media. Context of content is often fleeting and arbitrary; odd juxtapositions norm rather than exception, and material regularly detached from its place of origin. Clicking rather than searching, thus, becomes an epistemic way of locating and perceiving media material, often in unintended ways. Usage resembles that of walking around in (weird) open library stacks, even if the much appraised digital ‘openness’ on the net in general, and on web 2.0 platforms in particular, always remains modulated on a protocological basis. A web browser is, after all, a translator of code and an interpreter of digital data that profoundly shapes user experiences. Then again, from a strict computer-science perspective, user generated and participatory platforms like YouTube are nothing but databases. Still, in any given cultural context, surfing onto a platform and watching a video at, say, YouTube obviously entails more than that. From a media studies perspective it is therefore debatable whether we ‘watch databases’ only (Lovink), or claims that there is ‘no content, only data and other data’ (Galloway & Thacker), has much relevance in regards to YouTube, or for that matter other cultural heritage or social media sites.

Nevertheless, given the sheer size of contemporary online media collections—from the vast information repositories of data at Wikileaks or The Pirate Bay, to billions of UGC on YouTube and Flickr, or for that matter the 20 million digitized heritage objects at the Library of Congress—simply having a look what’s inside the digital ‘archive’ is no longer possible. However, the contemporary ‘flood of information’ is, by no means, new. On the contrary, libraries and archives have during the last century repeatedly complained over way too many books and documents. The major difference, today, is that in digitized form such material can be analyzed collectively as major cultural sets rather than on a singular basis only. Singularity works for analyzing the particular. But the general is arguably more interesting, and often of greater importance. Hence, massively linked data has nowadays the potential to reveal new human patterns that hitherto remained invisible. The notion of a particular ‘search’, then, is not the answer to the more or less infinite digital archive.