Vem bevarar den svenska webben för framtiden? Kungliga biblioteket – till stor del! av Pär Nilsson och Peter Svanberg

Vem bevarar den svenska webben för framtiden? Kungliga biblioteket – till stor del! av Pär Nilsson och Peter Svanberg

När internet och webben¹ spreds till allmänheten i mitten av 1990-talet blev många på Kungliga biblioteket (KB) oroliga. Tryckt, inspelat och etersänt² material samlade man redan in, men material på internet var något helt nytt. Vad skulle man göra? Allt mer material som inte fanns på annat håll riskerade att förloras helt för framtida forskning.

Sedan 2015³ har Sverige haft en lag som ålägger vissa grupper av utgivare

”att lämna exemplar av elektroniskt material som har gjorts tillgängligt för allmänheten här i landet genom överföring via nätverk (pliktexemplar)^”⁴

Hittills har ungefär 40 miljoner leveranser – innehållande artiklar, filmer, musikfiler, böcker, rapporter eller annat som webbpublicerats – kommit till KB via denna lag, som så kallade e-pliktsleveranser.

Det tog dock många år och flera statliga utredningar innan e-pliktslagen trädde i kraft. Långt tidigare insåg man på KB att något måste göras för att inte förlora material som publiceras på internet.

Tillbakablick

Den första svenska webbsidan, från datorföreningen Lysator i Linköping, dök upp redan i februari 1993. Först bland svenska dagstidningar var Aftonbladet, som började publicera sin månatliga kulturbilaga på webben den 25 augusti 1994. På KB skaffade man sig en webbserver i mars 1996 och bara några månader senare inleddes projektet Kulturarw³ med målet att skapa en infrastruktur för insamling och bevarande av svenska webbsidor. (Namnet är en tekniker-bokstavslek: world wide web förkortas www som matematiskt kan skrivas w³.)

I mars 1997 hade projektarbetet kommit så långt att man kunde börja samla in webbplatser. Detta första år gjordes två insamlingar, en på våren och en på hösten. Den första omfattade endast webbplatser under se-domänen medan den andra även innehöll de webbplatser under com-, net- och org-domänerna som hade identifierats som svenska. Sammanlagt samlades 26 000 webbplatser in, vilket krävde 150 gigabyte datautrymme.

Internationellt gjorde pionjärorganisationen Internet Archive i USA sina första insamlingar i maj 1996. Även i Australien startade man med webbinsamlingar 1996, så KB kom inte så långt efter.

I ett protokoll från ett möte som kallades ”idékläckarkollokviet” i augusti 1996 framgår att det redan då ställdes en del frågor som på många sätt fortfarande är relevanta, som ”Vad är elektroniska dokument?” och ”Vad är offentliggörande av ett elektroniskt dokument?”. Man fastslog också att ”Kulturarw³ bör inte utreda juridiska och upphovsmannamässiga frågor”, vilket förmodligen var en förutsättning för att man alls skulle komma igång med själva insamlingarna.

När det gällde vad som skulle samlas in bestämdes följande på mötet:

”Utöver bevarandet av WWW (inom .se) i tidsutsnitt, bör elektroniska tidskrifter/tidningar på svenska webben bevaras komplett så fort de uppdateras med ny artikel eller nummer.”

Det var också i stort sett detta man sedan gjorde, det vill säga en eller ett par generella insamlingar av se-domänen per år, och från och med 2002–2003 även selektiva dagliga insamlingar av ett urval av svenska dagstidningar på webben. De generella insamlingarna omfattade alltså även svenskt material från andra toppdomäner samt från och med 1998 hela nu-domänen, eftersom den då innehöll väldigt mycket svenskt material.

Eftersom KB var tidigt ute fanns det inga standarder eller utvecklad programvara för webbinsamling. Man skapade därför ett eget arkivformat för att kunna hålla ihop de olika filer som insamling av en webbsida resulterar i, och de metadata som behövs för att dokumentera insamlingen. För insamlingarna modifierades en indexeringsprogramvara (Combine) som utvecklats vid NetLab vid Lunds universitet. Det fanns dock behov av en mer specialiserad programvara för webbinsamling. Internet Archive utvecklade därför Heritrix, vars första version var klar 2004. Även utvecklare från nordiska nationalbibliotek deltog i utvecklingen. Fortfarande 20 år senare är Heritrix en av de mest använda programvarorna för webbinsamling.

Möjlighet att se vad som samlats in

Redan i april 1997 fanns det via KB:s webbsida möjlighet att titta på en del av det som hade samlats in, även om sökningen i denna prototyp begränsades till arkiveringar av KB:s egen webbplats. Det var dock först 16 juni 2003 som KB kunde erbjuda sina besökare i Humlegården möjlighet att söka efter webbadresser i allt som hade arkiverats.

Avbild av Kungliga bibliotekets webbplats från 1997 — Kungliga bibliotekets webbplats från 1997

En grund för att kunna visa materialet var den förordning som utfärdades i maj 2002 med den fylliga titeln ”Förordning (2002:287) om behandling av personuppgifter i Kungl. bibliotekets digitala kulturarvsprojekt”⁵. Förordningen säger ingenting om webbinsamlingen som en del av KB:s insamlingsverksamhet. Istället är den enbart avsedd att definiera hur KB får handskas med de personuppgifter som ofelbart finns i det arkiverade materialet. Förordningen tillåter KB att visa materialet ”via terminaler inom Kungl. bibliotekets lokaler” men tillåter inte att personuppgifter används som sökbegrepp. KB får dessutom lämna ut material ”på medium för automatiserad behandling” men ”bara för att användas i forskning”.

Avbild av Kungliga bibliotekets webbplats från 2002 — Kungliga bibliotekets webbplats från 2002

Eftersom arkivet redan från början enbart sparades på magnetband – vilket givetvis var ett bra och ekonomiskt sätt att lagra det – så var sökningen i arkivet allt annat än snabb. Sökning kunde bara göras på webbadresser, antingen bara en domän som kb.se eller en mer exakt webbadress som http://www.kb.se/samlingarna/. När man skrivit in sin sökning fick man vänta en stund på att få upp en lista över vilka insamlingar som gjorts. Därefter blev det ytterligare väntetid medan materialet kopierades från det aktuella magnetbandet och till slut kunde visas.

Generella insamlingar

KB har alltså sedan 1997 gjort generella webbinsamlingar av svenskt material på webben. Dessa baseras på den aktuella förteckningen över svenska domäner (idag cirka 1,4 miljoner) som hanteras av Internetstiftelsen. Det normala arbetssättet på KB är att göra generella insamlingar i flera pass. I det första passet sätts en låg gräns för mängden data som får samlas in från varje domän. Redan här blir en stor andel av domänerna färdiginsamlade eftersom de saknar webbinnehåll eller är mycket små. I nästa pass ökas datamängden per domän och de domäner som inte blev klara i första passet körs på nytt i pass två. Även i detta pass blir en hel del domäner klara och därefter körs normalt ytterligare två till tre pass. I slutändan finns det ändå alltid vissa domäner som innehåller ännu mer data än den senast satta gränsen, men i många fall är fortsatt insamling inte särskilt meningsfull då det inte sällan rör sig om webbutiker som innehåller en nästan oändlig mängd kombinationer av produkter, olika egenskaper (såsom storlek och färg på klädesplagg) och flera bilder av varje produkt.

Insamlingen börjar alltså med domänernas webbplatsförstasidor som till exempel https://kb.se/. Insamlingsprogrammet samlar in sidan och alla element (bilder, stilmallar med mera) som hör till den. En analys görs av sidan för att hitta länkar till andra sidor och dessa länkar läggs sedan till en kö av sidor som ska samlas in.

En generell insamling är tidsödande – det kan ta veckor och månader. Hur tidsödande den blir bestäms av hur mycket maskinresurser som finns att tillgå, vilka begränsningar som används och vilka kriterier för när insamlingen ska anses som färdig man bestämmer sig för.

Redan i april 1997 fanns det via KB:s webbsida möjlighet att titta på en del av det som hade samlats in, även om sökningen i denna prototyp begränsades till arkiveringar av KB:s egen webbplats.

Styrning

Det går att styra en insamling på många sätt. De viktigaste begränsningarna är gränser för hur mycket data och hur många objekt som får hämtas, en gräns för hur länge insamlingen får pågå och gränser för vilka objekt som ska hämtas – till exempel maximalt antal länksteg⁶ eller maximalt djupt i webbadresshierarkin.

En annan typ av styrning gäller hur ”artigt” insamlingen ska ske. Som insamlare vill man förstås att insamlingen ska ske så snabbt som möjligt. Men då riskerar man att överbelasta de insamlade webbplatsernas webbservrar. Därför finns också möjlighet att ange hur långa pauser som ska göras mellan hämtning av objekt (webbsidor, bilder och så vidare.). Det gör det också viktigt programvaran är utformad så att många webbplatser hanteras parallellt – medan det är paus i hämtningen från webbplats A hämtar den istället från webbplats B och så vidare.

Ibland kan insamlingen fastna i en sorts fälla där nya webbadresser oupphörligt hittas i en oändlig slinga. Det kan t.ex. ske i webbkalendrar, där länkarna till nya datum aldrig tar slut. För att undvika sådant används regler för vad som ska undvikas. Trots dessa regler behövs ändå en viss övervakning av insamlingen. Ibland behöver delar av insamlingen avbrytas för att den som helhet inte ska ta alltför lång tid.

Selektiva insamlingar

Den andra typen av webbinsamling som KB gör och har gjort sedan 2002 brukar kallas selektiv webbinsamling. Här utgår man från en begränsad mängd webbadresser, ofta för en speciell typ av innehåll (till exempel dagstidningar, kommuner eller politiska partier). Reglerna för selektiva insamlingar är mer begränsande och sidor utanför den domän man startar med samlas normalt inte in. En gemensam gräns för datamängden/webbplats bestäms för varje grupp av webbplatser. De selektiva insamlingarna körs sedan med en viss frekvens (dagligen, veckovis eller månatligen) och webbadresserna i respektive grupp läggs till, tas bort eller ändras vid behov.

Avbild av Kungliga bibliotekets webbplats från 2007 — Kungliga bibliotekets webbplats från 2007

Teknik

Webbinsamlingar resulterar i en stor mängd filer som tillsammans bygger upp de webbsidor som har samlats in, samt en stor mängd metadata som beskriver materialet och hur insamlingen har gått till. Allt detta paketeras i arkivfiler i formatet WARC (Web ARChive), som är det dominerande formatet för webbarkiverat material.

Sedan 2018 använder KB programvara utvecklad av det danska nationalbiblioteket för att styra och övervaka insamlingarna. Systemet heter NetarchiveSuite (NAS) och använder insamlingsprogrammet Heritrix för själva hämtningen av materialet. Med hjälp av NAS kan både de generella och de selektiva insamlingarna styras, övervakas och schemaläggas.

När WARC-filerna för en insamling är färdiga sammanställs data om alla webbadresser som samlats in så att det sedan går snabbt att få fram var insamlingen av en viss webbadress finns lagrad. KB använder numera programvaran Python Wayback (pywb) för återskapande och visning av det insamlade materialet. Det finns numera även program för fulltextsökning (t.ex. SolrWayback) men eftersom KB inte får ge åtkomst till materialet via sökning efter känsliga personuppgifter har något sådant ännu inte kommit till användning.

Även om webbinsamling på det sätt som beskrivits här fortfarande är en användbar teknik så finns det sedan länge vissa typer av webbsidor som är svåra eller omöjliga att arkivera. Det beror på att det som visas i användarens webbläsare inte behöver komma från en HTML-fil utan kan skapas, modifieras och helt styras av nedladdad programkod (Javascript) i webbläsaren själv. Att samla in sådana genererade sidor kräver en helt annan teknik och andra resurser i insamlingsprogrammen. Det finns sådana program, som alltså har webbläsarens presentationsteknik inbyggd, och en del av dessa ger mycket bra resultat vad gäller bevarat sidutseende. Nackdelen är att insamlandet tar avsevärt mycket längre tid, vilket gör det svårt att göra riktigt stora insamlingar med den typen av program. Lösningen är idag närmast att använda denna teknik bara för webbplatser som den traditionella insamlingsmetoden inte klarar av. Men går det att automatiskt avgöra vilka webbplatser det gäller? Detta görs det nu experiment kring.

En annan utmaning för den traditionella webbinsamlingen är att hantera webbplatser som ofta uppdateras. Den tätaste insamlingsfrekvensen KB använder är en gång per dygn. För till exempel dagstidningars webbplatser innebär det att man missar att fånga successiva ändringar av artiklar. Dessutom är väldigt många artiklar endast tillgängliga efter inloggning som prenumerant och KB:s webbinsamling hanterar inte sådant idag.

Avbild av Kungliga bibliotekets webbplats från 2012 — Kungliga bibliotekets webbplats från 2012

Material med stöd av e-pliktslagen

Parallellt med Kulturarw³-webbinsamlingen började KB alltså från 2015 att även få leveranser av material från den svenska webben med stöd av e-pliktslagen. Det var ett stort framsteg. Berörda webbplatser är visserligen bara en del av alla webbplatser som KB samlar in med webbinsamlingen, men KB får tillgång även till material som inte är fritt tillgängligt, eftersom leverantörer som omfattas måste ge KB inloggningsmöjligheter. KB får också in versioner (successiva ändringar) av det material som täcks av lagen, till exempel av artiklar från dagstidningars och tidskrifters webbpublicering. Tillsammans med materialet levereras dessutom metadata, såsom titel och publiceringsdatum.

E-pliktsleveranserna hanteras med en separat och egenutvecklad programvara (Mimer) och är helt inriktad på enskilda dokument (artiklar, böcker, filmer etc.). Det gör att resultatet blir mer noggrant och fullständigt än det blir vid webbinsamling, men också att till exempel översiktssidor med länkar till enskilda artiklar inte omfattas. Eftersom sådana i motsats till enskilda artiklar normalt är fritt tillgängliga och fångas ganska väl av webbinsamlingen har KB alltmer kommit att se webbinsamlingen och e-pliktsleveranserna som två kompletterande sätt att försöka fånga webbpubliceringen som helhet. KB arbetar nu för att få dessa delar att fungera ännu bättre ihop. Dock med stor medvetenhet om att det långt ifrån ger en fullständig bild av hur hela det svenska webblandskapet sett ut!

Fotnoter

1.https://internetkunskap.se/artiklar/sa-funkar-internet/ar-internet-och-www-samma-sak/

2. Sänt i etern, d.v.s. i radio och/eller tv.

3. Från 2012 för vissa leverantörer.

4. Lag (2012:492) om pliktexemplar av elektroniskt material https://rkrattsbaser.gov.se/sfst?bet=2012:492

5. https://rkrattsbaser.gov.se/sfst?bet=2002:287

6. Webbplatsens förstasida A har en länk till sida B som har en länk till sida C. Sida C har då nåtts via två länksteg.

Peter Svanberg

Peter jobbar sedan fem år tillbaka som teknisk handläggare på Kungliga biblioteket med tekniken kring insamlingen av den svenska webben och e-plikten (lag 2012:492). När något blir riktigt fel eller fungerar dåligt i systemen gräver sig Peter ner och analyserar. Ju konstigare fel desto djupare gräver han, tills han hittat orsaken. Förutom datortekniken är terminologi och språk ett stort intresse, liksom musik i allmänhet och körsång i synnerhet.

Pär Nilsson, tekniskt inriktad handläggare på avdelningen för Insamling och metadata

Pär arbetar till vardags med att tillämpa Lag (2012:492) om pliktexemplar av elektronisk material (den så kallade e-plikten), detta innebär omfattande kontakter med bland annat pliktleverantörer för dagstidningar. Att bevara kulturarvet och säkra den framtida forskning innebär detektivarbete både av juridisk och teknisk karaktär. Pär arkiverar även den svenska webben genom KBs kulturarvsrobot Kulturarw³. Pär har en lång karriär på KB bakom sig med många olika spännande roller. Fritiden ägnas åt bland annat åt familjen och resor.

Arkivit

Villkor

Vem bevarar den svenska webben för framtiden? Kungliga biblioteket – till stor del! av Pär Nilsson och Peter Svanberg