Webbarkivering och metadata

IT-lösningar

Hur metadatasätter man något som i sig är bestående av metadata och är uppbyggt för att vara enkelt sökbart och användarvänligt i sig själv? Att arkivera en webbsida, webbplats, hemsida, site, sajt eller vad man nu väljer att kalla det är sällan helt okomplicerat. Frågor om varför, hur, när och av vem diskuteras ofta. Angränsande frågeställningar är på vilket sätt den arkiverade informationen ska eftersökas och användas i framtiden – här blir metadata viktig även om det också spelar in i hur de andra frågeställningarna ska bevaras.

Textförfattare: Magdalena Sjödahl, texten publicerades tidigare som en artikel i tidskriften Arkiv Information Teknik nr 2/2019 med tema Metadata. Ladda ned tidskriften i sin helhet här (PDF).

Varför?

I denna artikel väljer jag att prata om webbarkivering i betydelsen arkiveringen av en webbplats. Svenska datatermgruppen definierar webbplats på följande sätt: webbsida eller grupp sammanlänkade webbsidor som innehåller information om en verksamhet eller ett ämne och som har samma utgivare. I texten avgränsar jag mig mot t.ex. sociala medier och arkivering av dessa. De generella principerna kan dock i många fall tillämpas även på denna typ av information.

En webbplats uppfattas ofta som en kanal för att sprida information som har skapats i andra sammanhang – men är det verkligen bara så? Nej, de flesta webbplatser innehåller helt eller delvis information som är unik för detta medium. Informationen som publiceras kanske också finns sparad i ett annat system eller i en annan form men långt ifrån alltid. I egenskap av arkivarie är det naturligt för mig att poängtera och lyfta fram kulturarvsvärdet vid bevarande av våra webbplatser. De är viktiga ögonblicksbilder av vår samtid. För offentlig sektor finns även lagkrav rörande hanteringen av allmänna handlingar. För den privata såväl som för den offentliga sektorn finns även ett rättssäkerhetsperspektiv och ett ekonomiskt värde i att bevara webbplatser för framtida bruk. Utöver att det kan uppstå diskussioner om vilken information som verkligen förmedlats så kan tid sparas genom att kampanjer, formuleringar och annan information kan återanvändas och tid (och därmed pengar) kan sparas. 

Hur?

Webbarkivering kan ske genom alltifrån ”skärmdumpar” till så kallade ”spindlar” eller crawlers samt script som skapar ”surfbara” kopior av webbplatsen. Dessa arkivkopior ser i hög grad ut och upplevs på samma sätt som den ursprungliga webbplatsen. Det finns en rad olika verktyg som kan användas för detta ändamål. Att precisera metoder för webbarkivering samt val av format att spara den nedladdade webbplatsen i är dock ett ämne som förtjänar en helt egen artikel. 

När och av vem?

Frågan om när en webbplats bör arkiveras är inte självklar. En webbplats, som helhet, blir sällan helt färdig eller upprättad i den enklaste av lagens betydelser även om varje enskild sida eller artikel färdigställs. Webbplatsen kan mer rättvist liknas vid ett register där information löpande fylls på och förändras. Att arkivera hela webbplatsen varje gång en förändring görs är dock inte alltid praktiskt genomförbart. Den gyllene medelvägen att arkivera webbplatsen en gång per månad eller en gång per år samt vid stora förändringar kan därför vara klok. För myndigheter bör detta kompletteras med att unikt material omhändertas och ordnas på annat sätt om det krävs för att uppfylla lagkrav.

Ett av de mest kända projekten att arkivera och samla in webbplatser är Wayback machine och The Internet Archive. De har sedan år 1996 arbetat med vad de beskriver som att arkivera Internet. I sin samling har de bl.a. drygt 330 miljarder webbplatser. I Sverige har även nationella insatser gjorts för att bevara den svenska delen av Internet genom bl.a. projektet Kulturarw3 som startades 1997. Idag finns drygt 5 miljarder svenska webbplatser i samlingen som går att titta i på plats hos Kungliga biblioteket.

Metadata?

Hur ska man då tänka runt metadata för en arkiverad webbplats? Vi har olika aspekter och användningsområden av metadata. Initialt känns det naturligt för mig att tänka på sökbarheten – särskilt när det rör sig om material som skapats för att nå en stor målgrupp. 

Givet är att man som användare vill kunna söka på webbplatsens URL, dvs. webbadress – något som t.ex. Kungliga biblioteket tagit fasta på då de anger att de har valt att begränsa sökbara metadata till just detta metadatafält. Även på Wayback machine är det detta värde som efter några stickprovssökningar på just webbplatser ger säkrast sökträff även om andra fält såsom titel, samling och datum också är sökbart. 

Metadata fyller dock även andra funktioner, utöver att säkerställa tillgängliggörande av arkivmaterialet. Stockholm stadsarkiv har till viss del tagit fram en anpassad uppsättning metadata för de webbplatser som arkiveras och levereras till deras e-arkiv. Sedan vintern 2018 finns även möjlighet att titta på deras arkiverade webbplatser i en egen tjänst, webbplatsarkivet.stockholm.se, där ett urval av metadata från e-arkivet presenteras tillsammans med webbarkiveringen. Metadata utgör dels beskrivning av själva webben, dels av insamlingsprocessen och arkiveringstillfället. 

Stockholm stadsarkiv väljer att betrakta webbplatsen som ett objekt som beskrivs gemensamt i tillhörande metadata.  Riksarkivet i sin tur har valt att presentera och lista varje enskild fil som webbplatsen består av i tillhörande metadata och dokumentation. Webbplatsen som sådan beskrivs även med hjälp av systemdokumentation som levereras tillsammans med metadata i enlighet med Riksarkivets mall för metadata vid webbleveranser. 

Arkivförbundet Sydarkivera resonerar bl.a. om metadatasättning i sin rapport om webbarkivering Leveransutredning avseende externa webbplatser (SARK.2016.27) [2017-12-27]. I rapporten betonas vikten av metadata samt möjligheten att inte bara kunna eftersöka webbarkiveringen utan även kunna vårda arkivkopian i framtiden. Vi vet att de digitala formaten inte kommer att bestå för evigt, utan att arkivvårdande insatser i form av t.ex. konvertering troligtvis kommer att krävas för att säkerställa läsbarhet. En webbplats är i regel komplex och innehåller ett stort antal format, så för att kunna utföra en god och ändamålsenlig arkivvård på denna typ av bestånd är vi beroende av relevant metadata. Då även insamlingsmetoden sätter spår hur arkivkopian av webbplatsen kommer att presenteras och visas måste även denna dokumenteras i metadata. 

Metadata är även viktig för tillförlitligheten i webbarkiveringen. En webbarkivering görs, som sagt, ofta t.ex. en gång på år och inte vid varje tillfälle en ändring görs. Därför är insamlingstidpunkten, eller insamlingstidpunkterna om arkivkopian skapas vid flera tillfällen, ytterst viktig för att säkerställa tillförlitligheten till materialet.

Så hur metadata sätter man något som i hög grad är bestående av metadata? – tydligt, enkelt och relevant är det ack så enkla men svåra svaret. 

Referenser

  • Svenska datatermgruppen, sökord Webbplats 
    www.termado.com/DatatermSearch/?ss=webbpl (2019-04-16)
  • archive.org/about/ (2019-06-17)
  • sydarkivera.se/om/vara-tjanster/digitala_arkivleveranser/webbarkivering/ (2019-06-17)
  • webbplatsarkivet.stockholm.se (2019-06-17)
Magdalena Sjödahl

Magdalena Sjödahl är arkivarie och projektledare på ArkivIT. Hon är produktansvarig för bl.a. den tjänst för webbarkiveringar som ArkivIT erbjuder. Hon har en bred erfarenhet av att arbeta inom modern e-förvaltning och digitalisering. 

Fler nyheter

Cookie notice
ArkivIT.se använder sig av cookies. Om du inte vill att vi använder cookies vid ditt besök kan du när som helst ändra inställningar för cookies i din webbläsare.