Bevarandeformat, hur svårt kan det va’?

Vad gör man in en situation där det inte går att veta om ens beslut i nuet är korrekta, och vari det saknas konsensus mellan rådgivande institut? I denna artikel presenteras, utöver de största problem som jag ställts för under mitt arbete med att ta fram en formatpolicy för långsiktigt digitalt bevarande, även flertalet relevanta bevarande- och riskminimerande strategier. Jag utlovar inga svar, men min förhoppning är att de erfarenheter som erhållits under mitt arbete kan inspirera och skänka nya perspektiv till er läsare.

Det bär mig lite emot att säga det, men det är inte att fara med osanning att säga att jag påbörjade min ”resa” inom filformatens värld med rubrikfrågans något naiva utgångspunkt. Däremot förstod jag mycket väl vikten av att ta fram en formatpolicy, för hur skall man annars kunna veta vilka format vi som arkiv skall acceptera från våra arkivbildare, samt hur vi som arkiv skall hantera alla dessa filer för att de skall kunna bevaras digitalt över långa tidsperioder? 

Initialt påbörjandes mitt arbete med att ta fram en policy för bevarandeformat inom Enskilda e-arkivet (EEA), vilket är en gemensam e-arkivplattform för Folkrörelsearkivet för Uppsala län, Arkiv Sörmland och Föreningsarkivet Västernorrland. Sedan årsskiftet 20/21 är arbetet med formatval även kopplat till det fleråriga projektet Labours memory som bedrivs av Folkrörelsearkivet för Uppsala Län och Arbetarrörelsens Arkiv och Bibliotek (ARAB) i syfte att digitalisera och tillgängliggöra stora delar av arbetarrörelsens årsredovisningar och revisionsberättelser från 1800-talet till nutid. 

Inom EEA används en e-arkivlösning som baseras på programmen Archivematica och Atom, där det första programmet används för att skapa och förvara arkivpaket, medan det andra används för internt förteckningsarbete och som en offentlig sök- och visningsyta. Värt att nämna är att dessa program knappast är körklara från start. Grundinstallationen av programmen kan istället närmast beskrivas som ett slags verktygslåda för e-arkivarier, och på samma vis som ett hus inte bygger sig självt bara för att man har tillgång till verktyg och arbetskraft, så skapas inte heller en ”färdig” e-arkivlösning bara för att man har installerat ett par program på en server. Utöver teknik och personal (för att inte tala om de ekonomiska resurser som krävs för att bibehålla dessa två ”komponenter” över långa tidsperioder) behövs även tydliga mål och konkreta strategier för hur dessa mål skall realiseras i praktiken. Och det är här det börjar bli verkligt snårigt, för om det är något som framträder med allt större tydlighet ju djupare man träder in i denna digitala djungel är det just avsaknaden av konsensus och enkla lösningar. I denna artikel kommer jag att beskriva de svårigheter jag mött under mitt arbete med att ta fram en formatpolicy, samt presentera ett par konkreta strategier som jag hoppas kan vara till hjälp för de läsare som arbetar med eller kommer att arbeta med dessa frågor framöver. 

De faktorer som gjort att arbetet med att ta fram en formatpolicy blev mer komplext än vi först räknade med är följande: 1) I och med att konsekvenserna av våra beslut visar sig först i framtiden går det på inget vis att garantera att vi tar rätt beslut alldeles oavsett hur mycket vi anstränger oss. Detta faktum tvingar oss att tänka i form av sannolikhetsgrader snarare än i faktum, och att vara öppna för möjligheten att även den mest genomtänkta av planer kommer att behöva uppdateras kontinuerligt. Det finns ingen ”set it and forget it”-lösning. 2) Vi som ett enskilt arkiv har varken den tekniska kompetensen eller de ekonomiska resurserna att själva utvärdera vilka format som är lämpliga eller inte lämpliga bevarandeformat, ett faktum som gör oss beroende av nationella och internationella auktoriteter på området, som svenska Riksarkivet, amerikanska Library of congress och British library. Problemet är att det inte alltid råder konsensus mellan auktoriteter som dessa, vilket leder till en situation där vi som rådtagande arkiv måste bedöma vilket/vilka institut som har mest trovärdighet i frågan. 3) Utöver bristande konsensus gällande vilka format som egentligen är bra bevarandeformat så råder det även viss diskrepans mellan vilka format som utvärderas, och framför allt mellan vilka kategorier av format som utvärderas hos de olika rådgivande instituten. Vanligtvis ges råd om text-, bild-, ljud- och videoformat, men långt ifrån alla ger råd om hantering av e-post, databaser, webbarkiv och CAD-filer. 4) En följd av att olika rådgivande institutioner till viss del utvärderar olika formatkategorier är att det blir svårt för oss som rådtagare att följa en viss institutions råd fullt ut. Istället tvingas vi göra subjektiva urval och sammanställningar från de källor som vi bedömer vara relevanta. Detta är knappast en optimal situation, och därför är det viktigt att utarbeta kontrollmekanismer för hur denna problematik skall hanteras över tid.  

Sammanfattningsvis kan man säga att vi befinner oss i en situation där det råder stor osäkerhet, och med anledning av det kan det vara klokt att se vad vi kan lära från andra arbetsfält som hanterar osäkerhet kopplad till framtiden, såsom inom ren och skär ekonomisk spekulation. Med reservation för att jag inte är en utbildad ekonom, men som jag ser det går det att inspireras av samt dra givande paralleller med investeringsstrategierna diversifiering, trendföljning och fundamental analys å ena sidan, och långsiktigt digitalt bevarande å andra sidan. Förenklat uttryckt kan man säga att diversifiering handlar om att inte lägga alla sina ”ägg” i en och samma korg (riskspridning), fundamental analys om att särskilja de ”gyllene äggen” från ”rötäggen” via bokförings- och varumärkesanalys, medan trendanalys mer handlar om att koncentrera sitt innehav till de ”ägg” som summan av alla köpare finner mest attraktiva och vice versa. Dessa strategier är på inget vis exklusiva, och det är inte ovanligt att alla tre metoderna används inom till exempel en och samma fond. Översatt till filformatstermer kan trendföljning liknas vid en migrationsstrategi där handlingars innehåll förs vidare mellan olika format in infinitum. Kvalitativ analys kan liknas vid den utvärderingsprocess som utförs av rådgivande institutioner som Library of congress med flera. I stort använder sig olika institutioner av snarlika kriterier för analys av bevarandeformat, även om de kan skifta i antal. Riksarkivet[1] tar till exempel upp följande fem kriterier när de betonar vikten av att bevarandeformat: 

följer en öppen standard och har publikt tillgängliga specifikationer, är leverantörsoberoende, är fritt från kryptering och DRM-kopieringsskydd (digital rights management), är vanligt förekommande bland organisationer i Sverige, och om möjligt är okomprimerande eller icke-destruktivt komprimerande (gäller bild, ljud och video)

Personligen har jag till exempel mer tillit till de råd som delas av flera institut än de råd som enbart ges av något eller ett fåtal institut.

Låt oss nu gå vidare till hur diversifieringsstrategin kan appliceras inom en e-arkivskontext. Till att börja med har vi självklarheter som att alla handlingar alltid skall ha en backup på en separat server, men utifrån ett riskminimeringsperspektiv är det givetvis fördelaktigt att även sprida sina risker mellan olika format. Om ekonomisk kostnad inte vore en faktor så skulle ju den enklaste lösningen på ”formateländet” vara att använda sig av alla tillgängliga format simultant, för även om man inte vet vilka format som kommer överleva långsiktigt är det ju väldigt troligt att något eller några av nutidens format kommer att vara funktionella även i framtiden. Men med tanke på att detta knappast är en ekonomiskt försvarbar linje är det värt att undersöka andra diversifierbara faktorer. En tanke är att på samma vis som en fond kan göra ett initialt urval via fundamental analys för att sedan diversifiera sig genom att investera i till exempel de 50 aktier som befinner sig i starkast stigande trend, så kan givetvis vi som arkiv använda oss av flera strategier simultant och därigenom göra oss mindre beroende av varje enskild strategis framgång. En annan faktor som kan diversifieras är faktiskt de institut vars råd ligger till grund för våra beslut gällande bevarandeformat. Personligen har jag till exempel mer tillit till de råd som delas av flera institut än de råd som enbart ges av något eller ett fåtal institut. 

Inom digital arkivering finns även möjlighet att integrera strategier som går ut på att återskapa det förflutna såväl som att ”outsourca” svåra beslut till framtidens e-arkivarier. Även om det kan låta som science fiction är dessa strategier att ta på fullt allvar. Låt oss börja med den första strategin, som i korta drag tar fasta på den potentiella möjligheten att det i framtiden kommer att gå att återskapa det förslutna genom emulering av historiska dataplattformar och miljöer. Mig veterligt är dessa teknologier ännu inte färdigutvecklade, men Digisam[2] skissar i sin vägledning till digitalt bevarande på följande lösningsalternativ: ”Ett första alternativ är att ny läsmjukvara framställs, ett andra alternativ att läsmjukvaran bevaras medan det gamla operativsystemet emuleras i den nya tekniska miljön och ett tredje alternativ att även operativsystemets mjukvara bevaras medan den gamla tekniska plattformen emuleras till den nya”. Oavsett hur (eller om) detta löses i praktiken är det intressant att seriösa nationella och internationella auktoriteter på området talar om emulering som ett trovärdigt alternativ till migrering. 

Den andra strategin handlar istället om ett strategiskt uppskjutande av vissa formatval och migrationsåtgärder till framtiden. Här kan man visserligen ställa sig frågan om detta ”prokrastinerande” verkligen är önskvärt? På den frågan är jag benägen att säga ja i vissa fall, och det med anledning av vad som närmast kan beskrivas som migrationsstrategins fyra dilemman: 1) Det är svårt att i detta nu avgöra vilka format som kommer att frodas i framtiden. 2) Dessvärre saknas det funktionella konverteringsverktyg och/eller trovärdiga bevarandeformat för flera av dagens filformat. 3) I och med att inget valideringsprogram är ofelbart, samt att det inte finns tid för att okulärt besiktiga alla filer som genomgått en migrationsprocess, så finns alltid en risk att filer som genomgår en migrationsprocess blir korrupta. 4) I och med att det inte är försvarbart att radera originalfilerna (dels på grund av korruptionsrisk vid migration, men även med anledning av att det annars inte går att se om filen blivit manipulerad över tid) blir alla dessa bevarandekopior ekonomiskt kostsamma att lagra (särskilt med tanke på att många bevarandeformat är utrymmeskrävande). Något som i sig utgör en riskfaktor för de ansvariga arkivens överlevnad. 

Fördröjd migration som bevarandestrategi är i huvudsak kopplad till formatkategorierna bild, ljud och video med anledning av att det för dessa filtyper finns konverteringsprogram som FFMPEG och Imagemagick tillgängliga under öppna licenser. Den bakomliggande logiken är att så länge det finns etablerade och säkra metoder för att utföra förlustfria konverteringar nu såväl som i framtiden, så är bevarandet av filernas konkreta innehåll inte avhängigt vilket format som för stunden utgör dess “behållare”. Migration mellan olika format sker inom denna bevarandestrategi “just in time” snarare än “just in case”. Fördröj migration är en lockande bevarandestrategi framförallt av ekonomiska skäl då det långsiktiga förvarandet av multipla bevarandekopior av ljud, bild och video är väldigt kostsamt. Denna strategi är dock mindre lämpad för textfiler av följande två anledningar: 1) Det finns inget (till min kännedom) icke-proprietärt konverteringsprogram som klanderfritt kan hantera merparten av dagens vanligt förekommande textformat. 2) Många textformat bäddar varken in typsnitt, färgrymd eller layoutmallar i själva filerna, utan förlitar sig i stället på att programvaran som öppnar filerna bidrar med denna information. I och med att vi inte vet vilka program som kommer att öppna filerna i framtiden är detta långt ifrån en optimal lösning. Detta leder till en moment 22-liknande situation där behovet av att migrera från format vartill det saknas fritt tillgängliga (open-source) konverteringsprogram ökar, medans behovet av migration från format vartill fria och funktionella konverteringslösningar finns på plats minskar. Med det sagt kan fördröjd migration även vara en lämplig bevarandestrategi för de filformat vartill det i rådande stund inte finns något lämpligt bevarandeformat på plats. En tänkvärd strategi i sådana fall är att kategorisera inkomna format som provisoriska bevarandeformat i väntan på att trovärdiga bevarandeformat utvecklas, alternativt tills (om någonsin) emuleringsteknologierna blivit såpass utvecklade och fritt tillgängliga att migration som bevarandestrategi inte längre har någon relevans. Om man väljer att använda sig av fördröjd migration som en delstrategi för långsiktigt digitalt bevarande är det av stor vikt att man kompletterar sin (förhoppningsvis) befintliga filformatsbevakning med bevakning av såväl konverteringsprogram  som emuleringstekniker. 

Sammanfattningsvis har jag i denna artikel beskrivit ett flertal problemområden kopplade till att ta fram en formatpolicy, såsom riskhantering kopplad till en okänd framtid samt avsaknaden av konsensus gällande bevarandeformat. Vidare har jag i syfte att skissa upp en bild över de strategier som (mig veterligen) finns tillgängliga för oss som arbetar inom detta fält beskrivit ett flertal strategier, såsom diversifiering, formatanalys, migrering, fördröjd migrering och emulering. Jag vill verkligen betona att det inte råder en ”antingen/eller-situation” mellan dessa strategier, utan att de alla snarare vinner på att användas simultant då de i mångt och mycket diversifierar bort varandras svagheter. Genom att använda olika strategiska modeller simultant undviker vi en situation där fortlevnaden för arkivets digitala bestånd är avhängig en specifik strategis uppgång eller fall. 

[1] https://riksarkivet.se/medium-och-formatval

[2] https://www.digisam.se/wp-content/uploads/2021/07/Digisams-vagledning-till-digitalt-bevarande-1.1.pdf


Namn: Theo Erbenius  

Roll: E-arkivarie  

Arbetsplats: Folkrörelsearkivet för Uppsala län  

Jag är en person som älskar att lösa problem, skapa strukturer och lära mig nya saker, och det är troligen min största tillgång inom mitt arbete som e-arkivarie. Utmaningen med digitalt långsiktigt bevarande är komplex och det finns något trollbindande i att navigera genom denna föränderliga och inte fullt kartlagda ”terräng”.