E-arkivets gränser

E-arkivets gränser

De senaste 20 åren har ett antal olika e-arkiv växt fram i Sverige, som platsbyggda monolitiska lösningar, som kommersiella produkter och även som open source. Men vad ingår i begreppet e‑arkiv, vilka utmaningar och möjligheter kan vi se redan idag och är våra lösningar hållbara för framtiden?

Digitaliseringen har tagit sjumilakliv bara de senaste åren. Parallellt med att många e‑arkiv etablerats har det även gjorts stora tekniska framsteg inom IT generellt. De sista hindren för helt digitala processer är undanröjda. Samtidigt har också nya hot dykt upp som mörka moln på himlen. Pandemin förändrade i ett slag vårt sätt att arbeta, samhället har blivit mer internetberoende, sociala medier dominerar vår kommunikation. Integritetsfrågan har blivit en av våra största utmaningar. Ser vi bakåt kan vi dock se att denna resa skett stegvis och förvånansvärt långsamt. Riksarkivet började ta emot digitala leveranser, då kallat ADB-upptagningar, redan under 70-talet^[1]. Papper var dock den föreskrivna arkiveringsmetoden fram till 1991 då den nya arkivlagen trädde i kraft. Det första förslaget rörande införande av ett centralt digitalt arkiv lades fram för kongressen i USA så tidigt som 1965, då myndigheterna i landet redan hanterade miljarder digitala handlingar. Idéen avslogs efter protester kring hotet mot den personliga integriteten^[2]. En svårlöst fråga än idag. Även tekniken har varit en utmaning och är det fortfarande. Våra e‑arkiv mäts i Terrabytes eller Petabytes, men mängden digital information uppskattas idag till flera Zettabytes. Hur mycket av detta kan och bör vi arkivera?

Funktioner

E-arkiv rymmer funktionalitet för att ta emot data, ordna det på ett strukturerat sätt, lagra stora mängder, tillhandahålla sökning och utlämning och slutligen att bevara denna data över tid. Hur data kan struktureras finns angivet i ett flertal olika specifikationer. Tyvärr finns det inte en standard, utan många. Ingen konsensus råder kring vilken standard som gäller inom olika verksamheter. Följaktligen hanterar de flesta e‑arkiv metadata och datastrukturer för lagring med egna flexibla lösningar för att kunna stödja olika verksamhetsbehov. Det finns en referensmodell som beskriver vilka funktioner som behövs inom ett e-arkiv, både tekniska och rent funktionella, Open Archival Information System (OAIS). Termerna funktion och system betyder ju mer än bara algoritmer och program, det inkluderar också rutiner och arbetssätt. I grunden ställer e‑arkivet krav på hur informationen ska paketeras för att levereras in, efter en exakt specifikation. För e-arkiv kallas detta för ingest, där inkommande data valideras och paketeras om för att lagras internt. Hur detta kan ske fastställs i en leveransöverenskommelse, för vilka källor som får leverera in data och enligt vilka format och kommunikationskanaler.

Hur data lagras varierar mellan olika e-arkiv; det kan röra sig om flata filstrukturer, mapp-strukturer uppbyggda efter en viss logik eller för att uppnå prestanda, eller lagring i databaser. Metadata kan lagras direkt i databas med referens till de tillhörande filerna eller som XML sparad på samma plats som filerna. Paketeringen varierar också, men de flesta e-arkiv eftersträvar en enhetlig lagring av filer och metadata utan direkta beroenden till hur informationen lagrades i de ursprungliga systemen. Gemensamt för alla lösningar är att en databas för indexerat metadata behövs för effektiv sökning. E‑arkiv lagrar filer så som de är, oberoende av filformat. Regler kan sättas upp för att endast tillåta vissa format och filformatskonvertering erbjuds med hjälp av tredjepartsprodukter. Andra tillägg är säkerhetsgranskning av inkommande filer. För bevarande kan filer över tid behöva konverteras från äldre till nyare format för att informationen fortfarande ska vara användbar. Både originalfil och konverterad fil kan då lagras. Integritet behöver också säkras för inlevererade data, vanligen genom beräkning av checksummor och sedan löpande verifiering av dessa för att upptäcka förvanskning eller fel, så kallad fixity check eller cyclic redundancy checks.

Sökning och presentation varierar stort mellan olika e-arkiv. Vissa har endast rudimentära sökmöjligheter medan andra har avancerade lösningar med logik, urvalsfilter, fasetter, sortering, filformatskonvertering, visning och utlämning. Sökning sker på metadata och innehåll. Ett e-arkiv behöver också ett gränssnitt för att exportera informationen till andra system, ett API. Vid sökningen blir det också uppenbart hur viktigt det är att ett e-arkiv har kontroll över behörighet för åtkomst till informationen. Även här skiljer sig e-arkiven åt i hur avancerat dessa behörighetsregler kan sättas, beroende på om sökningen sker direkt i e‑arkivet eller via en integrerad sökportal. Utöver detta behöver e-arkivet också skyddsmekanismer mot intrång, haveri och felaktigt handhavande för att uppnå god informationssäkerhet i lösningen. För varje implementation av ett e‑arkiv behövs också en möjlighet för att ta ut och exportera all data på hanterbart format till en ny systemlösning, populärt kallad en exit-strategi.

På det hela taget, både för en systemutvecklare och en arkivarie, kan det te sig tämligen tydligt och enkelt att skapa ett e‑arkiv. Vad är det då som skiljer behoven för ett e-arkiv jämfört med andra system?

Utmaningarna

Den första stötestenen är mottagande av data till e-arkivet. Ett klassiskt verksamhetssystem har en begränsad mängd kanaler för informationsutbyte. Men ett e-arkiv ska per definition kunna ta emot information från alla upptänkliga datakällor. Kravet på formatering av indata blir alltså ett nytt problem som behöver hanteras och som är betydligt mer resurskrävande än vid arkivering av papper. Detta steg benämns som pre-ingest, att omvandla informationen så att den kan tas emot av e‑arkivet. Detta är detsamma som Extract, Transform, Load (ETL) och har länge använts vid sammanställning av datalager från flera källor, data warehouse, beslutsstöd eller business intelligence (BI). En meddelandetjänst transformerar ett format till ett annat för att integrera verksamhetssystem. Det inkluderar det även uttag ur systemen som kan ske mer djupgående, genom att hämta informationen direkt från databaser eller flera olika källor parallellt.

Till skillnad från ett klassiskt datalager för BI så har e-arkivet inte lyxen att kunna välja ut och förenkla informationen, utan den behöver vara komplett, konsekvent och beständig. Stödet för pre-ingest varierar kraftigt mellan olika e-arkiv. Det ses av vissa som ett separat problem som hanteras bäst av rena ETL-produkter. Andra ser det som en central funktion och har inbyggda lösningar eller tilläggsmoduler för ETL. Dock är dessa funktioner i sin linda och det är fortfarande i detta steg som många leveransprojekt spenderar mycket tid och resurser. Parallellt pågår arbete med att förbättra exportfunktioner i verksamhetssystem och ta fram specifika integrationslösningar, men även där är det mycket arbete som återstår.

Vid mottagning av data uppstår även ett nytt behov av analys. Främsta behovet är att säkerställa att personlig integritet skyddas. Här har artificiell intelligens (AI) börjat användas för att leta efter personuppgifter i ostrukturerad data. AI kan även användas för att identifiera och klassificera data. Vidare kan AI också behövas för analys av själva verksamhetssystemen och dess datamodeller för att ens möjliggöra ett uttag. Detta är ett behov för att förstå de större komplexa system som varit aktiva över flera decennier.

Väl på plats behöver informationen skyddas och förvaltas. Även här är utmaningarna högre för drift av ett e‑arkiv än annan systemdrift. Skyddsvärdet stiger dels i nivå med den mest känsliga information som lagras, dels till följd av aggregationen av olika informationsmängder som kan kombineras på nya sätt. Ett ledningssystem för informationssäkerhet behöver vara etablerat inom hela den organisation som hanterar e-arkivet. Regelbundna riskanalyser och utbildning är en central del av detta arbete. Den etablerade standarden för informationssäkerhet (LIS, ISO 27000) ger ett heltäckande ramverk för både införande och mätning. Även arbetet med GDPR faller väl in inom denna standard. Två saker är värda att poängtera. Att uppnå en hög medvetenhet om informationssäkerhet är det primära. Det måste vara naturligt att alltid tänka på säkerheten. Detta tar tid och kräver fokus för att etableras. I senaste rapporten från Integritetsskyddsmyndigheten, IMY, konstateras att de flesta incidenterna fortfarande rapporteras som orsakade av den mänskliga faktorn^[3]. Säkerheten är främst en ledningsfråga. Arbetet kring informationssäkerhet behöver ständigt utvärderas och förbättras, ett arbete som drivs uppifrån. Att skylla på handhavandefel är inte acceptabelt, det är ett systemfel inom verksamheten.

Möjligheterna

Med e-arkiv kommer också nya möjligheter. En av dessa är hantering av master-data, något som hänger ihop med tidigare nämnda ETL och datalager. Med en gemensam terminologi och med volym av inkommande data uppstår möjligheten att styra och mäta. Det digitala arkivet kan nu bli den naturliga punkten för integrerade system att hämta denna gemensamma grunddata, taxonomier och strukturer. Genom mätning blir denna samlade master-data också en källa till förbättringsarbete kring alla de processer som avspeglas i e-arkivet genom sina löpande inleveranser.

Även informationshanteringsplaner kan utgå från definitionerna i e-arkivet. Liksom att processerna för dokument- och ärendehantering integreras mer med e-arkivet. Att se när-, mellan- och slutarkiv som samma tekniska lösning med olika regler för åtkomst kan öppna för nya möjligheter att nyttja den data som samlas, inte bara något som ska förvaras. Att dessutom så tidigt som möjligt integrera verksamhetssystemen med e‑arkivet kan främja såväl effektivitet som säkerhet. Ju längre informationen lever sitt eget liv utanför e‑arkivet, desto svårare arbete för att slutligen ta emot den. Här kan e‑arkivet spela en roll central del i realiseringen av ett ledningssystem för verksamhetsinformation (LVI, ISO 30300). Processen för arkivering bör inledas i samma ögonblick som informationen skapas, något som konstaterats redan för ett par decennier sedan men sällan praktiseras^[4]. (Läs även vad min kollega Leif ”Peppe” Pettersson skrev i nummer 1/21 av AIT)

Den naturliga fortsättningen för e-arkivet på denna väg är informationsförvaltning. OAIS poängterar att det data e-arkivet hanterar även behöver kunna förstås och användas över tid. Detta innebär att klassificeringar och annan metadata behöver följa de förändringar som sker i verksamheten och omvärlden. Detta inbegriper även legala krav som kan ändras med tiden. För de flesta företag och organisationer i verksamheter under ständig förändring och personalomsättning blir detta över tid en mycket svår utmaning och ett arbete som aldrig upphör.

Ser vi på ostrukturerade data så finns även behov av förädling. Detta kan gälla både att förbättra kvaliteten genom att komplettera med mer information, men också att nyttja gemensamma data och koppla samman olika digitala arkiv. AI kan användas för analys och förbättring av data. AI-området har formligen exploderat de senaste åren efter genombrott inom främst bildklassificering och taligenkänning^[5]. Framsteg som vi nu kan dra nytta av även inom e-arkiv. Här väcks också tanken om att arkivera först och transformera sedan inne i e-arkivet, vilket också luckrar upp begreppen ingest och pre-ingest som e-arkivets startpunkt.

Digitalisering av processer har också tagit fart de senaste åren tack vare att Mobilt BankID nått allmän acceptans för autentisering och e-signering både privat och på arbetsplatsen. Användningen av papper för attest och signaturer har länge varit ett hinder för att uppnå helt digitala processer. Mycket papper har vi ändå att hantera, från närtida verksamheter men också alla fysiska arkiv. Utrustning för hantering av papper och böcker har under lång tid förbättrats och sjunkit i pris i takt med storskalig hantering. Skanning har effektiviserats med AI och maskinlärande och med användning av streckkoder, QR-koder och RFID-taggar.

För alla de ovan nämnda områdena informationssäkerhet, analys, masterdata, dokumenthantering, processhantering, digitalisering och informationsförvaltning finns det redan bolag i Sverige som aktivt införlivar detta i sina erbjudanden av e-arkiv som tjänst.

På ArkivIT arbetar vi utöver detta även med att ta fram lösningar och utveckla applikationer för att förenkla just förädling av e-arkiv, att göra det möjligt för allmänheten att enkelt bidra med digital information. Detta gör vi tillsammans med Arkiv Sörmland, sedan länge en partner i användandet av e-arkiv baserat på open source.

Framtiden

Med ökad grad av digitalisering följer också nya möjligheter till integration och automation. Verksamhetssystem börjar allt mer förses med direkta integrationer mot e-arkiv för att löpande kunna avställa information. Standardiserade format och kommunikationsprotokoll förenklar e‑arkivering, även för mindre välstrukturerad information. Mängden manuellt arbete för att arkivera minskar och automationsgraden ökar, vilket är en nyckel för att e-arkivering av våra ständigt ökande mängder av information ska vara möjlig. Samtidigt behövs en bättre kontroll över den information som skapas i våra olika system, en förståelse för informations bevarandevärde. Arkivariens roll behöver idag vara mer av en informationscontroller som kan stödja utformning av processer och system med målet att det alltid finns en förberedd automatiserad integrationslösning för e‑arkivering. Med en tätare koppling mot e-arkivet och en tidigare avställning ökar kvaliteten och ger en högre informationssäkerhet.

Kryptering för skydd av informationen är också en teknik som nu börjar etableras även vid lagring i e‑arkivet. Här har GDPR varit en pådrivare. Tidigare har kryptering i e-arkiv setts på med viss försiktighet med rädsla för att försvåra långsiktigt bevarande. Mer akuta är de risker som finns kring intrång och stöld av information. Kryptering kan även användas för att verifiera informationens giltighet. För digitala signaturer, eller elektroniska sigill, så används asymmetrisk kryptering för att i framtiden kunna verifiera dessa. Detta har lagt grunden för tekniken kring blockkedjor som populariserats med de olika kryptovalutor som nu vuxit fram. Idén om att använda blockkedjor för att säkra information i e-arkiv väcktes i samband med denna utveckling av decentraliserade valutor. Metoden har redan realiserats i ett ypperligt exempel för hur viktigt detta är för historiebeskrivning och demokrati, se artikel om arkivering av dokumentation om krigsbrott^[6].

Många e-arkiv driftas idag som vilken annan IT-lösning som helst, visserligen med standardlösningar för brandväggar och backup men inte så mycket mer extra säkerhetsåtgärder. Intrång i nätverk är vardag numera och även de med till synes hög grad av säkerhet drabbas. Att stjäla data är ett problem, men att förstöra data kan vara ännu värre. Ransomware-attacker är nu så avancerade att de först forcerar backup-lösningarna innan huvudsystemet slås ut och lämnar ingen chans till räddning. Att sprida informationen mellan olika separata e-arkiv kan vara en väg för att trygga bevarande av det som är mest viktigt för oss. Men risken för informationsförlust är inte begränsad till haverier, slarv eller brottslighet. Efter förra årets tumultartade valrörelse fruktade klimatforskare i USA att deras data kunde förstöras med avsikt av den avgående administrationen, läs mer om detta i denna artikel om alternativ arkivering av klimatdata^[7]. Delade arkiv väcker frågor kring såväl tekniska som legala aspekter. En lösning med kommunikation peer-to-peer och asymmetrisk kryptering är The interplanetary file system (IPFS). Ett decentraliserat lagringsnätverk^[8]. Våra e-arkiv kommer behöva kommunicera med varandra, utbyta information och helt ersätta en e-arkivslösning med en annan.

Vilka konsekvenser får våra ständigt ökande behov av datalagring, nätverkstrafik och processorkraft? Det senaste decenniet har energiförbrukningen i världens datacenter ökat från en till tre procent av all elproduktion på planeten. Energibehovet kan öka tiofalt med våra ökade behov av beräkningskapacitet för AI, kryptovalutor och blockkedjor^[9]. Klimatkrisen har på ett par år gått från oro till obeveklig realitet. Den pandemi vi nu upplever har också förändrat hur vi arbetar och förstärkt behovet av en pålitlig digital infrastruktur. Samtidigt har det visat hur beroende vi är av våra produktionskedjor för att detta ska fungera. Finansiering av e-arkiv kan hotas vid nedgångar i världsekonomin till följd av naturkatastrofer, nya pandemier och allmän politisk instabilitet.

Vi behöver arbeta vidare med standardmetoder för informationshantering och flytta vårt fokus från arkivering till den tidpunkt då informationen skapas. Detta betyder att även vid systemutveckling så behövs den förståelse om informationshantering som arkivarierna har. Vi behöver åstadkomma automatiserade flöden, ett slags självkörande arkiv eller automation by design. Vi behöver gallra tidigare, förstå vad som bör och får bevaras, få kontroll över informationens värde. Och hur gör vi den mentala övergången från analogt till digitalt, från att se information som samlingar som vi tidigare hanterade i dokument, pärmar och lådor till friare informationsobjekt, för att öka dess värde och användbarhet men ändå bevara dess sammanhang och betydelse? Och vilka andra traditioner från analoga arkiv har vi oavsiktligt fått med oss till våra första generationer av e‑arkiv? Vi är bara i början av utvecklingen av e-arkiv och hur de kan utformas på bästa sätt. Utmaningarna med informationssäkerhet, energiförbrukning och finansiering behöver tas på allvar. En utmanande balansgång mellan ekonomi, klimat, integritet, historia och demokrati.

[1] Gidlöf, Leif. Arkivmyndigheten som depå. Arkiv, samhälle och forskning. Vol. 1, 2001.

[2] Lepore, Jill. The Last Archive, The Computermen. (Podcast). Pushkin. 2020-06-25. www.pushkin.fm.

[3] IMY. Mänskliga faktorn bakom flertalet incidenter. 2021-06-22. www.imy.se/nyheter.

[4] Hodge, Gail M. Best Practices for Digital Archiving, an Information Life Cycle Approach. D-Lib Magazine. Vol. 6, 2000.

[5] Polson, Nick och Scott, James. AIQ – hur artificiell intelligens fungerar. Göteborg: Daidalos, 2018.

[6] Ottsjö, Peter. Svensk blockkedja säkrar bevis på krigsbrott. Ny Teknik. 2017-09-19.

[7] Digréus, Annika. Forskare gerilla-arkiverar klimatdata när Trump tar över. Sveriges Radio. 2017-01-22.

[8] Finley, Kint. The Inventors of the Internet Are Trying to Build a Truly Permanent Web. Wired. 2016-06-20.

[9] Knight, Will. Data Centers Aren’t Devouring the Planet’s Electricity – Yet. Wired. 2020-02-27.

Namn: Sam Ekenkrantz

Roll: Lösningsarkitekt

Arbetsplats: ArkivIT

Sam har arbetat med e-arkiv i över 20 år i diverse olika roller. Han anser att de bästa lärdomarna ges av att våga försöka, starta enkelt och ständigt förbättra. Intresseras av hur människor kan hantera information och hur informationshantering kan automatiseras.

Har studerat Datavetenskap på Umeå universitet med inriktning mot kognitionsvetenskap. Skrev sina första rader Basic på en Apple II. Var med och byggde Sveriges första molntjänst för e-arkiv i Java i början av milleniet. Kodar nu mest i Python.

Bor med fru och tre barn i södra Stockholm där vi täckodlar på all trädgårdsyta vi kan friställa. Pandemiåret har ägnats mycket åt löpning och att umgås med familjen.

Arkivit

Villkor