Artificiell intelligens – ett nödvändigt ont? av Leif ”Peppe” Pettersson
Jag ska försöka – kortfattat – beskriva vad dels kommer hända inom arkiven enligt omvärlden när det gäller artificiell intelligens (AI) , dels några egna spaningar. Det är ett mycket mångfacetterat område att skriva om och det finns aspekter kring AI som inte diskuteras så mycket. Kanske finns det utmaningar som vi inte tänker på?
Att bara prata om AI som en företeelse eller teknologi är som att tala om ”fordon”. Om jag inte definierar vilken fordonstyp jag talar om kan det bli mycket märkliga samtal. Med fordon kan jag mena en hästdragen kärra, en cykel, en tuk-tuk, en stridsvagn, en formula1 bil, en lådbil, en släde, en sparkstötting, en Zamboni ismaskin och så vidare. Skillnaden är att gemene person kan en del om fordon och har egna erfarenheter av olika typer av fordon. Att tala lite svepande om ”AI” kan ses som oproblematiskt för det är något nytt som vi inte vet så mycket om ännu. Spaning nummer ett blir alltså att vi måste börja bli lite mer noggranna när vi talar om AI-applikationer och vilket typ av AI talar vi om.
Den här artikeln kommer att beröra den del av AI som heter generativ AI. Det vill säga AI-lösningar som kan framställa löptext, skapa bilder, video, ljud, hjälpa med programkod, med mer. Vad som skiljer generativ AI från nästan all annan AI är att i princip vem som helst kan använda den. Det är bara att via webben gå in och använda ChatGPT, Gemini eller någon annan motsvarande lösning. Du ställer en fråga, eller en prompt som det heter i AI världen, och du får som svar till exempel en löptext med några hundra tecken eller mer. Just för att det är så enkelt att använda generativ AI så tror jag att den kommer få störst betydelse för arkiv men kanske inte på det sätt vi tror.
Vad jag kan konstatera är att oavsett vad vi tycker om AI behöver vi lära oss att förhålla oss till den, det går inte att ducka för den här utvecklingen.
AI för arkiven
Jag kommer endast att mycket övergripande ta upp hur AI kan komma att användas inom arkiven i framtiden. Det finns ganska mycket skrivet om ämnet och det finns även en hel del till exempel på YouTube.1 Det är ingen tvekan att AI kommer att påverka hur vi kommer att arbeta med information, både i analoga och digitala format, i framtiden. AI kommer att påverka hur vi kan tillgängliggöra arkiven exempelvis genom tekniker som handwriting text recognition (HTR), automatisk transkribering av video- och ljudfiler, automatiskt genererade sammanfattningar, berika information kring personer genom att hämta mer information om dessa från webben och så vidare. Även AI-genererade översättningar och tolkning av äldre svenska exempelvis kommer också öka tillgängligheten.
Vi kommer med all sannolikhet även att använda AI som hjälp när vi i framtiden läser in information i våra e-arkiv i framtiden. Tekniken kommer att kunna göra sammanfattningar av filformat, kunna hjälpa oss att få fram metadata och då även berika metadata genom att hämta sådan från andra källor. Kanske AI kommer att kunna hjälpa oss med att mappa data som tagits ut från databaser och som ska in i olika XML- eller CSV-filer i bestämda strukturer inför inläsning.
Oavsett hur och när AI kommer att få genomslag i arkivens verksamheter så kommer de att bli användare av teknologin.
Informationsvärdering och AI
Det finns många profeter och tyckare som varnar för AI generellt. Det heter att vi människor kommer att bli ”överflödiga” och är alldeles för oberäkneliga för framtida AI så vi blir avpolletterade på det ena eller andra sättet à la Terminator eller HAL2000. Utvecklingen är långt ifrån att kunna framställa helt autonoma AI-system som kan efterlikna. Det finns vissa som påpekar att artificiell ”intelligens” är missvisande. Det finns ingen intelligens i AI utan bara av människor skrivna algoritmer. AI (inklusive generativ AI) tänker inte, den reflekterar inte, den ”förstår” inte, den har inga känslor och får inga infall, den förstår inte sarkasm, och så vidare.2 AI har svårigheter inom flera områden som kräver kreativitet, en förståelse av sammanhang och nyanser, vanligt sunt förnuft vid resonemang, när etiskt styrda beslut krävs, när det krävs empati och emotionell intelligens och till slut, när det är nödvändigt med anpassning till oförutsedda situationer.
Men – och det är ett mycket viktigt men – ur ett arkivperspektiv finns det många aspekter av olika AI-modeller som är något att legitimt oroa oss för. Det handlar både om att använda AI för att med avsikt leda oss fel men också att AI gör fel, fel som ibland kan vara mycket svåra att upptäcka. Några exempel på detta ges nedan.
Fejks
En uppenbar fara är att det smyger sig in exempelvis AI- skapade texter, bilder, video eller ljudupptagningar som visar alternativa ”sanningar” och som med tiden blir sanningar. Den här risken har alltid funnits. En av orsakerna till att administrationer övergav pergament och papyrus för papper var att det är svårare att göra ändringar på papper än papyrus och pergament.3 Även den arkivmetodiska gren som idag benämns diplomatik (engelska: diplomatics) har sitt ursprung i att upptäcka eventuella förfalskningar.4
Hotet idag är mängden med information som skapas och hur lätt det är att sprida den i digitala format och över en stor mängd olika kommunikationskanaler. Ett exempel är när webbplatser arkiveras. Det finns ingen som helst möjlighet att kontrollera allt som kan finnas på en webbplats, än mindre när det rör sig om flera tusen. När sedan kanske AI används för att extrahera data och information från dessa för att den sedan ska användas i forskning uppstår ett dilemma – hur ska man veta vad som går att använda samt vilka versioner som är de ursprungliga korrekta och autentiska?5 Ett uppmärksammat fall är när den fängslade pakistanska politikern Imran Khan 2023 använde så kallad deep fake för att inför ett val framställa honom i en reklamfilm när han i själva verket satt i fängelset.6
Vad jag kan konstatera är att oavsett vad vi tycker om AI behöver vi lära oss att förhålla oss till den, det går inte att ducka för den här utvecklingen.
Hallucinationer
Ett annat stort hot i nutid för organisationer, och i framtiden, även för arkiven är att vi börjar använda generativ AI. Generativ AI kan användas för att framställa de typer av fejks som nämnts ovan. Som jag ser det är den största risken, eller hotet, när vi använder generativ AI för att framställa texter. Här handlar det om att de modeller, LLM eller large language model, som används för att framställa texter som exempelvis OpenAI GPT-4, Google Gemini, eller Microsoft Copilot (i vilken GPT-4 ingår) – de hittar på ”fakta” som inte finns. Det fenomenet kallas för att de hallucinerar.7 Fenomenet kanske inte är så allvarligt, kanske till och med kan ses som dråpligt, i vissa sammanhang. Det allvarliga uppstår när organisationer börjar använda informationen för att fatta beslut och agera i sin myndighetsutövning. Det kan också i förlängningen påverka arkiv när information arkiveras utan att hallucinationerna har upptäckts och i senare skede används för forskning vilket kan komma att förvränga den i framtid.
Självkorruption?
Det har visat sig att det sätt som generativ AI använder sina algoritmer för att till exempel framställa text eller bilder kan komma att korrumpera framtida generativa AI modeller om de i sin tur använder den av AI tidigare framställda informationen. Det fenomenet kallas 8 Det här är en eventuell övergripande risk på lång sikt. Det råder dock brist på träningsdata och därför arbetas det nu mycket med att möjliggöra framställning av AI genererade träningsdata. Här kan modellkollaps bli en realitet mer i närtid.
Medelmåttig information
I och med att generativ AI i grunden handlar om statistik, relevans och sannolikhet ner på enstaka ord där efter att en prompt är ställd börjar den generativa AI-lösningen med ett ord. Vilket blir nästa påföljande ord är med utgångspunkt från vad som efterfrågas? Om det var en saga som lösningen skulle framställa är chansen stor att den börjar med ”Det var en gång…”. Här arbetar lösningen med först ”det”, därpå är sannolikheten stor statistiskt räknat att i en saga är nästa ord ”var”. När ”Det var” är uträknat, vad bli sannolikt nästa ord, ”en” och så vidare.
Ett klagomål som framförs är att de texter som framställs blir ”medel”. Det är inte konstigt eftersom det i botten bara handlar om statistik, risken är dock att om allt blir medel och de texterna sedan används för att träna nya modeller blir det ett medelsnitt av ett medelsnitt. Resultatet skulle då likna den modellkollaps som omnämns ovan. De kommer till slut helt sakna nyanser eftersom det som ses som ytterligheterna tas bort för varje iteration.
Proveniens och autenticitet
Nu kommer vi till kanske det svåraste och allvarligaste problemområdet. Hur ska vi se på proveniens och autenticitet när det kommer till av AI genererad information? I vissa fall kanske detta inte är något problem. Bara för att det är en människa som skriver och förmedlar en text behöver den inte vara speciellt bra eller hålla god kvalitet men i teorin kan vi utreda vem den person var som skrev texten och kan göra jämförelser med andra texter från andra källor.
Med generativ AI som styrs av de enorma språk modeller (MLL) där insamlade data från många tiotusentals källor hanteras och som AI-lösningarna använder för att generera text, då har vi inte en aning om från var den data som används till just det här svaret är hämtad från. Det vill säga att proveniensen är okänd och autenticiteten kan ifrågasättas. Om då en tjänsteman frågar någon AI- tjänst, må det vara Copilot/ChatGPT/Gemini, och sedan utan att kvalitetssäkra den text som lösningen framställer klistrar in den inbäddad i sin text – vad händer då? Om det sker en överklagan och den myndighet som blir ansvarig inte kan svara på varifrån till exempel en sakuppgift kommer ifrån som den tjänstemannen har använt för ett myndighetsbeslut, vad händer då?
Jag säger inte att generativ AI aldrig ska användas! Däremot kräver användande god kunskap i hur teknologin fungerar samt god sakkunskap för att först kunna bedöma generativt framställda texter innan dessa används.
Jag tror att många av de farhågor som jag omnämner här kommer att få lösningar på något sätt över tid. Kanske blir det aktuellt att vid arkivering faktiskt ha metadata för om en text är framställda av en människa eller en maskin och vilken lösning som i så fall framställt texten samt vilken version/generation den var i. För arkivens del tror jag att det eventuellt kan komma AI-lösningar som kan identifiera information skapade av andra AI-lösningar. Hur det än blir är det med en skräckblandad nyfikenhet jag följer den här utvecklingen som arkivarie.
Fotnoter
- Det här är en av mina favoriter – https://www.youtube.com/@fromthepage. Se även – https://lnu.se/en/research/research-projects/project-artificial-intelligence-as-a-risk-and-opportunity-for-the-authenticity-of-archives/
- Här är en illustratörs tankar kring AI – https://www.muddycolors.com/2024/04/the-a-i-lie/
- Mark Kurlansky; Paper – Paging through history, sidan 53. New York 2017.
- https://en.wikipedia.org/wiki/Diplomatics
- Se ett exempel – https://www.snopes.com/fact-check/obama-melania-trumps-backside/ – även om bilden är gjord av en ganska klumpig människa illustrerar den vad som kan hända.
- https://www.forbes.com/sites/siladityaray/2023/12/18/imran-khan-pakistans-jailed-ex-leader-uses-ai-deepfake-to-address-online-election-rally/?sh=79f99d3a5903
- https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence)
- https://www.scientificamerican.com/article/ai-generated-data-can-poison-future-ai-models/
Leif “Peppe” Pettersson är arkivarie på ArkivIT. Har arbetat som arkivarie i drygt 25 år och har genom åren haft fokus på informationshantering inom organisationer och hur vi använder informationen i vårt dagliga
arbete. De senaste åren har Peppe främst arbetat med olika aspekter av digitalt bevarande.