ESPÅS-SAKEN

SAMARBEID: FNs bærekraftsmål nr 17 lyder: Samarbeid for å nå målene. Anderson mener at det er kanskje det aller viktigste målet. Forsete-prosjektet viser bærekraftig samarbeid i praksis, der en statlig etat, en fylkeskommunal etat og akademia samarbeider.

Fra drapsgåte til arkivløsning

En snart 30 år gammel uløst drapsgåte kan løse en skikkelig hodepine for arkivsektoren. For selv om arkivsektoren har satset hardt på mediekonvertering av papirarkiv, forblir innholdet digitalt utilgjengelig når det er skrevet for hånd i for eksempel 1996.

Publisert Sist oppdatert
GEIRANGER: Trude Espås som ble funnet i Geiranger drept i 1996. Arkivfoto: SCANPIX

Ettermiddagen 8. august 1996 rusler 20 år gamle Trude Espås mot Geiranger sentrum. Hun har nettopp startet som sommervikar på Hotel Union. I det fine sommerværet setter hun seg på en stor stein ved fjorden, med en bok i fanget. Elleve dager senere hun funnet drept ikke langt unna den store steinen.

Dette innleder en av Norges mest omfattende drapsetterforskninger. 3000 vitner fra 37 ulike nasjoner blir avhørt, om lag 2500 tips blir skrevet ned og det gjøres over 4300 rundspørringer, for å nevne noe.

Drapet er fortsatt uoppklart, og dokumentasjonen i saken er overveldende både i omfang og kompleksitet.

Hovedetterforskeren i Espås-saken har beskrevet sakskomplekset slik: «Med faktorene av tid, informasjonsmengden og manglende verktøy for sammenstilling og oversikt, er jeg av den oppfatning at saken etter hvert har vokst seg uoversiktlig. […] Kryss-sjekking blir gjennomført manuelt ved å bla i permer, og å lese seg frem til aktuell informasjon … hver gang …».

Håndskrevne journaler

Senåret 2023 beslutter Maria Fausa, leder for dokumentasjonsforvaltning og arkiv ved Møre og Romsdal politidistrikt, å digitisere (mediekonvertere) de håndskrevne justisjournalene fra 1970- og 80-tallet. Justisjournalene gir oversikt over straffesaker og er kronologiske på saksnummer, ikke navn. Kjenner du bare navnet til noen som er involvert, ender du fort opp med å bla gjennom veldig mange permer. Behovet for å gjøre justisjournalene søkbare er stort.

– Ettersom justisjournalene kun var skrevet med håndskrift ble jeg veldig usikker på hvordan politidistriktet skulle gå frem med skanning og digitisering. Ved maskinskrift kan man bruke OCR-teknologi – men hva gjør man når teksten er håndskrevet? Jeg ville ikke starte en digitiseringsjobb uten å vite at vi gjorde det korrekt. Jeg ringte derfor mine tidligere kolleger i Interkommunalt arkiv for Møre og Romsdal (IKAMR) for å finne ut hvilken programvare som ble anbefalt, og fikk kontakt med Ottar A. B. Anderson. Stor var forbauselsen da han fortalte at en slik programvare ikke finnes, sier Fausa.

Det finnes flere prosjekter og modeller for å gjenkjenne og transkribere eldre norsk håndskrift. Felles for modellene er at de er trent på arkiver fra før 1920, og at de utveksler informasjon over internett for å fungere. Derfor kan de ikke brukes på nyere, sensitiv informasjon.

Studentprosjekt

Forespørselen fra Fausa vekket interessen til Ottar A. B. Anderson, fagansvarlig rådgiver for Fylkessenter for digitalisering av kulturarven (SEDAK) ved IKA Møre og Romsdal. Han hadde tidligere samarbeidet med bachelorstudenter ved NTNU Gjøvik om et prosjekt om kvalitetssikring av digitisering i Digitalarkivet. Han hadde også tilgang på intern programmeringskompetanse gjennom førstekonsulent Jósef Dan Karlson ved IKAMR. Spiren til et nytt utviklingsprosjekt var sådd.

Prosjektet fikk navnet Forsete etter den norrøne guden for rettferdighet og rettens overvåker, og er et samarbeid mellom Møre og Romsdal politidistrikt, IKAMR og NTNU Gjøvik.

Etter juridiske, etiske og tekniske avklaringer med politiet og NTNU, ble en bacheloroppgave i ingeniørfag-data presentert for studentene vinteren 2024.

– Espås-saken var mer relevant for politidistriktet enn justisjournalene. De utgjør en hyllemeter, mens saksmengden i Espås-saken er enorm! Der er det snakk om 48 hyllemeter! forteller Fausa.

Espås-saken ble ferdig digitisert av politiet for noen år siden. Deler av straffedokumentasjonen er skrevet med håndskrift.

– Tipsene er et ideelt sted å starte, forklarer hun. – De fleste av de 2500 tipsene ble skrevet ned av ca 15 forskjellige etterforskere. Det gir en passe variasjon i håndskrift til å trene modellen. Og for politiet er det svært verdifullt om vi kunne søke i materialet.

Løsning fra söta bror

Arkivfaglige problemstillinger har virkelig behov for å tiltrekke seg lyse IT-hoder, og politiet og IKAMR gjorde et godt innsalg til studentene. Tre studentgrupper søkte på oppgaven. Valget falt på Erlend Rømo (scrum-master og fullstack-utvikler), Martin Morisbak (utvikler) og Arthur Thorkildsen (utvikler modell/front-end), som startet arbeidet i januar 2025.

FRONT-END: Arthur Borger Thorkildsen
UTVIKLER: Martin Morisbak
FULLSTACK: Erlend Rømo

Oppgaven stilte flere krav: Modellen skulle fungere både på ren håndskrift og i skjemaer med maskinskrevne felter. Den måtte ha et brukervennlig grensesnitt og sikre proveniens, autentisitet og rettstrygghet.

Forsete

Forsete er et prosjekt som har som mål å utvikle en HTR-modell (Handwritten Text Recognition) som fungerer i et lukket miljø, uten å utveksle informasjon på nett.
Det er et samarbeid mellom Møre og Romsdal politidistrikt, Interkommunalt arkiv i Møre og Romsdal og NTNU Gjøvik. 

En studentgruppe har utviklet modellen så langt som sin bacheloroppgave. 

Du kan lese hele bacheloroppgaven her. 

Studentene satte i gang en research for å finne verktøy eller programvare de kunne bygge videre på. Prosjektet sendte studentene på et seminar ved Nasjonalbiblioteket der de fikk innblikk i ulike pågående prosjekter og teknologier innenfor håndskriftsgjenkjenning. Politiets strenge krav gjorde bacheloroppgaven ekstra utfordrende. Tipsene er sensitive og unntatt offentlighet. De omhandler mennesker som lever den dag i dag. Modellen måtte fungere uten nettilgang og uten å dele treningsdata.

– Vi innså raskt at det bare var ett eller to verktøy som det var mulig for oss å bruke. Alle andre var koblet på internett, forteller Erlend Rømo.

Som grunnmur valgte studentene HTRflow, utviklet av det svenske Riksarkivet. Svenskene har lagt kildekoden åpent og tilgjengelig på Hugging Face og GitHub.

– At vi kunne hente ned verktøyet og kjøre det lokalt på egen maskin var helt vesentlig for at prosjektet kunne gjennomføres, forteller Rømo.

Slik lærer modellen

For å trene modellen trengs en fasit, såkalt ground truth. Som igjen kan gi proof of concept, altså et bevis på at modellen fungerer. Fasiten har dokumentasjonsforvaltningen ved Møre og Romsdal politidistrikt sørget for. 100 tips er nitidig punchet bokstav for bokstav, ord for ord, linje for linje.

– Denne fasiten, ground truth, gir vi til NTNU-studentene, som så mater den inn i modellen. Slik lærer modellen seg de ulike håndskriftene, forklarer Fausa.

På bildet under kan du se hvordan et originaldokument kan se ut. Tipset er skrevet i en mal som ble brukt av Kripos tilbake i 1996.

TIPS: Tipsene ble skrevet inn i et standardskjema fra Kripos. Her er to forskjellige håndskrifter.

Illustrasjon 2 viser en forenklet versjon av hvordan modellen fungerer. Det mediekonverterte dokumentet er til venstre, og til høyre modellens forslag.

ILLUSTRASJON 2: Systemet lærer seg å kjenne igjen håndskrift og foreslår en transkripsjon. En fargekode og prosentangivelse viser hvor sikker modellen er på sitt forslag. En operatør godkjenner forslagene. Slik lærer systemet hva som er riktig.

Løsningen kombinerer håndskriftsgjenkjenningen (Forsete-ATR) med en nettapplikasjon, Forsete-Web. Etterforskerne kan laste opp PDF- eller bildefiler, se transkripsjonene side om side, og eksportere korrigert tekst. Fargekoder visualiserer hvor sikker modellen er på hvert ord.

– Det skal være ganske tydelig for brukeren om forslagene fra modellen er nær fasit eller helt på bærtur. En operatør dobbeltsjekker alle linjer, alle ord og alle bokstaver. De forslagene som godkjennes, blir lagret i systemet som riktige. Det godkjente resultatet kan benyttes videre for å trene andre modeller, men det er ikke en del av den implementerte løsningen, forklarer Erlend Rømo.

Derfor er det godt nok

Et fiktivt eksempel: Modellen foreslår «tipser har observert en blå bil som kjørte forbi åstedet», men originalen sier «blålig» ikke «blå». Når operatøren retter dette, lærer systemet. Neste gang vurderer det begge varianter.

Men hva om to operatører er uenige? Hva hvis en leser «blålig», mens en annen «blåish»? – Da har du to mennesker som har verifisert output-en, men som er uenige. Hva som faktisk er riktig er det kanskje umulig å tyde, men det betyr ikke at modellen har feilet, sier Anderson.

For ham er det viktig å understreke at ett steg er bedre enn ingen steg. – Noen prosjekter har hatt altfor høye forventinger til suksessraten en slik modell kan gi. Dermed skroter man hele prosjektet før man egentlig har satt i gang, sier Anderson.

– Du kan ikke lese gjennom 2500 tips for å finne alle omtaler av blå/blålig/blåish biler. Da mister du motet. Men med modellen kan du gjøre et søk. Kanskje får du sju treff og ett handler om blåbær. Det får være greit. Du kommer i hvert fall i gang, sier Anderson, og fortsetter:

– Modellen gir bistand til transkripsjon, med vil aldri være 100 prosent treffsikker. Kanskje er det 30 prosent korrekt, kanskje 80 prosent - men det er et steg videre uansett. Utgangspunktet var jo 0.

Veien videre for Forsete

Forsete startet som et forprosjekt med 250.000 kroner i støtte fra Arkivverkets utviklingsmidler for forprosjekter. Anderson roser Arkivspira: – Vi får mulighet til å teste ut ideer. Om prosjektet feiler 100 prosent defineres det som like stor suksess som at du lykkes. All utvikling kan ikke starte med en voldsom utredning, da blir det for tungt å sette i gang og utviklingen står på stedet hvil.

Målet for prosjektet på sikt er at hele Espås-saken skal være ferdig transkribert og søkbart.

– Da vil vi trenge noen år til. Til bacheloroppgaven har vi transkribert cirka 100 tips. For at modellen skal bli skikkelig smart, må vi i alle fall klare 1000, forklarer Fausa.

Nå venter stresstesing av modellen hos IKAMR, og en ny søknad om utviklingsmidler til høsten i et treårig hovedprosjekt.

– Målet er å videreutvikle til en operativ pilot for trening av andre arkivkilder og datasett, særlig i kommunale og statlige arkivinstitusjoner. I et slikt hovedprosjekt er tanken å involvere akademia enda mer, kanskje et masterløp i tillegg til forskermiljøet ved NTNU i Gjøvik. Vi har også blitt kontaktet av andre interkommunale arkivinstitusjoner som er interessert i å samarbeide, sier Anderson.

For hele arkivsektoren

Offentlig sektor i Norge sitter på store mengder håndskrevne dokumenter fra 1970- til 2000-tallet. Mange arkiv er ikke mediekonverterte, og de som er, er ikke søkbare hvis de er skrevet for hånd.

En fungerende modell vil styrke borgernes rettigheter. – De aller fleste offentlige arkiver inneholder sensitiv informasjon som ikke kan deles på nett, men det er denne informasjonen det er størst etterspørsel og behov for gjenfinning i, sier Fausa. – Vi har et ansvar for å finne informasjon, bevis og dokumentasjon om enkeltpersoners liv og hvilke vedtak som er gjort. Vi kan ikke vente til informasjonen er falt i det fri – da er det for sent.

Maria Fausa trekker frem et eksempel fra sin tid i IKA: Et barnehjem i Kristiansund, som var kommunalt drevet i perioden 1954-1980, ble beskyldt for å utsette barna for overgrep og omsorgssvikt. Mange søkte om rettferdsvederlag.

– Jeg brukte ekstremt mye tid på å finne spor av barna i trygdekassebøker og andre arkiver. Alt jeg trengte, var et bittelite bevis på at personene hadde bodd på barnehjemmet, slik at de kunne få erstatning. Ved en anledning fant jeg til slutt en kvittering på en sovepose som vedkommende hadde fått fordi hen skulle på barnehjemmet. Den lille kvitteringen betydde så mye for personen som hadde hatt en vond barndom. Tenk om arkivene hadde vært søkbare. Vi kunne jobbet så mye mer effektivt.

Datakraft og deling

En av de største utfordringene ved å trene slike modeller lokalt, er tilgangen på maskinkraft, eller Graphic Processing Unit (GPU).

– Maskinlæring krever mye datakraft, forklarer Erlend Rømo. – For oss studenter ved NTNU er ikke datakraft noe hinder, og kanskje heller ikke for mange andre offentlige organer. Men for andre kan det bli kostbart, påpeker Rømo.

Ottar griper ordet, prioriteringer og fordeling av ressurser står hans hjerte nær:

– Når politikerne spør hva vi trenger for å komme videre, må vi ha et svar! Ellers brukes pengene på feil arena eller på feil måte. Noe av det arkivene trenger er datakraft. Prosjektet kobler seg opp mot akademia og forskningsmiljøene fordi de har den datakraften vi trenger for å drive utvikling innen maskinlæring. Slik det er nå er det altfor høy terskel for at offentlige institusjoner får tilgang på stor regnekraft, sier Anderson.

SUPERMASKIN: Forsknings- og høyre utdanningsminister, Sigrun Asland (Ap) innviet Olivia, Norges nye superdatamaskin 16. juni 2025. Her sammen med Gunnar Bøe, daglig leder i Sigma2.

Han roser regjeringens investering i superdatamaskinen Olivia, som ble åpnet i juni 2025 av forsknings- og høyere utdanningsminister Sigrun Aasland (Ap). Den gir Norge 17 ganger mer KI-regnekraft, noe som er helt avgjørende om Norge skal frigjøre seg fra kommersielle aktører i Kina og USA. Olivia setter oss i stand til å bygge en nasjonal infrastruktur for norske KI-tjenester i offentlig sektor og næringslivet.

– Så kan vi spørre oss: Hvor er det mest fornuftig å putte ressursene? Vi vil påstå i transkribering. Store summer brukes på å mediekonvertere dokumenter, men hvis vi ikke klarer å trekke ut innholdet og bevare metadataene har det begrenset verdi. Vi klarer ikke å høste resultatene av den innsatsen som er lagt ned. Derfor er vi også litt overrasket over at dette prosjektet er det første innenfor arkivsektoren som seriøst tar tak i moderne håndskrift.

Samarbeid gir innovasjon

VÅRSEMINARET: Her presenterer Maria Fausa, Ottar A. B. Anderson og Erlend Rømo prosjektet for deltakerne på Arkivarforenings vårseminar i april.

Prosjektet viser hvordan samarbeid mellom arkiv, politi og akademia kan skape samfunnsnyttig innovasjon. En uløst drapsgåte med en saksmengde som etter hvert har vokst seg uoversiktlig, er et realistisk materiale å trene en modell i. Og hvem vet - kanskje når alle tipsene er gjort søkbare, åpner det seg nye perspektiver for etterforskerne. For ett sted i tipsbunken finnes kanskje svaret på spørsmålet: Hvem drepte Trude Espås?

Erlend Rømo har funnet arbeidet med bacheloroppgaven givende.

– Det er veldig givende å kunne ta del i en pågående etterforskning av en uløst drapssak, og kanskje bidra til at nye etterforskere slipper å gå gjennom 2500 tips manuelt. Og det er jo store mengder håndskrevne notater i andre uløste saker også, så prosjektet har stor overføringsverdi bare innenfor politietaten, sier Rømo.

Prosessen har vært krevende, men:

– Med tanke på det utgangspunktet vi hadde, med så få verktøy som var tilgjengelige og datasett som ikke var transkribert, har vi kommet utrolig langt med det lille vi hadde. Så vi må jo si at vi er veldig fornøyde med det vi har oppnådd.

Ottar A.B. Anderson er overbevist om at slike samarbeid er nødvendige for å løse arkivenes samfunnsoppdrag på en bærekraftig måte, og håper flere vil se mulighetene i slike samarbeid.

Han er takknemlig for støtten Forsete har fått fra utviklingsmidlene til Arkivverket, men har et lite hjertesukk helt til slutt: – Jeg skulle ønske det norske Arkivverket delte resultater og verktøy åpent, for eksempel på GitHub og Hugging Face. Det ville gjort det lettere å bygge videre. Det blir for tungvint å sende inn en henvendelse og vente på et svar. I et bachelorprosjekt teller hver uke, den effektive utviklingstiden er jo bare et par måneder.

 

Arkivverket åpne for å dele mer

Arkivverket er en stor tilhenger av deling av verktøy og kildekode, og kommer til å ta en ny runde på om det er mer de kan legge åpent ut.

– Den største forskjellen på oss og det svenske Riksarkivet i denne sammenhengen, er at Riksarkivet tenkte deling av kildekode fra første stund da de begynte å utvikle modeller for HTR (Hand Written Textrecognition), forteller Øyvind Akerhaugen, områdedirektør Innovasjon i Arkivverket.

Han forklarer at det ikke er like rett frem for Arkivverket å dele sin kildekode innen HTR-feltet på GitHub eller Hugging Space.

– Mye av kildekoden vår er knyttet opp mot fellesløsningene til Digitalarkivet, slik at den vil ikke fungere utenfor Arkivverkets rammer. Skulle vi åpne opp, måtte vi først ha skrevet om en del av koden for at den skulle fungere for aktører utenfor Arkivverket. Vi måtte også være beredt på å bruke tid på brukerstøtte og å følge opp kommentarer. Slik er vi ikke rigget akkurat nå, sier Akerhaugen.

– Samtidig tenker jeg at dette er noe vi skal se på en gang til. Jeg tror vi kan legge ut mer av det vi har tilgjengelig, uten at det ville ført til merarbeid, sier Akerhaugen.

– Vi har sett at midlene fra Arkivspira og andre utviklingsmidler er utrolig viktige for at sektoren skal ha rom for å drive utviklingsarbeid. Sammen med arkivsektoren har vi jobbet for å få en økning av midlene, og det har vi også lyktes med, sier Akerhaugen.

For 2025 fikk Arkivverket tildelt 18 millioner kroner til fordelen på utviklingsprosjekter, tre millioner kroner mer enn året før.

Powered by Labrador CMS