FORDYPNING

Filtypeidentifikasjon og validering

Dokumenter som inneholder viktig data og informasjon, er blant virksomheters viktigste eiendeler. I tillegg er det viktig å identifisere formatene dokumentene er lagret i. Hvorfor er det slik?

Publisert Sist oppdatert

Thomas Sødring

Thomas Sødring er førsteamanuensis i arkiv ved Institutt for arkiv-, bibliotek- og informasjonsfag på OsloMet. Han er medlem av forskningsgruppen METAINFO og forsker og utvikler innen elektronisk dokumentasjonsforvaltning. Han er opptatt av både danning og bevaring

Filformatet vil ofte bestemme filenes egenskaper, inkludert hvilke metadata som er støttet, hvordan innholdet er strukturert ved lagring, og hvordan relevant programvare kan nyttiggjøre seg av innholdet. Å identifisere hvilket format filer tilhører, er en grunnleggende ferdighet som er en del av arkivtjenestens ansvar, og som ligger i skjæringspunktet mellom IT og dokumentasjonsforvaltning.

Filtypeidentifikasjon

«Filformatet vil ofte bestemme egenskapene til filene (…)»

Thomas Sødring

Det er lett å tenke at filendelsen (.docx) identifiserer filformatet, og det er mulig å tenke at en «mimeType»-beskrivelse, som «application/vnd.openxmlformats-officedocument.wordprocessingml.document» er dekkende. Men dette er ikke nok for å identifisere unikt hvilket format en fil forholder seg til.

Internasjonalt sett har arkivmiljøet for lengst sett behovet for bedre identifikasjon av filformater med utgangspunkt i behovet for å identifisere gjeldende programvare. Det er derfor blitt utviklet metodikker og verktøy for å håndtere problemstillingen. For eksempel er det blitt laget et anerkjent offentlig register av ulike filformater med unike identifikatorer for forskjellig implementasjoner av et filformat. Dette filformatregisteret heter PRONOM (Public Record Office and Nôm) og inneholder viktig tilleggsinformasjon om filformater.

Ulike koder, ulik implementering

Tekstdokumenter med filendelsen .docx kan være implementert på tre forskjellig måter, og hver måte har sin egen pronomkode. Disse er «fmt/473», «fmt/412» og «fmt/494». Dersom dokumentlageret inneholder Word-dokumenter (.docx) som er identifisert med pronomkoden «fmt/494», vil det være viktig å sjekke at innholdet kan leses ved uttrekk, for «fmt/494» brukes for Word-dokumenter som er kryptert.

Andre eksempler som gjelder viktige dokumentformater for offentlig forvaltning, inkluderer formatene .doc og .pdf, som har henholdsvis 19 og 39 forskjellige innføringer i PRONOM-registeret. En pdf-fil er med andre ord ikke bare en pdf-fil.

Det er uklart hvor mye PRONOM er i aktiv bruk i Norge i dag, men pronomkoder fant veien inn i Noark-standarden i 2020. Kodene kan brukes i «format»-attributtet i arkivenheten dokumentobjekt, men dette virker ikke å være utbredt blant Noark-leverandørene. Også det kommunale arkivmiljøet har tatt i bruk pronomkoder i noen av sine prosjekter, for eksempel i Konvertator-prosjektet.

Verktøy for identifisering

Det er ingen enkel oppgave å identifisere formatet til en bestemt fil. Derfor har The National Archives, Nasjonalarkivet i Storbritannia, stått bak utviklingen av et verktøy som kan gjøre denne jobben. Verktøyet heter DROID (Digital Record Object Identification) og er blitt utgitt som fri programvare.

DROID kan identifisere format-metadata for en enkeltfil eller flere filer og kan enkelt integreres i en automatisert prosess under dokumentfangst. Et annet fritt programvareverktøy som kan gjøre en slik jobb, heter FIDO (Format Identification for Digital Objects) og er basert på et annet utviklingsspråk, men DROID ser ut til å bli mer utviklet.

Filtypevalidering

IDENTIFIKASJON: Programmet DROID kan identifisere format-metadata for en enkeltfil eller flere filer og kan enkelt integreres i en automatisert prosess under dokumentfangst. Skjermbildet viser identifisering av egenskapene til et utvalg filer.

Å identifisere filtypen er bare en del av jobben. For å sikre en effektiv og robust forvaltning av filer er det er også viktig å validere, altså verifisere, at en fil er en riktig implementasjon av et bestemt format. Har du jobbet med PDF/A-dokumenter, har du kanskje vært borti denne meldingen i PDF-leseren: «Denne filen hevder å være et PDF/A-dokument.» Den litt kryptiske meldingen er et godt eksempel på hvor viktig det er å validere filformater. Bare fordi en fil ser ut til å forholde seg til et bestemt format, betyr ikke det at den faktisk gjør det.

For PDF/A finnes det et verktøy som kan brukes for å verifisere om en PDF/A-fil overholder de nødvendige reglene i formatbeskrivelsen. Dette verktøyet heter veraPDF og kan også brukes til å verifisere et PDF/A-dokument i henhold til de forskjellige versjonene av PDF/A-standarden. Eksempler på lignende verktøy er jpylyzer, som kan brukes for å verifisere JPEG2000-filer, og JHOVE, som har en større bredde i filtypene som kan verifiseres.

PDF-VERIFISERING: Programmet veraPDF brukes for å verifisere om en PDF/A-fil overholder de nødvendige reglene i formatbeskrivelsen, og til å verifisere et PDF/A-dokument i henhold til de forskjellige versjonene av PDF/A-standarden. Skjermbildet viser en fil som feiler på en PDF/A-sjekk.

Viktig dokumentasjonsforvaltningsoppgave

Fordi fillageret i en organisasjon over tid vil vokse seg stort, er det en viktig dokumentasjonsforvaltningsoppgave å ha riktig forståelse av formatene som blir brukt. Uten at en legger merke til det, kan formater endre seg over tid – og fort bli et bevaringsproblem med ukjente kostnader for å sikre fremtidig tilgang.

Koblingen til programvare via pronomkoder kan derfor være viktig for å sikre fortsatt tilgang til innholdet i dokumenter, men spiller også en rolle ved valg av programvare for konvertering til arkivformat.

Internasjonalt sett har arkivmiljøet for lengst sett behovet for bedre identifikasjon av filformater med utgangspunkt i behovet for å identifisere gjeldende programvare.

Thomas Sødring

Powered by Labrador CMS