FORDYPNING 

PDF/A og langtidsbevaring

De fleste som jobber med arkiv, har fått med seg at PDF/A er et viktig filformat for langtidsbevaring av dokumentinnhold. PDF/A egner seg til langtidsbevaring, sies det. Men fullt så enkelt er det ikke, for det er en del ting du faktisk må ta stilling til.

Publisert Sist oppdatert

Som arkivar er det viktig å ha en overordnet forståelse av rollen PDF/A spiller for langtidsbevaring av dokumentasjon. Dette skal vi se nærmere på her.

NYE REGLER

Fra 1. februar gjelder nye krav til universell utforming av PDF-dokumenter publisert på offentlige nettsteder.

EUs web-direktiv og standarden WCAG 2.1 definerer hvilke egenskaper dokumentene må ha for å kunne leses av flest mulig. Arkivverket og Tilsynet for universell utforming av IKT (Uu-tilsynet) har undersøkt om bestemte undertyper av PDF/A også kan møte kravene til universell utforming. Konklusjonen er at det er mulig å kombinere arkiv og universell utforming i filformatet PDF/A-2a hvis det gjøres riktig. Dokumentet må være universelt utformet i produksjonsformatet (for eksempel Word), og konverteres til PDF/A-2a på riktig måte. Se veiledning for dette på Uu-tilsynets nettsider: www.uutilsynet.no/veiledning/universelt-utforma-dokument-langtidslagring 

Migrasjon og konvertering 

I Norge bruker vi migrasjon som bevaringsstrategi. Dette gjør at det kan være nødvendig å konvertere et dokument fra et format til et annet for å sikre fortsatt tilgang til innhold over tid. I arkivsammenheng bruker vi ofte begrepene produksjonsformat og arkivformat for å beskrive et dokument. I dag er PDF/A det desidert mest populære filformatet som brukes som arkivformat for innhold som kommer fra tekstredigeringsprogrammer. 

Det er kjent at vi sliter med å gjengi innholdet i Lotus Word Pro-dokumenter som ble opprettet på 2000-tallet, på en pålitelig og korrekt måte, og framover vil vi nok oppleve dette med de fleste filformatene som brukes til daglig. Problemer oppstår fordi programvare utvikles over tid og teknisk forståelse rundt formatene blir borte. Derfor er det praksis at man konverterer fra et produksjonsformat til et arkivformat – for eksempel fra .docx til .pdf. 

Ser man nærmere på dette, er det viktig å huske at det er dokuments innhold som er viktig, ikke filformatet. Et filformat er egentlig bare et sett av instrukser om hvordan innholdet pakkes inn for senere redigering eller gjengivelse, og selv om Word og docx anses som allestedsnærværende i dag, så er det ikke sikkert at det vil være slik i framtiden. 

Filformatet PDF 

PDF er kort for Portable Document Format og er et standardisert filformat som ble utgitt av Adobe tidlig på nittitallet. Formålet var å sikre en pålitelig måte å gjengi innhold og utveksle dokumenter på. PDF skal være uavhengig av programvare, maskinvare og operativsystemer. 

PDF er egentlig en kompleks standard å forholde seg til. Den har fulgt en grunnutvikling i versjoner fra 1.0 til 1.7, og i nyere tid, fra 2020, versjon 2.0, som inneholder en del ny og viktig funksjonalitet, samtidig som det kvitter seg med noe gammeldags og utdatert funksjonalitet. 

Det finnes også en rekke varianter av PDF, over tid og til forskjellige bruksområder. Ta for eksempel (PDF/E) til ingeniørdokumenter, arkitektdokumenter og geografiske dokumenter, PDF/X for utveksling før publisering av grafisk innhold og PDF/UA, som tar høyde for universell utforming.  

PDF/A – pålitelig og forutsigbar 

PDF/A er en variant av PDF der det legges vekt på en pålitelig og forutsigbar gjengivelse av det statiske visuelle utseendet av innholdet i et dokument.

Thomas Sødring, OsloMet

PDF/A er en variant av PDF der det legges vekt på en pålitelig og forutsigbar gjengivelse av det statiske visuelle utseendet av innholdet i et dokument. Derfor egner PDF/A seg for langtidsbevaring; fordi det er viktig å kunne gjengi innholdet slik dokumentet var da det ble brukt. 

PDF/A oppnår dette ved å sørge for at PDF/A-dokumenter er «selvforsynt». Det vi si at PDF/A-dokumenter inneholder alt som trengs for å gjengi innholdet på riktig vis. Det viktigste er kanskje at PDF/A sikrer at alle skrifttyper som var brukt i et produksjonsformat-dokument, er tilgjengelige i PDF/A-dokumentet. Det er viktig å forstå de immaterielle rettighetene rundt skrifttyper og eventuelle konsekvenser av å bruke dem uten avtale, men det ser ut til at de vanligste skrifttypene som brukes i dag, er uproblematisk å bruke i PDF/A. 

PDF/A-standarden forbyr også bruken av innebygd funksjonalitet som vanskeliggjør bevaring. Dette inkluderer et forbud mot kryptering av innhold, lyd- og videoinnhold og avhengigheter til eksterne kilder. 

Utfordringer og utvikling i ulike versjoner 

Også PDF/A har utviklet seg over tid, og det finnes nå fire overordnede versjoner: 

  • PDF/A-1 bygger på PDF versjon 1.4. 

  • PDF/A-2 bygger på PDF versjon 1.7. 

  • PDF/A-3 bygger også på PDF versjon 1.7. 

  • PDF/A-4 bygger på PDF 2.0.

 Videre har disse versjonene egne konformitetsnivåer som heter A og B. A står for «accessible» og B for «basic». Mens B er mest opptatt av gjengivelse, har A mer støtte for struktur og semantikk og lar deg enklere hente ut og søke i dokumentets innhold. PDF/A-2 og PDF/A-3 introduserte et tredje konformitetsnivå. Dette heter U for «Unicode» og har bedre støtte for Unicode-tegnsettene. PDF/A-4 bryter med dette og har to profiler, PDF/A-4e for «engineering» og PDF/A-4f, som tillater tredjeparts innhold. 

PDF/A-1 har utfordringer når det gjelder støtte for transparens i bilder, noe som kan være problematisk dersom et dokument inneholder transparente bilder. Dette ble rettet opp i PDF/A-2. PDF/A-3 er en videreføring av PDF/A-2, men åpner også for å lagre tredjeparts innhold, for eksempel en Excel-fil i en PDF/A-3 fil, noe som kan oppleves litt kontroversielt når man ser på hele poenget med å konvertere til PDF/A i utgangspunktet. Depot tvinges til å forholde seg til produksjonsformatet i tillegg til arkivformatet, noe som øker lagringskostnadene, og som kan komplisere bevaringen litt. Bevaring av produksjonsformatet, så lenge filformatet er forståelig, er noe vi bør etterstrebe, men det er ikke gitt at det er lurt å blande både dannings- og bevaringsformatet i et digitalt objekt. 

PDF/A-4 er bygget på PDF 2.0, som gjør at den kan dra nytte av oppdatert funksjonalitet, men PDF/A-4 faller også i samme kategori som PDF/A-3 og åpner for å inkludere produksjonsformatets innhold som en del av dokumentet.

Er versjon viktig? 

Det hele kan nok oppleves som litt komplekst, og det er naturlig å spørre om det har noe å si hvilken versjon som er brukt. Svaret er litt todelt, men bruken av PDF/A er i utgangspunktet regulert i Riksarkivarens forskrift § 5-18 («Spesifiserte krav til arkivdokumenter i TIFF-format eller PDF/A-format»). Her står det at PDF/A-1 og PDF/A-2, med de forskjellige konformitetsnivåene, kan brukes, mens PDF/A-3 kun kan brukes etter avtale. Det kan være at vi ikke vet nok om konsekvensen av å tillate vilkårlig tredjepartsinnhold i PDF/A-3 filene, så det er foreløpig tryggere å begrense bruken. Det blir spennende å følge med bruken av PDF/A-4, spesielt PDF/A-4e, som har støtte for 3D-innhold. 

Krav om universell utforming 

Noe som fort blir glemt i denne fortellingen, er universell utforming. Kanskje har det å gjøre med at man ser på et PDF/A-dokument som et dødt objekt; noe som er sendt til arkivet fordi det er ikke bruk for det lenger. Sannheten er det motsatte. PDF/A-dokumentene skal anses som levende og viktige dokumenter som utgjør rettighetsdokumentasjon, og som har verdi for forskning, kultur og forvaltning. Da er det viktig å tenke at universell utforming ikke bare tolkes i henhold til mennesker med nedsatt funksjonsevne, men at det også er viktig for å gjøre innhold tilgjengelig for indeksering og annet berettiget bruk. 

Her blir det fort litt komplisert. Det kan være lett å tro at et PDF/A-dokument som forholder seg til PDF/A-1a («accessible»), oppnår et nivå av universell utforming. Men dersom selve produksjonsformat-dokumentet ikke er universelt utformet, så vil også arkivformat-dokumentet slite. For at produksjonsformat-dokumentet skal være universelt utformet, kreves det for eksempel at bilder har alternativ tekst, og at rekkefølge og nøsting av overskrifter stemmer. For eksempel er det å strukturere tekstene riktig når dokumenter dannes, med overskriftsformatering, svært viktig for å sørge for universell utforming av dokumentene. Uten dette er det en risiko at noen med nedsatt funksjonalitet i framtiden ikke får tilgang til innholdet i dokumentasjonen. 

Som arkivar er det viktig å huske at ansvaret når PDF/A-dokumenter lages, ikke bare handler om å lage objekter som kan bevares, men også om at de er universelt utformet. Det er derfor viktig at PDF/A-dokumentene som blir generert, er i samsvar med både PDF/A og PDF/UA (Universal Accessibility). Da får man det beste av begge verdener, et dokument som kan langtidsbevares, men som også overholder kravene til universell utforming. 

Som arkivar er det viktig å huske at ansvaret når PDF/A-dokumenter lages, ikke bare handler om å lage objekter som kan bevares, men også om at de er universelt utformet.

Thomas Sødring, OsloMet

Det er ditt ansvar! 

Som nevnt er det viktig for en arkivar å ha en overordnet forståelse av hvilken rolle PDF/A spiller for langtidsbevaring av dokumentasjon. Enda viktigere er det å sørge for at dokumentasjonen overholder kravene til universell utforming. I enkelte tilfeller kan innsatsen være så liten at man bare trenger å sørge for at man har huket av på riktige alternativer i et menyvalg, mens det i andre tilfeller kan være mer komplisert. Det er fort gjort å tenke at dette er noe leverandøren ordner, eller at dette er noe som blir ivaretatt av systemet. Den tanken gjelder bare dersom du faktisk har kontroll og noen har satt seg inn i prosessen hvordan dokumenter produseres og konverteres til arkivformat. Det er viktig å ikke undervurdere denne oppgaven. 

Powered by Labrador CMS