Skip to main content
Skip table of contents

Sköt om dina filer

I detta avsnitt under åtgärdsvägen finns information om betydelsen av filformatens och filernas kvalitet, då du vill säkerställa att de arkiverade informationsmaterialen är pålitligt tillgängliga och användbara i deras senare livscykelfaser.


Begränsa antalet filformat, övervaka filernas kvalitet


Syftet med digital långtidsförvaring är att säkerställa att material i digital form bevarar sin beviskraft och användbarhet i flera årtionden eller århundraden. Långtidsförvaring grundar sig på att informationsmaterial vid behov och förlustfritt omvandlas till en ny form som lämpar sig för förvaring. Därför ska materialet överföras till arkivet i ett sådant filformat för vilket nödvändiga konversioner kan göras. Din organisation kan stödja filernas bevarande genom många praktiska åtgärder, bland annat:

  • Genom att begränsa antalet filformat som används i processerna och systemen, när det är fråga om informationsmaterial som ska arkiveras eller annars förvaras långvarigt. Här är det bra att utnyttja Riksarkivets aktuella förteckning över de filformat som tas emot.

  • Genom att övervaka filernas kvalitet, dvs. deras tekniska och semantiska integritet, i informationens olika livscykelfaser.

  • Genom att göra endast genomtänkta och omsorgsfullt planerade filkonversioner och övervaka deras kvalitet. Observera att varje konversion innebär en risk för att information går förlorad.

Med migration avses överföring av engångskaraktär av information och informationsmaterial till exempel från ett system till ett annat. En undertyp eller en del av migrationen är konversion, där informationen omvandlas exempelvis från ett filformat till ett annat. Konversionen kan gälla till exempel ändring av filformatet eller databasens informationsstrukturer.


Förstå skillnaderna mellan filformaten

Filformat – vad är det för något? Ett material i digital form består av bitsträngar som alltid har ett bestämt filformat, dvs. format. Ett format är i praktiken en standard. Utifrån det kan man skapa en applikation, med hjälp av vilken bitsträngen framställs i en begriplig och användbar form. På så sätt bildar bitsträngarna till exempel textdokument, fotografier, inspelningar och videor. En del av filformaten kan vara mycket komplexa och specialiserade för ett visst användningsändamål.

Kuva. Piirroshiiri pohtii, mitä tiedostomuoto tarkoittaa.

Med tanke på information som ska arkiveras eller annars förvaras långvarigt är det problematiskt att både filformaten och applikationerna med anknytning till dem förändras med tiden. Formaten och filerna i enlighet med dem försvinner inte vanligtvis ens i en sådan situation eller blir oanvändbara. Upprätthållandet av applikationen kan dock upphöra i något skede. Då kan också de metoder och verktyg som behövs för att utnyttja formatet försvinna helt och hållet, och filerna kan inte längre användas eller ens öppnas. Filformaten utvecklas också snabbt. Ofta finns det flera olika versioner av dem. Med tanke på bevarande avviker versionerna betydligt från varandra.

När det gäller att förebygga ovannämnda risker hjälper det att man använder standardiserade, dokumenterade och allmänt använda filformat och följer kriterierna i anslutning till dem. På så sätt säkerställer man att materialet vid behov fortfarande kan omvandlas till ett användbart filformat.

Vilka filformat tar Riksarkivet emot? En uppdaterad förteckning över de filformat som Riksarkivet tar emot (pdf) finns på webbplatsen för Riksarkivets tjänst för digital arkivering. Du kan använda förteckningen i bedömningen av de filformat som din organisation använder, även om den inte håller på att överföra material till Riksarkivet just nu. Anvisningarna om filformat och informationen om filformat som lämpar sig för långtidsförvaring uppdateras regelbundet. Det är bra att följa utvecklingen och planera förvaringen av den egna digitala informationen även ur denna synvinkel.

Ett kvalitativt filformat med tanke på långtidsförvaring

  • följer de internationella standarderna

  • är öppet, offentligt och allmänt använt

  • är väl dokumenterat

  • kan utnyttjas självständigt och har inte externa beroenden eller är inte beroende av ett operativsystem eller en användningsplattform.

Öppna filformat är icke-kommersiella filformat som vem som helst kan använda avgiftsfritt. Öppna filformat möjliggör återbehandling av data oberoende av programvara, dvs. kommersiella rättigheter begränsar inte vidareutnyttjandet. Detta stöder målen för långtidsförvaring. Man bör dock observera att även öppna filformat kan bli oanvändbara, om stödet för och upprätthållandet av dem försvinner av en eller annan orsak.

Digital långtidsförvaring grundar sig på att materialen omvandlas till ett nytt filformat som lämpar sig för förvaring på ett kontrollerat sätt och förlustfritt. Materialets alla centrala egenskaper ska bevaras pålitligt. Detta baserar sig på ett noggrant efterföljande av standarderna för filformat och en automatiserad kvalitetssäkring. Dessutom ska filerna alltid kunna användas självständigt, dvs. användningen av dem får inte vara beroende av sådana externa informationslager, applikationer eller tjänster som inte förvaras i samband med filen.


Hur känner man igen filformatet?

Förutsättningen för filkonversioner är identifiering och individualisering av filformatet. Formatet och dess lämplighet för förvaring kan dock inte fastställas endast på basis av filändelsen. Det finns till exempel tiotals olika versioner av PDF-formatet (PDF – Portable Document Format). Filer enligt de olika versionerna har alla samma PDF-filändelse (filnamn.pdf). I endast en del av filversionerna beaktas lämpligheten för förvaring. Formatets alla versioner har dock en egen unik identifierare (på engelska Persistent Unique Identifier, puid), med vilken man kan hänvisa till just den aktuella versionens egenskaper både i anvisningar och i olika tekniska register.

Ett exempel på tekniska register är det webbläsarbaserade tekniska formatregister som nationalarkivet i Storbritannien tagit fram för stöd för digitala förvaringstjänster, PRONOM, som innehåller

  • formatens tekniska formatidentifierare

  • tekniska uppgifter om formatets struktur

  • uppgifter om program- och utrustningsmiljöer som behövs för stöd för formaten.

Individualiseringen och identifieringen av filer är lättare när filerna har organiserats och namngetts på ett formbundet och logiskt sätt. Enbart filnamnet räcker dock inte till, utan det behövs också tekniska metadata med anknytning till hanteringen av filerna och formaten, bland annat formatidentifierare. Användningssyftet för metadata är kopplat såväl till en enskild fil som hanteringen eller användningen av filuppsättningen eller dess tekniska egenskaper. Med hjälp av dem kan man också säkerställa de eventuella konversionernas kvalitet.

Formatversionens unika identifierare (exempel):

  • Den unika tekniska formatidentifieraren för PDF/A-formatets PDF/A-2b-version är fmt/477

  • Den unika tekniska formatidentifieraren för PDF-formatets PDF/A-2a-version är fmt/476

Man bör vid behov beakta funktionerna i anslutning till identifiering av filformatet i arbetsförlopp som hänför sig till utarbetande, mottagning och överföring av information. Det finns också öppet tillgängliga verktyg för identifiering, såsom DROID och JHOVE.


Hantering av filerna före arkivöverföringen

Ju längre man förvarar filer, desto viktigare är det att man använder rekommenderade och standardiserade filformat. Utarbeta verksamhetsmodeller som stöder hanteringen av filformaten och filerna åtminstone för material som ska arkiveras eller annars förvaras långvarigt.

Upprätthåll en förteckning över de standarder eller format som lämpar sig för de olika användningsändamålen. Välj helst standardiserade och ofta använda filformat. Utnyttja förteckningen över de filformat som Riksarkivet tar emot och anvisningarna om ämnet. Följ upp och bedöm kvaliteten och antalet av de filformat som används i din organisations verksamhetsprocesser och system. Fundera bland annat på följande synvinklar:

  • Har de informationsstrukturer och filformat som behövs för hantering och överföring av informationsmaterial definierats? Upprätthålls definitionerna?

  • Överensstämmer strukturerna och filformaten med de kommande användningsbehoven för informationen?

  • Är en kontrollerad konvertering till ett ur arkiveringsperspektivet ändamålsenligt filformat möjlig vid behov? Hur kan man säkerställa konversionernas kvalitet?

Kom ihåg att man kan stödja filernas tekniska och semantiska integritet på många olika sätt i informationens olika livscykelfaser. Till exempel kan man vid behov beakta funktionerna i anslutning till identifiering av filformatet i arbetsförlopp som hänför sig till utarbetande, mottagning och överföring av information.

Filernas integritet och oföränderlighet säkerställs vanligtvis genom att man:

  • Förvarar filerna endast i skrivskyddad form (read-only). Då kan ändringar göras endast med tillräckliga användarrättigheter och så att alla ändringar blir dokumenterade.

  • Utnyttjar integritetskontrolltecken som förvaras avskilda från materialet, dvs. filspecifika unika kontrollsummor. De är teckensträngar som genereras av algoritmer, och det finns många program med öppen källkod tillgängliga för att skapa dem. Vanliga integritetsalgoritmer är åtminstone MD5, SHA-256 och SHA-1. Genom att jämföra kontrollsumman och filen kan man upptäcka om filen har förändrats, till exempel blivit korrumperad. Kom dock ihåg att integritetskontrolltecknet inte kan berätta vilket slags förändring det har skett. Det måste man utreda separat.

Dessutom ska filerna alltid kunna användas självständigt; användningen av dem får inte vara beroende av sådana externa informationslager, applikationer eller tjänster som inte förvaras i samband med filen. Det är också viktigt att öppnandet, läsningen eller lagringen av filerna till en ny form inte har begränsats eller förhindrats tekniskt – filerna har alltså inte till exempel krypterats eller packats.

Även om förfarandena och åtgärderna i samband med informationssäkerhet i allmänhet stöder arkiveringen, kan de också innebära problem. Man bör undvika till exempel skrivskydd, alltså man ska inte använda lösenordskryptering, krypteringstekniker eller DRM-tekniker (på engelska Digital Rights Management, digital hantering av användarrättigheter) i filer. De kan förhindra behandlingen av materialet så att man inte kan utföra nödvändiga förvaringsåtgärder vid långtidsförvaring.


Planering och hantering av filkonversioner

Alla konversioner som görs under informationsmaterialets livscykel kan äventyra bevarandet av informationens tekniska eller innehållsmässiga integritet. Onödiga filkonversioner bör undvikas, och filer behöver inte rutinmässigt konverteras till ett annat filformat med anledning av arkivering. Gör endast genomtänkta, omsorgsfullt planerade filkonversioner. Kom ihåg övervakningen av den semantiska och tekniska kvaliteten:

  • När man gör en genomtänkt filkonversion, är det bäst att göra den i en sådan fas under informationens livscykel som är ändamålsenlig med tanke på kvalitetskontroll.

  • Testa omsorgsfullt de program som du eventuellt använder för filkonversioner innan du tar dem i bruk. Kom också ihåg att uppdatera och upprätthålla dem.

  • Det bör vara möjligt att övervaka konversionernas kvalitet på lång sikt och även vid behov ta hjälp av en visuell bedömning av den producerade konversionen.

  • Som en del av kvalitetssäkringen kan man betrakta sådana verksamhetssätt, där man bevarar det ursprungliga filformatet vid sidan av filkonversionen eller där man vid sidan av den ursprungliga filen producerar en konversion, då det ursprungliga filformatets tekniska eller semantiska integritet inte kan garanteras.

Genom olika valideringsverktyg kan man säkerställa att till exempel en PDF/A-fil följer PDF/A-standarden (teknisk validering). Valideringsverktygen kan dock vanligtvis inte berätta om informationsinnehållet i filen har bevarats fullständigt och om integriteten för informationsinnehållet säkerställts (semantisk validering). Med tanke på semantisk integritet är “masskonversioner” som gäller en stor filmängd särskilt svåra. I samband med dem ska man se till att hela informationsinnehållet i den ursprungliga filen överförs pålitligt och fullständigt till det nya filformatet.

Det är bäst att alltid göra filkonversionen direkt till en filversion eller ett filformat som lämpar sig för förvaring. Med tanke på arkivering och långtidsförvaring kan filformaten grovt indelas i godkända eller rekommenderade ursprungliga filformat och så kallade lagringsformat. Lagringsformat är sådana filformat till vilka filer i vissa fall kan konverteras, om det ursprungliga formatet inte uppfyller förvaringskraven. Ett välkänt exempel på lagringsformat är PDF/A-formatet, som har tagits fram med hänsyn till kraven på arkivering och långtidsförvaring.

Lagringsformaten bevarar vanligtvis väl informationens utseende och tolkningsbarhet. Egenskaperna hos det ursprungliga filformatet förbättrar dock vanligtvis informationens senare användbarhet. Därför rekommenderas det att man även förvarar det ursprungliga filformatet vid sidan av den eventuella fil som producerats i lagringsformatet. I arkivfasen kan detta vara det bästa alternativet med tanke på användbarheten, och även när det gäller informationsinnehållet, långtidsförvaringen och arkiveringen.

✔ Exempel på lagringsformat: PDF/A

PDF är ett standardiserat, oberoende och öppet filformat utvecklat för att framställa textdokument. Fördelen med formatet är att det bevarar dokumentets visuella utseende och struktur oförändrade. PDF-filer kan också granskas med olika enheter. Det finns också flera versioner och underversioner av formatet som optimerats för olika användningsändamål. 

PDF/A är en ISO-standardiserad version av PDF, som har tagits fram med hänsyn till kraven på arkivering och långtidsförvaring. Från PDF/A-filen har man skalat bort egenskaper som inte kan förvaras långvarigt på ett pålitligt sätt. Sådana är bland annat hyperlänkar utanför dokumentet, skript, ljud, livebild och olika krypteringar. Dessutom har det som en del av filen paketerats eller infogats (på engelska embedded) bland annat uppgifter som behövs för att framställa fonterna i dokumentet.

När det gäller PDF/A-konversioner är det viktigt att alltid säkerställa att den producerade filen verkligen följer kraven enligt PDF/A-standarden (teknisk validering av filen).

PDF/A:s underversioner. Det finns olika underversioner av PDF/A (versionerna 1, 2 och 3). Versionen anges i samband med formatidentifieraren. I samband med formatidentifieraren anges också uppgifter om kvalitetskravnivån:

  • a = all, filen uppfyller alla krav enligt definitionen. Infogat särskilt dokumentets strukturella element i anslutning till tillgänglighet.

  • b = basic, uppfyller de centrala kraven, är alltså något mildare jämfört med a-nivån. Den väsentligaste skillnaden är att b gäller särskilt bevarandet av den visuella strukturen.

  • u = unicode, det ska finnas en unicode-motsvarighet för alla tecken.

  • Till exempel PDF/A-3a-versionen gör det möjligt att i PDF/A-filen infoga sådana informationsobjekt (till exempel bilder) som i sig själv inte är i ett förvaringsdugligt format. Skaparen av formatet ansvarar alltid för att säkerställa att filerna i fråga om både PDF/A-strukturen och det informationsinnehåll som paketerats i den duger för förvaring som en helhet.


Minneslista

  • Bedöm kvaliteten på och antalet av de filformat som används i din organisations processer och system. Begränsa antalet i fråga om material som ska arkiveras och annars förvaras långvarigt. Utnyttja den uppdaterade förteckningen över de filformat som Riksarkivet tar emot.

  • Övervaka filernas kvalitet genom att validera deras tekniska och semantiska integritet i informationens olika livscykelfaser.

  • Gör endast genomtänkta och omsorgsfullt planerade filkonversioner och övervaka deras kvalitet.

  • Kontrollera följande saker:

    • Filerna är självständigt användbara. De får inte vara beroende av externa informationslager eller tjänster. De får inte sakna delar som behövs för att framställa och använda dem. Sådana kan till exempel vara fonter som används i filen.

    • Filerna är inte krypterade, dvs. man får inte använda tekniska krypteringsmekanismer eller andra mekanismer som förhindrar att materialet kan öppnas, förvaras, konverteras och används senare eller som påverkar innehållet i handlingen.  

    • Enskilda filer har inte packats eller paketerats separat (till exempel ZIP- eller TAR-paket). Observera dock att när man överför material till Riksarkivet kan en överföringshelhet som består av flera filer paketeras för överföringen.

    • Eventuella underskrifter i filerna förhindrar inte läsningen av filen eller lagringen av filen i ett nytt filformat vid en migration.  

    • Eventuella makron eller motsvarande applikationskoder i filerna får inte förhindra behandlingen av filen eller ändra informationsinnehållet när filen öppnas.


 

 

JavaScript errors detected

Please note, these errors can depend on your browser setup.

If this problem persists, please contact our support.