Huolehdi tiedostoistasi
Löydät toimenpidepolun tästä osasta tietoa tiedostomuotojen ja tiedostojen laadun merkityksestä silloin, kun haluat varmistaa, että arkistoitavat tietoaineistot ovat luotettavasti saavutettavissa ja käytettävissä elinkaarensa myöhemmissä vaiheissa.
Rajaa tiedostomuotojen määrää, valvo tiedostojen laatua
Digitaalisen pitkäaikaissäilyttämisen tavoitteena on varmistaa, että digitaalisessa muodossa olevat aineistot ovat hyödynnettävissä todistusvoimaisina ja käyttökelpoisina useita vuosikymmeniä tai -satoja. Pitkäaikaissäilytys perustuu siihen, että tietoaineistoja tarvittaessa muunnetaan häviöttömästi uuteen säilytyskelpoiseen muotoon. Siksi aineisto pitää siirtää arkistoon sellaisessa tiedostomuodossa eli formaatissa, jolle tarvittavat muunnokset pystytään tekemään. Organisaatiosi voi tukea tiedostojen säilymistä monilla käytännöllisillä toimilla, muun muassa:
Rajaamalla prosesseissa ja järjestelmissä käytettävien tiedostoformaattien joukkoa, kun kyse on arkistoitavista tai muuten pitkään säilytettävistä tietoaineistoista. Tässä kannattaa hyödyntää Kansallisarkistoon vastaanotettavien tiedostomuotojen päivittyvää listausta.
Valvomalla tiedostojen laatua eli niiden teknistä ja semanttista eheyttä tiedon elinkaaren eri vaiheissa.
Tekemällä ainoastaan harkittuja ja huolellisesti suunniteltuja tiedostomuunnoksia eli konversioita, joiden laatua valvotaan. Huomaa, että jokainen konversio sisältää riskejä tiedon menettämisestä.
Migraatiolla tarkoitetaan tiedon ja tietoaineistojen kertaluonteista siirtoa esimerkiksi yhdestä järjestelmästä toiseen. Migraation alalaji tai sen osa on konversio, jossa tiedot muunnetaan esimerkiksi yhdestä tiedostomuodosta toiseen. Konversio voi liittyä esimerkiksi tiedostomuodon tai tietokannan tietorakenteiden muuttamiseen.
Ymmärrä tiedostomuotojen väliset erot
Tiedostomuoto – hetkinen, mikä se on? Digitaalisessa muodossa oleva aineisto muodostuu bittijonoista, joilla on aina jokin määrätty tiedostomuoto eli formaatti. Formaatti on käytännössä standardi. Sen perusteella voidaan luoda sovellus, jonka avulla bittijono esitetään ymmärrettävässä ja käyttökelpoisessa muodossa. Näin bittijonoista muodostuu esimerkiksi tekstidokumentteja, valokuvia, äänitteitä ja videoita. Osa tiedostomuodoista voi olla hyvin monimutkaisia ja tiettyä käyttötarkoitusta varten erikoistuneita.
Arkistoitavan tai muuten pitkään säilytettävän tiedon näkökulmasta on ongelmallista, että ajan mittaan sekä tiedostoformaatit että niihin liittyvät sovellukset muuttuvat. Formaatit ja niiden mukaiset tiedostot eivät yleensä tällöinkään katoa tai muutu käyttökelvottomiksi. Sovelluksen ylläpito voi kuitenkin jossain vaiheessa päättyä. Silloin myös formaatin hyödyntämisessä tarvittavat keinot ja työkalut voivat kadota kokonaan, eikä tiedostoja enää voida käyttää tai edes avata. Tiedostoformaatit myös kehittyvät nopeasti. Niistä on usein olemassa lukuisia eri versiota. Säilyvyyden näkökulmasta versiot poikkeavat toisistaan merkittävästi.
Yllä mainittujen uhkien torjumisessa auttaa standardoitujen, dokumentoitujen ja yleisesti käytössä olevien tiedostoformaattien käyttäminen ja niihin liittyvien kriteerien noudattaminen. Näin varmistetaan sitä, että aineisto pystytään tarvittaessa muuntamaan yhä hyödyntämiskelpoiseen tiedostomuotoon.
Mitä tiedostomuotoja Kansallisarkisto ottaa vastaan? Kansallisarkistoon vastaanotettavien formaattien päivittyvä luettelo (pdf)löytyy Kansallisarkiston Sähköisen arkistoinnin palvelun verkkosivuilta. Voit hyödyntää listausta organisaatiosi käyttämien tiedostomuotojen arvioinnissa, vaikka aineistoja ei oltaisikaan juuri nyt siirtämässä Kansallisarkistoon. Tiedostomuotoja koskevia ohjeita ja tietoja pitkäaikaissäilytykseen kelpaavista tiedostomuodoista päivitetään säännöllisesti. Kehitystä on hyvä seurata ja suunnitella omaa digitaalisen tiedon säilyttämistä myös tästä näkökulmasta.
Pitkäaikaissäilyttämisen näkökulmasta laadukas tiedostomuoto:
Noudattaa kansainvälisiä standardeja.
On avoin, julkinen ja yleisesti käytössä.
On hyvin dokumentoitu.
On hyödynnettävissä itsenäisesti, eikä sisällä ulkoisia riippuvuuksia tai ole riippuvainen käyttöjärjestelmästä tai -alustasta.
Avoimet tiedostomuodot ovat ei-kaupallisia tiedostomuotoja, joita kuka tahansa voi hyödyntää ilmaiseksi. Avoimet tiedostomuodot mahdollistavat datan ohjelmistoriippumattoman uudelleenkäsittelyn eli kaupalliset oikeudet eivät rajoita uudelleenkäyttöä. Tämä tukee pitkäaikaissäilytyksen tavoitteita. On kuitenkin hyvä huomata, että myös avoimet tiedostomuodot voivat muuttua käyttökelvottomiksi, kun niiden käyttöön liittyvä tuki ja ylläpito syystä tai toisesta katoaa.
Digitaalinen pitkäaikaissäilyttäminen perustuu siihen, että aineistot muunnetaan uuteen säilytyskelpoiseen tiedostomuotoon hallitusti ja häviöttömästi. Aineiston kaikkien keskeisten ominaisuuksien pitää säilyä luotettavasti. Tämä perustuu tiedostomuotostandardien tarkkaan noudattamiseen ja automaattiseen laadunvarmistukseen. Tiedostojen pitää myös aina olla hyödynnettävissä itsenäisesti eli ne eivät saa olla riippuvaisia ulkoisista tietovarannoista, sovelluksista tai palveluista, joita ei säilytetä tiedoston yhteydessä.
Mistä tiedostomuodon tunnistaa?
Tiedostomuunnosten edellytys on tiedostoformaatin tunnistaminen ja yksilöinti. Pelkän tiedostopäätteen perusteella formaattia ja sen säilytyskelpoisuutta ei kuitenkaan voi päätellä. Esimerkiksi PDF-formaatista (PDF – Portable Document Format) on olemassa kymmeniä versioita. Eri versioiden mukaisilla tiedostoilla on kaikilla sama PDF-tiedostopääte (tiedostonimi.pdf). Vain osassa tiedostoversioista on otettu huomioon säilytyskelpoisuus. Formaatin jokaisella versiolla on kuitenkin oma yksilöllinen tunniste (engl. Persistent Unique Identifier, puid), jonka avulla voidaan viitata juuri tämän version ominaisuuksiin sekä ohjeissa että erilaisissa teknisissä rekistereissä.
Esimerkki teknisestä rekisteristä on Iso-Britannian Kansallisarkiston digitaalisten säilytyspalvelujen tukemiseen kehittämä selainpohjainen tekninen formaattirekisteri PRONOM, josta löytyvät:
formaattien tekniset formaattitunnisteet
formaatin rakenteen tekniset tiedot
tieto formaattien tukemiseen tarvittavista ohjelmisto- ja laitteistoympäristöistä.
Tiedostojen yksilöintiä ja tunnistamista helpottaa se, että ne on järjestetty ja nimetty määrämuotoisesti ja loogisesti. Tiedostonimi ei kuitenkaan yksin riitä vaan tarvitaan myös tiedostojen ja formaattien hallintaan liittyviä teknisiä metatietoja, muun muassa formaattitunnisteet. Metatietojen käyttötarkoitus liittyy sekä yksittäiseen tiedostoon että tiedostokokonaisuuden hallinnointiin, käytettävyyteen tai teknisiin piirteisiin. Niiden avulla voidaan myös varmistaa mahdollisten konversioiden laatua.
Tiedostomuodon tunnistamiseen liittyvät toiminnallisuudet olisi hyvä tarvittaessa huomioida sekä tiedon laatimiseen, vastaanottoon että siirtämiseen liittyvissä työnkuluissa. Tunnistamiseen on myös avoimesti saatavilla olevia työkaluja, esimerkkeinä muun muassa DROID ja JHOVE.
Tiedostojen hallinta ennen arkistosiirtoa
Mitä pidempään tiedostoja säilytetään, sitä tärkeämpää on tukeutua suositeltuihin ja standardoituihin tiedostomuotoihin. Laadi tiedostomuotojen ja tiedostojen hallintaa tukevat toimintamallit vähintään arkistoitavan ja muuten pitkään säilytettävän aineiston osalta.
Ylläpidä listausta käyttötarkoituksiin soveltuvista standardeista tai formaateista. Suosi standardoituja ja laajasti käytössä olevia tiedostomuotoja. Hyödynnä tässä Kansallisarkistoon vastaanotettavia tiedostomuotoja koskevaa listaa ja ohjeistusta. Seuraa ja arvioi organisaatiosi toimintaprosesseissa ja järjestelmissä hyödynnettävien tiedostomuotojen laatua ja määrää. Pohdi muun muassa näitä näkökohtia:
Onko tietoaineistojen hallinnassa ja siirtämisessä tarvittavat tietorakenteet ja tiedostomuodot määritelty? Ylläpidetäänkö määrittelyjä?
Vastaavatko rakenteet ja tiedostomuodot tiedon tulevia käyttötarpeita?
Onko hallittu konvertointi arkistoinnin näkökulmasta tarkoituksenmukaiseen tiedostomuotoon tarvittaessa mahdollista? Miten muunnosten laatu pystytään varmistamaan?
Muista, että tiedostojen teknistä ja semanttista eheyttä voi tukea monin tavoin tiedon elinkaaren eri vaiheissa. Esimerkiksi tiedostomuodon tunnistamiseen liittyvät toiminnallisuudet voi tarvittaessa huomioida sekä tiedon laatimiseen, vastaanottoon että siirtämiseen liittyvissä työnkuluissa.
Tiedostojen eheyttä ja muuttumattomuutta varmistetaan yleensä:
Säilyttämällä tiedostot vain lukutilassa (read-only). Muutoksia voidaan tällöin tehdä vain riittävin käyttöoikeuksin ja niin, että kaikki muutokset dokumentoituvat.
Hyödyntämällä aineistosta erillään säilytettäviä eheystarkisteita eli tiedostokohtaisia uniikkeja tarkistesummia. Ne ovat algoritmien generoimia merkkijonoja, joiden luomiseen on tarjolla monia avoimen lähdekoodin ohjelmistoja. Yleisiä eheysalgoritmeja ovat ainakin MD5, SHA-256 ja SHA-1. Tarkistesummaa ja tiedostoa vertaamalla pystytään huomaamaan, onko tiedosto muuttunut, esimerkiksi korruptoitunut. Muista kuitenkin, ettei eheystarkiste pysty kertomaan, millainen muutos on tapahtunut. Tämä pitää erikseen selvittää.
Tiedostojen pitää lisäksi aina olla käytettävissä itsenäisesti; niiden hyödyntäminen tai tulkinta ei saa olla riippuvaista sellaisista ulkoisista tietovarannoista, sovelluksista tai palveluista, joita ei säilytetä tiedoston yhteydessä. On myös tärkeää, ettei tiedostojen avaamista, lukemista tai tallentamista uuteen muotoon ole teknisesti rajoitettu tai estetty - tiedostoja ei siis ole esimerkiksi salattu tai pakattu.
Vaikka tietoturvallisuuteen liittyvät toimintatavat ja toimenpiteet yleisesti ottaen tukevat arkistointia, voi niissä piillä myös ongelmia. Esimerkiksi kirjoitussuojausta tulisi välttää eli tiedostoissa ei saa käyttää salasanasuojauksia, salaustekniikoita tai DRM (engl. Digital Rights Management, digitaalinen käyttöoikeuksien hallinta) -tekniikoita. Ne voivat estää aineiston käsittelyn niin, että sille ei pystytä suorittamaan tarvittavia pitkäaikaissäilytykseen liittyviä säilytystoimenpiteitä.
Tiedostokonversioiden suunnittelu ja hallinta
Kaikki tietoaineiston elinkaaren aikana tehtävät muunnokset voivat vaarantaa tiedon säilymisen teknisesti tai sisällöllisesti eheänä. Ylimääräisiä tiedostomuunnoksia pitää välttää, eikä tiedostoja ole arkistoinnin vuoksi tarpeen muuntaa rutiininomaisesti toiseen tiedostomuotoon. Tee vain harkittuja, huolellisesti suunniteltuja tiedostomuunnoksia. Muista semanttisen ja teknisen laadun valvonta:
Kun harkittu tiedostomuunnos tehdään, se kannattaa sijoittaa laadunvalvonnan kannalta tarkoituksenmukaiseen tiedon elinkaaren vaiheeseen.
Testaa tiedostokonversioissa mahdollisesti hyödyntämäsi ohjelmistot huolellisesti ennen niiden käyttöönottoa. Muista myös niiden päivittäminen ja ylläpito.
Muunnosten laatua tulisi pystyä valvomaan pitkällä aikavälillä ja turvautua tarvittaessa myös tuotetun muunnoksen silmämääräiseen arviointiin.
Laadunvarmistuksen osana voi pitää myös toimintatapoja, joissa alkuperäinen tiedostomuoto säilytetään tiedostomuunnoksen rinnalla tai alkuperäisen tiedoston rinnalle tuotetaan muunnos silloin, kun alkuperäisen tiedostomuodon teknistä tai semanttista eheyttä ei voida taata.
Erilaisilla validointityökaluilla voidaan varmistaa, että esimerkiksi PDF/A-tiedosto noudattaa PDF/A-standardia (tekninen validointi). Validointityökalut eivät kuitenkaan yleensä pysty kertomaan, onko tiedoston tietosisältö muunnoksessa säilynyt täydellisenä ja eheänä (semanttinen validointi). Semanttisen eheyden näkökulmasta erityisen hankalia ovat suuria tiedostomääriä koskevat ”massamuunnokset”. Niiden yhteydessä pitää varmistaa, että alkuperäisen tiedoston koko tietosisältö siirtyy luotettavasti ja täydellisesti myös uuteen tiedostomuotoon.
Tiedostokonversio kannattaa aina tehdä suoraan säilytyskelpoiseen tiedostoversioon tai tiedostomuotoon. Arkistoinnin ja pitkäaikaissäilytyksen näkökulmasta tiedostomuodot voidaan karkeasti jakaa hyväksyttyihin tai suositeltaviin alkuperäisiin tiedostomuotoihin ja niin kutsuttuihin tallennusmuotoihin. Tallennusmuotoja ovat sellaiset tiedostomuodot, joihin tiedostot voidaan joissain tapauksissa muuntaa, mikäli alkuperäinen muoto ei täytä säilytysvaatimuksia. Tunnettu esimerkki tallennusmuodosta on PDF/A-formaatti, joka on kehitetty arkistoinnin ja pitkäaikaissäilyttämisen vaatimusten näkökulmasta.
Tallennusmuodot säilyttävät yleensä hyvin tiedon ulkoasun ja tulkittavuuden. Alkuperäisen tiedostomuodon ominaisuudet lisäävät kuitenkin yleensä tietojen myöhempää käytettävyyttä. Mahdollisen tallennusmuotoon tuotetun tiedoston rinnalla on siksi suositeltavaa säilyttää myös alkuperäinen tiedostomuoto. Se voi hyvän käytettävyyden lisäksi olla tietosisällön, pitkäaikaissäilyttämisen ja arkistoinnin näkökulmasta arkistovaiheessa paras vaihtoehto.
Muistilista
Arvioi prosesseissa ja järjestelmissä hyödynnettävien tiedostomuotojen laatua ja määrää. Rajaa määrää arkistoitavan ja muuten pitkään säilytettävän aineiston osalta. Hyödynnä tässä Kansallisarkistoon vastaanotettavien tiedostomuotojen päivittyvää listausta.
Valvo tiedostojen laatua validoimalla niiden teknistä ja semanttista eheyttä tiedon elinkaaren eri vaiheissa.
Tee vain harkittuja, huolellisesti suunniteltuja tiedostomuunnoksia eli konversioita, joiden laatua valvotaan.
Varmista, että:
Tiedostot ovat itsenäisesti käsiteltävissä. Ne eivät saa olla riippuvaisia ulkopuolisista tietovarannoista tai palveluista. Niistä ei saa puuttua niiden esittämiseen ja hyödyntämiseen liittyviä osia. Tällaisia voivat joskus olla esimerkiksi tiedostossa käytetyt fontit.
Tiedostoja ei ole salattu eli niissä ei saa käyttää teknisiä salausmekanismeja tai muita mekanismeja, jotka estävät aineiston avaamisen, säilyttämisen, konvertoinnin ja myöhemmän käytön tai vaikuttavat asiakirjan sisältöön.
Yksittäisiä tiedostoja ei ole erikseen pakattu tai paketoitu (esimerkiksi ZIP- tai TAR-paketit). Huomaa kuitenkin, että aineistoja Kansallisarkistoon siirrettäessä useista tiedostoista muodostuva siirtokokonaisuus voidaan siirtoa varten paketoida.
Tiedostoissa mahdollisesti käytetyt allekirjoitukset eivät estä tiedoston lukemista tai tallentamista uuteen tiedostomuotoon migraatiossa.
Tiedostoissa mahdollisesti olevat makrot tai vastaavat sovelluskoodit eivät saa estää tiedoston käsittelyä tai muuttaa tietosisältöä tiedostoa avattaessa.