Digitoidut kuva-aineistot - siirtopaketin muodostaminen
1. Ohjeen tarkoitus
Ohjeessa kuvataan Kansallisarkistoon siirrettävän siirtopaketin muodostaminen viranomaisen itse digitoimista aineistoista. Ohje koskee Kansallisarkiston Arkistoitavien asiakirjojen digitointia koskevat vaatimukset ja ohjeet (KA/20919/30.01.00/2024) digitointimäärityksen mukaisesti digitoituja aineistoja. Määritys on korvannut aiemmat digitointimääritykset KA/3357/07.01.02.04.02/2019 ja KA/15780/07.01.02.04.02/2020 (katso taulukko 1).
Ohjetta tulee hyödyntää yhdessä taulukossa 1 mainittujen dokumenttien kanssa.
Tässä ohjeessa Siirtäjällä tarkoitetaan organisaatiota, joka on Kansallisarkistoon siirrettävän
tietoaineiston rekisterinpitäjä/hallinnoija.
Taulukko 1 Viittaukset muihin ohjeisiin ja dokumentteihin
Dokumentti | Sisältö |
---|---|
Vastaanotettavia tiedostoja koskevat ohjeet -ohje ja sen LIITE 1 | Luettelo Kansallisarkistoon vastaanotettavista |
Luettelo Kansallisarkistoon vastaanotettavista tiedostomuodoista | Ohjeessa kuvataan Kansallisarkistoon vastaanotettavia tiedostoja koskevat yleiset vaatimukset, tekstimuotoisissa tiedostoissa sallitut merkistöt ja siirtokelpoiset tiedostoformaatit. Ohjeeseen on eritelty, missä siirtorakenteessa mitäkin tiedostomuotoa voi siirtää. |
Arkistoitavien asiakirjojen digitointia koskevat vaatimukset ja ohjeet (KA/20919/30.01.00/2024) | Kansallisarkiston digitointivaatimukset mahdollistavat digitoidun tietoaineiston säilyttämisen yksinomaan digitaalisena ja analogisen tietoaineiston hävittämisen Kansallisarkiston yleispäätöksen (KA/15927/28.02.01/2023) mukaisesti. Päätös kumoaa Kansallisarkiston digitointimääritykset
|
Metatietolomake | Siirtäjä ilmoittaa metatietolomakkeella Sähköisen |
2. Siirrettävä aineisto ja siirtoerät: Siirtoerien muodostaminen
Siirrettävä tietoaineisto yksilöidään Kansallisarkiston ja Siirtäjän välisessä siirtosuunnitelmassa, jonka Siirtäjä on toimittanut Kansallisarkistoon. Siirrosta sopimisen ja siirtosuunnitelman perusteella siirrettävästä aineistosta koostetaan yksi tai useampi siirtoerä. Yksittäinen siirtoerä on looginen, ehyt ja valmis kokonaisuus, jonka aineistoihin tai tietoihin ei kohdistu enää muokkaustarpeita.
Kun siirtoeriä on useampia, Siirtäjän tulee huolehtia, että jokaisen siirtoerän osalta kaikki arkistoitavaksi määrätty aineisto tulee siirretyksi.
Siirtoerä jaetaan yhteen tai useampaan siirrettävään kokonaisuuteen, joka tallennetaan ohjeiden mukaiseen muotoon ja hakemistorakenteeseen ja paketoidaan siirtoa varten tiedostoksi (siirtopaketti), katso luku 3.
Kansallisarkisto ei tarjoa työkaluja siirtopakettien muodostamiseen, vaan Siirtäjän on muodostettava siirtopaketti käytössään olevilla työkaluilla tai luotava tarvittava ratkaisu sovellustoimittajansa/palveluntarjoajansa tai muun teknisen kumppanin kanssa.

Kuva 1 Siirrettävä tietoaineisto muodostaa yhden tai useamman loogisen siirtoerän, josta muodostetaan yksi tai useampi siirtopaketti
Onnistunut tietoaineistojan siirto edellyttää ohjeiden mukaisesti muodostettua siirtopakettia.
Paketti ei saa sisältää mitään muuta kuin ohjeen mukaiset hakemistot tiedostoineen.
Lue ohjeet tarkkaan, niin vältyt turhalta työltä.
Ohjeen tulkintaan liittyvissä kysymyksissä ole yhteydessä Sähköisen arkistoinnin palveluun.
3. Siirtopaketin muodostaminen
Hakemistorakenteet
Digitointiprosessissa tuotetut digitointimäärityksen mukaiset tiedostot pitää tallentaa kuvan 2 mukaiseen hakemistorakenteeseen. Kansallisarkiston määritysten mukaisesti digitoitujen aineistojen yksityiskohtaiset metatietovaatimukset ja muut vaatimukset on lueteltu Kansallisarkiston digitointivaatimuksissa (katso taulukko 1).
Juurihakemisto nimetään Siirtäjän määrittämällä siirtopaketin yksilöllisellä tunnisteella. Tunnistetta käytetään myös siirtokäyttöliittymässä siirtopaketin kontekstimetatietojen luonnin yhteydessä. Tunnisteen avulla siirtopaketti yhdistetään siihen liittyviin metatietoihin. Mikäli siirtopaketille annettu yksilöllinen tunniste ja siirtokäyttöliittymässä määritetty tunniste eivät ole identtiset, ei tietoaineiston siirto käyttöliittymässä onnistu.
Siirrettävä tietoaineisto (master), kuvatiedostojen tekniset metatiedot (mix) ja mahdolliset tekstintunnistuksessa luodut tiedostot (ocr) tallennetaan omiin alihakemistoihinsa. Siirtopaketti saa sisältää vain sovelletussa digitointimäärityksessä kuvatun hakemistorakenteen mukaisia hakemistoja. Näin ollen ocr-alihakemisto voi sisältyä vain vuoden 2019 digitointimääritysten (KA/3357/07.01.02.04.02/2019) mukaan muodostettuihin siirtopaketteihin.

Kuva 2 Hakemistorakenne
Tietoaineisto yhdistetään siihen liittyviin teknisiin metatietoihin ja mahdollisiin tekstintunnistuksessa luotuihin tietoihin käyttämällä samaa lukujonoon perustuvaa tiedostonimeä (katso kuva 3). Vain tiedoston pääte (esim. .jpg tai .xml) erottaa ne toisistaan. Toisin sanoen mix- ja ocr-hakemistojen sisältämien tiedostojen tiedostonimien tulee vastata master-hakemiston kuvatiedostojen nimiä. Kuvatiedostoa vastaava lukujono liittää digitoinnissa luodun kuvatiedoston ja siihen liittyvät mix-metatiedot sekä tekstitunnistetun sisällön yhteen.
Esimerkki nimeämisestä
master-hakemistossa on kuvatiedosto 0001.jpeg
mix-hakemistossa pitää olla kyseisen kuvan tekniset metatiedot xml-tiedostoma, 0001.xml
ocr-hakemistossa saa olla kuvatiedoston tekstitunnistettu sisältö xml-tiedostona, 0001.xml. Tekstitunnistus mahdollistaa myöhemmin sisältöhakujen tekemisen siirtopaketin sisältämiin aineistoihin.

Kuva 3 Esimerkki nimeämisestä
Hakemistojen nimet ja niiden sisällöt on kuvattu taulukoissa 2 ja 3. Hakemistojen nimet ovat merkkikokoriippuvaisia. Alihakemistojen nimet kirjoitetaan pienellä alkukirjaimella.
Taulukko 2 Juurihakemiston nimi ja sisältö
Hakemisto | Selite/sisältö |
---|---|
juurihakemisto | Juurihakemisto pitää nimetä siirtopaketin tunnisteella, esim. paketti1 tai vuodet9195. Siirtäjä määrittelee paketin tunnisteen ja käyttää sitä myös
|
Seuraavien alihakemistojen (master, mix ja ocr) kohdalla tiedostojen nimeämisen periaate on aina sama. Hakemistoissa olevat tiedostot nimetään lukujonon avulla. Lähtökohtaisesti lukujonon tulee koostua neljästä numerosta. Numerointi on juokseva niin, että ensimmäinen tiedosto saa nimen 0001, toinen 0002 jne. Alihakemistot itsessään nimetään sisältönsä mukaisesti master, mix tai ocr.
Taulukko 3 Alihakemistojen nimet ja sisältö
Alihakemisto | Selite/sisältö |
---|---|
master | Alihakemisto sisältää kuvatiedostot yksittäisinä tiedostoina.
|
mix | Alihakemisto sisältää pakolliset tekniset metatiedot kaikista master-hakemiston sisällä olevista kuvatiedostoista.
|
ocr | Alihakemisto sisältää kuvatiedostoista mahdollisesti tunnistetun tekstin (OCR tai HTR) AltoXML-tiedostot.
|
Siirtopaketti
Juurihakemisto nimetään siirtopaketin tunnisteella ja paketoidaan siirtopaketiksi eli yhdeksi TAR-tiedostoksi. TAR-tiedoston saa lisäksi pakata häviöttömään GZIP- (.tar.gz) tai BZIP2- (.tar.bz2) muotoon. Kun siirtopaketti ladataan siirtokäyttöliittymään, sen nimenä käytetty tunniste ohjaa aineiston osaksi oikeaa kuvailukokonaisuutta Kansallisarkiston metatietovarannossa.

Siirtopaketit eli TAR-tiedostot kannattaa ennen siirtoa tallentaa niin, että yhteen sarjaan (tai muuhun laajempaan kokonaisuuteen) kuuluvat siirtopaketit ovat samassa hakemistossa. Tätä monipolvisemmat hakemistorakenteet saattavat merkittävästi hidastaa siirtopakettien lähettämistä, kun käyttäjä yrittää valita useamman paketin siirrettäväksi samalla kertaa.
4. Tietoaineiston kuvailu
Siirrettävän tietoaineiston arkistointi vaatii aina erillistä kuvailua. Kuvailun avulla varmistetaan, että tietoaineisto säilyy saavutettavana ja ymmärrettävänä, vaikka käyttäjä ei tuntisi aineistoa tai sen alkuperäistä käyttötarkoitusta ja historiaa. Siirtopaketit eli arkistoyksiköt kuvaillaan siirtokäyttöliittymässä ennen niiden vastaanottoa. Siirtäjä toimittaa Sähköisen arkistoinnin palvelulle myös siirrettävän tietoaineistokokonaisuuden ja siihen kuuluvien siirtoerien arkistollista kontekstia, käyttörajoituksia ja aineistoon liittyviä toimijoita kuvaavat metatiedot erillisellä metatietolomakkeella.
