Tilgjengeliggjøring av skanna papirarkiver
Skanna papirarkiver publiseres i Digitalarkivet. For å gjøre det enklere å søke i Digitalarkivet, blir det knyttet beskrivende informasjon til arkivene før de publiseres. Skanna arkivmateriale som ikke kan ligge fritt tilgjengelig i Digitalarkivet, kan sperres ved bruk av tilgangsstyring.
Filformater
Skanna eller digitalfotograferte papirarkiver blir produsert i TIFF-format som ei bildefil pr. ark, side eller oppslag. En intern programvare konverterer deretter TIFF-filene til to nye formater, nemlig en høyoppløselig versjon i JPEG2000-format (PNG-format når mikrofilm er grunnlaget for skanninga) og en komprimert versjon med lavere oppløsning i JPEG-format. JPEG2000-filene kan bli meget store (10–100 MB), mens JPEG-filenes størrelse spenner fra 100 KB til omkring 2 MB. Det er JPEG-filene som tilgjengeliggjøres i Digitalarkivet, siden disse er egnet til hurtig nedlasting.
Om noen ønsker å få publisert digitaliserte papirarkiver i Digitalarkivet, må materialet enten bestå av TIFF-filer, som kan konverteres med vår programvare, eller av JPEG-filer som er forhåndskomprimert til maksimalt 2 MB.
Metadata på kildenivå
Arkivverket tilgjengeliggjør som hovedregel hele arkivstykker, dvs. protokoller, arkivbokser eller dokumentpakker. Hvert arkivstykke utgjør da en kilde, som får tildelt en kildeID i Digitalarkivets database. Unntaksvis kan mapper og dokumenter i arkivboksene eller dokumentpakkene få tildelt egne kildeIDer. Vi gjør også unntak for folketellinger og landssviksaker, hvor hver kommune (hvert prestegjeld) og hver landssviksak får tildelt egne kildeIDer.
Til hver kilde knyttes det metadata som skal sikre at kildene lar seg gjenfinne så enkelt som mulig ved søk i Digitalarkivet. Slike metadata omfatter:
- Kataloginformasjon fra Asta/Arkivportalen. Dette gjør at kildene beskrives på samme måte i Digitalarkivet som i Arkivportalen, og det legger til rette for lenking mellom de to nettstedene.
- 1947-fylker og 1947-kommuner. Det skal være enkelt for Digitalarkivets brukere å finne alle kilder som er relevante for en bestemt kommune. Derfor forsøker vi å koble alle geografisk avgrensede kilder til aktuelle kommuner. Vi har valgt fylkes- og kommunestrukturen i 1947 for å få en mest mulig finmasket geografimeny å søke i. På denne måten kan man raskt finne kilder som har tilknytning til Hisøy i Aust-Agder.
- Emneknagger. Det skal også være enkelt for Digitalarkivets brukere å finne alle kilder som berører et bestemt tema. Derfor forsøker vi å beskrive alle kilder med emneknagger (temaord). For eksempel gir et søk på emneknaggen ”Kongehuset” treff på kilder fra en rekke arkiver. Fordi vi ikke har oversikt over absolutt alle emner som et arkivstykke berører, er ikke vår tildeling av emneknagger uttømmende. For eksempel kan det finnes opplysninger om kongehuset i andre digitaliserte kilder enn de som vises ved søk på emneknaggen "Kongehuset".
- Diverse metadatafelt som benyttes av ulike funksjoner i Digitalarkivet. Mange av disse feltene er standardiseringer av kataloginformasjon fra Asta/Arkivportalen, ettersom katalogiseringspraksisen har vært ulik over tid og fra arkivdepot til arkivdepot.
Metadata på bildenivå – indeksering
En skanna eller digitalfotografert kilde i Digitalarkivet kan bestå av alt fra noen få bilder til tusenvis bilder, som brukerne kan bla i. Ei vanlig kirkebok består av 2–300 bilder, mens folketellinga 1920 for Kristiania består av over 500 000 bilder.
Arkivkilder er som regel ikke noe man leser ”fra perm til perm”; som oftest er det enkeltopplysninger man ønsker å finne fram til. Det sier seg selv, at å bla i hundrevis eller tusenvis av bilder uten noen form for bokmerker eller annen fremfinningshjelp, er en lite effektiv måte å orientere seg i arkivmaterialet på. Da vil det som regel være mer hensiktsmessig å bruke arkivmaterialet i original på lesesalen.
For å få full gevinst av skanningsarbeidet, er det derfor nødvendig å tilføre metadata på bildenivå, dvs. at vi beskriver hvert enkelt bilde på en måte som grupperer dem innenfor kilden. Vi kaller dette indeksering av bildene, og dette gjør det mulig å generere en innholdsfortegnelse for hver kilde, med klikkbare lenker til ulike ”bokmerker” i kilden. Landkommisjonens jordebok for Brunla len kan tjene som eksempel.
Vi indekserer med ulik detaljeringsgrad:
- Kirkebøker indekseres med listetype eller handling (fødte og døpte, konfirmerte, osv.), årstall og sidetall. Kirkebøkene er den mest brukte kildetypen i Digitalarkivet, og en viktig årsak til suksessen er at det går raskt å finne fram til riktig handling og årstall.
- Pantebøker f.o.m. 1936 indekseres med dagboknummer og årstall, slik at brukerne kan gå direkte til det riktige tinglyste dokumentet.
- Protokoller med ensartet innhold er oftest indeksert kun med sidetall, men i indekseringsarbeidet ønsker vi å markere for eksempel registre spesielt.
- Arkivbokser og dokumentpakker med omfattende og variert innhold bør helst indekseres med beskrivelse av hver enkelt bestanddel. For eksempel bør de enkelte mappene i en arkivboks indekseres.
- Registerkort og liknende som er sortert alfabetisk eller i stigende nummerrekkefølge, kan ofte tilgjengeliggjøres uten indeksering. I slike tilfeller vil informasjonen i bildet fortelle brukeren om han eller hun skal bla forover eller bakover.
Tilgangsstyring
Det er ikke alt skanna arkivmateriale som kan publiseres fritt tilgjengelig i Digitalarkivet. Noe skanna arkivmateriale inneholder taushetsbelagte opplysninger, og kan bare brukes av Arkivverkets ansatte, eller av personer som har søkt og fått innvilget innsyn. Personsensitive opplysninger kan heller ikke ligge fritt tilgjengelig på Internett, men så lenge opplysningene ikke også regnes som taushetsbelagte, vil man kunne få tidsbegrenset tilgang etter nærmere avtale.
Begrensningene med hensyn til hva som kan ligge fritt tilgjengelig i Digitalarkivet, er omtalt i en artikkel på digitalarkivet.no: Sperret innhold i Digitalarkivet