Veileder om uttrekk for langtidsbevaring
Denne veilederen forklarer hovedtrekkene i avleveringsprosessen, forskjellen på ulike uttrekksformater og teknisk gjennomføring av uttrekk.
Denne veilederen forklarer hovedtrekkene i avleveringsprosessen, forskjellen på ulike uttrekksformater og teknisk gjennomføring av uttrekk.
Langtidsbevaring av elektronisk arkivmateriale gjøres ved å ta uttrekk. Det betyr å ta alle bevaringsverdige data og elektroniske arkivdokumenter ut av et sak-/arkivsystem, fagsystem, register eller database i et format og med en struktur som er egnet for langtidsbevaring. Det finnes ulike metoder for dette.
Denne veilederen hjelper deg med å ta et uttrekk for overføring til Arkivverket. Her forklarer vi gangen i uttrekksprosessen, forskjellen på de mest brukte uttrekkstypene, og gir tekniske beskrivelser for produksjon av uttrekk.
Veilederen er for deg som er involvert i prosessen med å lage et uttrekk for overføring til Arkivverket. Produksjon og overføring av et uttrekk vil ofte involvere både ledelsen i virksomheten, arkivtjenesten, fagansvarlige, systemeier, IT-drift og systemleverandører. De første delene av veilederen handler om forberedelse og planlegging, mens siste del går mer i detalj på teknisk gjennomføring av uttrekk.
Veilederen er innrettet mot statlige virksomheter, men kan også være nyttig for flere. Ved overføring til andre arkivdepot må dere avklare med dem hvilke krav som gjelder for den aktuelle overføringen.
Elektronisk arkivmateriale som ikke er i bruk vil før eller siden gå tapt, med mindre man tar aktive grep for å ta vare på materialet. I Norge har vi en migreringsstrategi som går ut på å hente bevaringsverdige data og dokumentasjon ut av sine originalsystemer til et format som er egnet for videre forvaltning i arkivdepot. Det innebærer å ta et uttrekk og levere det sammen med tilstrekkelige beskrivelser av uttrekkets struktur, innhold og dokumentasjon av det opprinnelige systemet og bruken av dette. Den samlede leveransen kalles en arkivversjon.
Det må tas uttrekk mens systemene er i bruk. Det er viktig å ha tilstrekkelig kjennskap til de tekniske løsningene og informasjonsinnholdet det forvalter.
Avlevering av en arkivversjon innebærer at virksomheter slipper å forvalte dokumentasjon i eldre systemer som har gått ut av administrativ bruk. Det er hensiktsmessig å unngå teknisk gjeld siden teknologiskifter skjer hyppigere enn før. Dere kan derfor spare betydelige utgifter og bedre informasjonssikkerheten på sikt ved å ha flyttbare og anvendbare arkiv.
Å ta uttrekk = Å trekke ut alle bevaringsverdige data og elektroniske arkivdokumenter fra et elektronisk arkivsystem i et format og med en struktur som er egnet for langtidsbevaring.
Et uttrekk/arkivuttrekk = Det datainnholdet som er hentet ut av et system, hoveddelen av arkivversjonen. «Arkivuttrekk» brukes når man ønsker å presisere at et uttrekk er strukturert og beskrevet for arkivformål.
Arkivversjon = Arkivuttrekk og øvrig dokumentasjon som skal mottas av arkivdepotet ved avlevering eller deponering.
Arkivverket bestemmer tidspunkt og tidsintervall for avlevering eller deponering. Det skal alltid tas uttrekk
For arkiv som har spesiell kulturell eller forskningsmessig verdi, kan riksarkivaren bestemme at det arkivet skal deponeres før det har gått ut av administrative bruk.
En arkivversjon som overføres til Arkivverket skal få status enten som deponert eller avlevert.
Ved deponering beholder avgiver råderetten over materialet og det fulle ansvaret for forvaltning av dataene. Arkivversjonen som overføres til Arkivverket regnes da som en sikkerhetskopi, og i den perioden utfører Arkivverket kun teknisk vedlikehold. Etter at Arkivverket har godkjent arkivversjonen for deponering, kan dere videreføre dataene i det formatet dere selv ønsker, slik at dere blant annet kan betjene arkivet ved eventuelle innsynsforespørsler.
En deponering skifter automatisk status til avlevering når det fastsatte avleveringstidspunktet er nådd. Avleveringstidspunktet vil fremgå av avtalen om overføring som skal inngås mellom avgiver og Arkivverket.
Avlevering betyr at Arkivverket overtar både råderetten over materialet og oppgaver knyttet til fremtidig forvaltning og teknisk vedlikehold. Grunnlagsdataene kan slettes når Arkivverket har godkjent avleveringen, eller dere kan videreføre dataene i det formatet dere selv ønsker.
Arkivloven § 10 sier at statlige virksomheter skal avlevere sine arkiver til Arkivverket.
Arkivforskriften §§ 13-20 handler om avslutning og avlevering av arkiv.
Riksarkivarens forskrift kapittel 5 gir bestemmelser om overføring av elektronisk arkivmateriale til Arkivverket.
Start med å skaffe dere oversikt over hva dere allerede har av dokumentasjon om dataene og systemene. Det er lurt å gjenbruke informasjonen dere finner andre steder, og ofte er det utført mye godt arbeid tidligere. Det kan for eksempel finnes gode beskrivelser i planverk og oversikter, som en arkivplan eller datakatalog.
Arkivplanen er ofte et godt utgangspunkt. Arkivplanen inneholder mye informasjon om arkivene i virksomheten, og om systemets historikk og bruk. Den kan også inneholde historikk om virksomheten, for eksempel navneendringer, sammenslåinger eller endrede oppgaver. Se egen artikkel om arkivplan og internkontroll.
En oppdatert systemoversikt vil også inneholde viktige opplysningene dere trenger i forbindelse med uttrekket. Sjekk at opplysningene for det aktuelle systemet stemmer. Se veileder for systemoversikt med beskrivelser.
Har dere en plan for langtidsbevaring av elektronisk arkivmateriale er dere spesielt godt forberedt for å ta uttrekket. Se gjerne veilederen for hvordan planlegge langtidsbevaring av elektronisk arkivmateriale.
Hvis arkivmaterialet ikke skal bevares for ettertiden, skal det kasseres. Lagring har en kostnad. Jo eldre materialet blir, desto mer krevende kan det bli å vurdere bevaring eller kassasjon. Alle statlige virksomheter er pålagt å ha en bevarings- og kassasjonsplan som omfatter alt arkivmateriale. Planen skal inneholde en vurdering av informasjonsinnholdet i hvert system i henhold til Arkivverkets bevaringsprinsipper og relevant lovgivning, samt oppbevaringstider for kassabelt materiale. Denne må godkjennes av Arkivverket. En slik godkjenning er en forutsetning for at dere får overføre uttrekk.
Et uttrekk skal kun inneholde materiale som skal bevares for ettertiden. Hvis deler av dokumentasjonen i systemet skal kasseres, må dette skje før uttrekket overføres til Arkivverket.
Hvis systemet det skal tas uttrekk fra ikke er omfattet av en godkjent bevarings- og kassasjonsplan eller annet vedtak, må dere foreta en vurdering av innholdet og søke Arkivverket om godkjenning. Les mer om bevaring og kassasjon på våre nettsider. Arkivverket kan veilede i en slik prosess.
Vi anbefaler at dere allerede nå gjør dere kjent med skjema for arkivbeskrivelse (DOCX-fil) og hvilke opplysninger det skal inneholde.
Skjemaet skal følge med uttrekket, og skal hjelpe Arkivverket og fremtidige brukere med å få en overordnet beskrivelse av arkivet og sette det i en nødvendig sammenheng. Skjemaet vil danne grunnlag for avtalen om overføring til Arkivverket, og blir senere brukt i testing og godkjenning av uttrekket.
Det er viktig at dere fyller det ut presist, og vi anbefaler å gjenbruke den informasjonen dere fant i kartleggingen. Det vil være deler av skjemaet som dere ikke klarer å fylle ut med en gang. Dette kan gjøres underveis i prosessen.
Dere bør nå tenke på hvem som må involveres, og hvordan dere skal gripe an prosessen. Det å ta et uttrekk med tilhørende dokumentasjon har en naturlig avslutning ved godkjent overføring. Det kan derfor organiseres som et prosjekt med en dedikert prosjektleder. I tillegg til de som jobber med informasjonsforvaltning og arkiv er det aktuelt å involvere ledere, systemadministratorer, IT-teknikere og relevante fagavdelinger.
Hjelpespørsmål:
Det er virksomheten selv som dekker kostnaden ved produksjon av en arkivversjon og overføringen av denne til Arkivverket. Det er derfor viktig at dere setter av nok ressurser.
Når dere har gjennomført kartleggingen, er det tid for å kontakte Arkivverket for å inngå en avtale om overføring. Send inn utfylt skjema for arkivbeskrivelse og en forespørsel om avtale om overføring. Avtalen utarbeides i samarbeid og spesifiserer:
Avtalen kan gjelde én konkret overføring, periodiske overføringer fra et system eller en samling av flere overføringer.
En avtale binder partene til å oppfylle ansvaret sitt. Bruk den gjerne for å sikre finansiering og nok ressurser til å gjennomføre prosessen internt.
Nå er det på tide å ta et arkivuttrekk og lage en arkivversjon som skal overføres til Arkivverket. I neste kapittel er det beskrevet ulike typer uttrekk som kan produseres.
Når dere har lagd en arkivversjon, skal den pakkes på en bestemt måte for å kunne overføres til arkivdepot. Se egen veiledning i pakking og overføring av elektroniske arkiver.
Det finnes standardiserte metoder for å ta et uttrekk. Hvilken type man skal velge, avhenger av hva slags data man har og hvilket system disse er skapt i.
Primært kan systemene deles inn i to hovedgrupper: Noark-systemer og fagsystemer.
Noark-systemene følger kravene i Noark-standarden, en norsk standard for metadata i elektronisk arkiv og uttrekksformat for avlevering.
Begrepet fagsystem brukes om databaser, dataregistre og elektroniske system som ikke er godkjent etter Noark-standarden. Fagsystemer er utviklet for å støtte spesifikke arbeidsprosesser og oppgaver innenfor ulike fagområder. Det er en stor variasjon i hvor komplekse fagsystemene er og hvor enkelt det er å lage et uttrekk fra dem. Det er derfor viktig å legge en plan for hvordan man skal hente ut bevaringsverdig data og dokumentasjon til et strukturert og systemuavhengig format.
I denne veilederen har vi beskrevet de mest brukte uttrekkstypene og hva slags data de egner seg til. Hvis dere er usikre på hvilken hovedgruppe deres system faller under, ta gjerne kontakt med Arkivverket for veiledning.
Noark-standarden er fastsatt i riksarkivarens forskrift og angir hva et uttrekk skal inneholde, hvordan uttrekket skal være organisert og hvilket format dataene skal være i. I et Noark-uttrekk er arkivets logiske oppbygging beskrevet fra øverste nivå og ned til dokumentfil.
Alle systemer som er godkjent i henhold til Noark 5-standarden fra versjon 3.1 og fremover har funksjonalitet for å ta uttrekk etter krav fastsatt i riksarkivarens forskrift kapittel 5. Arkivskaper skal selv kunne bruke uttrekksfunksjonaliteten i et Noark 5-godkjent system.
Et arkivuttrekk bør generelt tas fra det systemet og den versjonen dataene ble lagret i, da er det minst risiko for feil. Det er likevel mulig å eksportere arkivuttrekk i Noark 5-format fra data produsert i en Noark 4-løsning. Dette avhenger av periodiseringstidspunktet.
Dersom periodiseringen skjer i en Noark 4-løsning, skal deponeringen overføres til Arkivverket i Noark 4-format. Dersom Noark 4-løsningen er konvertert til en Noark 5-løsning før periodisering, skal deponeringen overføres til Arkivverket i Noark 5-format.
Det er nå opp til hver virksomhet om de ønsker å ta SIARD-uttrekk fra eldre Noark-baser opp til Noark 4. For Noark 5-løsninger, må man fremdeles ta Noark 5-uttrekk. Et SIARD-uttrekk vil inneholde samtlige opplysninger fra systemet, og er å anse som et uordnet arkiv, en «databasedump», og slike uttrekk må ordnes før det kan deponeres.
For versjoner til og med Noark 4 kan virksomheten enten ta Noark-uttrekk eller SIARD-uttrekk. Når uttrekket tas fra et Noark 4-system, bør arkivet overføres til Arkivverket i Noark 4-format. Dersom Noark 4-systemet er konvertert til et Noark 5-system, skal arkivet overføres til Arkivverket i Noark 5-format.
Les mer om Noark 4 og tidligere Noark-versjoner.
Tabelluttrekk innebærer å ta uttrekk fra en eller flere tabeller fra databasen bak et system.
For mange fagsystemer er det passende å speile tabeller i databasen som rene tekstfiler. Det inkluderer tekstfiler på fastlengde eller tegnseparert format (for eksempel CSV) og strukturerte filer på rene tekstformat som JSON eller XML. Siden databasehåndteringssystemer ofte er lisensiert programvare og lagrer data på ulike måter, har Arkivverket behov for å standardisere uttrekksformater.
Det er mulig å lage uttrekk som inneholder et utvalg av tabellene i databasen, eller en fullstendig kopi av databasen. Hva som er hensiktsmessig, må vurderes ut fra bevarings- og kassasjonsvedtaket. Skal man lage en ny sammenstilling av data, må det skrives spørringer for akkurat dette formålet. Da er det viktig å kjenne datamodellen godt. Jo flere tabeller som bevares, desto mer grundig systemdokumentasjon trengs for at dataene skal være anvendbare.
Kompleksiteten kan være høy og dataene må senere sammenstilles for å være forståelige. Videre kan det følge med opplysninger som ikke har langvarig dokumentasjonsverdi og skal slettes ut fra for eksempel personvernhensyn. Derfor er det viktig at Arkivverket mottar systemdokumentasjon sammen med uttrekket.
Tabelluttrekk gjøres enten direkte og beskrives med ADDML (se eget kapittel) eller med en SIARD-metodikk. Se riksarkivarens forskrift kapittel 5 del III om formatkrav m.m. ved uttak av databasetabeller.
Rapportuttrekk er en sammenstilling av data fra en database fremstilt som en avledet databasetabell eller et arkivdokument. For enkelte systemer er det naturlig å lage slike rapporter.
Rapportuttrekk kan være aktuelt for systemer som allerede har innebygd funksjonalitet for å lage rapporter til andre formål. Slik funksjonalitet vil ofte være utprøvd og kvalitetssikret og kan gi anvendbare og tilstrekkelige arkiv. Resultatet blir ofte en eller flere enkeltfiler med strukturerte data.
Hvis systemet verken har eksportmulighet eller forhåndsdefinerte rapporter, kan man diskutere med systemleverandør om det finnes alternative eksport-muligheter.
Rapportene som lages skal vurderes ut fra bevarings- og kassasjonsvedtaket. De skal være i et av dokumentformatene som er spesifisert i riksarkivarens forskrift § 5-17.
SIARD (Software Independent Archiving of Relational Databases) er et format som er utviklet for bevaring av relasjonsdatabaser uavhengig av det opprinnelige systemet. En SIARD-fil inneholder en speiling av den underliggende databasen til et system, som én enkelt ZIP-fil med en samling av metadata og tabeller i XML-struktur. SIARD har relativt god verktøystøtte i produksjonen av uttrekk.
SIARD er ofte hensiktsmessig når all informasjon i et databasesystem skal bevares, men kan også benyttes for et utvalg av tabeller. SIARD-filen inneholder ikke nødvendigvis tilstrekkelig applikasjonslogikk og tabellrelasjoner for å være anvendbar i ettertiden. Derfor krever bruk av SIARD god systemdokumentasjon og kvalitetssikring av prosessen.
Mappestruktur er en hierarkisk organisering av mapper og filer i et datasystem. Har virksomheten for eksempel bygd opp et arkiv ved hjelp av filmapper og dokumentfiler på et delt nettverk, kan det være aktuelt å bevare strukturen og filsamlingen slik den ble skapt. Dette kan for eksempel være lyd-, bilde- og videomateriale.
Å bevare en mappestruktur kan være en aktuell uttrekksløsning i tilfeller der dokumentasjonen ikke ble skapt i etablerte arkivsystemer eller fagsystemer, men likevel anses som bevaringsverdig.
Denne uttrekksmetoden er mest vanlig for privatarkiv, men kan også være aktuell for enkelte typer arkivmateriale hos offentlige virksomheter.
Arkivdokumentene skal følge filformatkravene i riksarkivarens forskrift § 5-17, og det kan være nødvendig med filformatkonvertering før overføring til Arkivverket.
Skal dere konvertere deres avsluttede analoge arkiver og avlevere disse på et digitalt format, har Arkivverket utarbeidet to veiledere bør dere begynne med:
Hvordan planlegge mediekonvertering
Veileder for mediekonvertering av papirarkiver
Det brukes samme type uttrekksformater for mediekonverterte arkiver som for digitalt skapt arkivmateriale.
Valget av uttrekksformat vil være avhengig av:
Uavhengig av uttrekksformat må mediekonverterte arkiver ha en komplett teknisk struktur- og innholdsbeskrivelse i henhold til Arkivverkets standard ADDML, som er beskrevet i denne veilederen.
Krav til dokumentasjon som skal leveres sammen med det mediekonverterte materialet finnes i riksarkivarens forskrift kapittel 8 - konvertering for digital bevaring.
Det skal fylles ut et eget skjema for arkivbeskrivelse for mediekonverterte arkiver (DOCX-fil). Skjemaet skal inngå i arkivversjonen.
Ta gjerne kontakt med oss på et tidlig tidspunkt for å avklare hvilket uttrekksformat som er best egnet for arkivmaterialet dere ønsker å mediekonvertere.
For alle uttrekk skal det følge med en fullstendig teknisk struktur- og innholdsbeskrivelse i elektronisk form. Det vil si at det må lages en beskrivelse av de dataene som faktisk blir overført, og ikke bare av originalsystemet. Det viktigste er å lage en strukturert beskrivelse i et maskinlesbart format, fortrinnsvis XML, JSON eller tegnseparerte tekstfiler. Detaljerte krav til den tekniske dokumentasjonen finnes i riksarkivarens forskrift § 5-24 til § 5-26.
I dette kapittelet vil vi gå igjennom de ulike formene en slik beskrivelse kan ha, og presentere noen metoder som kan brukes i prosessen. Arkivverket tar langt på vei imot tekniske beskrivelser slik avgiver er i stand til å utforme dem, og er også behjelpelig med å omstrukturere dem i samarbeid med avgiver. Arkivverket kan også veilede om hvilken type dokumentasjon som er mest egnet for arkivversjonen som skal overføres.
For at man i ettertid skal kunne forstå og bruke informasjonsinnholdet i uttrekket, trenger Arkivverket å motta relevant dokumentasjon om systemet. Samlet kaller vi dette systemdokumentasjon, som dekker både den tekniske dokumentasjonen, samt annen administrativ dokumentasjon som kan fortelle noe om hvordan systemet har blitt brukt.
Eksempler på teknisk dokumentasjon:
Eksempler på administrativ dokumentasjon:
Systemdokumentasjonen legges i en egen mappe ved navn «sysdok» i arkivversjonen.
For Noark 5-uttrekk er kravene til systemdokumentasjonen mindre omfattende, da systemene allerede er godkjent etter Noark-standarden. Det er likevel ønskelig at sysdok-mappe følger med.
Ved avlevering eller deponering skal arkivdokumenter være på et av de godkjente formatene i riksarkivarens forskrift § 5-17. For andre typer formater må det gjøres særskilt avtale med Arkivverket.
Om konvertering til godkjente format ikke er gjort løpende mens arkivet oppstår, kan det bety at dere må konvertere arkivdokumenter til nye format i uttrekksprosessen.
Verktøy
Arkivverket har utviklet verktøyet Arkade 5. Dette kan brukes til å generere metadata og identifisere filtyper, og skal senere benyttes for å pakke for overføring til Arkivverket. Arkade 5 tilbyr en PRONOM filformatanalyse. I tillegg til å identifisere filtypene, kontrolleres disse opp mot de godkjente filformatene for avlevering og deponering i riksarkivarens forskrift §5-17.
En PRONOM filformatanalyse er en identifisering av filformater mot det tekniske filformatregisteret PRONOM, som er utviklet av det britiske nasjonalarkivet. Filendelser gir ofte hint om et filformat, men er ikke tilstrekkelig for å vite hva filen faktisk inneholder. For eksempel finnes det mange versjoner av PDF, og hver versjon kan igjen grupperes ut fra ulike konformitetsnivåer. Hvert av disse vil ha en unik PUID for å identifisere filtypen. Filidentifisering gjenkjenner og klassifiserer filer, men utfører ikke en validering av om filen følger alle formatkrav. Arkade 5 tilbyr per i dag en innebygd funksjon for validering av PDF/A-formater. Det finnes mange ulike valideringsverktøy for ulike format.
Konverteringer
Filformatanalysen vil avdekke hvilke filer som krever konvertering. Filformatkonverteringer varierer stort i kompleksitet, og siden det kan skje feil ved konverteringer kan man gjerne beholde produksjonsformatet og gjenskape strukturen i en egen mappe for de konvertere dokumentene. Disse to mappene kan for eksempel hete original og konvertert.
Når det gjelder selve konverteringen er det viktig å velge riktig verktøy. Det finnes en mengde konverteringsverktøy, og hvilket som er best egnet avhenger av filformatene som skal konverteres. Noen verktøy er spesialtilpasset for visse filformater, men andre er mer generelle.
For å sikre at alle filene er konvertert til egnede arkivformater, kan de konverterte filene kontrolleres på nytt med en PRONOM filformatanalyse. Dette vil bekrefte at filene har blitt konvertert til ønskelig arkivformat. For PDF-dokumenter anbefales det i tillegg å benytte valideringsverktøy som veraPDF, som kontrollerer at filene oppfyller alle kravene i PDF/A-standarden.
Innhold
Uttrekket skal inneholde arkivdokumenter, journalrapporter, metadata og endringslogg for en arkivdel og avgrenset tidsperiode. Uttrekket vil bestå av en samling XML- og XSD-filer som følger strukturen definert i Noark 5-standarden, samt en tilhørende mappe kalt «dokumenter» med dokumentfiler.
Opprydding bør utføres ved hjelp av funksjonalitet i løsningen, der arkivleder for eksempel kan masseavslutte saker per arkivdel. Det er ikke ønskelig at brukere med administrasjonsrettigheter gjør endringer direkte i databasen. Slik praksis kan resultere i tap av informasjon og manglende logger, og autentisiteten vil da svekkes.
Et uttrekk skal omfatte en avsluttet arkivperiode, og bestå av innholdet i en eller flere avsluttede arkivdeler.
Det bør være mulig å ta et uttrekk på grunnlag av start- og sluttdato, uavhengig av tilhørighet til arkivdel og om mappene er avsluttet eller ikke. Fra enkelte fagsystemer kan det være aktuelt å ta uttrekk basert på start- og sluttdato, uten hensyn til om mappene er avsluttet eller hvilken arkivdel mappene tilhører. Aktuelt seleksjonskriterium kan da for eksempel være journaldato.
Det skal også dokumenteres hvilke integrasjoner som er gjort mot andre systemer, lokale tilpasninger for møtebehandling og virksomhetsspesifikke metadata.
Verktøy
Uttrekksfunksjonalitet er en forutsetning for Noark-godkjenning av systemleverandører, og blir demonstrert for Arkivverket i løpet av godkjenningsprosessen. Dette skal sørge for at avgiver selv kan ta uttrekk.
Avgiver kan også teste Noark-uttrekk opp mot standarden med Arkade 5.
Dokumentasjon av Noark 5-uttrekk
Arkivversjonen skal inneholde en fil med navn arkivuttrekk.xml som beskriver arkivuttrekket og filene i det. Den skal inneholde følgende informasjon om et Noark 5-uttrekk:
Filstruktur i et Noark 5-uttrekk:
Innhold
De fleste uttrekkene fra fagsystem som overføres til Arkivverket, overføres i form av en eller flere tabeller hentet fra systemets underliggende database. Disse tabellene er ofte i form av strukturerte tekstfiler. Eksempler på dette er XML, JSON, fastbredde eller tegnseparerte (for eksempel CSV).
Metode
Det finnes flere metoder for å trekke ut innholdet fra en database. Metodene varierer med ulike plattformer, nettverk og brukertilganger. For å finne den mest hensiktsmessige metoden for et bestemt system, må dere vurdere mulighetene som er tilgjengelige og samarbeide med de som drifter systemet.
De fleste databaseløsninger har eksportfunksjonalitet innebygget, som ofte likner på funksjonalitet for å importere datatabeller til databasen. Mange databaseløsninger har også liknende funksjonalitet i form av rapportfunksjoner.
En annen måte å gjøre uttrekk fra databaser på, er å foreta spesifikke SELECT-spørringer direkte i databaseløsninger og eksportere resultatet som en tekstfil. På den måten kan man slå sammen tabeller om dette er hensiktsmessig, med tanke på bevaringsvurderingen som er gjort for systemet.
Det finnes også ekstern programvare som kan lese data fra databaser, bearbeide og eksportere dem. Men også programmeringsspråk som Python og C# har pakker som kan brukes for å lese og eksportere data fra databaser. Et annet alternativ er kommandolinjeverktøy i operativsystemene, slik som SQLCMD.
I Microsoft SQL Server Management Studio (SMSS) kan man høyreklikke på databasen, velge “Tasks” og “Export data”. Man kan da velge hvilke tabeller man vil eksportere, og hvilket tekstfilformat man ønsker dataene i.
Produksjon av uttrekk
Start med å identifisere de mappene og dokumentfilene som skal bevares i henhold til bevarings- og kassasjonsplanen.
Mappestrukturen kan allerede ha en logisk struktur som er tilstrekkelig for betjening og gjenfinning og gi nyttig informasjon om hvordan arkivet ble skapt. Det kan i andre tilfeller være aktuelt å bare ta med et utvalg av mapper og dokumenter. Det som skal bevares, skal så kopieres til en ny plassering.
Filformat
Det skal så kontrolleres hvilke filformater arkivdokumentene har og sammenstille en beskrivelse av strukturen. En mappestruktur inneholder som regel dokumenter i produksjonsformat, som ofte ikke er egnet for langtidsbevaring. I så fall må disse konverteres til godkjent arkivformat.
Dokumentasjon av uttrekk
Det må til slutt lages en beskrivelse av mappestrukturen. Detaljeringsnivå kan her vil avhenge av formål og eksisterende navngiving på mapper og filer. Finnes det allerede registre, arkivkoder eller oversikter, skal man ta utgangspunkt i disse. Detaljeringsnivå avtales i samarbeid med Arkivverket.
Innhold
Uttrekket skal inneholde en eller flere SIARD-filer, en «sysdok»-mappe med systemdokumentasjon og en undermappe for eventuelle eksterne dokumentfiler fra arkivet.
Selve SIARD-filen inneholder data fra en relasjonsdatabase i en ZIP-fil med to undermapper, «header» og «content». Mappen «header» inneholder filen metadata.xml, som har de overordnede metadataene om hver tabell, slik som tabellnavn, kolonnenavn, primær- og fremmednøkler, datatyper og liknende. Mappen «content» inneholder informasjonen som er i hver enkelt datatabell, i form av en mappe for hver tabell med nummererte XML-filer for hver tabell, og eventuelle filer med innholdet til LOB-er som er lagret i tabellene.
Verktøy
Uttrekk i SIARD-format kan tas ved hjelp av ulike verktøy som har sine fordeler og ulemper. Arkivverket har kjennskap til tre programvarer som tar uttrekk i SIARD 2.1-format, hvorav en er lisensiert (Spectral Core Full Convert) og de to andre er fri programvare (Siard Suite og Database Preservation Toolkit). Sikker bruk og installasjon av programvaren må avgiver selv ta ansvaret for. Uavhengig av verktøy, er det viktig at denne konverteringsprosessen dokumenteres så mye som mulig og at alle mulige logger opprettes og tas med.
Produksjon av uttrekk
I utgangspunktet kan arkivskaperen selv trekke ut arkivdata fra sin database. Dette forutsetter at man har tilstrekkelig tilgang for SQL-tilkobling til ønsket database (plattform-, database- og bruker-spesifikk). Det vil ofte også være behov for å ha administratortilgang til egen lokal PC. Har man ikke nødvendige tilganger, må dette ordnes, eventuelt i samarbeid med en tjenesteleverandør.
Database Preservation Toolkit (dbptk) er et verktøy som kan brukes for å generere SIARD-filer ved å koble seg til en relasjonsdatabase
Eksempel på filstruktur i et SIARD-uttrekk:
ADDML (Archival Data Description Markup Language) er Arkivverkets egenutviklede standard for teknisk beskrivelse av datasett. Standarden brukes for å beskrive poststrukturerte datafiler (tabelluttrekk) på teknisk detaljnivå. Standarden er i de senere år utvidet med muligheter for kontekstuell beskrivelse, men er fortsatt primært beregnet på teknisk beskrivelse.
En ADDML-fil skal inneholde både kontekst- og innholdsbeskrivelse. Filen skal også inneholde informasjon om hvor data finnes og hvordan dataene leses, forstås og etterprøves. Hvis det er gjort tilpasninger innen tegnsett eller kompliserte felter i løpet av uttrekksprosessen, vil ADDML-en være den maskinlesbare dokumentasjonen.
ADDML-filen skal inneholde referanseinformasjon om aktører og system som var med på å skape informasjonen i uttrekket.
ADDML-filen skal også inneholde informasjon knyttet spesifikt til uttrekket, som utvalgskriterier rundt start- og sluttdato for arkivskapning og typen uttrekk som blir overført.
Etter man har tatt et uttrekk fra fagsystemet:
For Noark 5 finnes kun referanse-informasjon og registerdata i ADDML, fordi beskrivelser, lese-informasjon og prosesser allerede er beskrevet andre steder, blant annet i standarden. Så ADDML-filen vil inneholde statistiske data om antallet poster, sjekksum og relasjon mellom filene (hvilke XML-filer som valideres med hvilke XSD-er). Hvis det er tatt i bruk andre elementer enn de som finnes beskrevet i standarden, skal disse beskrives med et eget XML-skjema.
Dere kan lage ADDML-beskrivelsen enten ved hjelp av Arkivverkets eget verktøy, Arkadukt, eller i en tekst- eller XML-editor. En XML-editor med auto-complete vil kunne generere en ADDML-fil med minimal kunnskap om standarden, samtidig som man får fylt ut det meste av informasjon på en strukturert måte.
Arkadukt fås ved henvendelse til Arkivverket. Programmet krever Java SDK versjon 7u79 og er sist oppdatert i 2014. Hvis dette hindrer dere i å ta i bruk programvaren, spør Arkivverket om konkrete eksempelfiler eller teknisk veiledning. Programmet gjør det lettere å lage en ADDML-fil, ved å legge et grafisk grensesnitt over syntaksen i filen, og legger opp til utfylling av faste felter i stedet. Underveis i arbeidet vil programmet rapportere om eventuelle mangler i filen, så man kan se om noe er feilsitert eller gjenstår.
Ta gjerne kontakt med Arkivverket om du skulle ha spørsmål eller trenger ytterlige veiledning. Det finnes blant annet muligheter for å overføre et prøveuttrekk for få tilbakemeldinger.
Vi vil også gjerne komme i kontakt for å lære om utfordringer og metoder for å gjennomføre uttrekk.
Skriv til oss på postmottak@arkivverket.no, så kan vi sette opp et digitalt møte.