In de afgelopen jaren is de behoefte aan langetermijnarchivering en langetermijnbewaring van “digital born” informatie toegenomen en daarmee ook de roep om een universeel archiveringsformaat. Het idee hierachter is om een bestandsformaat te hebben waarmee je informatie permanent kunt opslaan en lezen zonder dat er informatie verloren gaat.
Indien mogelijk, zelfs de “grafische” informatie, in het geval dat bijvoorbeeld tekstkleur of het gebruikte lettertype informatie zou overbrengen. PDF/A is de oplossing voor dit alles. Of niet?
De twee belangrijkste woorden in mijn eerste zin zijn: “Digital Born”. Wat, is het niet de oplossing voor al onze archiveringsbehoeften? Je zou het je kunnen afvragen. Ik zal het proberen uit te leggen.
Om te beginnen zijn er veel misvattingen of mythes over het formaat:
- We kunnen alles converteren naar PDF/A
- We moeten elk bestand dat we moeten archiveren converteren naar PDF/A
- PDF/A helpt ons te bewijzen dat het bestand niet is gewijzigd tijdens de bewaarperiode
Ik heb nergens informatie of artikelen gevonden die deze misvattingen tegenspreken.
Moet je elk bestand naar PDF/A converteren?
Als de bewaartermijn die van toepassing is op het bestand, geen risico oplevert met betrekking tot de leesbaarheid van het bestand (“Kan ik het bestand over 5 jaar nog steeds openen of lezen?”), dan is het antwoord nee.
PDF/A helpt ons te bewijzen dat het bestand niet is gewijzigd tijdens de bewaarperiode:
Net als elk ander PDF-bestand kan het bestand worden bewerkt. We hebben zelfs eens een verzoek van een klant gekregen om een aangepaste module te maken die een specifieke koptekst aan de PDF/A zou toevoegen, met informatie die niet in de oorspronkelijke bestanden was opgenomen.
Om de een of andere reden wordt een PDF/A-bestand vaak verward met een PDF-bestand dat digitaal verzegeld is (verzegeld, niet ondertekend). Als je wilt bewijzen dat er tijdens de bewaarperiode niet met je bestand is geknoeid, heb je een van de volgende zaken nodig:
- Digitaal verzegelen (kan via deze oplossing)
- Via Audit Trailing op je ECM-systeem
- Via auditing op je betrouwbare archief
En dit is voor veel organisaties het grootste probleem, omdat ze vaak tonnen bestanden hebben opgeslagen als PDF (en niet als PDF/A).
Hoe komt dat?
PDA/A werd gecreëerd als een formaat, en het werd al snel een ISO-standaard, die het mogelijk maakt om de informatie die nodig is voor een correcte visuele weergave van het originele bestand op te slaan in het bestand zelf.
Dit betekent dat onafhankelijk van de gebruikte weergavetoepassing of de gebruikte clientomgeving, het bestand er nu en over, laten we zeggen, 50 jaar identiek uit moet zien.
Dit was vooral gericht op documenten van digitale oorsprong, vaak tekstdocumenten van digitale oorsprong.
Het converteren van een bestand naar PDF/A-1a of PDF/A-1b (de meest verspreide en gebruikte versies van het PDF/A-formaat) legt een aantal vereisten en beperkingen op aan het bronformaat.
Dit zijn ze in het kort:
Vereisten:
- Het bestand moet de ingesloten lettertypen bevatten. (De gebruikte lettertypes worden opgeslagen in het bestand).
- Er moeten apparaatonafhankelijke kleurenschema’s worden gebruikt.
- Extensible Metadata Platform (XMP) metagegevens
PDF/A-1 Beperkingen zijn (voornamelijk in PDF/A-1):
- Encryptie
- LZW compressie (vervangen door ZIP)
- Ingesloten bestanden (is toegestaan in v2 en v3)
- Verwijzingen naar externe inhoud
- PDF Transparantie
- Multimedia
- JavaScript
Bij het maken van een correct bestand is het meer dan alleen het toevoegen van een “vlag”, er moet worden gecontroleerd of het bestand voldoet aan de vereisten en beperkingen.
Men moet zich bewust zijn van het feit dat bij het maken van een bestand vaak het benodigde originele (digitale) bestand nodig is om een doelbestand te kunnen maken dat aan alle eisen voldoet.
Het bestand moet ook worden gemaakt met een tool (of machine) die alle benodigde informatie bevat (zoals de lettertypen). Deze pagina bevat een zeer goede beschrijving van de meeste manieren hoe een correcte PDF/A kan worden gemaakt.
De meest gebruikte versie van PDF/A is PDF/A-1, die gebaseerd is op PDF 1.4. Als u een PDF-bestand dat na PDF 1.4 is gemaakt, wilt converteren naar PDF/A-1a of PDF/A-1b, moet u alle functies verwijderen die nog geen deel uitmaken van de PDF 1.4-indeling.
Aangezien PDF/A-2 gebaseerd is op PDF 1.7, wordt dat informatieverlies beperkt, maar het is nog steeds geen goede archiveringspraktijk om uw documenten als PDF/A-2 op te slaan en het originele formaat niet te bewaren.
Waarom zouden we niet alle bestanden naar PDF/A converteren?
Er zijn verschillende redenen om dit niet te doen. Dit klinkt misschien een beetje bizar, omdat we onze eigen oplossing bieden om bestanden te converteren naar PDF/A en ze te corrigeren en valideren. Maar onze DocShifter oplossing maakt het ook mogelijk om je bestanden te converteren naar andere formaten.
Technische beperkingen:
- Afbeeldingsbestanden: Het converteren van afbeeldingsbestanden (bijv. Tiff-bestanden) naar PDF/A heeft niet veel toegevoegde waarde. Deze bestanden zijn over het algemeen al een correcte grafische en inhoudelijke weergave van zichzelf. Integendeel, als andere bestandstypes niet correct kunnen worden geconverteerd naar PDF/A, worden ze als laatste redmiddel vaak geconverteerd naar een afbeelding en opgeslagen.
- Gescande documenten: Gescande documenten zijn uiteindelijk afbeeldingsbestanden (tenzij ze via OCR-technieken zijn geconverteerd naar een document). Voor afbeeldingen geldt dus het vorige opsommingsteken.
“Functionele” of nalevingsbeperkingen
- Aantonen dat er niet met het bestand is geknoeid. Dit is niet iets dat kan worden bereikt via, maar via oplossingen die ofwel een audit trail voor het bestand creëren of een digitaal zegel aan het document toevoegen.
- Audit trailing: Dit kan via een ECM-oplossing met de juiste functionaliteiten of via een oplossing zoals Kazeon.
- Digitaal verzegelen: Een gekwalificeerde digitale verzegeling kan bewijzen dat er niet met het bestand is geknoeid, binnen de juiste voorwaarden.
- De leesbaarheid van het digitaal bewaarde bestand garanderen: De internationale standaard op dit gebied is de OAIS-standaard. OAIS stelt een aantal best practices voor die geïmplementeerd moeten worden, maar legt geen specifiek formaat op.
- Het belangrijkste om te weten is dat je altijd, ALTIJD, het originele formaat moet behouden. Het gemigreerde (of geconverteerde) formaat is er om ervoor te zorgen dat je de informatie nog steeds kunt lezen. Na verloop van tijd kan de “secundaire” indeling veranderen. Bovendien moet je op elk moment het secundaire formaat kunnen verifiëren of valideren ten opzichte van het primaire formaat.
Is er iets misgegaan met de conversie? Wat ga je dan doen? Bewaar altijd het originele bestandsformaat!!! Wees altijd origineel!