Digitization Lifecycle Ingest

Digitization Lifecycle,MPDL

Manueller Ingest

 * Manueller Ingest V 0.1 (Frankfurt)
 * Manueller Ingest V 0.2 (Frankfurt)

Vorab
 * Generell werden Werke und Sammlungen verbunden. Dabei sind Sammlungen und Werke eigenständig bearbeitbar. Das Thema „Sammlung anlegen“ wird auf einer eigenen colab Seite ausgearbeitet.

Ingest (manuell) 14.09.2011
 * Ausgewählt werden können Images, MAB- und tei.xml Dateien sowie die Sammlung, zu der das Werk gehört. --Andrea 14:17, 6 October 2011 (CEST) Von der MPDL können folgende Dateien für die Bibliographischen Daten angenommen werden: MAB (wie schon gehabt), und auch MAB XML, sofern es folgendem Schema entspricht: http://www.d-nb.de/standardisierung/formate/mabxml-1.xsd und in UTF-8 enkodiert ist.


 * Image-Formate: tiff, jpeg, png (kein zip, keine ganzen Ordner auswählbar). Aus den Images werden beim upload jpeg Dateien (groß, mittel, klein) generiert.

MAB-Dateien
 * können auch manuell eingegeben werden.
 * bibliographische Metadaten können auch manuell eingegeben werden (Web Form).
 * Dabei werden sowohl bei vorhandenen MAB-Dateien als auch bei der manuellen Eingabe die hierarchischen Beziehungen (volume, multivolume, monograph) zwischen den Werken berücksichtigt. Bei vorhandenen MAB-Dateien möglichst automatisiert.

Zur Tabelle
 * Monograph: einbändige Werke; Stücktitel eines mehrbändigen Werkes
 * Multivolume: Mehrbändige Werke; Mehrbändiges Werk mit Stücktiteln
 * Volume: Einzelband

Ingest-Varianten

Anmerkungen
 * x	Pflichtangabe
 * (x)	optional
 * x1	Angabe der MAB-Datei (oder manuelle Eingabe bibl. Metadaten des volumes). Zuordnung zu einem multivolume.
 * x2	Angabe der MAB-Datei (oder manuelle Eingabe bibl. Metadaten des multivolumes). Daran können später volumes oder monographs angehängt werden.
 * x3	Angabe der MAB-Datei (oder manuelle Eingabe bibl. Metadaten eines monographs). Optionale Zuordnung zu einem multivolume.
 * Beim Ingest von weiteren volumes oder monographs stehen bibl. Angaben von zuvor ingesteteter multivolumes für die Verknüpfung zur Auswahl.

Anstoß des Ingests bewirkt *Automatisches Erzeugen des TEI-SD aus dem TEI-Volltext (wenn TEI-Ingest stattfand) (wird noch geprüft) --Luyu 11:02, 22 September 2011 (CEST)
 * Automatische Zuordnung verschiedener Datentypen (bibliographische Metadaten, Volltexte, Images)
 * Automatisches Erstellen von METS-xml
 * Herausfilterung der Seiteninformationen aus dem TEIs für die Anzeige (wenn ingestet)
 * PID Vergabe für das Werk und Generierung seitengenauer URLs.

Prüfroutinen
 * Entsprechen Tei-xml pagebreaks der Summe an Images? --Luyu 11:04, 22 September 2011 (CEST)
 * Wurden alle Scans korrekt übertragen?

Protokollierung Anzeige erfolgreich ingesteter Images in ihrer Reihenfolge (s. GUI-Prototyp 1.2)

Bearbeitung von bereits ingesteten Werken

Grundsätzlich sind alle Daten überarbeitbar. Hier müssen noch die Varianten definiert werden (Logik der Überarbeitungsmöglichkeiten): -
 * Alle Scans ersetzen
 * MAB-Datei austauschen
 * MAB Dateien manuell korrigieren
 * TEI-Datei austauschen
 * Ingestetes Werk nachträglich einem multivolume zuordnen
 * nachträgliches Zuordnen zu einer Sammmlung,
 * Datei-Versionierung
 * ...tbc

Batch Ingest
Anforderungen an die Ingest-Routine von Digitization Lifecycle (MPI für Rechtsgeschichte, 28.4.2011; Ergänzung durch das MPIB Berlin 16.05.2011)
 * abzuändern entsprechend sinnvoller Vorgaben die sich aus dem manuellen Ingest ergeben--Caesar 14:23, 22 September 2011 (CEST)

Vorbemerkung:

Das Verfahren entspricht im Großen und Ganzen dem, das in unseren bisherigen Projekten zum Einsatz kam und das sich wegen seiner Unkompliziertheit und Schnelligkeit bewährt hat. Das MPIB hat 4c. ergänzt (Thema: Ingest von mehreren TEI-Dokumenten)

Ziel:

Die Ingestprozedur wird von Anfang an so gebaut, dass
 * ein Ingest sowohl von Einzelbänden als auch ein Ingest von „Lieferungen“ (d.h. mehrere/viele Bücher gleichzeitig) möglich ist;
 * die Zuordnung verschiedener Datentypen (bibliographische Metadaten, Strukturdaten, Volltexte, Images, …) in einem automatisierten Prozess erfolgt;
 * die Umwandlung der Rohdaten in Lifecycle-Datenformate in einem automatisierten Prozess erfolgt;
 * gleichzeitig mit dem Ingest neuer Daten eine Aktualisierung von Metadaten stattfinden kann;
 * nötige Prüfroutinen, Protokollierungen und Exporte stattfinden.

Ausgangspunkt:

Der Ingest erwartet mindestens Images und Bibliographische Metadaten. Es ist möglich, NUR Images oder bibliographische Metadaten „auf Vorrat“ an die definierten Stellen zu kopieren, findet das System aber nicht beide vor, wird kein Ingest durchgeführt.

Schritte:

1. Auswahl der Digitalen Sammlung

2. Kopieren von Bildern in ein definiertes Verzeichnis
 * 1. Lieferung: x Verzeichnisse mit Bildern zu x Büchern
 * 2. Lieferung: x+n Verzeichnisse mit Bildern zu x+n Büchern

Variante 1 (Standard – bei guter Vorbereitung und Prüfung der Daten): Es kommen mit einer neuen Lieferung jeweils nur neue Bilder hinzu, an den alten Bildlieferungen/-verzeichnissen ändert sich nichts.

Variante 2 (möglichst zu vermeiden, aber nicht auszuschließen): Es kommen mit einer neuen Lieferung jeweils neue Bilder hinzu UND in den alten Bildlieferungen/-verzeichnissen werden einzelne Bilder ausgetauscht/überschrieben (neuer PID?, Versionierung?).

Variante 3 (möglichst zu vermeiden, aber nicht auszuschließen): Es kommen mit einer neuen Lieferung jeweils neue Bilder hinzu UND Verzeichnisse aus älteren Bildlieferungen werden komplett ausgetauscht (neuer PID?, Versionierung?).

Was bedeutet „alte Bildlieferungen/-verzeichnissen“ hier? Spricht eigentlich schon über reinjest? --Luyu 12:32, 22 September 2011 (CEST)

3. Kopieren von bibliographischen Metadaten in ein definiertes Verzeichnis - 1. Lieferung: EINE Datei mit den Bibliographischen Daten von Lieferung 1. Die Datei enthält alle bibliographischen Daten zu allen Bänden inkl. die Datensätze von Überordnungen (Gesamtaufnahme mehrbändiges Werk, Serie, …) und von Unterordnungen (beigefügte/enthaltene Werke, …) - 2. Lieferung: EINE Datei mit den Bibliographischen Daten von Lieferung 1 und 2 … -> mit jeder Lieferung werden ALLE jeweils aktuellen bibliographischen Daten dieser Sammlung eingespielt und damit Aktualisierungen/Korrekturen vorgenommen.

Besonderheit fortlaufende Sammelwerke / Zeitschriften: Hier gibt es nicht für jeden Band einen eigenen Datensatz, deshalb werden die bibliographischen Angaben mit Angaben zu den Bänden ergänzt:

Bsp.: "Jg. 1846, Bd. 3 (1846)"
 * Bandangabe/Erscheinungsdaten des Einzelbandes in zusammenfassender Form;
 * Sortierfeld 1 (5stellig, mit führenden Nullen)
 * Sortierfeld 2 (3stellig, mit führenden Nullen)
 * Fußnote
 * Besitzer der Digitalisierungsvorlage
 * [zu ergänzen]

4a. Kopieren von offline erzeugten Strukturdaten in ein definiertes Verzeichnis -> mit jeder Lieferung werden ALLE jeweils aktuellen Strukturdaten dieser Sammlung eingespielt und damit Aktualisierungen/Korrekturen vorgenommen.
 * 1. Lieferung: x MODS-Dateien zu x Büchern
 * 2. Lieferung: x+n MODS-Dateien zu x+n Büchern

Auch beim Vorhandensein eines online Strukturdateneditors relevant (von dem wir ausgehen), um Aktualisierungen / Ergänzungen ggf. offline durchführen zu können. Strukturdaten online erfasst -> Export -> Änderung -> Ingest (Überschreiben)

Und/oder

4b. Kopieren von offline erzeugten TEI-Volltexte in ein definiertes Verzeichnis … -> mit jeder Lieferung werden ALLE jeweils aktuellen TEI-Volltexte dieser Sammlung eingespielt und damit Aktualisierungen/Korrekturen vorgenommen.
 * 1. Lieferung: x TEI-Dateien x Büchern
 * 2. Lieferung: x+n TEI-Dateien zu x+n Büchern

4c. Ingest von MEHREREN TEI-Dateien -> Wenn sich etwas an dem TEI-Volltext oder an include.xml ändert, dann muss wieder ingestet werden, um eine Aktualisierung in der DLC-Umgebung zu erreichen -> mit jeder Lieferung werden ALLE jeweils aktuellen TEI-Dokumente eingespielt und damit Aktualisierungen/Korrekturen vorgenommen.
 * Ziel soll es sein, dass auch externe TEI-Dokumente, die sich auf ein anderes TEI-Dokument beziehen, ingestet werden können. D. h., dass der Editor aus mehreren zueinander gehörenden TEI-Dokumenten (TEI-Volltext, 1x TEI-include.xml) ein TEI macht.

[4d. weitere, z. B. kodigologische Metadaten]

5. Anstoß des Ingests, bewirkt:

5a. Automatisches Errechnen von Image-Derivaten (jpeg, PDF), wenn technisch erforderlich: Imageimport in Digilib, eSciDoc Danach: Automatisches Verschieben der Image-Rohdaten in ein „Zwischenarchiv“ (also aus dem Ingest-Verzeichnis raus)

5b. Automatische Zuordnung der verschiedenen Datentypen anhand von Identifiern, Verzeichnis- und Dateinamen Verschiedene denkbare Varianten (können sich von Sammlung zu Sammlung unterscheiden, innerhalb einer Sammlung aber nicht gemischt werden):

5c. Automatisches Erstellung von METS-xml

5d. Automatisches Erstellen von TEI

5e. Verknüpfung mit Normdaten

5d. Automatische Vergabe von Persistent Identifiern (PID) Handle-PID für das gesamte Buch (Digitale Faksimiles) (verschiedene PIDs für verschiedene Auflösungen?) Handle-PID für jede einzelne Seite (Digitale Faksimiles) (verschiedene PIDs für verschiedene Auflösungen?) Handle-PID für Struktur- und Volltextdaten? [zu ergänzen]

6. Prüfroutinen
 * Existieren mindestens Images und bibliographische Metadaten, die einander zugeordnet werden können?
 * Sind die gelieferten Strukturdaten valide?
 * Sind die TEI-Daten valide?
 * [- zu ergänzen]

7. Protokollierung
 * Anzahl der enthaltenen Bände (gesamt / neu)
 * Anzahl der enthaltenen Images (gesamt / neu)
 * [- zu ergänzen]

8. Export
 * Export von URL/PID zum Einspielen in den lokalen Bibliotheks-OPAC
 * [- zu ergänzen]

Ingest-Manager
 * Mittels eines Ingest-Tools ließe sich der Ingest weniger statisch gestalten. Es ist zu überlegen, ob so etwas Sinn macht.
 * Funktionen
 * die Definition von Identifiern, Verzeichnis und Dateinamen, die zur Verknüpfung der Daten herangezogen werden (s. 5b);
 * die Angabe von lokalen- oder Webverzeichnissen, auf denen Daten zum Ingest bereitliegen;
 * die Auswahl, welche Art von Daten ingestet werden sollen.
 * Definition: was soll mit den Daten gemacht werden?
 * Ersetzen von Bibliographische Metadaten
 * Hinzufügen/ersetzen von Imageverzeichnissen
 * Hinzufügen/ersetzen von Strukturdaten
 * Hinzufügen/ersetzen von Volltexten
 * [zu ergänzen]