Digitization Lifecycle Telco (batch-ingest) 2012-03-08

Allgemeine Infos

 * Termin: Donnerstag, 08.03.2012
 * Uhrzeit: 10-12 Uhr

Einwahldaten
 * Zugangstelefonnummer: 069 27113800
 * Für alle Teilnehmer gilt der Code: 54175#
 * 0 Operatorhilfe: Bei Problemen bzw. Fragen zum Handling der Telefonkonferenz können alle Teilnehmer mit dieser Tastenfolge Operatorhilfe anfordern.
 * 6 Nur zuhören: Teilnehmer Können so selbst ihr Telefon in den reinen Hörmodus versetzen. Erneute Eingabe von *6 deaktiviert den Hörmodus.

Teilnehmer Bitte melden Sie sich an, indem Sie Ihren Namen hier eintragen.
 * Andrea Kulas (MPDL)
 * Sigrid Amedick
 * Ingo Caesar
 * Lisa Pegelow
 * Wilhelm Frank
 * Klaus Werner
 * Anna Klug

Agenda

'''1. Ingest der bibliographischen Metadaten. Wie sollen die Daten vorliegen? Varianten und Szenarios'''

1.1 Alternativen zum bisherigen Ansatz
 * MARC, MARCxml, MABxml, MODS (am simpelsten) sind möglich.

1.2 Dublettenproblem (Florenz/Rom) und eindeutige ID pro Werk
 * Unter einem Datensatz hängen mehrere Expemplare (eins aus Rom und eines aus Florenz). Für jedes in DLC ingestete Werk bedarf es aber einer eineindeutigen ID. Lösungsidee: Erstellen einer neuen Aufnahme für die Sekundärausgabe (für jedes Exemplar einzeln: Sekundärformen gelten als eigene Ausgaben nach RAK-NBM (§2NBM 4,b). Im Aleph-Verbund erhalten diese Ausgaben dann jeweils eine eineindeutige Nummer.

1.3. Möglichkeiten zum Hinzufügen von Angaben zur Sekundärausgabe
 * Faksimile der Hauptaufnahme mit Sekundärausgabe in einem ausgebbaren Feld (z. B. Feld 501: Anmerkung/Fußnote).
 * Beim manuellen Ingest: Nachträgliches Hinzufügen von Angaben möglich. Diese Felder müssten festgelegt werden. Beim Batch Ingest schwierig.
 * Manipulierte MABxml Dateien

2. Aufsätze als weitere Kategorie beim manuellen Anlegen (neben volume, multivolume und monograph)
 * Die Kategorie ist nur sinnvoll, wenn es sich um *einen Aufsatz* handelt, der eine Entität bleibt. Insofern könnte er als monograph behandelt werden. Als Aufsatz in einem ingesteten Band wir die Aufsatzaufnahme zu einem Teil der Struktur(keine Entität). Zudem kann es zu Dopplungen (aufsatz, und volume, worinnen der Aufsatz zu finden ist) kommen. Offen ist, wie oft es in Zukunft passieren wird, dass ein Wissenschaftler einen einzelnen Aufsatz hochlädt, der einzeln bleibt.

3. Bezugseinheit von multivolume zu multivolume
 * Braucht es eine Bezugseinheit von multivolume zu multivolume? Usecase: Eine Gesamtausgabe besteht aus mehreren Abteilungen, die wiederum aus einzelnen Bänden bestehen.
 * --Lisapegelow 12:13, 8 March 2012 (CET) in PICA wird dieser UseCase nicht abgebildet. Wenn ein multivolume aus 3 Stufen besteht(1. Stufe: gesammelte Werke, 2. Stufe: Abteilung, 3. Stufe: einzelner Band), dann wird dieses multivolume wie ein einfaches mehrbändiges Werk behandelt, es gibt in PICA nur 2 Stufen (Gesammelte Werke, Bände (u in den einzelnen Bänden wird in einer Kategorie die Abteilung vermerkt)).

Protokoll: Formate und Batch Ingest
1.1. Konsens: MAB-XML
 * Institute liefern MAB-XML Dateien (eine Aufnahme pro Datei)
 * Endung ist .mabxml

Identifikator für die Zuordnung der Dateien (MAB, Scans, TEI):

Berlin/Frankfurt: MAB-Nr. 001 (PPN, Kotalognummer): Bei der GWDG wird folgende Ordner-Struktur angelegt:


 * Ein Ordner mit vielen MAB-XML-Dateien
 * x-Ordner Images (Menge der Image-Ordner entspricht den MAB-Dateien, die Images mit sich führen, also volumes und monographs)
 * Ein Ordner TEIs (Menge der TEIs entspricht idealiter den MAB-Dateien, die mit Imageordnern verbunden sind, also volumes und monographs)
 * Über die MAB 001 in den Dateien im MAB Ordner werden die Image-Ordner (Bennenung nach MAB 001) und die TEIs (dito) richtig zugeordnet.
 * Intitialisierung: Via FTP werden bei der GWDG die jeweiligen Zielordner angesprochen.

Rom/Florenz: Verzeichnis benannt nach Signatur enthält .mabxml, images und tei.xml Datei.

die Struktur der von BHRom an DLC gelieferten Daten wird wie folgt aussehen:

FOLDER[Name=NormalisierteSignatur (Signatur ohne Leerzeichen, Schraegstriche etc.)] |  |   |--Image001       // Bilddaten, in Reihenfolge |--Image002 |--Image003 |--Image... |--Image899 |  |--mab.xml        // MAB Daten |--tei.xml       // TEI Daten KHI: ebd. - Ausnahme ist die Anordnung der Scans von Faltblättern. Diese figurieren immer als letzte Scans. Über die Scanverweise in den  werden sie aber an die richtige Position innerhalb des jeweiligen TEI-Dokuments gerückt.


 * Initialisierung: Die Folder werden nach dem obigen Beispiel werden als zip Files von einem rechner aus hochgeladen.


 * Neueste Version der Konversionstools der DNB (zu MABxml und zur Kodierungskonversion.)

Vorbereitung der Institute

1. Rohe MAB-Dateien werden nach UTF-8 konvertiert (falls erforderlich und UTF-8 nicht bereits vorliegt)

2. MAB (UTF-8) werden zu MAB-XML konvertiert.


 * DLC: (Batch-) Ingest mit Prüfung (gültiges XML, valide gemäß Schema) (Meldung: Datei valide, nicht valide), Auswahl ob Transfer via zip upload oder FTP vollzogen wird.

1.2 Dublettenproblem (Florenz/Rom) und eindeutige ID pro Werk
 * Ordner werden nach der Signatur benannt. Eindeutigkeit ist zudem nur auf der Ebene einer Sammlung eines Instituts notwendig. Florenz prüft nochmal, ob diese Variante intern tragfähig ist.

1.3. Möglichkeiten zum Hinzufügen von Angaben zur Sekundärausgabe
 * Wird durch Manipulation der MAB-XML-Datei gewährleistet.

2. Aufsätze als weitere Kategorie beim manuellen Anlegen (neben volume, multivolume und monograph)
 * Anna Klug spricht nochmal mit Jan Simane bezüglich der Notwendigkeit für Aufsätze eine Extrakategorie anzulegen. Evtl. reicht es, das Feldset des Typs monograph für die Eingabe von Aufsatzdaten zu verwenden.

3. Bezugseinheit von multivolume zu multivolume
 * Wird eher nicht benötigt: Wenn jemand hierfür Bedarf sieht, soll er/sie sich melden.

ToDo
 * Jedes Institut spezifiziert das wünschenswerte Szenario für den Batch-Ingest. (done s.o, --Caesar 14:54, 28 March 2012 (CEST))
 * Der Batch-Update ist noch zu spezifizieren. Komplettaustausch von Ordnern ist einfach, einzelne Dateien auszutauschden schwieriger.

Weitere Themen
DLC und DTA-Format: Klaus Werner schreibt zu dem Thema ein statement. S. auch die Ausführungen der letzten Editing Telko
 * Datenformat

Derzeit werden die xhtml Dateien des TEI Konsortiums verwendet, diese sind für die Anzeige aber nicht befriedigend. Wilhelm Frank beginnt damit, neue xhtml Dateien zu schreiben, was wiederum Ressourcen bindet. Dabei wird eine grobe Strukturtranskription angestrebt. --Andrea 17:50, 14 March 2012 (CET) Die Institute können bei dieser Aufgabe nicht unterstützen (fehlendes Fachwissen oder zu wenig Zeitressourcen).
 * Anzeige Volltexte

Auf der kommenden Viewing Telko kann der Punkt "Wording" behandelt werden (und die gelben Klebezettel im GUI-Prototypen). Die Anweseheit der Entwickler ist nicht erforderlich.
 * Viewing

Die aktuellen Screenshots für das Editing sind noch nicht im aktuellen GUI-Entwurf abgebildet. Andrea Kulas hält Rücksprache mit Herrn Kiefl. --Andrea 17:52, 14 March 2012 (CET) Herr Kiefl überarbeitet aktuell den Prototypen. Mitte April ist mit einer Fertigstellung zu rechnen. Spätestens dann wird auch der aktuelle Editing-Teil sichtbar für alle sein.
 * Editing

Termin nächste Telko'
 * Do, 29.03.2012, 10-12:00

--Caesar 14:16, 8 March 2012 (CET)