Digitization Lifecycle Telco 2012-04-19

Digitization Lifecycle,MPDL

Allgemeine Infos

 * Termin: Donnerstag, 19.04.2012
 * Uhrzeit: 12:30-14:00 Uhr

Einwahldaten:
 * Zugangstelefonnummer: 069 27113800
 * Für alle Teilnehmer gilt der Code: 54175#
 * 0 Operatorhilfe: Bei Problemen bzw. Fragen zum Handling der Telefonkonferenz können alle Teilnehmer mit dieser Tastenfolge Operatorhilfe anfordern.
 * 6 Nur zuhören: Teilnehmer Können so selbst ihr Telefon in den reinen Hörmodus versetzen. Erneute Eingabe von *6 deaktiviert den Hörmodus.

Teilnehmer: Bitte melden Sie sich an, indem Sie Ihren Namen hier eintragen.
 * Andrea Kulas (MPDL)
 * Ingo Caesar (MPIeR)
 * Lisa Pegelow (MPIB)
 * Klaus Werner
 * Anette Creutzburg

Agenda:


 * Kurzbericht Entwickler
 * Kurzbericht und Austausch Arbeitsgruppen / Projektmitarbeiter
 * Bericht Projektkoordination und Info über letzte Telko Bibliotheksleiter (Digitalisierungsleitfaden etc.)

Protokoll
Protokollantin: Lisa Pegelow

Kurzbericht Entwickler (Markus)


 * Editing:

Hinsichtlich der Struktur beim Editing nach den Vorgaben aus dem Workshop sind die Entwickler schon weit fortgeschritten (s. dazu auch die Mail von Andrea Kulas vom 18.4. inkl. der Screenshots). D. h., dass wir davon ausgehen, dass bspw. die Menüs grundsätzlich mit der GUI abgeglichen werden. Es stellt sich hier die Frage, wie das weitere Vorgehen der AG Edit ist. Ergebnis: der Edit-Bereich wird inkl. GUI fertig gemacht, dann wird drüber gesprochen. Unabhängig davon können aber Auffälligkeiten am derzeitigen Stand des Edit-Bereichs und ggf. daraus resultierende Änderungsvorschläge gesammelt werden. Nach Fertigstellung des Edit-Bereichs gibt es dann die Möglichkeit zu testen (mit GUI) u. ggf. notwendig werdende Änderungen durch die Entwickler vorzunehmen. Vorgesehen ist, dass auf dem Projekttreffen in Frankfurt/Main über den bis dahin vorliegenden Stand gesprochen wird. Anfang/Mitte Juni wird die GUI voraussichtlich in den Edit-Bereich eingebunden sein. Auf der nä. Projektmitarbeiter-Telko besprechen wir, ob es ggf. mgl. ist, bereits vorher zu testen.


 * MyItems:

Es ist ein neuer Bereich für eingeloggte Benutzer angelegt worden: MyItems-Bereich. Dort sind für den Benutzer die Werke zu sehen, wo sie das Recht haben, diese zu bearbeiten. Es gibt dort auch Editier-Funktionalitäten.


 * Allgemeines zur GUI:

Marco Schlender arbeitet an der GUI – wenn diese aktuell ist, stellt er sie online. Formen, Positionen und Farben sind derzeit noch zu ignorieren, diese Punkte gehören alle zur GUI. Andrea Kulas informiert via Mailingliste bzgl. des weiteren Viewing-Vorgehens, v. a. wg. eines einzigen Ansprechpartners der Viewing AG für die MPDL (s. dazu auch Protokoll der Projektmitarbeiter-Telko vom 29.03.2012)


 * URL:

Referenzierung ist gewährleistet, auch wenn die Seite nicht komplett neu geladen wird, sondern nur bestimmte Bereiche. Vorteil: geringere Ladezeit; Nachteil: URL wird nicht geändert/Seite bleibt statisch. Über einen Permanent-Link ist das behebbar, derzeit nicht mehr im GUI-Entwurf vorgesehen (in einer der letzteren Versionen gab es einen Button: Permanent-Link).


 * Bibliografische Metadaten / ISBD-Formatierung:

Hier gibt es noch Formatierungsschwierigkeiten. Grundsätzlich: bei der dortigen Listenansicht handelt sich um eine Frage der Ansicht und ist demnach Angelegenheit der GUI. Bei den Einzelteilen/Wording der Feldnamen u. Feldeinträgen muss geprüft werden, ob alles in den entsprechen richtigen Feldern/Kategorien drin steht. Bspw. bedeutet das Kürzel ???_, dass hier das Wording noch aussteht.


 * Anzeige TEI:

Für die Anzeige des TEIs wird das TEI-Stylesheet des TEI-Konsortiums verwendet. Diese Lösung ist nicht unbedingt optimal. Es gibt auch die Möglichkeit, den Text als Block (Absatz, Text läuft von links nach rechts u. nutzt den gesamten Platz aus oder inline (zeichenbasiert) darzustellen. Markus Haarländer schickt an Klaus Werner ein TEI-xml, damit dieser es bzgl. der Anzeige bearbeitet. Das dient der besseren Visualisierung für Viewer und einer Entscheidung, was gewünscht wird bzgl. der Ansicht eines TEI-Textes in DLC. Grundsätzlich ist es so, dass der im Online-Editor ausgezeichnete Text in ein TEI-SD umgewandelt wird und immer, egal in welcher Tiefe und Genauigkeit dieser dann vorliegt, als Volltext-TEI in DLC angezeigt wird.

Kurzbericht und Austausch Arbeitsgruppen / Projektmitarbeiter


 * Klaus Werner

Aufarbeitung von digitalen Texten aus verschiedenen Quellen

1.	B.I.T- Tomasi

Die digitalen Texte liegen u. a. als alto-xml vor. Jede Seite ist ein separates xml-dokument mit Angabe der entsprechenden Seitenzahl. Es wird hier kein Unterschied zwischen Überschriften und Textblöcken gemacht. Positionen der einzelnen Worte werden mit erfasst – derzeit ist der Anwendungsfall noch nicht aufgetreten. Grundsätzlich waren die Vorlagen schwierig wg. der Sprache Latein und der sich daraus ergebenden schlechten OCR-Qualität. Angestrebt ist, mehrere OCR-Durchläufe zu machen (im Anstand von einigen Monaten, je nach Entwicklungsstand der Software). Ziel ist es, aus dem alto-xml ein TEI-XML zu erhalten. Für die Erstellung solch einer Transformation wird etwa ein Monat kalkuliert, danach ist es zeitlich nicht der Rede wert, pro Buch in alto-xml dieses in TEI-XML umzuwandeln.

2.	Chinatranskription (Anbieter: Klaus besorgt Info)

Im Großen und Ganzen in Ordnung, aber dennoch sind die Ergebnisse (Art xml, aber nicht vollständig) nicht ohne weiteres weiterzugeben/zu nutzen. Die Vorlagen sind von 1570, gespickt mit Umlauten und Sonderzeichen. Buchstabenerkennung war gut, Textblöcke sind als Textblöcke erkannt worden, die Trennung war mitunter schwierig, Abbildungen sind rudimentär dargestellt worden, eine Strukturierung 1., 2., 3. Ebene wurde nicht vorgenommen. Die Qualitätskontrolle mit Abgleich durch ein Wörterbuch ist sehr aufwendig. Grundsätzlich stellt sich immer die Frage, wofür und in welcher Qualität mache ich die Transkription.

3.	Überführung von in TEI vorliegenden Texten für den DLC-Kontext

@Klaus: Kannst du dazu noch ein/zwei Sätze schreiben?

4.	Bildnachbearbeitung von gelieferten Scans

Diese waren in der Regel zu dunkel. Mithilfe von AfterShop oder Adobe Lightroom (z. B. Testlizenzen für einige wenige Wochen) können diese relativ einfach u. mit wenig Zeitaufwand aufgehellt werden.


 * Ingo Caesar

Die Korrektur der Inhaltsverzeichnisse (500 Stück) aus dem Zeitschriftenprojekt (1703-1830) nimmt sehr viel Zeit in Anspruch: sie müssen harmonisiert werden, Ligaturen müssen aufgelöst werden, die Paginierung muss abgeglichen werden. Ursprünglich war die Erfassungsanweisung an den DL anders. Bei dieser Endkontrolle ist Frankfurt aufgefallen, dass es mitunter sinnvoll wäre, auch die Auswahl nach einer Spaltenzählung im Menü Paginierung zu haben. Ingo Caesar schickt per Mail an die Edit AG einen ersten Entwurf rum, inwieweit es sich lohnt, mit diesem Vorschlag an die Entwickler/innen der MPDL zu treten.

Frankfurt hat eine Vorlage zu der von der MPDL erarbeiteten Feature-Liste, wie die einzelnen Institute diese bewerten/beurteilen, vorbereitet, welche auf der BT der MPG in Heidelberg (16.-18.4.) durch die Bibliotheksleiter/innen Amedick, Flitner und Simane besprochen wurde. Ende der Woche/Anfang nächster Woche schickt Frankfurt via Mailingliste die gesammelten Standpunkte/Anmerkungen der Institute zur Feature-Liste der MPDL rum.

Mitte Mai findet in Darmstadt ein TextGrid-Workshop statt, an dem Ingo Caesar teilnehmen wird.

Hinweis: Im Juli findet in HH die Digital Humanities Konferenz statt.

Teilnahme an der [http://www.mpi-hd.mpg.de/mpi/de/bt2012/start/ 35. Bibliothekstagung der MPG] in Heidelberg (16.-18.04.2012).


 * Anna Klug

Bzgl. der Themen Software und Sonderzeichen ist in Florenz die Frage aufgetaucht, ob es ein Unicode-Software gibt, die auch griechische Zeichen abdeckt. Klaus Werner mailt Anna Klug dazu etwas. Auch soll Wolfram Zieger angesprochen werden, ob er Kenntnisse darüber hat.


 * Lisa Pegelow

Lisa Pegelow hat sich mit den DLC-Themen Batch Ingest, Annotationen und Feature-Liste beschäftigt.

Ein Workflow zur Inhouse-Digitalisierung ist durch Lisa Pegelow fertiggestellt worden. Erste Bücher sind bereits inhouse gescannt worden – entsprechend des Workflows bzw. mit anderen Testscannern, die wir im MPIB gerade testen, um einen geeigneten Scanner für den Benutzerbereich anzuschaffen. In diesem Zusammenhang werden Lisa Pegelow, Ursula Flitner u. unser EDV-Mitarbeiter Andreas Wenzel die Firma MIK-Center (Digitalisierungsunternehmen in Berlin und u. a. Vertriebspartner von Zeutschel-Geräten) besuchen, um uns das Produktionssystem OS 1500 von Zeutschel anzuschauen.

Teilnahme an der [http://www.mpi-hd.mpg.de/mpi/de/bt2012/start/ 35. Bibliothekstagung der MPG] in Heidelberg (16.-18.04.2012).

Bericht Projektkoordination

Andrea Kulas berichtete über das Thema Leitfaden und den Ergebnissen aus der letzten Telko der Leitenden. Lisa Pegelow wird sich bzgl. der Thematik Glossar noch einmal Gedanken machen, ob es u. U. nicht doch sinnvoll sein kann, ein vorgelagertes Glossar im Leitfaden zu haben, um sich Begrifflichkeiten und deren Verwendung und Bedeutung im Leitfaden klar zu machen. Da der AG Leitfaden die angesprochene Mail von Andreas Thielemann zur Thematik Zitierstil bisher nicht vorliegt, fragt Lisa Pegelow diesbzgl. nach. (--Lisapegelow 12:07, 20 April 2012 (CEST): Mittlerweile liegt die Mail der AG Leitfaden vor.)

Andrea Kulas stellt auf titanpad eine feine Gliederung der DLC-Beschreibung und hält dazu ggf. Rücksprache mit Markus Haarländer und Lu Yu.

Nächste Telko der Projektmitarbeiter


 * 03.05.2012 10.30 Uhr