Digitization Lifecycle Meeting 2011-03-14/15/16

Digitization Lifecycle,MPDL

Allgemeine Angaben
Datum: 14.-16.03.2011 Ort: Max-Planck-Institut für Bildungsforschung

Hotel: Hotel Residenz Berlin Meinekestraße 9 10719 Berlin Tel +49(0)30-88 44 3-0 Fax +49(0)30-882 47 26 info@hotel-residenz.com

Restaurant: gemeinsames Abendessen am Mo, 14.03.2011, 19:15 Uhr Mar y Sol Savignyplatz 5 10623 Berlin

Teilnehmer
Bitte Melden Sie sich an, indem Sie Ihren Namen hier eintragen. '''Affiliated Partners und weitere Teilnehmer nehmen bitte erst ab 15.03. 14:00 teil!''' Affiliated Partners Weitere Teilnehmer
 * Andrea Kulas (MPDL)
 * Kristina Koller (MPDL)
 * Malte Dreyer (MPDL)
 * Lu Yu (MPDL)
 * Wilhelm Frank (MPDL)
 * Anna Klug (KHI Florenz)
 * Lisa Pegelow (MPIB Berlin)
 * Ursula Flitner (MPIB Berlin)
 * Martin Raspe (Bibliotheca Hertziana)
 * Klaus E. Werner (Bibliotheca Hertziana)
 * Andreas Thielemann (Bibliotheca Hertziana)
 * Sigrid Amedick (MPIeR Frankfurt)
 * Ingo Caesar (MPIeR Frankfurt)
 * Anette Creutzburg (KHI Florenz)
 * Jan Simane (KHI Florenz)
 * Wolfram Zieger (KHI Florenz)
 * Ramon Granadillo (MPImF, Heidelberg)
 * Ingo Brüggemann (MPI MIS Leipzig, nur 15.03.)
 * Urs Schoepflin (MPIWG, Berlin, nur 15.03.)
 * Olaf Berg (MPIeR, Frankfurt)

Agenda
Moderator: Andrea Kulas

14.03.2011

 * 14:00 - 17:30: Diskussion im Panel (15-minütige Pause ist eingeplant)
 * Begrüßung und Kurzvorstellung der Anwesenden (Personen und Verantwortlichkeiten)
 * Briefing über die Themen des Treffens in Frankfurt für diejenigen, welche nicht dabei waren. (Ingo Caesar)
 * Projektsprache: Festlegung der Projektsprache für Spezifikationen, Leitfaden, CoLab-Seiten (extern, intern)
 * Projektname und Projektlogo: Änderung des Projektnamens zu "DigiLife"?; Einigung auf ein Logo
 * Nächste Treffen: Festlegung der Termine und Orte
 * Arbeitsplan: Vorstellung und Besprechung des vorläufigen Arbeitsplanes
 * Diskussion und Festlegung des Vorgehens zur Findung eines gemeinsamen Projektzieles + für die Erstellung einer gemeinsamen Anforderungsliste (= Voraussetzung, um die Spezifikationen starten zu können)


 * 19:15: Gemeinsames Abendessen

15.03.2011

 * 09:30 - 13:00: Diskussion im Panel (15-minütige Pause ist eingeplant)
 * Technische Themen ((Malte Dreyer; Wilhelm Frank): Datenformat; Neubau bzw. Umbau vorhandener Tools (e.g. VIRR); eSciDoc im Rahmen des Projektes DigiLife
 * Start von Arbeitsgruppen (Was?, Warum?, Wer?):
 * Welche Arbeitsgruppen sollen gegründet werden?
 * Mögliche Themen: Paginierung, Editor, Viewer, Bibliographische Metadaten, Strukturdaten, Viewer/Frontend (User-Interfaces); Dokumentationsstandards (Paginierungsstandards, Leitfaden Digitalisierung, Beschreibung von Sammlungen, Hilfetexte für die Eingabe)
 * Festlegung der Ziele der jeweiligen Arbeitsgruppe (+ Darstellung der Grenzen dieser Arbeitsgruppe)
 * Benennung der Teilnehmer in den Arbeitsgruppen + Hauptansprechpartner bzw. Koordinator der jeweiligen Gruppe


 * 13:00 - 14:00: Mittagessen


 * 14:00 - 18:00: Offizielles Meeting (Projektmitarbeiter und Affilliated Partners) (15-minütige Pause ist eingeplant)
 * Vorstellung der Affiliated Partners (30 min.)
 * Vorstellung von MPDL-Projekten, die für DigiLife relevant sein könnten (Malte Dreyer, 15 min.)
 * Vorstellung der Institute (20 Minuten pro Institut + 1 Stunde Diskussion)
 * Konkrete Beschreibung der Wissenschaftsbereiche/Arbeitsabläufe der Institute (incl. geplante Arbeitsabläufe) im Kontext DigiLife
 * Was wird dafür an Tools gebraucht? (Anforderungen)
 * Was sind die Elemente, welche alle gebrauchen könnten? (generische Elemente)

16.03.2011

 * 9:30 - 13:00: Offizielles Meeting (Projektmitarbeiter und Affiliated Partners) (15-minütige Pause ist eingeplant)
 * Planung des Septemberworkshops
 * Gründung einer Expertengruppe
 * Erstellung eines Leitfadens zur Digitalisierung (Verantwortliche, Themensammlung, Form des Leitfadens etc.)
 * Abschlusspräsentation: Zusammenfassung der Ergebnisse des Treffens und Ausblick, Revision Arbeitsplan (Andrea Kulas, 30 min)

Ergebnisprotokoll
Teilnehmende: Andrea Kulas, Lu Yu, Kristina Koller, Wilhelm Frank, Ingo Caesar, Sigrid Amedick, Anna Klug, Jan Simane, Anette Creutzburg, Wolfram Zieger, Klaus E. Werner, Martin Raspe, Andreas Thielemann, Lisa Pegelow, Ursula Flitner, Malte Dreyer (15./16. 03), Raymond Granadillo (15./16.03), Olaf Berg (15./16.03), Ingo Brückemann (15.03), Urs Schöpflin (15.03), Simone Rieger (15.03.), Dritte Person vom MPI Wissenschaftsgeschichte? (15.03.)

Protokoll: Ingo Caesar

Organisatorisches
Projektsprache
 * Gemeinsame Arbeitsprache und colab-Dokumentation (intern): deutsch
 * Projekteinstiegseiten (colab): englisch und deutsch
 * Dokumentation von Software und Datenformat: englisch
 * Projektleitfaden: zunächst auf deutsch, am Ende ins Englische übersetzen
 * Übersichten über relevante Begriffe (System-/Benutzungs-/Erfassungsterminologie) werden tabellarisch in verschiedene Sprachen gemappt

Projektname und Projektlogo
 * Einigung auf das aktuelle Logo während der Projektphase. Schrift, Form, Anordnung und Darstellung sind in Ordnung. Nur bez. der Farbe gibt es weiteren Abstimmungsbedarf.
 * Eine strukturierte Namensfindung für das Endprodukt unsere Projekts durch die MPDL (Frau Unfried) ist nicht gewünscht.

Nächste Treffen: Festlegung der Termine und Orte
 * Projekttreffen: 6. (mittags) - 7. Juni (abends) MPI für Bildungsforschung. Der Raum ist zugesagt.

Weitere Veranstaltungen

2011

*Zeitfenster 9-13 Mai: Planung eines Seminars in Berlin
 * Intention: Datenformate anderer Projekte (Konzeption, Entwicklung, Umsetzung, Funktionsfähigkeit, Probleme, Bewertung des Ergebnisses)
 * Vorstellung unseres Beta-Formats nicht länger aktuell--Caesar 14:53, 12 April 2011 (CEST)
 * Projekttreffen: Anfang – Mitte Oktober in Rom.
 * Bibliothekstagung im Herbst?: Möglichkeit der Vorstellung des Projektes im Rahmen eines Vortrags?
 * escidoc days 15.-16. November: Adressierung anderer EntwicklerInnen; Vorstellung des Projektes im Rahmen eines Vortrages (-> Hinweis auf Workshop Anfang 2012); Ort: Harnack Haus in Berlin

2012
 * Zeitfenster: Januar/Februar 2012: Workshop
 * Intention: Virtuelle Forschungsumgebungen diesseits und jenseits unseres Disziplinen-Kontext kennenlernen.
 * Zielgruppe: Entwickler

2013
 * Zeitfenster: Januar/Februar 2013: Abschlussveranstaltung
 * Intention: Das Ergebnis verbreiten.
 * Zielgruppe: Wissenschaftler
 * Erste RednerInnen-Vorschläge: MPG-Präsident Peter Gruss, Mitglieder von LA sInfo (Lenkungsausschuss wissenschaftliche Informationsdienste der MPG), Klaus Dieter Lehmann (Direktor Goethe-Institut), Umberto Eco, Elmar Mittler, Norbert Lossau (Direkter SUB Göttingen), Mitglieder JISC

Vorstellung Affiliated Partner
Das MPI für Wissenschaftsgeschichte arbeitet seit 17 Jahren im Bereich digitaler Anwendungen (ECHO). Alle Tools sind selbstgebaut, alle Schritte selbst geplant und durchgeführt. Dabei wird „mit“ den Wissenschaftlern gearbeitet, nicht (nur) für die Wissenschaftler. Wissenschaftler kommen mit einem Objekt in die Bibliothek und möchten dafür eine digitale Lösung entwickelt haben. Herr Schoepflin sieht Überschneidungen ihres Interesses zu DLC, zu PubMan und auch zu imeji. Das MPI für Wissenschaftsgeschichte hat eine eigene PubMan Installation. Die Rechte und Metadatenverwaltung mit PubMan soll für alle digitalen Objekte Anwendung finden. Imeji soll später als Tool zur Präsentation für Humboldt Herbarien eingesetzt werden, zurzeit gibt es eine lokale Lösung zur Präsentation der Herbarien. Das XML-Workflow Projekt war als MPDL-Projekt am MPI für Wissenschaftsgeschichte angesiedelt: Wissenschaftler erhalten die Möglichkeit, Dateien in eine XML-Struktur umzubauen, um auf Basis dieser Struktur weitere Ausgabeformate zu generieren (pdf, rdf …). Die Dokumentation des Projekts steht noch aus. Wissenschaftler, so der Ansatz des MPI für Wissenschaftsgeschichte, helfen bei der Erschließung und Kommentierung digitaler Sammlungen. So werden bessere Forschungsvoraussetzungen durch die Sammlungen geschaffen. Im Kontext von OCR hat man gute Erfahrungen mit Ocropus gemacht, das zudem gut für die Erkennung von Frakturschrift funktionieren soll.
 * MPI für Wissenschaftsgeschichte: Urs Schoepflin (Bibliotheksleitung), Simone Rieger (ECHO)

1500 Digitalisate sollen in Aleph integriert werden. Das intellektuelle Indexieren nach OCR hat sich als zu mühsam herausgestellt. 17 Titel konnten intellektuell erschlossen werden. Für dieses Institut sind OCR und das automatische Indexieren der Dokumente von großem Interesse.
 * MPI für medizinische Forschung Heidelberg: Raymond Granadillo (Bibliotheksverwaltung)

Die Bibliothek scannt Bibliographien und Literaturverzeichnisse. Über OCR wird versucht aus dem diesen Scans eine inhaltliche Indexierung der Dokumente vorzunehmen. Dadurch können Bücher automatisch in einer großen Tiefe erschlossen werden. Es wäre sehr schön, wenn die MPDL eine Art OCR-Maschine entwickeln würde, einen Server an den Digitalisate geschickt werden können, der OCR-Daten ausgibt, der auch irgendwann Formeln oder Fraktur "versteht". Das Institut beschreibt Buchinhalte mittels Math ML. Bisher gibt es keine Anwendung die mathematische Formeln als OCR erkennt. Für OCR eignen sich schwarz/weiß Scans besser.
 * Max Planck Institut für Mathematik in den Naturwissenschaften: Ingo Brüggemann (Bibliotheksleitung)

Projektziel und Arbeitsplan
Ein erster Entwurf für einen Arbeitsplan wurde vorgestellt und diskutiert. Aufgrund der Ergebnisse des Treffens in Berlin wird der Arbeitsplan überarbeitet und den Instituten erneut vorgestellt. Arbeitsgruppen und Termine sollen entsprechend mit einbezogen werden (was sollte wann zur Verfügung stehen?)

Projektziel: Einigung auf Standards (e.g. Datenformat) und Schaffung einer robusten Basisinfrastruktur, um Digitalisate nutzbar zu machen. Generische Funktionalitäten editor, viewer, upload management werden geschaffen; Die virtuelle Forschungsumgebung wird im Ansatz adressiert; Leitfaden für den Digitalisierungsprozess (-> Anleitung bzw. Hilfestellung für alle MPG-Institute)

Arbeitsgruppen
Arbeitsgruppen erarbeiten wichtige Fragestellungen und bereiten Abstimmungen vor (bei Entscheidungen sind dann alle beteiligten Institute und die MPDL eingebunden). Auf Transparenz ist zu achten. Jede Arbeitsgruppe sollte hierfür eine CoLab-Seite mit Teilnehmern, Zielen und im weiteren Verlauf erarbeiteten Ergebnissen bzw. Diskussionen erstellen.

Als Ergebnis des Treffens wurden folgende Arbeitsgruppen und Arbeitspakete verabschiedet. Der Arbeitsplan für die gesamte Projektlaufzeit steht noch aus.

Arbeitspakete 3, 4 und 5 werden in den kommenden zwei bis drei Wochen bearbeitet.

Arbeitsgruppen 2. Abschnitt
Folgende Arbeitsgruppen werden ihre Arbeit aufnehmen, sobald absehbar ist, dass das Format produktiv eingesetzt werden kann.


 * Arbeitsgruppe Viewing: Annette Creutzburg (Koordination), Ursula Flitner, Martin Raspe, Rupert Kiefl (Leitung User Interface Engineering der MPDL)
 * Die Themen "Spezielle Metadaten" und "Volltexte" (-> Ansprechpartner für Volltexte und OCR: Lisa Pegelow) bzw. "Strukturdaten" werden in dieser Arbeitsgruppe mit eingebunden.


 * Arbeitsgruppe Editing: Ingo Caesar (Koordination), Anna Klug, Lisa Pegelow, Lu Ju, Klaus Werner
 * Die Themen "Spezielle Metadaten" und "Volltexte" (-> Ansprechpartner für Volltexte und OCR: Lisa Pegelow) bzw. "Strukturdaten" werden in dieser Arbeitsgruppe mit eingebunden. In der Arbeitsgruppe Editing könnte eine Unterarbeitsgruppe "Paginierung" eingerichtet werden.

To Do

 * Die Gründung einer Expertengruppe wurde vertagt. -> Telefonkonferenz KW 13

Präsentationen
MPDL
 * Andrea Kulas: Digitization Lifecycle Projekttreffen, März 2011, Berlin
 * Wilhelm Frank: Digitization Livecycle: Is VIRR (good) enough?
 * Malte Dreyer: Digitization Livecycle: Building Blocks
 * Malte Dreyer: Tools im Umfeld von DLC

Projekte der Institute
 * Anette Creutzburg: Kunsthistorisches Institut Florenz: Das Rara-Projekt
 * Ingo Caesar: Max-Planck-Institut für europäisches Rechtsgeschichte: ViRR Spezifikationen/ViRR generische Elemente
 * (to be continued)

Schlussbemerkungen
Annotationen zu ViRR &rArr; Beschluss: Das Projekt startet nicht mit der Verbesserung von ViRR, sondern mit einer technischen Umgestaltung von ViRR, so dass mit der Software in Zukunft auch Volltexte mit eingebunden werden können.
 * ViRR ist mit den Anforderungen der Hertziana und des KHI nicht kompatibel.
 * VIRR basiert nicht auf METS/MODS, sondern auf einem proprietären (eSciDoc-) Format.
 * ViRR ist ein reiner Struktureditor.
 * Das ViRR-Format ist für eine umfassende Erweiterung nicht besonders geeignet.
 * Volltexteinbindung war bei VIRR keine Anforderung, jetzt schon.
 * Der ViRR Editor ist nicht dafür konzipiert, individuelle Ingests „auszulösen“. Was an Daten reinkommt, ist statisch festgelegt, auch die Zweiteilung der physikalischen und logischen Struktur im Datenformat. Der Eintrag im Katalog muss für den Ingest ein bestimmtes Format haben. Andere Daten lassen sich nicht aufnehmen.
 * ViRR Elemente werden zur Wiederverwendung (Materialhaufen) für die neue DLC Lösung eingesetzt.
 * Eine ViRR Instanz wird für das MPIB als Übergangslösung aufgesetzt.
 * VIRR METS/MODS-Export ist vom Elementumfang nicht so umfangreich und kann deswegen einfach in ein neues Format exportiert werden.
 * Bisher in ViRR erfasste Daten werden auf das neue System übertragbar sein, damit die Institute mit der Erfassung anfangen bzw. weiterarbeiten können. Daten, welche auf dem Datenformat basieren, welches in der Arbeitsgruppe Format noch beschlossen wird, werden ebenfalls auf das neue System übertragbar sein. Insofern empfiehlt es sich, wenn möglich, die Ergebnisse dieser Arbeitsgruppe abzuwarten.

Annotationen zu eSciDoc
 * ist eine performante Lösung für das DLC Vorhaben. Zur Not wird eine Komponente zur Leistungssteigerung hinzugefügt.
 * bietet ein arbeitsfähiges nachhaltiges XML-Austauschformat, welches die Datenkonsistenz gewährleistet und zudem gut für die spätere Weiterverarbeitung in anderen/neuen Kontexten geeignet ist
 * Bietet Langzeitarchivierung und Versionierung

Verschiedene Ausgangsperspektiven MPDL und Rom

Die Konzepte und Modelle hinter den Websites und Projekten sieht man nicht, deswegen ist die Erstellung der Szenarien, die hinter den Websites oder Anwendungsideen stecken, notwendig. Die MPDL geht vom Modell der Softwareentwicklung aus. Vorgehensweise ist, zu erst Szenarien zu entwickeln auf Basis derer dann use cases abgeleitet werden, damit die Software am Ende mit den Ursprungskonzepten und –vorstellungen konvergiert. Szenarien seien für die Ablieferung nachhaltiger Konzepte wesentlich. Ein geschlossenes Vorgehen ist nötig, um etwas Produktives zu entwickeln. Viele Projekte sind durch eine zu offene Gestaltung zu Beginn des Projekts gescheitert. Für die Komponenten, die die MPDL erstellt, benötigt sie Szenarien („erst die Specs dann das XML Binding“).

Rom vertritt folgende Perspektive. Startpunkt unseres Projekts ist die Entwicklung eines offenen Datenformats. Dann wird mittels Editor erfasst, um im Anschluss erst zu sehen, welche Anwendungsideen und Funktionalitäten denkbar und sinnvoll sind. Wichtig ist, dass man sich schnell auf ein generisches Format mit großer Übereinstimmung der Institutsanforderungen einigt.

Um beiden Ansätzen gerecht zu werden, haben wir uns auf die oben beschriebenen Arbeitspakete geeinigt.