Finalizing ZfN

MPDL

Generelle Infos
Links
 * Link zu ZfN: http://zfn.mpdl.mpg.de/xtf/home/
 * Link zur ZfN Entwicklerplatform: https://projects.gwdg.de/projects/zfn
 * Link zu XTF: http://xtf.cdlib.org/

PDFs
 * Die PDFs der Uni Regensburg liegen auf folgendem ftp Server:
 * Rechnername: rzblx9.uni-regensburg.de
 * Benutzername: zfn
 * Passwort: zfn4online


 * Es werden drei Versionen der Scans benötigt(1x blank, 1x mit cc by, 1x mit cc by nd)
 * Die Lizenz steht jeweils auf der ersten Seite des PDFs unten
 * Aktuell ist bereits die cc by nd Lizenz vorhanden und die blanken Seiten (betitelt als "ohne Fußzeile" auf dem Server)


 * Es werden nicht alle eingescannten PDFs auf der ZfN Plattform angezeigt. Die Scans mit folgenden Endungen im Titel wurden nach Absprache mit Frau Greifeld weggelassen:
 * _n = Notizen
 * _b = Besprechungen, Bemerkungen
 * _v = Sach- und Personenverzeichnis
 * _s = Sonstiges
 * _i = Inhaltsverzeichnis
 * _e = Errata

TEI
 * TEI Files auf dem oben genannten Server sind alte Versionen, die aktuellen hat Vlad per zip File bekommen (siehe http://zfn.mpdl.mpg.de/xtf/data/all_tei_prepeared_for_title_authors_clean_up.zip)

Metadaten
 * Die Keywords stehen im XML und wurden automatisch aus den PDFs extrahiert (die Wörter oberhalb des Abstrakt) --> sind teilweise fehlerhaft

Zeitplan

 * Ab 1. April: Implementierung der offenen Tickets (Vlad)
 * Sobald alle offenen Tickets erledigt sind, müssen diese und die komplette Plattform getestet werden (Yan?)
 * Sind die Testergebnisse zufriedenstellend, wird Frau Greifeld informiert und um letzte Tests gebeten
 * Bestehen keine Änderungswünsche mehr von Frau Greifelds Seite so wird die ZfN Plattform offiziell gelauncht (Frau Greifeld)
 * Das Projekt ist offiziell beendet, es gibt ein internes sowie ein externes Abschluss Meeting.
 * Relevante Punkte für das externe Abschlussmeeting:
 * Festlegung des Supports (auch in Absprache mit der Uni Regensburg, siehe Support)

Support

 * 1) Fehler, die die PDFs betreffen:
 * 2) Mit dem Launch der ZfN Plattform werden die User werden gebeten, eventuelle Fehler an ZfN zu melden
 * 3) Diese Fehler werden in regelmäßigen Abständen an Regensburg weitergeleitet (z.B. 1x pro Monat; muss noch geklärt werden)
 * 4) Regensburg überarbeitet die Fehler und schickt die neuen PDFs an die MPDL
 * 5) MPDL(Vlad) stellt die überarbeiteten PDFs in ZFN ein
 * 6) Fehlerhafte Metadaten:
 * 7) ZfN Mitarbeiter wollen manuell die fehlerhaften Metadaten korrigieren (Titel und Autor)
 * 8) Vlad stellt alle 25 000 XML Files zur Verfügung (siehe http://zfn.mpdl.mpg.de/xtf/data/all_tei_prepeared_for_title_authors_clean_up.zip)
 * 9) Auf dem Produktionsserver von ZfN gibt es eine Funktion zum Anzeigen der Zugehörigen XML Datei:
 * 10) * Eine Liste von Metadatensätzen wird angezeigt
 * 11) * Der Benutzer muss mit Doppelklick auf die Nummer eines der Metadatensätze klicken
 * 12) * Es öffnen sich die Debug Informationen der Metadatensätze
 * 13) * Der Link und der Name zu dem zugehörigen XML jedes Metadatensatzes werden angezeigt und können aufgerufen (allerdings nicht editiert) werden
 * 14) Zum Editieren einer XML Datei muss diese in einem XML Editor geöffnet werden (z.B. jEdit)
 * 15) Änderungen im XML dürfen nur erfolgen, wenn als Codierung UTF8 ausgewählt ist (bei jEdit steht dann unten rechts im Frame unter anderem UTF8)
 * 16) Anderenfalls in jEdit links oben auf „Datei“ gehen, „Erneut laden mit Zeichenkodierung“ und dann aus der Liste (über mehrere „Mehrs“) „UTF-8“ auswählen.
 * 17) Überarbeitete XMLs werden zurück an die MPDL gespielt
 * 18) Die überarbeiteten Dateien werden neu Indexiert, so dass die Änderungen auf der ZfN Seite sichtbar sind
 * Zu Beachten:
 * Die Titel erscheinen oft doppelt in den TEI Files. Hierbei wird immer der erste Titel indexiert, allerdings wäre es schön wenn auch der Titel bei seinem zweiten Auftreten gleich ist, d.h. bei Bedarf auch hier verändert wird.
 * Wahrscheinlich werden noch diverse Fragen zu den TEI Files auftreten, die einzeln behandelt werden müssen.
 * 1) Änderung der Lizenz:
 * 2) Nach zwei Jahren Laufzeit werden die Scans mit der cc by nd Lizenz ausgetauscht gegen die Scans mit der cc by Lizenz

Offene Punkte
Implementierung
 * Offene Tickets
 * Um die Tickets zu bearbeiten wird ein Account benötigt. Diesen kann Vlad einrichten.

PDF Überprüfung von ZfN Aktuell überprüft ZfN die eingespielten PDFs. Erste Ergebnisse (Band 1 (1946) bis Band 5 a/b (1950)) liegen uns vor (siehe ). Daraus resultierende Ergebnisse:
 * Regensburg muss sich um die zusammengefügten Artikel kümmern und diese trennen. Allerdings fehlen dann noch die TEIs für die „neu entstandenen“ Artikel. Diese könnten wir manuell nachliefern (Yves), allerdings macht das erst Sinn, wenn alle Artikel überprüft wurden.
 * Die fehlerhaften Seitenangaben im Artikelnamen wurden so von Regensburg geliefert. Allerdings haben wir diese (wie im letzten Meeting besprochen) zur Überarbeitung der Metadaten aus den Filenames extrahiert und entsprechend überschrieben. D.h. die entsprechenden Referenzen sind jetzt auch falsch. Hier können natürlich ähnlich wie bei Titel und Autor die entsprechenden Metadaten manuell im XML geändert werden. Das ändert allerdings nichts an den fehlerhaften Artikelnamen (evtl. kann Regensburg hier etwas machen?).
 * Die korrigierten PDFs von Regensburg werden auf den Server gestellt. Unklar ist noch, wie und in welchen Abständen die MPDL über neue PDFs informiert wird um diese einzuspielen.

Support Regensburg
 * Dauer des Supports von der Uni Regensburg (bis Ende 2014?)
 * Lieferung der PDFs mit der cc by Lizenz (diese werden erst geliefert, wenn der Support von Regensburg ausläuft, damit bei fehlerhaften PDFs nicht immer beide Lizenz Versionen ausgetauscht werden müssen)
 * Zahlung von 5% des Rechnungsbetrags an Regensburg, sobald der Support beendet ist

Support MPDL
 * Dauer des Supports von Seiten der MPDL
 * Welcher MPDL Mitarbeiter übernimmt den Support

GUI Oberfläche - Bekannte Unschönheiten
Paginator
 * Info über die gesamte Anzahl an Seiten fehlt
 * Sprung zur ersten / letzten Seite ist nicht möglich (immer nur Fünfer-Schritten)
 * Die aktuelle Seite steht nicht immer im Mittelpunkt des Paginators, sondern die Seiten werden immer in Fünfer-Schritten angezeigt
 * Die Anzahl der Treffer pro Seite wird nicht angezeigt (und ist nicht veränderbar)

Bookbag
 * Es gibt kein batch adding