ZFN Telko

MPDL

01.06.2012, 10:30 - 11:00 Uhr
Laurent Romary, Wilhelm Frank, Denise Unfried
 * Teilnehmer


 * Diskussion zur Optimierung der Daten-Lieferung und Trainings

--Unfried 11:21, 1 June 2012 (CEST)
 * Laurent liefert die XML-Files und einen Bug-Report pro Band.
 * Die MPDL korrigiert/verbessert die MD manuell. Grundlage hierfür ist der Bug-Report.
 * Dies geschieht entweder vor dem Upload im TEI oder nach dem Upload in Pubman.
 * Bei einer Überschreitung von 30 fehlerhaften Files pro 300 müssen die Daten neu trainiert werden.

04.04.2012, 10:00 - 12:00 Uhr
Tamina Greifeld, Frau Greifeld, Laurent Romary, Albert Schröder, Friederike Kleinfercher, Denise Unfried (evtl. Julianne Müller)
 * Teilnehmer

Themen

 * Gibt es neue Erkenntnisse in Bezug auf die Zeichenproblematik?

Das Zeichenproblem gab es in den älteren Ausgaben noch nicht (ausschliesslich westeuropäischer Zeichensatz). Erst bei neueren Jahrgängen kommen andere Zeichen/Sprachen hinzu (Türkisch, Tschechisch etc...) Dies führt zu Problemen bei der Erkennung.

Der Grund warum die Autorennamen mit Akzenten nicht richtig gelesen worden sind, lag an der/den eingestellten Sprachen. Ein Autor, z.B. hatte eine türkischen Namen mit einem Punkt auf dem großen I. Wenn man dann für den Abschnitt türkisch noch hinzunimmt, klappt auch die Erkennung. Wählt man aber mehrere Sprachen bei der Erkennung des gesamten Jahrgangs vorsorglich aus, sinkt die OCR-Qualität, wegen der steigenden Zahl der Variationsmöglichkeiten.

Ein Vorschlag von Herrn Dr. Schröder ist, die Autoren der einzelnen Jahrgänge anhand des Autorenverzeichnisses zu überprüfen (Zeichen) und entsprechend auf den Seiten zu korrigieren. (Jahrgang 43 c / 6-7 Autoren) Der Aufwand wird voraussichtlich sehr gering sein. Herr Schröder sendet eine Aufwandsabschätzung (Kosten) an alle.


 * PDF-Dateien

Der Verlag ZFN, Laurent Romary und die MPDL sind mit der Qualität der PDF-Dateien sehr zufrieden. Die Dateien sind sehr gut lesbar und sehen gut aus.

Der Verlag ZFN prüft die ersten 10 Jahrgänge die jetzt auf dem Server liegen Fehler (z.B. zwei Artikel in einer PDF-Datei) werden der UBR mitgeteilt und dort korrigiert.. Die Namen der überarbeiteten Files leitet die UBR an Herrn Romary weiter sobald diese auf dem Server bereit stehen.

Die gesamte Lieferung der PDF-Dateien erfolgt in den Jahrgängen chronologisch nach und nach in ca. sechs Paketen

Die Qualität der Notizen ist aus Sicht von Laurent bis jetzt nicht sehr gut. Ursache hierfür ist der unterschiedliche Aufbau der Notizen. Die Notizen werden vorerst zurückgestellt. (Hinweis: In PubMan gibt es kein Genre für „Notizen”.) Frau Greifeld und Herr Dr. Schröder betonen, dass es bedauerlich wäre, sollten die Notizen (online) nicht öffentlich zugänglich sein.
 * Notizen

Hier gibt es ein Gespräch zwischen Laurent Romary und der MPDL (Entwicklung) über die weitere Vorgehensweise.
 * Das Thema Metadaten wir in der Telko zurück gestellt

Die UBR und die MPDL möchten das Projekt bis zum Jahresende abschliessen. Für Frau Greifeld ist der Zeitpunkt in Ordnung.
 * Zeitplan