JusCMS Requirements CMS

JusCMS,MPDL

=Mail an Contens September 2009= aktuelle Version, Stand: 16.10.2009, ursprüngliche Version auf Diskussionsseite

JusCMS Workshop, 21.10.2009, 09:00-13:00 Uhr, München

Nachfolgend sind die spezifischen Anforderungen in Verbindung mit dem PubMan-Projekt (JusCMS) aufgelistet. Aus dem Treffen sollten klare Aufgabenverteilungen der beteiligten Teams hervorgehen.

Geplanter Workflow (09:00 – 10:00 Uhr):
 * sämtliche Publikationsdatensätze werden im Publikationsverwaltungsprogramm der MPDL (PubMan) erfasst und gepflegt. Testsystem Pubman: http://test-pubman.mpdl.mpg.de User: demo, Passwort: demo
 * es gibt 25 Publikationstypen (in PubMan mit "Genre" bezeichnet)
 * auf der Webseite (Contens) werden die 25 Publikationstypen 9 verschiedenen Kategorien zugeteilt. (Beispiel: Kategorie "Herausgeberschaften", Publikationstyp "Tagungsband Herausgeber"; Kategorie "Aufsätze", Publikationstyp "Zeitungsartikel Autor")
 * auf der Webseite (Contens) werden diese untereinander in den jeweiligen Kategorien abgebildet (Beispielseite: http://mpipriv.de/ww/de/pub/mitarbeiter/doralt_walter/schriftenverzeichnis.cfm)
 * Manche Publikationen haben einen bzw. mehrere Volltexte. Diese werden nicht übertragen, sondern nur die URLs als Teil der Metadaten, die auf den Volltexten in PubMan verweisen. Die Volltexte haben einen von drei Stati: „Öffentlich“, „Privat“ oder „eingeschränkt bis“ (Embargo), wobei den Stati „Privat“ und „eingeschränkt bis“ Benutzer/Gruppen zugeordnet werden können.
 * die Volltextindizierung der Publikationen jedes Instituts muss in die Suchfunktion der Website jedes Instituts integriert werden.
 * Datenübertragung:
 * OPTION 1 (PULL, Contens liest Daten aus PubMan ein):
 * die Publikationsdatensätze in PubMan können über die Schnittstelle REST (Search & Export) im XML-Format ausgelesen werden. ESciDoc Services Search&Export: http://colab.mpdl.mpg.de/mediawiki/ESciDoc_Services_Search%26Export

(Export-REST-Interface: http://pubman.mpdl.mpg.de/search/SearchAndExport_rest_sample.jsp)
 * aus Contens wird z.B. über die Publikationsseite eines Wissenschaftlers eine Abfrage (alle Publikationen dieses Mitarbeiters) an PubMan über REST gestartet.

Beispiel-Anfrage: http://pubman.mpdl.mpg.de/search/SearchAndExport?cqlQuery=escidoc.metadata=cognition&escidoc.content-model.objid=escidoc:persistent4&exportFormat=APA&outputFormat=snippet&language=all&sortKeys=&sortOrder=ascending&startRecord=&maximumRecords=50
 * REST liefert eine Zeichenkette im XML-Format, nach Contens.


 * OPTION 2 (PUSH, Pubman überträgt Daten nach Contens):
 * über die noch in Contens zu implementierende Schnittstelle SWORD ( Spezifikation: http://pubman.mpdl.mpg.de/sword-app/ ) können die Datensätze von PubMan nach Contens übergeben werden.


 * OPTION 3:
 * für Alternativen sollte ein kommunikativer Austausch zwischen MPDL und Contens stattfinden.


 * Auf Contens-Seite werden nach Übertragung der Daten die Publikations-Objekte mehrsprachig (englisch / deutsch) generiert.
 * Danach werden diese generierten Objekte automatisch in Listen, innerhalb der 9 Kategorien, über "Aktive Seitenbereiche" in Contens angezeigt ( Beispielseite, mit 7 Kategorien, die 2 fehlenden Kategorien enthalten keine Publikationen, http://mpipriv.de/ww/de/pub/mitarbeiter/doralt_walter/schriftenverzeichnis.cfm ).
 * Contens wird auch beauftragt, 5 Templates, 2 Outputtypes und 1 Applikation für alle gewünschten Ausgabeformate (Publikationslisten) für jeweils zwei Institute zu erstellen:

Templates für: Outputtypes für: Applikation für:
 * 1) Liste aller Publikationen eines Instituts (wahlweise sortiert nach Datum, Alphabet, Autor)
 * 2) Liste der Publikationen einer Abteilung
 * 3) Mitarbeiterseite mit 5 individuell gewählten Publikationen
 * 4) Schriftenverzeichnis des Mitarbeiters (sortiert nach Kategorien und Publikationstyp)
 * 5) Detailseite (bestehend aus Zitierstil, Abstract und Links auf Volltexte)
 * 1) einzelne Publikation (Zitierstil, Freitext, Links, der „mehr/more“-Link für die Detailseite wird nur angezeigt wenn das Abstract mit Inhalt gefüllt ist.)
 * 2) Detailseite
 * 1) Erzeugung einer Liste mit den letzen 5 Publikations-Objekten (Kriterium z.B. Erscheinungsdatum), die sich täglich aktualisiert und automatisch publiziert.

Pause (10:00 – 10:15 Uhr)

Dateninhalt einer Publikation im XML-Format (10:15 – 11:00 Uhr):
 * Anhängend finden Sie 2 XML-Export-Dateien aus PubMan:
 * Datei enthält einen Datensatz Image:Export pubman, 1 Datensatz mit Zitierstil.txt
 * Datei enthält mehrere Datensätze Image:Export pubman, mehrere Datensätze mit Zitierstil.txt

Die einzelnen Daten (zwischen dem Element (…) müssen in Contens als Objekte generiert und gespeichert werden. Erst wird der XML transformiert, geparst und danach Instanzen der einzelnen Publikationsobjekte erstellt. Ein Datensatz enthält u.a. die zur Generierung des Contens-Objektes wichtigen Inhalte:
 * Person (Felder in XML-Beispieldatei: family-name, given-name) (als Filter für Aktive Seitenbereiche)
 * Rolle der Person = creator-role (als Filter für Aktive Seitenbereiche, z.B. Autor, Herausgeber)
 * Zitierstil = CDATA (als direktes Ausgabeformat zur Anzeige z.B. in Webseite Publikationsliste des Mitarbeiters)
 * local tags = local tags (keine Anzeige auf Contens-Seite, nur Filter für Aktive Seitenbereiche, z.B. „noDisplay“, wenn ein Objekt eines Co-Autors nicht angezeigt werden soll)
 * Link zum Volltext + Zugriffsrechtinformation Volltext (Anzeige) = escidocComponents:content storage + dc:rights (Öffentlich, Privat, eingeschränkt bis)
 * Freitextfelder (zur Anzeige in Webseite, in Beispieldatei nicht vorhanden)
 * Publikationstyp = type="book-item" (Filter für Aktive Seitenbereiche, z.B. Herausgeberschaft)
 * Veröffentlichungsdatum = dcterms:issued xsi:type und letztes Änderungsdatum = last-modification-date
 * Organisationszugehörigkeit der Person = organization-name

Ideal: alle Metadaten (bibliographische Beschreibungsdaten der Publikation) sind als suchbare Einzelfelder, für weitere Filtermöglichkeiten, im Objekt enthalten (z.B. family-name, given-name, title, publisher, place etc.). Das Feld "Zitierstil" (CDATA) ist in den Beispieldateien derzeit nur in der deutschen Variante vorhanden. Die Anforderung ist die Darstellung in deutscher und englischer Version. Zur Diskussion steht ob CDATA eventuell 2x übergeben wird, z.B. als CDATA lang_id=de und CDATA lang_id=en oder die Sprachabhängige Darstellung der Metadaten in Contens erfolgt.

Beispiel 1: deutsche Webseite: Rühl, Gisela: Party Autonomy in the Private International Law of Contracts, in: Gottschalk, Eckart; Michaels, Ralf (Hg.), Conflict of Laws in a Globalized World, Cambridge University Press, Cambridge 2007, 153 – 183.

englisch Webseite: Rühl, Gisela: Party Autonomy in the Private International Law of Contracts, in: Gottschalk, Eckart; Michaels, Ralf (ed.), Conflict of Laws in a Globalized World, Cambridge University Press, Cambridge 2007, 153 – 183.

Beispiel 2: Deutsche Webseite: Conflict of Laws in a Globalized World, Cambridge University Press, Cambridge, New York, Melbourne etc. 2007, XVI + 302 S. (gemeinsam mit Eckart Gottschalk et al.). - besprochen von: David P. Stewart, American Branch of the International Law Association Newsletter 2008, 6-7 englische Webseite: Conflict of Laws in a Globalized World, Cambridge University Press, Cambridge, New York, Melbourne etc. 2007, XVI + 302 pp. (together with Eckart Gottschalk et al.). - reviewed by: David P. Stewart, American Branch of the International Law Association Newsletter 2008, 6-7 Die Objekte sollten im Editiermodus auf Webseiten oder der Objektbibliothek zwar über den Button "Editieren" aufrufbar und anzeigbar sein, deren Inhalte dürfen aber nicht verändert werden können. Jegliche Änderungen in den Publikationen erfolgen in PubMan und werden beim nächsten PULL bzw. PUSH übertragen und die Contens-Objekte werden aktualisiert!

Webseite / Publikationsseite des Wissenschaftlers (11:00 – 11:45 Uhr):
 * Es gibt 25 Publikationstypen die in 9 Kategorien untergliedert sind.
 * Es werden z.B. die Felder "family-name", "given-name", "type" und "last-modification-date" eines Objektes als Filter für Aktive Seitenbereiche auf der Publikationsseite ausgewertet.
 * entsprechend der Auswertung werden
 * A alle Objekte des Autors gefunden
 * B die gefundenen Objekte den 9 Kategorien zugeordnet
 * C die Felder "Zitierstil" (CDATA) + "Link zum Volltext (content storage, Anzahl dynamisch)" + "Freitext (in Beispieldatei nicht vorhanden, Anzahl dynamisch, durch Bullets separiert, siehe: http://mpipriv.de/ww/de/pub/mitarbeiter/doralt_walter/schriftenverzeichnis.cfm, Abschnitt II)" des Objektes angezeigt. Ebenfalls muss das Zugriffsrecht („Öffentlich“, „Privat“ oder „eingeschränkt bis“) auf Volltexte angezeigt werden.
 * D die Sortierung innerhalb einer Kategorie erfolgt 1. nach Feld "Erscheinungsdatum" (je nach Publikationstyp dcterms:issued, dcterms:created, eterms:published-online), wenn dies nur 4-stellig (YYYY) statt 8-stellig (YYYY-MM-DD) ist, dann nach Feld "Erfassungsdatum" (last-modification-date)
 * E Objekte mit einem standardisierten Local Tag (z.B. "no display") werden nicht angezeigt (Filterfunktion)

Übertragung der Daten und Publizieren
 * OPTION 1: Datenaustausch: On-Demand, Publizieren: automatisch
 * OPTION 2: Datenaustausch: On-Demand, Publizieren: manuell
 * OPTION 3: Datenaustausch: 1x täglich, Publizieren: automatisch
 * OPTION 4: Datenaustausch: 1x täglich, Publizieren: manuell

Der Austausch der Daten und die Publizierung von Seiten erfolgt in den Instituten personell und zeitlich durchaus unterschiedlich so dass die vier möglichen Optionen alle zur Verfügung stehen sollten.

Optionale Anforderungen (12:00 – 12:30 Uhr):
 * Sollen die PDF-Dateien sowohl in PubMan als auch im CMS/Liveserver vorhanden sein?
 * Es muss gewährleistet sein, dass auch die Volltexte über die Suche des Liveservers (Website) gefunden werden.
 * Zugriffsrechte auf Volltext, wenn PDF-Dateien auf dem Liveserver verfügbar sind: Möglichkeiten „Öffentlich“, „Privat“ oder „eingeschränkt bis“ auf dem Liveserver abzubilden.
 * Volltextindexierung:
 * Voraussetzung sind maschinenlesbare PDF-Dateien (ist oftmals gar nicht gegeben).
 * Zitate aus Volltexten müssen über Liveserver-Suche auffindbar sein.
 * Alle Verweise zu den Volltexten eines Wissenschaftlers müssen in der Ergebnisliste einer Suche angezeigt werden.

Sonstiges (12:30 – 13:00 Uhr):


 * Diskussion
 * CMS-Testsystem, Liveserver, CVS, wer hostet zu wann (je früher desto besser)?
 * Railo statt Cold Fusion, Postgre SQL statt Oracle
 * Performance „Aktive Seitenbereiche“ bei 10.000 Publikationsobjekten
 * Wie viele Filter können in den „Aktive Seitenbereiche“ gesetzt werden?
 * Shibboleth auf CMS (Authentifizierung) / Liveserver (Autorisierung)
 * Pflichtenheft

Hans Martens, MPI für Privatrecht, Hamburg, 16.10.2009