EDoc to PubMan migration/How-to

MPDL =Dokumentation der Migration=
 * Eine Liste der an einer Migration interessierten Institute befindet sich hier
 * Sobald ein weiteres Institut Interesse bekundet, sollte das Institut an dieser Stelle vermerkt werden.
 * Für jedes Institut gibt es eine eigene Migrations-Seite in CoLab. Einen Überblick darüber bietet die Kategorie PubMan Migration.
 * Jedes neue Institut, welches sich für einen Umstieg auf PubMan interessiert bekommt eine entsprechende Seite angelegt.
 * Auf diesen Institutsseiten werden Informationen zu Kontaktpersonen, Anforderungen/Wünsche/Blocker etc., Login-Daten für Test-Migrationen auf dem Migrationsserver und Status festgehalten und regelmäßig aktualisiert.
 * ToDos, die bei der Migration anfallen, werden in JIRA unter dem Projekt 'PubMan Migration' festgehalten.
 * Die Migration eines jeden Instituts ist ein Ticket in JIRA. Dieses Ticket wird je nach anfallenden ToDos an Mitarbeiter aus SvM oder DEV Team assigned.
 * Priorisiert wird zwischen den Instituten durch die Zuweisung der Komponenten 'Critical', 'Major' oder 'Minor'. Die zugewiesenen Prioritäten können wechseln.
 * Sobald sich ein neues Institut für einen Umstieg auf PubMan interessiert, wird dafür ein neues Ticket in JIRA angelegt. Die CoLab-Seite des Instituts wird dort verlinkt.
 * In SVN wird ein Ordner für jedes migrierende Institut angelegt, in dem alle Dateien (z.B. CoNE File, eDoc Datenanalyse, Test-Importe etc.), die während des Migrationsprozesses entstehen, abgelegt werden.
 * Die Hauptverantwortung im Migrationsprozess liegt bei den Mitarbeitern im SvM Team. Sie sind für die Kommunikation mit dem Institut verantwortlich und sollten die einzelnen Phasen der Migration monitoren und steuern.

=Vorbereitungen zum Umstieg auf PubMan= Wenn ein Institut Interesse an einem Umstieg auf PubMan zeigt, sollten folgende Punkte mit dem Institut abgeklärt werden:


 * Gibt es Funktionalitäten (Schnittstellen, Export-Formate, Zitierstile, Import-Formate etc.), die PubMan momentan noch nicht bietet, ohne die eine Migration nicht stattfinden kann?
 * Welche Art der Migration kommt für das Institut in Frage? Eine Migration der Altdaten aus eDoc oder ein Import des Datenbestandes aus einem Reference Management System (wie EndNote oder Reference Manager).
 * Wie wird PubMan am Institut genutzt (z.B. mögliche Nachnutzungsszenarien wie Einbindung der Daten auf lokaler Website) und wer wird in PubMan eingeben (z.B. Bibliothek, Wissenschaftler etc.) -> Wichtig zur Abklärung, ob implementierte Publication Workflows (Simple und Standard) ausreichen.
 * Zeitliche Abschätzung zur Durchführung einer Migration. Zu beachtende Aspekte hierbei sind:
 * Werden neue Features benötigt?
 * Wie viele Mitarbeiter am Institut werden in die Migration involviert sein?
 * Qualität der Daten
 * Wählen eines sinnvollen Zeitraumes (nicht während oder vor eines Fachbeirates, Einführung neues CMS etc.)

=Die Phasen einer Datenmigration=

=Die Phasen im Detail=

Phase 1: Vorbereitungen
Welche Vorbereitungen und Arbeitsschritte müssen in jedem Fall erledigt sein, damit die Testphase für ein Institut beginnen kann?

eDoc Datenanalyse
Folgende Suchabfragen werden an den Kollegen Vladislav Makarenko ('Vlad') aus dem Entwickler-Team geschickt:


 * Identifizieren der in eDoc benutzen Dokumenttypen, die in PubMan nicht vorhanden sind (Software, Interactive Resource).
 * Identifizieren der von Institut benutzen MD Felder, die nicht in PubMan vorhanden sind. Folgende Abfragen werden benötigt:
 * Give me all eDoc IDs where authorcomment is filled. Please display eDoc ID and value of authorcomment.
 * Give me all eDoc IDs where docaff_researchcontext is filled. Please display eDoc ID and value of docaff_researchcontext.
 * Give me all eDoc IDs where copyright is filled. Please display eDoc ID and value of copyright.
 * Give me all eDoc IDs where file comment is filled. Please display eDoc ID and value(s) of file comment.
 * Analyse der Benutzung des Relationfelds. Folgende Abfragen werden benötigt:
 * Give me all eDoc IDs where isreferencedby is filled. Please display eDoc ID and value of isreferencedby.
 * Give me all eDoc IDs where hasreferences is filled. Please display eDoc ID and value of hasreferences.
 * Give me all eDoc IDs where issourceof is filled. Please display eDoc ID and value of issourceof.
 * Give me all eDoc IDs where hassource is filled. Please display eDoc ID and value of hassource.
 * Give me all eDoc IDs where isversionof is filled. Please display eDoc ID and value of isversionof.
 * Give me all eDoc IDs where ispartof is filled. Please display eDoc ID and value of ispartof.

Basierend auf diesen Abfragen erstellt Vlad den sogenannten "eDoc Datenreport" als Excel-Datei mit Mapping empfehlungen für die einzelnen Einträge. Dieser wird an die für die Migration Verantwortlichen Mitarbeiter am Institut geschickt. Das Institut prüft den Report und gibt ein Feedback an die MPDL.

P.S. --Makarenko 07:39, 26 May 2010 (UTC): See eDoc script in  directory

Organizational Unit Struktur für PubMan

 * Ausarbeiten einer Organizational Unit Struktur für PubMan

CoNE Persons

 * falls das Institut den CoNE Service für Personen nutzen möchte, gibt es zwei Möglichkeiten:
 * 1) Die MPDL schickt dem Intitute ein Excel File, in dem das Institut alle Autoren, die nach PubMan migriert werden sollen, vermerkt. Bei der Bearbeitung des Excel Files für CoNE Persons kann das Institut mehrere Ansetzungsformen für einzelne Autor festlegen und deren Haupteintrag vermerken. Weiterhin muss das Institut die Affiliations des Autors definieren.
 * 2) Die in eDoc vorhandenen Collections/Affiliations werden als OUs in PubMan angelegt. Bei der Migration der eDoc Daten in PubMan erhalten alle MPG-Autoren alle im eDoc Datensatz angegebenen Affiliations, bzw. wenn keine Affiliations gepflegt wurden bekommen die Autoren ihre OUs antsprechend der in eDoc hinterlegten Collection.

Analyse des Testimportes

 * Das Institut prüft die Daten des ersten Testimportes und gibt ein Feedback an die MPDL. Die Analyse ist Grundlage der späteren Anpassung des Mappings vor dem Beginn der Testmigrationen.
 * Soll statt eDoc ein Reference Management Programm als Quelle verwendet werden, wird das Institut gebeten, die eventuelle Benutzung von Customizable Fields zu dokumentieren.

Vorbereitung der Migration der Volltexte
Da es in eDoc keine Content Categories gibt, in PubMan jedoch schon (Pre-print, post-print, publisher version etc.) muss das Institut sich eine Logik überlegen mittels derer die Content Category in PubMan vergeben werden kann. Folgende Überlegungen können dabei z.B. angestellt werden:
 * Soll allen Dateien die Content Category 'any fulltext' zugewiesen werden?
 * Soll allen Dateien, die auf interne Sichtbarkeit in eDoc gesetzt sind, die Content Category 'publisher version' zugewiesen werden?

Des weiteren müssen Überlegungen angestellt werden, welche Sichtbarkeit migrierte Dateien in PubMan erhalten sollen. In eDoc gibt es folgende Zugangslevel: 'privileged user', 'internal', 'institute', 'MPG' und 'Public'; in PubMan gibt es 'public', 'private' und 'restricted' (Bei der Sichtbarkeit 'restricted' müssen vom Institut bestimmte Nutzegruppen definiert werden, die Zugriff auf die Datei erhalten sollen. Die Nutzergruppen werden von der MPD angelegt).

Bereinigung des Datenbestandes in eDoc
Danach muss es für die Eleminierung der Dubletten sorgen: entweder löschen oder auf Status 'submitted' setzen. Bei Verwendung eines Reference Management Programms müssen die Dubletten in der entsprechenden Source entfernt werden.
 * Das Institut prüft die eigenen Datenbestände auf Dubletten und Metadatenqualität. Bei der Dublettenprüfung empfiehlt es sich, die Liste der Publikationen in eDoc nach dem Titel zu sortieren.
 * Ablegen aller zu migrierender Daten (Achtung: Es werden nur freigeschaltete Datensätze migriert!) in einem eDoc Basket

Lieferfrist für die Vorbereitungen aus Phase 1
Die MPDL kommuniziert ein festes Datum als Lieferfrist für folgende Ausarbeitungen:
 * finale OU-Struktur
 * finale CoNE Personen-Liste
 * überarbeiteter eDoc Datenreport
 * Notizen/Überlegungen zu instituts-spezifischen Anpassungen im Mapping (basierend auf der Überprüfung des ersten Test-Imports)
 * Einstellungen auf dem Live-Server (Workflows, Contexte, Nutzeraccounts)
 * gewünschtes Datenset für die Testmigrationen
 * Außerdem müssen bis zu diesem Datum die datenbereinigenden Maßnahmen auf eDoc abgeschlossen sein.

PHASE 2: Testmigrationen
Auf die Lieferfrist folgt ein fest definierter Zeitraum von 5 Wochen.

Anpassen der eDoc nach PubMan Transformation
Die Informationen hierfür entnimmt man dem vom Institut zurückgeschickten Datenreport sowie der Analyse des ersten Testimportes und trägt das Instituts-spezifische Mapping auf die Migrations-Seite des jeweiligen Instituts in CoLab ein. Folgende Aspekte sollte das Mapping enthalten:
 * Content Category der Dateien.
 * Sichtbarkeit der Dateien.
 * bei einer Entscheidung für CoNE Persons: Mapping von eDoc Affiliation/Collection auf PubMan OUs bzw. Einspielen des zuvor erwähnten Excel file in CoNE.
 * Anlegen der OU Struktur in PubMan (zuerst auf Migrationsserver - anschließend Feedback vom Institut einholen und eventuelle Veränderungen/Umstrukturierungen in Erfahrung bringen).
 * Anlegen eines Import Contexts und eines PubMan Import Users für das Institut auf dem Migrationsserver.

Bei Verwendung eines Reference Management Systems ggf. Anpassen des betreffenden Import-Mappings (z.B. EndNote nach PubMan).

Durchführung der Testmigrationen
Diese Phase kann sich über einen längeren Zeitraum erstrecken. Sie ist geprägt von einer intensiven wechselseitigen Kommunikation zwischen MPDl und Institut. Die Phase der Test-Migrationen ist durch eine Vielzahl von Iterationen geprägt.


 * Test-Migration (MPDL)
 * Für die erste Testmigration müssen zunächst die Importdaten aus eDoc exportiert werden.
 * Anschließend wird ein Import der Daten auf dem Migrationsserver von PubMan getätigt.


 * Test-Migration (Institut)
 * Das Institut analysiert die importiert Datensätze.
 * Es schickt einen Report zur ersten Test-Migration an die MPDL, damit ggf. Anpassungen im Importskript vorgenommen werden können.

Es folgen weitere Test-Migrationen, in deren Verlauf das Import-Mapping entsprechend der Reports des Instituts weiter angepasst wird bis für das Institut ein Stand erreicht wird, an dem es bereit für eine Live-Migration ist.

PubMan Set-Up
Anlegen von:
 * OU Struktur
 * Contexten
 * Usern

Künftige Nutzung von PubMan

 * Die MPDL informiert das Institut über weitere Nutzungsmöglichkeiten.
 * Eventuell bekommt das Institut eine Schulung bzw. sollten die Konzepte von PubMan nocheinmal schriftlich erläutertwerden, damit das Institut gut gerüstet in die produktive Arbeit mit PubMan starten kann.