PubMan Dublettencheck Workshop

Diese Seite soll als vorbereitende Grundlage für den geplanten PubMan Dublettencheck Workshop in der MPDL dienen. Im Vorfeld zum Workshop sollen auf dieser Seite erste Ideen und Szenario-Entwürfe gesammelt werden. Ziel des Workshops ist es dann gemeinsam, basierend auf den hier gesammelten Ideen, ein konsolidiertes Szenario "Dublettencheck auf PubMan" auszuarbeiten.

=PubMan Dublettencheck Workshop=

Wo
MPDL, München Konferenzraum 213

Wann
Mittwoch, den 15. Juni 09:30 - 17:00

Wer
Christiane Hardt, MPI Astrophysik/extraterrestrische Physik Dag Kröper, MPI Informatik Diana Mewes, MPI Chemische Ökologie Elisabeth Schlenk, MPI Gravitationsphysik Gisela Lausberg, MPI Evolutionäre Anthropologie Karin Kastens, MPI Psycholinguistik Juliane Pohl, MPI Biochemie / Neurobiologie Sabine Schmotz, MPI Immaterialgüterrecht Uta Siebeky, Fritz-Haber-Institut Malte Dreyer, MPDL Martin Boosen, MPDL Michael Franke, MPDL Juliane Müller, MPDL

Ziel
Gemeinsame Ausarbeitung eines Szenarios für einen Dublettencheck auf PubMan. Dabei sollen die beiden großen Aspekte Identifizierung von Dubletten sowie Handhabung von Dubletten diskutiert werden.

Agenda
09:30 - 10:00 Begrüßung und Überblick 10:00 - 11:00 Identifizierung von Dubletten Teil 1 - Präsentation der Vorüberlegungen & Ideensammlung 11:00 - 11:30 Kaffee-Pause  11:30 - 12:30 Identifizierung von Dubletten Teil 2 - Ausarbeitung eines gemeinsames Konzeptes 12:30 - 13:30 Mittagspause 13:30 - 15:00 Handhabung von Dubletten Teil 1 - Präsentation der Vorüberlegungen & Ideensammlung 15:00 - 15:30 Kaffee-Pause 15:30 - 16:30 Handhabung von Dubletten Teil 2 - Ausarbeitung eines gemeinsamen Konzeptes 16:30 - 17:00 Zusammenfassung und Résümé

=Policy= Publikationen, die in Zusammenarbeit von mehreren Institutionen innerhalb der MPG verfasst wurden, können als Dubletten im Repository  auftauchen, da jede der involvierten Institutionen die Publikation in  ihrem Kontext verwalten möchte/muss bzw. die Publikation im Zusammenhang mit der Organization Search gelistet haben möchte. Den Nutzern werden Funktionalitäten zur Verfügung gestellt, um Dublettenprüfungen  durchzuführen und bei Wunsch entsprechend Dubletten zu eliminieren,  vorausgesetzt, sie besitzen die nötigen Rechte.

=Erste Gedankenansätze in der MPDL - als Grundlage für weitere Ideen=

Identifizierung von Dubletten

 * Wie / Wann sollen Dubletten identifiziert werden?
 * Dublettencheck "on demand" über gesamten Context oder gesamte OU (z.B. als Teil des QA-Prozesses)
 * automatischer Dublettencheck während einer Submission
 * automatischer Dublettencheck beim Import
 * Wo wird nach Dubletten gesucht? Nur innerhalb der eigenen Contexte bzw. des eigenen Instituts oder über den Gesamtdatenbestand von PubMan?
 * Nutzer sollte selbst bestimmen können, welchen Datenbestand er auf Dubletten überprüft.
 * Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B.
 * Genre
 * Titel
 * Autoren
 * Publikationsjahr
 * Titel der Quelle
 * Identifier
 * Außerdem sollte es die Möglichkeit zur Identifizierung von Dubletten durch den Vergleich von angehängten Volltexten nach einem bestimmten Algorithmus geben.
 * Beim Dublettencheck sollte eine Wahrscheinlichkeit angegeben werden, zu der es sich um eine Dublette handelt.
 * Wie "empfindlich" soll Dublettencheck sein? Wann stört es die Dateneingabe?
 * Wie "empfindlich" soll Dublettencheck sein? Wann stört es die Dateneingabe?

Handhabung von Dubletten

 * Wie geht es weiter, wenn das System meint es hätte (zu einer bestimmten Wahrscheinlichkeit) eine Dublette entdeckt?
 * Der Nutzer hat die Möglichkeit die identifizierte Dublette über die Detailansicht der entsprechenden Datensätze zu begutachten.
 * Möglichkeiten zur Handhabung der identifizierten Dublette während einer Submission:
 * Der Nutzer kann den Hinweis auf die Erzeugung einer Dublette ignorieren.
 * Der Nutzer kann den Prozess der Dateneingabe abbrechen.
 * Der Nutzer kann eine Revision des bereits bestehenden Datensatzes erzeugen (neue intellektuell überarbeitete Version der Publikation) und damit eine Verbindung zwischen den beiden Datensätzen schaffen.
 * Der Nutzer erkennt, dass es sich in der Tat um eine Dublette handeln würde und hat die Möglichkeit eine neue (Metadaten-)Version des bestehenden Datensatzes zu erstellen.
 * Möglichkeiten zur Handhabung der identifizierten Dublette bei einem Dublettencheck "on demand" über eine Vielzahl von Datensätzen
 * Der Nutzer kann den Hinweis auf eine mögliche Dublette ignorieren.
 * Der Nutzer kann eine der beiden Dubletten verwerfen ('discard').
 * Der Nutzer kann eine Verbindung (Revision) zwischen den beiden Datensätzen herstellen.
 * Wann darf ein Nutzer die aufgezeigten Möglichkeiten ausführen?
 * Wenn er die entsprechenden modifizierenden Rechte (Depositor/Owner bzw. Moderator für einen bestimmten Kontext) für den Datensatz besitzt.

=Das Identifizieren von Dubletten in PubMan - eine Ideensammlung der PubMan-Nutzer=

=Die Handhabung von Dubletten in PubMan - eine Ideensammlung der PubMan Nutzer=