PubMan Dublettencheck Workshop

From MPDLMediaWiki
Jump to navigation Jump to search

Diese Seite soll als vorbereitende Grundlage für den geplanten PubMan Dublettencheck Workshop in der MPDL dienen.
Im Vorfeld zum Workshop sollen auf dieser Seite erste Ideen und Szenario-Entwürfe gesammelt werden. Ziel des Workshops ist es dann gemeinsam, basierend auf den hier gesammelten Ideen, ein konsolidiertes Szenario "Dublettencheck auf PubMan" auszuarbeiten.


PubMan Dublettencheck Workshop[edit]

Wo[edit]

MPDL, München
Konferenzraum 213

Wann[edit]

Mittwoch, den 15. Juni
09:30 - 17:00

Wer[edit]

Christiane Hardt, MPI Astrophysik/extraterrestrische Physik
Dag Kröper, MPI Informatik
Diana Mewes, MPI Chemische Ökologie
Elisabeth Schlenk, MPI Gravitationsphysik
Gisela Lausberg, MPI Evolutionäre Anthropologie
Karin Kastens, MPI Psycholinguistik
Juliane Pohl, MPI Biochemie / Neurobiologie
Sabine Schmotz, MPI Immaterialgüterrecht
Uta Siebeky, Fritz-Haber-Institut

Malte Dreyer, MPDL
Martin Boosen, MPDL
Michael Franke, MPDL
Juliane Müller, MPDL

Ziel[edit]

Gemeinsame Ausarbeitung eines Szenarios für einen Dublettencheck auf PubMan. Dabei sollen die beiden großen Aspekte Identifizierung von Dubletten sowie Handhabung von Dubletten diskutiert werden.


Agenda[edit]

09:30 - 10:00 Begrüßung und Überblick
10:00 - 11:00 Identifizierung von Dubletten Teil 1 - Präsentation der Vorüberlegungen & Ideensammlung
11:00 - 11:30 Kaffee-Pause
11:30 - 12:30 Identifizierung von Dubletten Teil 2 - Ausarbeitung eines gemeinsames Konzeptes
12:30 - 13:30 Mittagspause
13:30 - 15:00 Handhabung von Dubletten Teil 1 - Präsentation der Vorüberlegungen & Ideensammlung
15:00 - 15:30 Kaffee-Pause
15:30 - 16:30 Handhabung von Dubletten Teil 2 - Ausarbeitung eines gemeinsamen Konzeptes
16:30 - 17:00 Zusammenfassung und Résümé


Policy[edit]

Publikationen, die in Zusammenarbeit von mehreren Institutionen innerhalb der MPG verfasst wurden, können als Dubletten im Repository auftauchen, da jede der involvierten Institutionen die Publikation in ihrem Kontext verwalten möchte/muss bzw. die Publikation im Zusammenhang mit der Organization Search gelistet haben möchte. Den Nutzern werden Funktionalitäten zur Verfügung gestellt, um Dublettenprüfungen durchzuführen und bei Wunsch entsprechend Dubletten zu eliminieren, vorausgesetzt, sie besitzen die nötigen Rechte.



Erste Gedankenansätze in der MPDL - als Grundlage für weitere Ideen[edit]

Identifizierung von Dubletten[edit]

  • Wie / Wann sollen Dubletten identifiziert werden?
    • Dublettencheck "on demand" über gesamten Context oder gesamte OU (z.B. als Teil des QA-Prozesses)
    • automatischer Dublettencheck während einer Submission
    • automatischer Dublettencheck beim Import
  • Wo wird nach Dubletten gesucht? Nur innerhalb der eigenen Contexte bzw. des eigenen Instituts oder über den Gesamtdatenbestand von PubMan?
    • Nutzer sollte selbst bestimmen können, welchen Datenbestand er auf Dubletten überprüft.
  • Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B.
    • Genre
    • Titel
    • Autoren
    • Publikationsjahr
    • Titel der Quelle
    • Identifier
    • ... ?
  • Außerdem sollte es die Möglichkeit zur Identifizierung von Dubletten durch den Vergleich von angehängten Volltexten nach einem bestimmten Algorithmus geben.
  • Beim Dublettencheck sollte eine Wahrscheinlichkeit angegeben werden, zu der es sich um eine Dublette handelt.
  • Wie "empfindlich" soll Dublettencheck sein? Wann stört es die Dateneingabe?

Handhabung von Dubletten[edit]

  • Wie geht es weiter, wenn das System meint es hätte (zu einer bestimmten Wahrscheinlichkeit) eine Dublette entdeckt?
  • Der Nutzer hat die Möglichkeit die identifizierte Dublette über die Detailansicht der entsprechenden Datensätze zu begutachten.
  • Möglichkeiten zur Handhabung der identifizierten Dublette während einer Submission:
    • Der Nutzer kann den Hinweis auf die Erzeugung einer Dublette ignorieren.
    • Der Nutzer kann den Prozess der Dateneingabe abbrechen.
    • Der Nutzer kann eine Revision des bereits bestehenden Datensatzes erzeugen (neue intellektuell überarbeitete Version der Publikation) und damit eine Verbindung zwischen den beiden Datensätzen schaffen.
    • Der Nutzer erkennt, dass es sich in der Tat um eine Dublette handeln würde und hat die Möglichkeit eine neue (Metadaten-)Version des bestehenden Datensatzes zu erstellen.
  • Möglichkeiten zur Handhabung der identifizierten Dublette bei einem Dublettencheck "on demand" über eine Vielzahl von Datensätzen
    • Der Nutzer kann den Hinweis auf eine mögliche Dublette ignorieren.
    • Der Nutzer kann eine der beiden Dubletten verwerfen ('discard').
    • Der Nutzer kann eine Verbindung (Revision) zwischen den beiden Datensätzen herstellen.
  • Wann darf ein Nutzer die aufgezeigten Möglichkeiten ausführen?
    • Wenn er die entsprechenden modifizierenden Rechte (Depositor/Owner bzw. Moderator für einen bestimmten Kontext) für den Datensatz besitzt.



Das Identifizieren von Dubletten in PubMan - eine Ideensammlung der PubMan-Nutzer[edit]

Die Handhabung von Dubletten in PubMan - eine Ideensammlung der PubMan Nutzer[edit]