PubMan Func Spec Dublettencheck

From MPDLMediaWiki
Jump to navigation Jump to search

Diese Seite dient der Spezifikation eines Dubletten-Check-Mechanismus in PubMan.

Grundannahmen[edit]

  • Es gibt zwei Arten von Dubletten:
    • Gewollte Dubletten: Kooperierende Publikationen mehrerer Institute. Jedes Institut gibt die entsprechende Publikation für seine Wissenschaftler ein; es entstehen mehrere Datensätze zur selben Publikation. Diese Datensätze werden vom eingebenden Institut als Dubletten gekennzeichnet (und damit auf technischer Ebene miteinander verknüpft und als Dublette 'gemarked'), bleiben jedoch alle im System erhalten.
    • Ungewollte Dubletten: Nicht erwünschte versehentliche Doppelteingaben von Publikationen, welche von vornherein vermieden bzw. automatisiert als Dublette identifiziert werden sollen.


Identifizierung von Dubletten[edit]

  • Möglichkeiten zur Identifizierung von Dubletten:
    • Dublettencheck "on demand" (im Dubletten-Arbeitsbereich)
    • dynamischer und automatischer Dublettencheck während einer Submission
      • nur für Moderatoren
    • automatischer Dubletten-Check beim Release eines Datensatzes
      • nur für Moderatoren
    • automatischer Dublettencheck beim Import


  • In den folgenden Datenbeständen wird nach Dubletten gesucht:
    • 'on demand' -> wählbar; entweder im Gesamtdatenbestand von PubMan oder innerhalb der eigenen Kontexte
    • während der Eingabe -> in den eigenen Kontexten
    • beim Release eines Datensatzes -> im Gesamtdatenbestand auf PubMan
    • beim Import -> im Gesamtdatenbestand auf PubMan


  • Definition der Suchkriterien:
    • Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted'
    • eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted')


  • Wirkweise des Dublettencheck-Mechanismus:
    • Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B.
      • Genre
      • Titel
      • Autoren
      • Publikationsjahr
      • Titel der Quelle
      • Identifier
      • ...
    • unterschiedliche Gewichtung der einzelnen Metadatenfelder
      • Identifier müssen, je nach Typ, unterschiedlich gerankt werden (z.B.: DOI stärker gewichtet als ISBN etc.)
    • Wahrscheinlichkeit, dass es sich um eine Dublette handelt, wächst kumulativ mit steigender Anzahl der übereinstimmenden Metadaten
    • beim Vergleich muss die Autorenreihenfolge beachtet werden
    • Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt
    • Informationen über Nicht-Dubletten werden nicht gespeichert


Handhabung von Dubletten[edit]

  • Möglichkeiten zum Handling von identifizierten Dubletten während Submission und Release eines einzelnen Datensatzes:
    • Dubletten-Hinweis ignorieren ('ignore')
    • den Datensatz verwerfen ('discard', wenn Datensatz bereits released war / 'delete', wenn Datensatz noch nicht released war)
    • den Datensatz als Revision eines anderen Datensatzes markieren ('create revision')
    • Datensatz editieren ('edit')
    • den Datensatz als gewollte Dublette markieren ('duplicate')
    • den Datensatz als Template benutzen ('use as template')


  • Möglichkeiten zum Handling von identifizierten Dubletten während eine Mehrfach-Imports:
    • Auswahl des Imports im Dubletten-Arbeitsbereich
    • Einzel- und Batch-Handling
    • gleiche Optionen wie bei Submission (ignore, discard, create revision, edit, duplicate, use as template)


  • Darstellung eines Dublettenfundes:
    • alle Items sollen in Kurz/Mittelansicht (neues internes Browser-Fenster; ähnlich wir bei den Import-Details) aufrufbar sein
    • Metadaten, die darauf hinweisen, dass es sich um eine Dublette handeln könnte, sind farbig gekennzeichnet
    • Handling eventuell wie bei EndNote -> es wird immer zwischen zwei Alternativen entschieden


Dubletten-Arbeitsbereich / Duplicate Workspace[edit]

  • Steuerung des Dublettenchecks 'on demand'
    • dabei ist auswählbar in welchen Inhalten nach Dubletten gesucht werden soll:
      • Gesamtdatenbestand
      • eigene Kontexte
  • Nice-to-Have / 2nd Prio: Individuelles Festlegen der geprüften Metadaten im Arbeitsbereich


CoNE Personen / Researcher Portfolio[edit]

  • Institut entscheidet selbst, ob es in dem einzugebenden Datensatz die Autoren der anderen Institute mit CoNE (sofern Eintrag vorhanden) verknüpfen möchte
  • dadurch entstehende Dubletten im Researcher Portfolio werden dort herausgefiltet
    • Voraussetzung dafür: die entsprechenden Datensätze müssen als gewollte Dublette markiert sein