PubMan Func Spec Dublettencheck

From MPDLMediaWiki
Jump to navigation Jump to search

Diese Seite dient der Spezifikation eines Dubletten-Check-Mechanismus in PubMan.

Grundannahmen[edit]

  • Es gibt zwei Arten von Dubletten:
    • Gewollte Dubletten: Kooperierende Publikationen mehrerer Institute. Jedes Institut gibt die entsprechende Publikation für seine Wissenschaftler ein; es entstehen mehrere Datensätze zur selben Publikation. Diese Datensätze werden vom eingebenden Institut als Dubletten gekennzeichnet (und damit auf technischer Ebene miteinander verknüpft), bleiben jedoch alle im System erhalten.
    • Ungewollte Dubletten: Nicht erwünschte versehentliche Doppelteingaben von Publikationen, welche von vornherein vermieden bzw. automatisiert als Dublette identifiziert werden sollen.


Identifizierung von Dubletten[edit]

  • Möglichkeiten zur Identifizierung von Dubletten:
    • Dublettencheck "on demand" (im Dubletten-Arbeitsbereich)
    • dynamischer und automatischer Dublettencheck während einer Submission
      • nur für Moderatoren
    • automatischer Dubletten-Check beim Release eines Datensatzes
      • nur für Moderatoren
    • automatischer Dublettencheck beim Import


  • In den folgenden Datenbeständen wird nach Dubletten gesucht:
    • 'on demand' -> wählbar; entweder im Gesamtdatenbestand von PubMan oder innerhalb der eigenen Kontexte
    • während der Eingabe -> in den eigenen Kontexten
    • beim Release eines Datensatzes -> im Gesamtdatenbestand auf PubMan
    • beim Import -> im Gesamtdatenbestand auf PubMan


  • Definition der Suchkriterien:
    • Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted'
    • eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted')


  • Wirkweise des Dublettencheck-Mechanismus:
    • Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B.
      • Genre
      • Titel
      • Autoren
      • Publikationsjahr
      • Titel der Quelle
      • Identifier
      • ...
    • unterschiedliche Gewichtung der einzelnen Metadatenfelder
      • Identifier müssen, je nach Typ, unterschiedlich gerankt werden (z.B.: DOI stärker gewichtet als ISBN etc.)
    • Wahrscheinlichkeit, dass es sich um eine Dublette handelt, wächst kumulativ mit steigender Anzahl der übereinstimmenden Metadaten
    • beim Vergleich muss die Autorenreihenfolge beachtet werden
    • Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt

Handhabung von Dubletten[edit]

Dubletten-Arbeitsbereich / Duplicate Workspace[edit]