Difference between revisions of "PubMan Func Spec Dublettencheck"

From MPDLMediaWiki
Jump to navigation Jump to search
Line 42: Line 42:
** beim Vergleich muss die Autorenreihenfolge beachtet werden
** beim Vergleich muss die Autorenreihenfolge beachtet werden
** Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt
** Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt
** Informationen über Nicht-Dubletten werden nicht gespeichert


=Handhabung von Dubletten=
=Handhabung von Dubletten=

Revision as of 09:55, 11 August 2011

Diese Seite dient der Spezifikation eines Dubletten-Check-Mechanismus in PubMan.

Grundannahmen[edit]

  • Es gibt zwei Arten von Dubletten:
    • Gewollte Dubletten: Kooperierende Publikationen mehrerer Institute. Jedes Institut gibt die entsprechende Publikation für seine Wissenschaftler ein; es entstehen mehrere Datensätze zur selben Publikation. Diese Datensätze werden vom eingebenden Institut als Dubletten gekennzeichnet (und damit auf technischer Ebene miteinander verknüpft und als Dublette 'gemarked'), bleiben jedoch alle im System erhalten.
    • Ungewollte Dubletten: Nicht erwünschte versehentliche Doppelteingaben von Publikationen, welche von vornherein vermieden bzw. automatisiert als Dublette identifiziert werden sollen.

Identifizierung von Dubletten[edit]

  • Möglichkeiten zur Identifizierung von Dubletten:
    • Dublettencheck "on demand" (im Dubletten-Arbeitsbereich)
    • dynamischer und automatischer Dublettencheck während einer Submission
      • nur für Moderatoren
    • automatischer Dubletten-Check beim Release eines Datensatzes
      • nur für Moderatoren
    • automatischer Dublettencheck beim Import


  • In den folgenden Datenbeständen wird nach Dubletten gesucht:
    • 'on demand' -> wählbar; entweder im Gesamtdatenbestand von PubMan oder innerhalb der eigenen Kontexte
    • während der Eingabe -> in den eigenen Kontexten
    • beim Release eines Datensatzes -> im Gesamtdatenbestand auf PubMan
    • beim Import -> im Gesamtdatenbestand auf PubMan


  • Definition der Suchkriterien:
    • Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted'
    • eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted')


  • Wirkweise des Dublettencheck-Mechanismus:
    • Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B.
      • Genre
      • Titel
      • Autoren
      • Publikationsjahr
      • Titel der Quelle
      • Identifier
      • ...
    • unterschiedliche Gewichtung der einzelnen Metadatenfelder
      • Identifier müssen, je nach Typ, unterschiedlich gerankt werden (z.B.: DOI stärker gewichtet als ISBN etc.)
    • Wahrscheinlichkeit, dass es sich um eine Dublette handelt, wächst kumulativ mit steigender Anzahl der übereinstimmenden Metadaten
    • beim Vergleich muss die Autorenreihenfolge beachtet werden
    • Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt
    • Informationen über Nicht-Dubletten werden nicht gespeichert

Handhabung von Dubletten[edit]

Dubletten-Arbeitsbereich / Duplicate Workspace[edit]