Revision as of 09:55, 12 July 2011

Diese Seite dient der Spezifikation eines Dubletten-Check-Mechanismus in PubMan.

Grundannahmen[edit]

Es gibt zwei Arten von Dubletten:
- Gewollte Dubletten: Kooperierende Publikationen mehrerer Institute. Jedes Institut gibt die entsprechende Publikation für seine Wissenschaftler ein; es entstehen mehrere Datensätze zur selben Publikation. Diese Datensätze werden vom eingebenden Institut als Dubletten gekennzeichnet (und damit auf technischer Ebene miteinander verknüpft), bleiben jedoch alle im System erhalten.
- Ungewollte Dubletten: Nicht erwünschte versehentliche Doppelteingaben von Publikationen, welche von vornherein vermieden bzw. automatisiert als Dublette identifiziert werden sollen.

In den folgenden Datenbeständen wird nach Dubletten gesucht:
- 'on demand' -> wählbar; entweder im Gesamtdatenbestand von PubMan oder innerhalb der eigenen Kontexte
- während der Eingabe -> in den eigenen Kontexten
- beim Release eines Datensatzes -> im Gesamtdatenbestand auf PubMan
- beim Import -> im Gesamtdatenbestand auf PubMan

Definition der Suchkriterien:
- Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted'
- eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted')

@@ Line 27: / Line 27: @@
 ** Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted'
 ** eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted')
+* Wirkweise des Dublettencheck-Mechanismus:
+** Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B.
+*** Genre
+*** Titel
+*** Autoren
+*** Publikationsjahr
+*** Titel der Quelle
+*** Identifier
+*** ...
+** unterschiedliche Gewichtung der einzelnen Metadatenfelder
+*** Identifier müssen, je nach Typ, unterschiedlich gewichtet werden (z.B.: DOI stärker gewichtet als ISBN etc.)
+** Wahrscheinlichkeit, dass es sich um eine Dublette handelt, wächst kumulativ mit steigender Anzahl der übereinstimmenden Metadaten
+** beim Vergleich muss die Autorenreihenfolge beachtet werden
+** Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt
 =Handhabung von Dubletten=
 =Dubletten-Arbeitsbereich / Duplicate Workspace=