Revision as of 09:55, 11 August 2011

Diese Seite dient der Spezifikation eines Dubletten-Check-Mechanismus in PubMan.

Grundannahmen[edit]

Es gibt zwei Arten von Dubletten:
- Gewollte Dubletten: Kooperierende Publikationen mehrerer Institute. Jedes Institut gibt die entsprechende Publikation für seine Wissenschaftler ein; es entstehen mehrere Datensätze zur selben Publikation. Diese Datensätze werden vom eingebenden Institut als Dubletten gekennzeichnet (und damit auf technischer Ebene miteinander verknüpft und als Dublette 'gemarked'), bleiben jedoch alle im System erhalten.
- Ungewollte Dubletten: Nicht erwünschte versehentliche Doppelteingaben von Publikationen, welche von vornherein vermieden bzw. automatisiert als Dublette identifiziert werden sollen.

In den folgenden Datenbeständen wird nach Dubletten gesucht:
- 'on demand' -> wählbar; entweder im Gesamtdatenbestand von PubMan oder innerhalb der eigenen Kontexte
- während der Eingabe -> in den eigenen Kontexten
- beim Release eines Datensatzes -> im Gesamtdatenbestand auf PubMan
- beim Import -> im Gesamtdatenbestand auf PubMan

Definition der Suchkriterien:
- Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted'
- eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted')

@@ Line 42: / Line 42: @@
 ** beim Vergleich muss die Autorenreihenfolge beachtet werden
 ** Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt
+** Informationen über Nicht-Dubletten werden nicht gespeichert
 =Handhabung von Dubletten=