Difference between revisions of "PubMan Func Spec Dublettencheck"
Jump to navigation
Jump to search
Line 27: | Line 27: | ||
** Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted' | ** Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted' | ||
** eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted') | ** eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted') | ||
* Wirkweise des Dublettencheck-Mechanismus: | |||
** Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B. | |||
*** Genre | |||
*** Titel | |||
*** Autoren | |||
*** Publikationsjahr | |||
*** Titel der Quelle | |||
*** Identifier | |||
*** ... | |||
** unterschiedliche Gewichtung der einzelnen Metadatenfelder | |||
*** Identifier müssen, je nach Typ, unterschiedlich gewichtet werden (z.B.: DOI stärker gewichtet als ISBN etc.) | |||
** Wahrscheinlichkeit, dass es sich um eine Dublette handelt, wächst kumulativ mit steigender Anzahl der übereinstimmenden Metadaten | |||
** beim Vergleich muss die Autorenreihenfolge beachtet werden | |||
** Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt | |||
=Handhabung von Dubletten= | =Handhabung von Dubletten= | ||
=Dubletten-Arbeitsbereich / Duplicate Workspace= | =Dubletten-Arbeitsbereich / Duplicate Workspace= |
Revision as of 09:55, 12 July 2011
Diese Seite dient der Spezifikation eines Dubletten-Check-Mechanismus in PubMan.
Grundannahmen[edit]
- Es gibt zwei Arten von Dubletten:
- Gewollte Dubletten: Kooperierende Publikationen mehrerer Institute. Jedes Institut gibt die entsprechende Publikation für seine Wissenschaftler ein; es entstehen mehrere Datensätze zur selben Publikation. Diese Datensätze werden vom eingebenden Institut als Dubletten gekennzeichnet (und damit auf technischer Ebene miteinander verknüpft), bleiben jedoch alle im System erhalten.
- Ungewollte Dubletten: Nicht erwünschte versehentliche Doppelteingaben von Publikationen, welche von vornherein vermieden bzw. automatisiert als Dublette identifiziert werden sollen.
Identifizierung von Dubletten[edit]
- Möglichkeiten zur Identifizierung von Dubletten:
- Dublettencheck "on demand" (im Dubletten-Arbeitsbereich)
- dynamischer und automatischer Dublettencheck während einer Submission
- nur für Moderatoren
- automatischer Dubletten-Check beim Release eines Datensatzes
- nur für Moderatoren
- automatischer Dublettencheck beim Import
- In den folgenden Datenbeständen wird nach Dubletten gesucht:
- 'on demand' -> wählbar; entweder im Gesamtdatenbestand von PubMan oder innerhalb der eigenen Kontexte
- während der Eingabe -> in den eigenen Kontexten
- beim Release eines Datensatzes -> im Gesamtdatenbestand auf PubMan
- beim Import -> im Gesamtdatenbestand auf PubMan
- Definition der Suchkriterien:
- Gesamtdatenbestand = alle Datensätze im Status 'Released' im gesamten PubMan + Datensätze der eigenen Kontexte im Status 'Submitted'
- eigene Kontexte = alle Datensätze in den eigenen Kontexten unabhängig vom Status (sowohl 'Released' als auch 'Submitted')
- Wirkweise des Dublettencheck-Mechanismus:
- Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B.
- Genre
- Titel
- Autoren
- Publikationsjahr
- Titel der Quelle
- Identifier
- ...
- unterschiedliche Gewichtung der einzelnen Metadatenfelder
- Identifier müssen, je nach Typ, unterschiedlich gewichtet werden (z.B.: DOI stärker gewichtet als ISBN etc.)
- Wahrscheinlichkeit, dass es sich um eine Dublette handelt, wächst kumulativ mit steigender Anzahl der übereinstimmenden Metadaten
- beim Vergleich muss die Autorenreihenfolge beachtet werden
- Angabe einer Wahrscheinlichkeit, dass es sich um eine Dublette handelt
- Der Dublettencheck sollte auf dem Vergleich von bestimmten Metadatenfeldern basieren, wie z.B.