EScience Seminar 2008/EScience-Seminar Unique and Persistent Identifiers

From MPDLMediaWiki
Jump to navigation Jump to search

Background[edit]

An increasing number of scientists use the Internet to link together primary and secondary resources, as well as publications, for various reasons. The required and considerable investments must be protected by assuring that links are unique and persistent, unlike the widely used URLs.

Goal[edit]

The seminar will discuss suggestions for a stable reference mechanism and will work out corresponding strategic measures for the Max Planck Society.

The seminar takes place on 27/28 March 2008 at the RZG in Garching.

Responsible for content[edit]

Daan Broeder (MPI Nijmegen),
Malte Dreyer (MPDL)



Contributions[edit]

General PID topics[edit]

  • Introduction (Peter Wittenburg (MPI PL), Slides, 4MB)
  • Identifying objects on the web and beyond (Felix Sasaki (W3C), Slides )
  • Requirements from ISO work on PID's (Sue Ellen Wright (ISO), Slides, 3MB)
  • Using the Handle System for managing PID's (Larry Lannom (CNRI), Slides, 2MB)
  • DOI, what it adds to the handle system. Business Model (Norman Paskin (DOI), Slides, 0.5MB )
  • URNs for digital objects - A service of the German National Library (Christa Schoening-Walter (DNB), Slides, 1MB)
  • Requirements for PID systems (Jens Ludwig (nestor), Slides, 0.4MB )

Update: The slides of the talk that John Kunze wanted to present:

MPG requirements and issues[edit]

  • Primary data registration (Michael Lautenschlager (MPI M), Slides, 4MB )
  • Requirements for PIDs (Jeff Oegema (MPI CBG), Slides, 5MB)
  • Integrating Persistent Identifiers in a Distributed Archive Environment (Daan Broeder (MPI PL), Slides, 4MB)
  • Images as resources: persistent links and parameters (Robert Casties (MPI WG), Slides, 0.04MB)
  • On-site summary (Malte Dreyer (MPDL), Slides, 3MB)


Zusammenfassung[edit]

(you can find the English translation below)

Tag 1: General PID topics[edit]

Introduction (Peter Wittenburg, MPI PL)[edit]

Im Zusammenhang mit der Datensintflut in eScience-Umgebungen (Primärdaten, Sekundärdaten, Relationen, Aggregationen) gibt Hr. Wittenburg eine Übersicht über die Herausforderungen an persistente Identifizierung von relevanten Daten und Informationen. Dabei betont er auch mögliche unterschiedliche Anforderungen von Nutzer- und Infrastrukturseite („download first vs. cyberinfrastructure as working environment“). Bei zunehmend in das Internet verlagerten kooperativen Forschungsumgebungen ist der Bedarf an besonders vertrauensvollen Umgebungen sehr groß. Als Beispiel werden Infrastrukturprojekte wie CLARIN erwähnt, deren Erfolg auf dem Vertrauen der Partner ineinander basieren. Als grundlegender Aspekt für die Entscheidungen der MPG bzgl. PID sieht Hr. Wittenburg die Beantwortung der Frage, wie groß die Komplexität bzw. die Fehleranfälligkeit ist, die zusätzliche Schichten in einer Web-Architektur mit sich bringen, die ausschließlich das Verwalten von verschobenen und geänderten Referenzen im Web ermöglichen.

  • Die Vortragsfolien von Peter Wittenburg: PDF, 4MB


Identifying objects on the web and beyond (Felix Sasaki, W3C)[edit]

Hr. Sasaki präsentiert im Überblick die Grundkonzepte (Ressource-Identifikator-Repräsentation) bzw. die Bausteine der Web-Architektur (Identifikation – Interaktion – Formate). Hr. Sasaki vertritt die Position, dass existierende URI-Schemas grundsätzlich ausreichend sind für persistente Identifizierung, sofern sie richtig und verantwortungsvoll genutzt werden. Er geht auf häufig gestellte Fragen im URI Kontext ein und betont, dass der Erhalt bzw. die Persistenz von URIs ein eher soziales als technisches Problem sei. Beispiele für "Persistency Policies" in verschiedenen Organisationen werden präsentiert. Hr. Sasaki unterscheidet für persistente URIs Organisationsmodelle, bei denen entweder zentral alle Repräsentationen in einem Repository abgelegt werden oder durch eine Naming Authority gesteuerte Replikationsmechanismen eingesetzt werden. Weiterhin betont er die Wichtigkeit eines nutzerfreundlichen Ansatz sowie entsprechende Aufklärung und Support der Community. Unter zukünftigen Herausforderungen erwähnt er die persistente Adressierung von Informationsfragmenten, die Internationalisierung von Identifiern sowie die Identifizierung von Objekten und Webservices.

  • Die Vortragsfolien von Felix Sasaki: HTML


Requirements from ISO work on PID's (Sue Ellen Wright, ISO)[edit]

Aus dem Kontext von Knowledge Organisation und Terminologie-Management Aspekten erläutert Fr. Wright die Problematik von "authoritative resources". Ihre Hauptanforderung liegt darin, "versteckte", noch nicht formalisierte authoritative resources zugänglich zu machen. Die Vielfalt von Konzepten und Begrifflichkeiten erschwert die Arbeit von gemeinsam vorangetriebener persistenter Auszeichnung. Um dieses Ziel zu erreichen, sollten Wissensquellen wie Thesauri, Metadata Registries, Terminology Databases und Lexical Markup Frameworks ausgebaut werden, um überhaupt eine Basis für Community getriebene Arbeit zu persistenter Identifikation von relevanten Language Resources zu schaffen. Von großer Bedeutung ist die Möglichkeit der Community, auf Terminologie und Konzept-Einträge persistent und eindeuting referieren zu können.

  • Die Vortragsfolien von Sue Ellen Wright: PDF, 3MB


Using the Handle System for managing PID's (Larry Lannom, CNRI)[edit]

Hr. Lannom präsentiert die Vorteile und Funktionalitäten des Handle System als mögliches Resolution System und gibt Hinweise auf aktuelle Erweiterungen. Handle ist in der Lage, verschiedene typisierte Daten aufzulösen. Es besteht aus einem Global Handle Registry und verteilten, lokalen Handle Services, die jeweils auf verschiedenen Sites und Servern verteilt sind. Die eigentliche Handle Auflösung und die Administration des Handle laufen als getrennte Prozesse. Das DOI Konsortium ist zur Zeit der größte Nutzer des Handle Systems, weitere Nutzer wie Los Alamos werden erwähnt. Präfixes für PIDs werden zentral vergeben, Handles selbst können lokal (auch privat) vergeben werden. Die Vergabe und Pflege von Präfixes ist kostenpflichtig (derzeit USD 425 für jeweils zehn Jahre). Geplante Entwicklungen umfassen u. a. eine Type Registry zur Typisierung von möglichen Handle Values.

  • Die Vortragsfolien von Larry Lannom: PDF, 2MB


DOI, what it adds to the handle system. Business Model (Norman Paskin, DOI)[edit]

Hr. Paskin beschreibt DOI als eine Anwendung des Handle Systems, die bestimmte weitere Services bietet. DOI fokussiert zurzeit vor allem auf die Anliegen der Publishing Industrie bezüglich Geistigem Eigentum. Es beinhaltet über das Handle-System hinaus ein spezifisches Datenmodell sowie ein Metadaten Management. Die Vergabe von DOI erzeugt im Gegensatz zum Handle System Kosten pro vergebener PID. Zur Vergabe großer Mengen an PIDs werden zurzeit unterschiedliche Kostenmodelle diskutiert.


URNs for digital objects - A service of the German National Library (Christa Schöning-Walter, DNB)[edit]

Durch gesetzliche Auflagen (z.B. Pflichtexemplargesetz) obliegt der DNB besondere Verantwortung bezüglich persistenter Auszeichnung von heterogenen Online-Ressourcen. Die DNB hat sich mit anderen nationalen Bibliotheken Europas für den Standard URN entschieden, als Namespace Identifier agiert die National Bibliography Number (NBN). Der NBN-Resolver liefert alle möglichen Locations einer Ressource. Digitalisate werden auf Objekt- und Scan-Ebene identifiziert. Auch Fr. Schöning-Walter adressiert die offenen Fragen von Granularität und Authentizität bei dynamisch veränderten Contents.

  • Die Vortragsfolien von Christa Schöning-Walter: PDF, 1MB


Requirements for PID systems (Jens Ludwig, Nestor-Projekt)[edit]

Hr. Ludwig stellt die Sicht des Nestor-Projekts im Rahmen von Aspekten der Langzeitarchivierung und PIDs vor, mit der sich eine Arbeitsgruppe im Nestor-Projekt beschäftigt. Als Beispiel für aktuelle Probleme stellt er die Zusammenführung von zwei bibliotheksorientierten Institutionen (RLG, OCLC) vor, bei der die Identifikatoren durch die Zusammenführung teilweise ihre Gültigkeit verloren haben. Weiterhin führt Hr. Ludwig an, dass derzeit häufig bei Harvesting-Vorgängen die vergebene PID nicht mitgeführt wird und hiermit nicht nachnutzbar verfügbar ist. Im Rahmen des Nestor-Projekts wird derzeit die Verwendung des „N2T“-Services der California Digital Library getestet. Innerhalb des Nestor Kriterienkatalogs für PIDs werden drei Hauptaspekte genannt: Vertrauenswürdige Zusage des PID Providers, Zusammenarbeit zwischen dem PID Provider und der nutzenden Organisation, Authentizitäts-Prüfungen. Weiterhin wird im Vortrag das australische PILIN-Projekt erwähnt, das eine eigene PID Infrastruktur aufgebaut hat.


Tag 2: MPG requirements and issues[edit]

Primary data registration (Michael Lautenschlager, MPI Meteorologie)[edit]

Das World Data Center Climate nutzt DOIs und URNs für seine Primärdaten Sets, TIB Hannover fungiert als nicht-kommerzielle DOI Registration Agency, das WDCC fungiert als Publication Agent und ist verantwortlich für Speicherung, Pflege und Evaluierung der Inhalte. Hr. Lautenschlager erläutert tägliche Nutzungsszenarien und Policies: Die Versionierung ist durch Policies festgeschrieben (jede Änderung nach DOI-Vergabe erzeugt ein neues Objekt). Das DOI System bietet eine einfache Möglichkeit für Wissenschaftler, einen Artikel mit dem zugehörigen Datensets zu verknüpfen. Die Qualitätskontrolle der Primärdaten beinhaltet semantische (Modell/Publikation) und syntaktische (Metadata) Kontrolle der Daten. Als Publication Agent wünscht sich das WDCC noch eine Möglichkeit zum echten Peer Review seiner Primärdaten, da zurzeit lediglich eine interne Angabe zur Freigabe der Daten durch den Autor vergeben werden kann. Bezüglich der Granularität von Daten orientiert man sich an der Publikationsebene bzw. -Struktur des Bibliothekskatalogs der TIB Hannover. PIDs werden nur auf Experimentebene vergeben, darunter sind feingranulare Entitäten möglich, die aber aus Kostengründen nur im Archiv ohne PID gelagert werden. Die Nutzer erreichen über den TIB Order Katalog und eingeschränkte Metadaten das lokale Archiv, und können dort bei Bedarf weitere Metadata abrufen. Hr. Lautenschlager weist darauf hin, dass für die Publikation von Datensets im Zuge einer Artikelpublikation (Good Scientific Practice) andere Granularitätsebenen wichtig sind als für die darauf aufbauenden wissenschaftlichen Forschungen.

  • Die Vortragsfolien von Michael Lautenschlager: PDF, 4MB


Integrating PIDs in a Distributed Archive Environment (Daan Broeder MPI for Psycholinguistics)[edit]

Das europäische DAM-LR Projekt wurde beschrieben, in welchem einer der Stützpfeiler der aufgebauten Föderation von Sprachressource-Archiven ein gemeinsames PID System ist. DAM-LR brauchte ein System, das auf einem stabil und performant funktionierendem Resolutions-Mechanismus basiert, denn das Projekt wollte nicht selbst Software in diesem Bereich entwickeln. Einige Aspekte von PIDs wurden diskutiert, die mit dem Gebrauch von PIDs für Sprachressourcen und dem Zugang zu Kopien zusammenhängen. So kann man z.B. nicht für jedes Attribut in einem Lexikon eine externe PID registrieren, sondern muss dies über Part-Identifier lösen. Die Granularität muss derart sein, dass jede Ressource referenziert werden kann, ihre internen Bausteine jedoch über einen Part-Zusatz. Ein anderer Aspekt ist die Frage nach der Sicherheit des Managments von Remote-Zugriffen auf die PID Einträge, wenn sich die URI einer Kopie verändert.

  • Die Vortragsfolien von Daan Broeder: PDF, 4MB


Requirements for PIDs (Jeff Oegema, MPI CBG)[edit]

Hr. Oegema beschreibt den internen Workflow (Analysen, Tools) sowie generierte Datentypen und -Formate am Institut. Die Arbeitsschritte des Wissenschaftlers werden beschrieben. Die Nutzung proprietärer Formate ist innerhalb dieses Anwendungsszenarios nicht vermeidbar (z.B ZEISS Meta Imaging System). Als größte Herausforderung beschreibt Hr. Oegema das interne Daten-Management sowie die Etablierung von Standards. Dabei treten offene Fragen zu Granularität, Timing, Zugriffsbeschränkungen sowie Metadatenverarbeitung und -beschreibung auf.

  • Die Vortragsfolien von Jeff Oegema: PDF, 5MB


Images as resources: persistent links and parameters (Robert Casties, MPI WG)[edit]

Als wichtige Anforderung an PID Systeme werden zusätzlich Browser- und Google-Kompatibiltät genannt. Im Fall DigiLib, einer am MPI-WG entwickelten Software zur Dissemination großer Bilddateien, liegt eine Herausforderung darin, dass auch dynamische Parameter zur Beschreibung einer Bildregion oder eines Ausschnitts persistierbar beschrieben werden müssen und in diesem Zusammenhang etablierte Standards fehlen. Weiterhin treten Anforderungen zu unterschiedlichen Nutzerrechten auf verschiedenen Granularitätsebenen der Ressource auf. Hr. Casties betont die Wichtigkeit nicht nur der Persistenz der Ressource, sondern auch des hierfür eingesetzten Services.


Summary[edit]

Day 1: General PID topics[edit]

Introduction (Peter Wittenburg, MPI PL)[edit]

Regarding the Flood of data in eScience environments (primary data, secondary data, relations, aggregations) Mr. Wittenburg provided an overview of challenges for persistently identifying relevant data and information. He emphasized possible differences in requirements from the point of view of users as opposed to infrastructure providers („download first vs. cyberinfrastructure as working environment“). With the increase in usage of internet based cooperative research environments the demand for trustworthy environments increases, too. The infrastructure project CLARIN is one example in which its success is based on the mutual trust of the partners. According to Mr. Wittenburg a fundamental aspect for the decision of the MPG with respect to PIDs is the complexity and error rate added by the additional layers in a web architecture, that exclusively allow for the management of moved or altered references on the web.


Identifying objects on the web and beyond (Felix Sasaki, W3C)[edit]

Mr. Sasaki presents an overview of basic concepts of resource identifier representations and building blocks of the web architecture (identification, interaction, formats). He holds the view that the existing URI schemas are sufficient for persistent identification, as long as they are used correctly and in a responsible way. Mr. Sasaki accounts for frequently asked questions in the URI context and emphasizes that the preservation and persistence of URIs is rather a social than a technical problem. Examples for "Persistency Policies" in different organizations are presented. With respect to organizational models he distinguishes between those in which all representations are stored in one central repository and those in which Naming Authorities are used to control replication mechanisms. Furthermore, he emphasizes the importance of a user friendly approach and a corresponding education and support of the community. Among the challenges to come he mentions the persistent identification of information fragments, the internationalization of identifiers, and the identification of objects and web services.

  • Felix Sasaki's slides: HTML


Requirements from ISO work on PID's (Sue Ellen Wright, ISO)[edit]

Out of the context of Knowledge Organization and Terminology Management Aspects Ms. Wright illustrates the problem of "authoritative resources". Her main request is to grant access to hidden, non-formalized authoritative resources. The multitude of concepts and terminologies hampers the progress of persistent identification. In order to generate a basis for community driven work on persistend identification of relevant Language Resources, knowledge resources like thesauri, metadata registries, terminology databases, and lexical markup frameworks should be developed and extended. It is of great importance for the community to be able to refer persistently and unambiguously to entries in terminologies and concepts.


Using the Handle System for managing PID's (Larry Lannom, CNRI)[edit]

Mr. Lannom presents the advantages and functionalities of the Handle system as possible resolution system and details current extensions. The Handle system is able to resolve differently typed data. It consists of a global Handle registry and distributed, local Handle services, which are located at various sites and servers. The actual Handle resolution and the administration of the Handle are two separate processes. The DOI consortium is currently the largest user of the Handle system; other users, like Los Alamos are named. Prefixes for PIDs are assigned centrally while Handles themselves can be assigned locally (even privatly). The allocation and maintenance of prefixes currently costs USD 425 per period of ten years. Planned developments are -- among others -- a Type Registry for typing of possible Handle values.


DOI, what it adds to the handle system. Business Model (Norman Paskin, DOI)[edit]

Mr. Paskin describes DOI as a Handle system application which offers additional services. DOI focuses currently mainly on requirements of the publishing industry with regard to intellectual property. It comprises a specific data model as well as metadata management facilities which extend the Handle system. In contrast to the Handle system the allocation of DOIs generates costs per allocated PID. For the allocation of big amounts of PIDs different cost models are currently being discussed.


URNs for digital objects - A service of the German National Library (Christa Schöning-Walter, DNB)[edit]

Legal obligations (e.g. the Pflichtexemplargesetz) put particular responsibilities on the German National Library (DNB) with regard to persistent identification of heterogenous online-resources. Therefore, the DNB, together with other European national libraries, chose to use the URN standard with the National Bibliography Number (NBN) as namespace identifier. The NBN-resolver delivers all possible locations of a resource. Digitized works are identified on an object level and on a scan level. Ms. Schöning-Walter also addresses open questions with respect to granularity and authenticity of dynamically changed contents.

  • Christa Schöning-Walter's slides: PDF, 1MB


Requirements for PID systems (Jens Ludwig, Nestor-Projekt)[edit]

Mr. Ludwig presents the view of the nestor project on aspects of long-term archiving and PIDs, which is the topic of a special working group in the nestor project. He uses the merging of two library oriented institutions (RLG and OCLC) as an example in which a part of their identifiers lost their validity due to the merging. Mr. Ludwig adds that PIDs are often not exported during harvesting processes, so that these references are not valid anymore for further use. In the course of the nestor project the N2T service of the California Digital Library is currently being tested. nestor lists three main criteria for PIDs: trustworthy covenant of the PID provider, collaboration between the PID provider and the participating organizations, and authenticity verification. Mr. Ludwig also mentions the Australian PILIN project which built its own PID infrastructure.


Day 2: MPG requirements and issues[edit]

Primary data registration (Michael Lautenschlager, MPI Meteorologie)[edit]

The World Data Center Climate (WDCC) uses DOIs and URNs for its primary datasets in a setup in which the TIB Hannover acts as a non-commercial DOI Registration Agency and the WDCC operates as Publication Agent and is responsible for storage, maintenance and evaluation of contents. Mr. Lautenschlager explaines common usage scenarios and policies: e.g. versioning is fixed by policies so that all changes to existing objects after allocation of a DOI create new objects. The DOI system offers a simple possibility for scientists to link articles to the corresponding datasets. The quality assessment of primary data consists of semantic (model/publication) and syntactic (metadata) control of data. As Publication Agent the WDCC wishes for a possibility for true Peer Review of its primary data because currently only an internal statement on the release of the data by the author ("quality flag: approved by author") can be assigned. Regarding the granularity of data the WDCC is geared to the publication level and structure of the library catalog of the TIB Hannover. PIDs are only allocated on the level of experiments, but more fine-grained entities are possible. However, for economic reasons these entities are stored in the archive without PIDs. Users access the local archiv via the TIB Order Catalog and constrained metadata sets, from where they can access more metadata. Mr. Lautenschlager points out that for the publication of datasets in the course of an article publication (following good scientific practice) other levels of granularity are important than for the scientific research based on it.


Integrating PIDs in a Distributed Archive Environment (Daan Broeder MPI for Psycholinguistics)[edit]

Mr. Broeder describes the DAM-LR project, in which the federation of language-resource archives participating in DAM-LR builds upon a common PID system. DAM-LR needed a system that is based on a stable and high-performance resolution mechanism because the project did not intend to develop software in this field. Mr. Broeder discussed some aspects of PIDs which were related to their usage for language-resources and the access to copies, e.g. one cannot assign PIDs to all attributes in a lexicon, but has to do this by part-identifiers. The granularity has to allow that every resource can be referenced and that its internal building blocks can be referenced by a part addendum. Another aspect is the security of the management of remote-access to PID entries, in case the URI of a copy changes.


Requirements for PIDs (Jeff Oegema, MPI CBG)[edit]

Mr. Oegema describes the internal workflow (analyses, tools) as well as data types and formats generated at the institute and portrays some work steps of a scientist. He explains that the usage of proprietary formats in these scenarios is unavoidable (e.g. ZEISS Meta Imaging System). The establishment of standards and the internal data management are the biggest challenges. In this context open questions arise that relate to granularity, timing, access control, as well as metadata processing and description.


Images as resources: persistent links and parameters (Robert Casties, MPI WG)[edit]

Mr. Casties explains that one important requirement for PID systems is to be compatible with browsers and Google. In the case of DigiLib, a software for the dissemination of big image files developed at the MPI-WG, the challenge lies in the fact that also dynamic parameters for the description of an image region or a section of the image have to be described persistently and that there are no established standards to do so. Further challenges are different access rights on different levels of granularity of the resource. Mr. Casties emphasizes the importance not only of the persistence of the resource, but also of the corresponding services deployed for this purpose.