EScience Seminar 2007

From MPDLMediaWiki
Jump to: navigation, search

eScienceEnhanced Science Seminar Topics 2007

  • Service and information registries (22/23. März Göttingen)
  • Secure server and service systems (20/21. Juni München)
  • Open archivable formats (25/26. Oktober Berlin)

The flyer describing the eScienceEnhanced Science seminars in 2007 can be downloaded here. After the two first seminars the BARBeratender Ausschuss für EDV-Anlagen in der MPG decided that the series should be continued. A draft version of the results of the first two seminars can be found below. A special expert group dealing with setting up distributed authentication and authorization infrastructure (AAIAuthentication, Authorization and Identification) has been setup. For details see Working Groups.


Results of the two first eScienceEnhanced Science seminars

(Eine ältere Version dieser Zusammenfassung der Resultate liegt unter eScience Seminar 2007/Results vor.)

Die ersten zwei eScienceEnhanced Science Seminare und die anschließenden Diskussionen dazu zB. im BARBeratender Ausschuss für EDV-Anlagen in der MPG (Beratender Ausschuß fuer Rechenanlagen der MPGMax-Planck-Gesellschaft) haben deutlich gemacht, daß die MPGMax-Planck-Gesellschaft in bestimmten Bereichen moderner ITInformationstechnik Trends einen Nachholbedarf hat und daß die Heterogenität der Institute in dieser Hinsicht sehr groß ist. Einige wenige Institute haben sich bereits mit den behandelten Techniken vertraut gemacht bzw. setzen sie bereits ein, andere Institute müssen sich erst orientieren. Da erkennbar ist, daß die Trends, die mit den auf den eScienceEnhanced Science Seminaren behandelten Themen zusammenhängen, sich durchsetzen werden und sich damit die Notwendigkeit erhöhen wird, daß sie in der MPGMax-Planck-Gesellschaft breitflächig eingesetzt werden, wurde vereinbart, Pilotprojekte zu starten. Vor allem müssen jeweils gute Aufwandsabschätzungen gemacht und Eckpunkte einer effizienten Service-Struktur erarbeitet werden mit dem Ziel, die MPIe so weitgehend wie möglich zu entlasten. Es wurden fünf Ansätze herausgearbeitet:

  • Aufsetzen eines Wiki für neuartige ITInformationstechnik Methoden (MPDLMax Planck Digital Library)
  • Pilotprojekt zum Aufbau einer Registratur der Registraturen (MPDLMax Planck Digital Library, Voges, Wittenburg)
  • Showcase Demonstrations-Projekte zur Veranschaulichung von Service-Orientierten-Architekturen (einige MPIe)
  • Pilotprojekt für ein flexibles Radius-basiertes WLANWireless Local-Area Network Zugriffs System (GWDGGesellschaft für Wissenschaftliche Datenverarbeitung Göttingen, Gerling)
  • Pilotprojekt für ein ShibbolethLogging-in system for computer networks-basiertes Ressourcen Zugriffs System (RZGRechenzentrum Garching, jetzt MPCDF, MPDLMax Planck Digital Library, MPIMax-Planck-Institut Nijmegen, GWDGGesellschaft für Wissenschaftliche Datenverarbeitung Göttingen)

Alles ist auf sicheren Server-Infrastrukturen basiert, die mittels weithin gültiger Zertifikate und einer PKIPublic-key infrastructure Infrastruktur abgesichert sind. Diesbezüglich bietet die GWDGGesellschaft für Wissenschaftliche Datenverarbeitung Göttingen bereits einen MPG-weiten Service an.

Dies Memorandum ist dazu gedacht, die Institute der MPGMax-Planck-Gesellschaft zu informieren und weitere Anregungen zu erhalten.


Wiki

Die MPDLMax Planck Digital Library hat ein Wiki aufgesetzt, das unter anderem ueber moderne eScienceEnhanced Science Methoden informieren wird. Das Wiki soll allen MPGMax-Planck-Gesellschaft Angestellten offenstehen und alle relevanten Dokumente sollen darüber verfügbar gemacht werden. Ebenso sollen die weitere Planungen des eScienceEnhanced Science Seminars über dieses Wiki offengelegt und diskutiert werden. Es besteht die Hoffnung, daß sich viele Experten aus den Instituten an den Foren beteiligen werden.


Registratur der Registraturen (RoR)

Mit diesem griffigen Namen wird ein Pilotvorhaben beschrieben, das beabsichtigt, online verfügbare Metadaten interessierter MPIe virtuell zusammenzufassen und suchbar zu machen. Viele MPIe haben bereits begonnen, standard-basierte Kataloge ihrer Primärdatensammlungen zu erzeugen und diese ins Web zu stellen. Es soll nunmehr ein Portal entwickelt werden, das nicht nur Verweise auf diese Kataloge enthält, sondern diese zusammenfaßt und gemeinsam suchbar macht. Zu diesem Zweck soll eine komponenten-basierte und ontologie-unterstützte Metadaten Infrastruktur entwickelt werden. Dieses Pilotprojekt soll einige der interessierten MPIe umfassen, die breits jetzt über schema-basierte Metadaten verfügen. Die Infrastruktur wird state-of-the-art Harvesting Methoden verwenden. Einige Institute hatten sich bereits gemeldet, um teilzunehmen, andere können sich bei Wolfgang Voges (Wolfgang.Voges@mpe.mpg.de) melden.


SOAService-Oriented Architecture Showcases

Nur in wenigen Instituten ist man bereits mit der Technik der Web-Services in Service-Orientierten-Architekturen vertraut und setzt sie für die wissenschaftlichen Zielsetzungen ein. Um interessierten ein besseres Verständnis der Vorteile dieser SOAService-Oriented Architecture zu geben, wurde wereinbart, daß einige Institute, die bereits an SOAService-Oriented Architecture arbeiten, Demonstrationen anbieten. Diese Arbeit wird mit einer niedrigen Priorität verfolgt. Entsprechende URLs sollen im WIKI genannt werden.


Flexibles Roaming

Die Mobilität der Wissenschaftler der MPGMax-Planck-Gesellschaft innerhalb aber auch außerhalb der MPGMax-Planck-Gesellschaft nimmt immer mehr zu und von überall möchte man sein Notebook ohne Aufwand in ein lokales und geschütztes WLANWireless Local-Area Network einwählen. Dabei soll die Identität (Username, Password) des eigenen Instituts ausreichen, um eine Authentisierung zu erreichen, dh. das Nutzer-Management bleibt in den Instituten. Dies kann erreicht werden, in dem eine zentrale Radius-Server Infrastruktur aufgebaut wird, interessierte MPIe einen eigenen Radius Server aufsetzen und sich dann bei dieser zentralen Instanz bei der GWDGGesellschaft für Wissenschaftliche Datenverarbeitung Göttingen registrieren.

Immer öfter werden auch Konferenzen zB. im europäischen Rahmen organisiert, die ihren WLANWireless Local-Area Network Zugang verstärkt über diese Roaming Prinzipien regeln. Hierfür ist EduRoam gebildet worden, das in Deutschland vom DFNDeutsches Forschungsnetz unterstützt wird. Die zentrale MPGMax-Planck-Gesellschaft Instanz wird sich beim DFNDeutsches Forschungsnetz registrieren, damit alle MPGMax-Planck-Gesellschaft Mitarbeiter den Zugang im europaweiten Rahmen erhalten. Im Prinzip kann jedes MPIMax-Planck-Institut an dem Pilotprojekt teilnehmen, indem es sich bei Rainer Gerling von der GVGeneralverwaltung der Max-Planck-Gesellschaft (gerling@gv.mpg.de) meldet.

ShibbolethLogging-in system for computer networks-basierter Ressourcen Zugriff

Wissenschaftler wollen und müssen einen immer besseren und schnelleren Zugang zu online Ressourcen bekommen - seien dies Publikationen oder auch Primärdaten.

Auch hier muß ein Mechanismus zur Anwendung kommen, der es dem Nutzer ermöglicht, mit einer einzigen Identität, die durch das Nutzer-Management im eigenen Institut ausgestellt wird, auf all die verschiedenen Ressourcen an verschiedenen Instituten je nach seiner Rolle zugreifen und diese kombinieren zu können.

Gleichzeitig muss gewährleistet sein, dass das Authentifizierungsverfahren das Vertrauen der Anbieter (Service-Provider) findet. Nur wenn sichergestellt ist, dass die den Nutzern zugeschriebenen Metadaten (Zugehörigkeit, Rollen, ...) nachvollziehbar definiert sind und immer dem aktuellen Stand entsprechen, können entsprechende Vereinbarungen auch für kommerzielle Angebote getroffen werden.

Das von der Internet 2 Initiative entwickelte ShibbolethLogging-in system for computer networks Programm bietet genau dafür einen technischen wie auch organisatorischen Rahmen. Die ShibbolethLogging-in system for computer networks Komponente, die auf dem Ressourcen-Anbieter-System installiert ist, wird mit der Komponente, die auf dem eigenen Institut installiert ist, in Kontakt treten und Nutzer Attribute anfordern, falls die Authentifizierung erfolgreich durchgeführt worden ist. Die Nutzer Attribute werden über sichere Kanäle ausgetauscht und es wird dann geprüft, welche Rechte der betreffende Nutzer oder die Klasse von Benutzern (zB. alle Wissenschaftler eines Institutes) hat. Das Konstrukt der "Föderation" (federation) bietet den Rahmen für die Festlegung von Regeln (policies) und das Verwalten und Signieren der Metadaten.

Die großen Verlage haben bereits Pilotprojekte durchgeführt und werden dieses System bald in breiterem Maßstab einsetzen, um Zugriffe auf elektronische Zeitschriften zu regeln. In verschiedenen Ländern gibt es im Wissenschaftsbereich (UKUnited Kingdom, Schweiz, Finland, Norwegen) bereits vollständige Föderationen, die den umfangreichen Ressourcen-Zugriff auf diese Weise regeln.

In verschiedenen europäischen Projekten wird ein Ressourcen-Zugriff ebenfalls nur über diese Mechanismen vorgenommen. Für die MPGMax-Planck-Gesellschaft ergibt sich die Notwendigkeit, schnell das entsprechende Wissen aufzubauen und technisch wie auch organisatorisch umzusetzen.

Für einige Pilotapplikationen, worunter sich auch das Intranet der MPGMax-Planck-Gesellschaft und das von der MPDLMax Planck Digital Library organisierte Informations-Angebot (ausgewählte Anbieter aus der "Grundversorgung") befindet, wird ein System vor allem durch das RZGRechenzentrum Garching, jetzt MPCDF und das MPIMax-Planck-Institut Nijmegen realisiert, die beide bereits Erfahrungen mit dieser Technologie gemacht haben. Dazu werden die ShibbolethLogging-in system for computer networks Komponenten bei den Pilot-Teilnehmern installiert und in die jeweiligen Umgebungen integriert. Eventuell interessierte Institute können sich bei Thomas Soddemann (thomas.soddemann@rzg.mpg.de) vom RZGRechenzentrum Garching, jetzt MPCDF oder Peter Wittenburg (peter.wittenburg@mpi.nl) vom MPIMax-Planck-Institut Nijmegen melden. Wegen des Aufwands können im Pilotprojekt allerdings nur eine beschränkte Anzahl von Instituten berücksichtigt werden.

In der Sitzung des BARBeratender Ausschuss für EDV-Anlagen in der MPG im Oktober 2007 wurde ein Antrag für das Projekt "MPG-AAI" genehmigt, der die Pilotprojekte absichert.

Results of the third eScienceEnhanced Science seminar

Thema: Offene Archivierbare Formate, 25./26 October 2007

Das dritte Thema der MPGMax-Planck-Gesellschaft eScienceEnhanced Science Seminare wurde durch eine Reihe von Vorträgen von Experten eingeleitet. Den Vorträgen folgten direkte extensive Diskussionen zu dem jeweiligen Thema.

Formate für naturwissenschaftliche Daten

Michael Lautenschlager (MPIMax-Planck-Institut Metereologie) stellte dar (Slides, 2MB), dass die Größe der Datenmengen nicht nur in der Metereologie (Klimaforschung) extrem zunimmt und ein gewaltiges Problem des Datenmanagements and der Archivierbarkeit entsteht. Die horizontale Granularität der Klimamodelle nimmt stetig ab (von zunächst 500 km auf jetzt 110 km) und mithin steigen die erzeugten Datenmengen von ca. 5.5 TB auf 106 TB für eine Berechnung, die sich über 240 Jahre erstreckt und bis 2100 prognostiziert. Um die bis 2010 erwarteten 35 PB zu pflegen, bedarf es eines mehrschichtigen Speicherkonzepts, das Klassen von Daten und Aufbewahrungstypen unterscheidet. Die Grenzen dessen, was über einen längeren Zeitraum (hier die typischen 10 Jahre) archiviert werden kann, sind erkennbar. Die Datensätze werden mittels standardisierter Metadaten (ISOInternational Organization for Standardization 19115) beschrieben, um das Managementproblem zu lösen. Die Metadaten verweisen auf strukturierte und detailliert beschriebene Datensätze. Die zum Einsatz kommenden Formate werden von der Metereologen Community detailliert spezifiziert und den sich verändernden Anforderungen angepasst. Die Datenbeschreibungen liegen offen vor, so dass einer langfristigen Interpretierbarkeit nichts im Wege steht. Semantische und syntaktische Überprüfungen sichern eine hohe Datenqualität.

Diskussion

Die Überprüfbarkeit der Simulationen erfordert die Bereitstellung des Kontextes, was im strengen Sinne die Rechnerarchitektur, den Code und die Ausgangsdaten beinhaltet. In erster Annäherung könnte man dazu übergehen, lediglich den Source-Code und die Ausgangsdaten bereit zu halten (lediglich ca. 300 GB), allerdings ist damit eine exakte Reproduzierbarkeit nicht gewährleistet. Für eine Archivierung über weitaus längere Zeiträume als 10 Jahre könnte das jedoch ausreichend sein. Die Metadaten werden in einer relationalen Datenbank gehalten, um schnelle Zugriffe abzusichern. Eine Ausgabe in ein XMLExtensible Markup Language Format ist jedoch problemlos möglich. Auch in anderen Naturwissenschaften sind seit längerem ähnliche Tendenzen erkennbar, was ein immer ausgefeilteres Datenmanagement-Konzept erfordert und die offene und exakte Spezifikation sowohl der Daten selbst als auch der Metadaten erfordert.

  • Die Folien können hier heruntergeladen werden: PDF: 2MB

Codierformate für Bilder und Video

Ralf Schäfer (HHI Berlin) stellte dar (Slides, 9MB), dass die Qualitäts- und Funktions-Wünsche extrem steigen. Bedarf es zur Übertragung von normalem jetzigen TV ca. 166 Mbps, so sind die Anforderungen für HDTV (ca. 995 Mbps) bereits um einen Faktor 6 höher und für D-Cinema (ca. 10.872 Mbps) liegen sie nochmals um einen Faktor 10 höher. Dem steht der Wunsch entgegen, mit stets verfeinerteren Kompressions-Methoden die Bitraten und damit auch die benötigten Speicherkapazitäten im Griff zu behalten. Die Speicherung von unkomprimiertem Video bei den steigenden Anforderungen ist nahezu unmöglich. Bei der Kompression von Bildern (JPEGImage File Format) wird eine Folge von Operationen angewandt, bei der die diskrete Cosinus Transformation und die Quantifizierung und Reduzierung der Faktoren im Zentrum steht. Bei der Kompression von Bewegtbildern (MPEGMoving Picture Experts Group Familie) wird zusätzlich noch eine Reduktion in der Zeit vorgenommen, wobei es hauptsächlich darum geht, so wenig wie möglich statische Inhalte zu übertragen. Die Entwicklung immer besserer Verfahren begann mit H.261 und MPEG1 im Zeitraum 1990/92 und setzte sich über H.263, MPEG2, MPEG4-V1/V2/V3 und H.264 äußerst dynamisch bis 2002 fort. H.264 scheint heute der weithin akzeptierte Kompressions-Standard zu sein und verdrängt selbst MPEG2. Mit JPEG2000 wurde ein neuer flexibler Standard für Bilder entwickelt, der unter anderem auch verlustfreie Kompressions-Schemata beinhaltet. Diese sind interessant, realisieren im allgemeinen jedoch nur Faktoren bis zu maximal 2. Wie auch in anderen neuen Standards wurden die DCT zumeist durch die bessere Wavelet Transformation ersetzt. Die Entwicklung ist nicht beendet, momentan wird insbesondere an Verfahren wie optimale Textur-Repräsentation, scalable Video, graceful Degradation und 3D Video gearbeitet. Neue Codecs wie z.B H.265 werden kommen und diese neuen Eigenschaften enthalten.

Diskussion:

Bisher haben die zwei Camps, ITUInternational Telecommunication Union und ISOInternational Organization for Standardization, eigene Wege beschritten. In Zukunft scheint es so zu sein, dass die zwei zusammengehen werden, was für die Standardisierung gut sein wird. Sehr problematisch kann die Kostensituation sein. Bezüglich der meisten Codecs gibt es Patent-Pools und es ist nicht von vornherein klar, wie sich Lizenzen auf Produkte umschlagen. Theoretisch gibt es zum Beispiel einen großen Kostenunterschied zwischen MPEG2 (ca. 2 $) und H.264 (einige Cent). Die Frage wurde gestellt, was die Konsequenzen für die Langzeit-Archivierung (> 100 Jahre) sind. Die Position von RS war die, dass es eigentlich nichts ausmacht, ob die Streams in MPEG2 oder H.264 codiert sind, da beide Algorithmn ja sauber definiert und dokumentiert sind. Es blieb ein Gefühl, dass die zunehmende Komplexität der Algorithmen ein Problem darstellt und dass zu viel authentische Information ersetzt wird. Je einfacher die Codecs sind, desto besser könnte es für die LZALangzeitarchivierung sein. So verwendet DV keine Kompression über die Zeit, was für viele Aspekte der LZALangzeitarchivierung vorteilhaft sein kann. Im Gegensatz zu den Bild-Kodierungen ist es im Bereich Audio klar, dass man direkte unkomprimierte 16 bit linear PCM Kodierungen für die LZALangzeitarchivierung verwendet.

  • Die Folien können hier heruntergeladen werden: PPT: 9MB

Codierung von Schriftzeichen

Jost Gippert, der sich wegen der Darstellung von vielen orientalischen Dokumenten bereits seit langem mit Schriftzeichen und deren Unterstützung durch Editoren und Dokument-Verarbeitungsprogrammen beschäftigt hat, stellte dar, wie groß die Probleme bei der Präsentation und Konversion diverser orientalischer Schriftzeichen waren (Slides, 7MB). Auf der Basis dieser Erfahrungen ist die Einigung auf UNICODE ein großer Fortschritt. Im Sinne der Archivierung hält er die Verwendung von fix-byte Kodierungen wie UTFUnicode Transformation Format-16 für besser als UTFUnicode Transformation Format-8, das wegen der variablen Byte-Zahl schwerer zu decodieren sein wird. Neue UNICODE Versionen machen es möglich, dass nahezu alle bekannten Glyphs in UNICODE repräsentierbar sein werden. Allerdings bedarf es erheblicher Anstrengungen, um neue Zeichensätze integriert zu bekommen. Abschlïeßend wurde dargestellt, dass auch UNICODE durchaus inkonsequente Kodierungsverfahren, insbesondere bei der Verwendung von diakritischen Zeichen, enthält und dass es Interpretationsprobleme gibt, die insbesondere bei Suchen zu falschen Ergebnissen führen könnte.

Diskussion:

Eine ganze Reihe von MPIen z.B. aus dem Rechtsbereich sind sehr an den UNICODE-Details interessiert, da sie mit alten Zeichensätzen zu tun haben und die entsprechenden Dokumente in Analysen einbeziehen müssen. Die Frage der Langzeit-Archivierbarkeit ist genauso wenig geklärt, wie bei den Video Codecs. Man könnte sich darauf verlassen, dass alle Versionen von UNICODE gut dokumentiert sind und dass es späteren Generationen schon gelingen wird, die Kodierungen zu entziffern. Oder aber man verlässt sich auf die Einfachheit des Kodierungs-Verfahrens.

  • Die Folien können hier heruntergeladen werden: PDF: 7MB

XMLExtensible Markup Language-Strukturierungs-Sprache und Tag-Sets

Sebastian Rahtz stellte dar, wieso die Web-Community XMLExtensible Markup Language inzwischen weithin als Struktur-Auszeichnungs-Sprache akzeptiert hat und dass es einen Trend hin zu oftmals a priori definierten Komponenten gibt. Sowohl SR als auch Laurent Romary (LR) sprachen dann auch noch über Auszeichnungs-Sprachen.

Beide Vorträge richteten ihren Fokus auf die Notwendigkeit, Modellierungstechniken für semi-strukturierte (XMLExtensible Markup Language) Dokumente zu definieren, die es den Nutzern erlauben, mit dynamischen Dokumentenstrukturen umzugehen, die den Projekt- und Nutzeranforderungen angepasst werden können.

SR präsentierte, wie die ODDOne Documents Does it all-Sprache (One Documents Does it all), die von TEI (Text Encoding Initiative) für die Definition der Infrastruktur und ihrer Elemente (über 500) gebraucht wird, das “literate programming paradigm” implementiert (Slides, 2MB). ODDOne Documents Does it all erlaubt es, aus einer einzigen Spezifikation sowohl das zu erzielende Schema (DTDDocument type definition, RelaxNGRegular Language Description for XML New Generation oder W3CWorld Wide Web Consortium Schema), als auch die Nutzerdokumentation zu erzeugen. LR zeigte, dass eine ähnliche Strategie von ISOInternational Organization for Standardization dazu verwendet wird, komplexe linguistische Strukturen aus generischen Metamodellen zu generieren. Diese Metamodelle wiederum werden mit Hilfe elementarer Daten-Kategorien aus domain-spezifischen Registries beschrieben. Eine solche Registry wird gerade vom MPIMax-Planck-Institut f. Psycholinguistik im Rahmen des ISOCat-Projektes implementiert.

Diskussion:

Die Diskussion konzentrierte sich auf den Bedarf verschiedener MPIs, ihre eigenen XMLExtensible Markup Language-Strukturen zu dokumentieren und zu pflegen, die über mehrere Jahre hinweg in ihren jeweiligen Communities entwickelt und getestet wurden. Diese Institute brauchen Unterstützung auf mehreren Ebenen, z.B.: Schema Registries, bessere Modellierungswerkzeuge für XMLExtensible Markup Language-Dokumente, als auch eine Registry für semantische Spezifikationen, um vorhandenes Wissen festzuhalten und zu stabilisieren. Im Bereich Textdokumente scheint TEI zur wichtigsten Organisation zur Standardisierung geworden zu sein. Im wissenschaftlichen Anwendungsbereicht könnte TEI, oder ein darauf aufbauendes Projekt, zur Beschreibung von Quelldaten, Transkription, oder digitaler Inhalte ausgebaut werden.

  • Die Folien von Sebastian Rahtz' Vortrag können hier heruntergeladen werden: PDF: 2MB

Repräsentation Semantischen Wissens

Antoine Isaac, der ein Projekt verschiedener großer niederländischer Kultur-Einrichtungen zur Erzielung semantischer Interoperabilität mittels avancierter Semantic Web Techniken leitet, gab eine Übersicht über die gegenwärtigen Trends im Bereich der formalen Repräsentation semantischen Wissens (Slides, 2MB). Ein Beispiel für das zunehmende Bedürfnis nach verbesserten semantischen Technologien ist der Wunsch, auf verwandte und eventuell gar distribuierte Kollektionen simultan zugreifen zu können. Alle wesentlichen Ansätze zur formalen Repräsentation von Wissen bauen auf XMLExtensible Markup Language als Strukturierungssprache auf. RDFResource Description Framework (Resource Description Framework) bietet einen simplen Mechanismus, um semantische Relationen zu beschreiben: zwei Objekte, die über eindeutige Web-Referenzen identifiziert werden können, werden mittels einer typisierten Relation verbunden. Mittels RDFResource Description Framework-S können darüber hinaus Vokabulare erzeugt werden. RDFResource Description Framework-S stellt bereits ein Basis-Vokabular für Relationstypen bereit. Dieses wird durch OWLWeb Ontology Language (Web Ontology Language) durch ein ausführliches Arsenal an Relations-Typen erweitert, so dass komplexe Ontologien erzeugt werden können, die auch logische Inferenzen erlauben. Zur formalen Darstellung existierender Wissensrepräsentation wie zB. Thesauri und deren Integration in das Semantic Web wurde die vereinfachte SKOSSimple Knowledge Organisation System Sprache entwickelt. Obwohl der Bereich der Wissensrepräsentation noch relativ jung ist, scheinen sich nunmehr klare Trends in Richtung auf die beschriebenen Technologien herauszubilden. Die großen Herausforderungen wie zB. das automatische semantische Alignment verschiedener Ontologien stellen allerdings immer noch riesige Probleme dar.

Diskussion:

Die Diskussion thematisierte die Verbindung zwischen verschiedenen Arten des Vokabular-Managements. Auf der einen Seite gibt es den Ansatz, der stark auf Bibliotheken zugeschnitten ist (library-oriented approach) und auf die Repräsentation von Index-Vokabularien zielt (vom W3CWorld Wide Web Consortium mit KOSKnowledge Organization Systems and Services angewandt). Auf der anderen Seite gibt es einen terminologie-orientierten Ansatz, der vom ISOInternational Organization for Standardization-Kommittee TCTask Creator 37 verfolgt wird. Dieser ermöglicht eine feinaufgelöste Repräsentation multilingualer Konzepte und bietet tiefgreifende Management-Mittel. Es wurde deutlich, dass ein Bedarf besteht, die Index-Vokabulare stufenweise in terminologie-orientierte Vokabulare zu überführen, um der fortschreitenden Entwicklung von Terminologien Rechnung zu tragen, aber auch um enge Verknüpfungen zu automatischer Indizierung und NLP-Werkzeugen (Natural Language Processing) herzustellen.

  • Die Folien können hier heruntergeladen werden: PPT: 2MB

Beiträge

Tom Baker stellte die momentane Sichtweise der DublinCore Metadata Initiative dar (Slides, 0.4MB). Es hat sich die Sicht durchgesetzt, dass es sehr viele Schemas geben wird und dass die essentielle Grundlage für die Langzeit-Interoperabilität zitierbare und formal repräsentierte Vokabulare sind, die in den Schemas zur Anwendung kommen. Die Zitierbarkeit setzt die Verwendung eindeutiger und persistenter Referenzen voraus. Als formale Basis für die Darstellung von Metadaten wird RDFResource Description Framework angesehen.

In direktem Zusammenhang mit diesem Kurzvortrag demonstrierten Marc Kemps-Snijders and Laurent Romary die ISOInternational Organization for Standardization Data Category Registry Intiative, die zunächst zum Ziel hat, linguistisches Vokabular formal zu repräsentieren und zur Verfügung zu stellen. Allerdings könnte der auf einem ISOInternational Organization for Standardization Standard beruhende Mechanismus auch für andere Disziplinen verwendet werden.

Robert Casties stellte die Arbeiten am MPIMax-Planck-Institut für Wissenschaftsgeschichte vor. Auch an dem Institut nimmt die Menge an strukturierten Informationen, insbesondere Bilder, Texte und deren Annotationen, enorm an Umfang zu, so dass auch hier mit Metadaten gearbeitet werden muss. Als großer Nachteil wird dargestellt, dass in der MPGMax-Planck-Gesellschaft immer noch nicht eingesehen wird, dass geisteswissenschaftliche Institute aufgrund ihrer datengetriebenen wissenschaftlichen Arbeit technisches Personal benötigt.

Ralf Schenkel von der Informatik in Saarbrücken stellte eine ganze Reihe von Fragen, die sich dem Institut bei der Lang-Zeit-Speicherung experimenteller Kontexte ergeben (Slides, 0.4MB). Ein besonders wichtiger Aspekt ist die Speicherung des Kontextes zB. von Data Mining Experimenten, wobei das Web vorzüglich die Ressource darstellt. Web Inhalte sind hochgradig dynamisch, dh. man müsste für jedes Experiment den Web-Inhalt als Snapshot speichern. Da dies unmöglich ist, ist die Nachweisbarkeit von experimentellen Resultaten nicht gegeben. Eine Lösung in der Community scheint es noch nicht zu geben.

Peter Wittenburg fügt einige Dimensionen des Problems hinzu, indem er daraufhin wies, dass die heutige Trennung von Träger und Inhalt uns einerseits eine große Freiheit gibt, sie andererseits eine Falle im Sinne der Langzeit-Archivierung darstellt. Unsere Inhalte sind zunehmend dynamisch, da die Wissenschaft natürlich von der neuen Freiheit Gebrauch machen will. Was machen wir mit den Erweiterungen und den Verlinkungen, wie speichern wir sie ab? Wie können wir Authentizität nachweisen? Muß zB. das statische OAIS Modell in Richtung auf eine dynamisches Modell (Live Archives: [1]) ergänzt werden?

Diskussion

An den Anfang der Diskussion wurden zwei Zitate gestellt:

  • Terry Kuny (National Library Canada): No one knows, how to archive digital documents.
  • UNESCO Report: 80% der ethnologischen und linguistischen Aufnahmen über Völker und Sprachen sind akut gefährdet, da die Träger in Kürze nicht mehr lesbar sein werden.

Sieht man also über die nächsten 10 Jahre hinaus, die für uns beherrschbar sein werden - sogar in Bezug auf die Pflege wichtiger Software, ist die Frage der Langzeit-Archivierung nicht bzw. schlecht gelöst. Es wurde postuliert, dass die 80% möglichen Datenverlusts nicht problematisch sind, wenn zumindest gewährleistet werden kann, dass etwa 10% überleben - das wäre schon viel.

Ein anderer Punkt, der angesprochen wurde, ist der nach den Ratschlägen, welche Formate und Standards denn nun im Sinne einer Langzeit-Speicherung verwendet werden sollten. Die Vorträge gingen steng genommen nicht im Kern auf diese Frage ein, sondern erläuterten den gegenwärtigen Stand der Standardisierung, Harmonisierung und Akzeptanz. Die zugrundeliegende Annahme der Sprecher ist dann die, dass, wenn eine breite Akzeptanz und Verwendung gegeben ist, es zu einer bestimmten Zeit, wenn neue Standards populär würden, mit großer Wahrscheinlichkeit optimale Konversionsroutinen geben würde. Für die Langzeit-Interpretierbarkeit wäre dann die Möglichkeit der kostengünstigen und möglichst verlustfreien Migration von essentieller Bedeutung, was primär eine organisatorisch/logistische Herausforderung ist und eine große Format-Kohärenz voraussetzt. Zentral für die Bewältigung dieser organisatorisch/logistischen Probelem ist die Speicherung der Daten in geeigneten Zentren und die Beschreibung der Daten mittels guter Metadaten.

Ein weiterer zentraler Punkt war die Frage, ob die Vorstellung des verlustfreien Kopierens angesichts der Notwendigkeit der Format- und Codierungs-Konversion eine bloße Illusion des digitalen Zeitalters sei? Lediglich auf Bitstream Niveau können wir zunächst Verlustfreiheit garantieren. Ist die Komplexität der gewählten Kodierungen korreliert mit dem Grad an Verlusten bzw. Artefakten bei Migrationsschritten? Die Frage konnte natürlich nicht geklärt werden. Allerdings herrschte ein Gefühl vor, dass einfache Kodierungen bevorzugt werden sollten, gestatten sie doch auch eine einfachere Analyse zu einer späteren Zeit, in der eventuell die Dokumentation über die Kodierung selbst nicht mehr verfügbar ist. Die Repräsentation von Audioströmen mittels linear PCM (direkte digitale Repräsentation) ist gegenüber jeder Form von komplexer Kompression vorteilhaft, lässt sie sich doch einfacher dekodieren und lässt sie sich doch ohne Artefakte in viele andere mögliche Kodierungen übertragen. Bei den Video Codecs bringen uns die zunehmenden Datenraten in riesige Probleme, da wir sie ohne Kompression kaum speichern und transferieren können. Aufgrund der geringeren Komplexität der Algorithmen, so beinhaltet zB. DV keine Kompression über Frames wie alle MPEGMoving Picture Experts Group Algorithmen, sind einfache Algorithmen für die LZALangzeitarchivierung vorzuziehen. Selbst bei der Kodierung von Zeichen mittels UNICODE erzeugt der Wille, alle möglichen Zeichen abzubilden, Ambiguitäten und Überlappungen, die zu Komplexitäten führen, die in zukünftigen Jahren einmal zu Interpretations-Problemen führen werden.

In der allgemeinen Diskussion wurden dann noch die folgenden Punkte angesprochen:

  • Welche Daten müssen archiviert werden? Müssen Daten, die von Programmen erzeugt werden, lange aufgespeichert werden oder reicht es, die Programme zu pflegen und die Algorithmen zu dokumentieren selbst wenn die zugrundeliegende Hardware, auf der die Algorithmen später einmal laufen würden, zu geringen Abweichungen führen könnten?
  • Müssen wir alle dynamischen Daten wie zB. Emails archivieren, selbst wenn sie Teil eines Data Mining Experiments waren?
  • Standards sind selbst einer dauernden Änderung unterworfen. Wie weit muss sich der einzelne Wissenschaftler um diese Dinge bemühen oder muss er sich ncht auf die Tool-Entwickler verlassen, dass sie die Standards übernehmen werden? Es wurde allgemein akzeptiert, dass ein Bewusstsein um Standards sicherlich sehr gut ist, um Forderungen zu stellen und bei Alternativen auch gezielte Entscheidungen treffen zu können.
  • Für die meisten Institute sind die Methoden zur formalen Bescheibung von Wissen noch sehr weit weg. Allerdings ist bereits oftmals eine Diskussion begonnen worden, wie man verschiedenen Terminologien für pragmatische Zielsetzungen wie zB. Suchen sinnvoll definieren und aufeinander abbilden kann. Hier ist die Vorgehensweise von ISOInternational Organization for Standardization TC37/SC4 mit der Data Category Registry aller linguistischen Konzepte inkl. ihrer verschiedenen Terme eine Möglichkeit, die auch für andere Disziplinen gelten könnte. Allerdings müssten Schulungskurse angeboten und Ansprechpartner benannt werden, die den Instituten helfen, zu sinnvollen Entscheidungen zu kommen. Aufgrund der Trends zur Harmonisierung scheint es auch in diesem Bereich zunehmend breit akzeptierte Vereinbarungen zu geben, so dass sich Investitionen lohnen.


  • Die Folien von Tom Bakers Vortrag können hier heruntergeladen werden: PPT: 0.4MB
  • Die Folien von Ralf Schenkels Vortrag können hier heruntergeladen werden: PDF: 0.4MB

Konkrete Vorschläge

Als Konsequenz des Workshops wurden die folgenden Maßnahmen angeregt:

  • Aufbau und Pflege eines Wikis durch die MPDLMax Planck Digital Library
  • Benennung von Kontaktpersonen für spezielle Teilaspekte, die a) engagiert sind und b) bereits über ein detailliertes WIssen verfügen bzw. sich dieses Wissen auf jeden Fall aneignen wollen. Diese Personen sind denn auch für die Pflege von Wiki Aspekten verantwortlich.

Es wurde deutlich gemacht, dass diese Wikis nur funktionieren, wenn wenigstens eine Person die Zeit hat, zu moderieren, pro-aktiv mit den Experten zu kommunizieren und sie zu motivieren, Inhalte zu erneuern, zu ergänzen etc. Die Anwensenden waren sich einig, dass dies eine sehr geeignete Aufgabe für die MPDLMax Planck Digital Library wäre, die auch schnell in Angriff genommen werden sollte.

Dieses Ergebnis deckt sich sehr gut mit dem Beschluss des BARs, thematische Netzwerke mit Experten aufzubauen. Dabei sollte sich das RZGRechenzentrum Garching, jetzt MPCDF um Aspekte wie HPC, server, storage, grids, etc, die GWDGGesellschaft für Wissenschaftliche Datenverarbeitung Göttingen um Aspekte wie Netzwerke, Services, eInfrastrukturen etc und die MPDLMax Planck Digital Library um Aspekte der eScienceEnhanced Science und all die Dinge kümmern, die im Seminar zur Sprache kamen. Überlappungen können zu einem späteren Zeitpunkt geklärt werden.

Die Institute der MPGMax-Planck-Gesellschaft, insbesondere die Direktoren stehen unter einem enormen Druck erstklassige Forschungsresultate zu liefern und zu publizieren. Sie können daher nur wenig Zeit aufbringen, um sich um Dinge wie Standards und Langzeit-Archivierung bzw. Interpretierbarkeit zu kümmern. Auf der anderen Seite wird der Druck immer größer, Daten zumindest 10 Jahre aufzubewahren und auch interpretierbar zu halten bzw. dort wo es sich um einmalige, nicht wiederbringbare Daten handelt, diese derart aufzubewahren, dass zukünftige Generationen Zugriff darauf haben werden. Wir müssen verhindern, dass die Dynamik unserer gegenwärtigen Speichersysteme und Standards dazu führt, dass nach 100 Jahren keine Zeugnisse mehr existieren.

Zusätzlich ist es der Druck der kommenden eScienceEnhanced Science Applikationen, der es immer mehr erfordern wird, dass sich die Institute an die Standards halten, wollen sie am Austausch und an der Kollaboration teilnehmen. Die MPDLMax Planck Digital Library hat die Aufgabe, das erforderliche Wissen aufzubauen bzw. die Expertennetze aufzubauen und zu pflegen mit der Zielsetzung, dass sich MPIe schnell beraten lassen können.