EScience Seminar 2007
eScience Seminar Topics 2007[edit]
- Service and information registries (22/23. März Göttingen)
- Secure server and service systems (20/21. Juni München)
- Open archivable formats (25/26. Oktober Berlin)
The flyer describing the eScience seminars in 2007 can be downloaded here. After the two first seminars the BAR decided that the series should be continued. A draft version of the results of the first two seminars can be found below. A special expert group dealing with setting up distributed authentication and authorization infrastructure (AAI) has been setup. For details see Working Groups.
Results of the two first eScience seminars[edit]
(Eine ältere Version dieser Zusammenfassung der Resultate liegt unter eScience Seminar 2007/Results vor.)
Die ersten zwei eScience Seminare und die anschließenden Diskussionen dazu zB. im BAR (Beratender Ausschuß fuer Rechenanlagen der MPG) haben deutlich gemacht, daß die MPG in bestimmten Bereichen moderner IT Trends einen Nachholbedarf hat und daß die Heterogenität der Institute in dieser Hinsicht sehr groß ist. Einige wenige Institute haben sich bereits mit den behandelten Techniken vertraut gemacht bzw. setzen sie bereits ein, andere Institute müssen sich erst orientieren. Da erkennbar ist, daß die Trends, die mit den auf den eScience Seminaren behandelten Themen zusammenhängen, sich durchsetzen werden und sich damit die Notwendigkeit erhöhen wird, daß sie in der MPG breitflächig eingesetzt werden, wurde vereinbart, Pilotprojekte zu starten. Vor allem müssen jeweils gute Aufwandsabschätzungen gemacht und Eckpunkte einer effizienten Service-Struktur erarbeitet werden mit dem Ziel, die MPIe so weitgehend wie möglich zu entlasten. Es wurden fünf Ansätze herausgearbeitet:
- Aufsetzen eines Wiki für neuartige IT Methoden (MPDL)
- Pilotprojekt zum Aufbau einer Registratur der Registraturen (MPDL, Voges, Wittenburg)
- Showcase Demonstrations-Projekte zur Veranschaulichung von Service-Orientierten-Architekturen (einige MPIe)
- Pilotprojekt für ein flexibles Radius-basiertes WLAN Zugriffs System (GWDG, Gerling)
- Pilotprojekt für ein Shibboleth-basiertes Ressourcen Zugriffs System (RZG, MPDL, MPI Nijmegen, GWDG)
Alles ist auf sicheren Server-Infrastrukturen basiert, die mittels weithin gültiger Zertifikate und einer PKI Infrastruktur abgesichert sind. Diesbezüglich bietet die GWDG bereits einen MPG-weiten Service an.
Dies Memorandum ist dazu gedacht, die Institute der MPG zu informieren und weitere Anregungen zu erhalten.
Wiki[edit]
Die MPDL hat ein Wiki aufgesetzt, das unter anderem ueber moderne eScience Methoden informieren wird. Das Wiki soll allen MPG Angestellten offenstehen und alle relevanten Dokumente sollen darüber verfügbar gemacht werden. Ebenso sollen die weitere Planungen des eScience Seminars über dieses Wiki offengelegt und diskutiert werden. Es besteht die Hoffnung, daß sich viele Experten aus den Instituten an den Foren beteiligen werden.
Registratur der Registraturen (RoR)[edit]
Mit diesem griffigen Namen wird ein Pilotvorhaben beschrieben, das beabsichtigt, online verfügbare Metadaten interessierter MPIe virtuell zusammenzufassen und suchbar zu machen. Viele MPIe haben bereits begonnen, standard-basierte Kataloge ihrer Primärdatensammlungen zu erzeugen und diese ins Web zu stellen. Es soll nunmehr ein Portal entwickelt werden, das nicht nur Verweise auf diese Kataloge enthält, sondern diese zusammenfaßt und gemeinsam suchbar macht. Zu diesem Zweck soll eine komponenten-basierte und ontologie-unterstützte Metadaten Infrastruktur entwickelt werden. Dieses Pilotprojekt soll einige der interessierten MPIe umfassen, die breits jetzt über schema-basierte Metadaten verfügen. Die Infrastruktur wird state-of-the-art Harvesting Methoden verwenden. Einige Institute hatten sich bereits gemeldet, um teilzunehmen, andere können sich bei Wolfgang Voges (Wolfgang.Voges@mpe.mpg.de) melden.
SOA Showcases[edit]
Nur in wenigen Instituten ist man bereits mit der Technik der Web-Services in Service-Orientierten-Architekturen vertraut und setzt sie für die wissenschaftlichen Zielsetzungen ein. Um interessierten ein besseres Verständnis der Vorteile dieser SOA zu geben, wurde wereinbart, daß einige Institute, die bereits an SOA arbeiten, Demonstrationen anbieten. Diese Arbeit wird mit einer niedrigen Priorität verfolgt. Entsprechende URLs sollen im WIKI genannt werden.
Flexibles Roaming[edit]
Die Mobilität der Wissenschaftler der MPG innerhalb aber auch außerhalb der MPG nimmt immer mehr zu und von überall möchte man sein Notebook ohne Aufwand in ein lokales und geschütztes WLAN einwählen. Dabei soll die Identität (Username, Password) des eigenen Instituts ausreichen, um eine Authentisierung zu erreichen, dh. das Nutzer-Management bleibt in den Instituten. Dies kann erreicht werden, in dem eine zentrale Radius-Server Infrastruktur aufgebaut wird, interessierte MPIe einen eigenen Radius Server aufsetzen und sich dann bei dieser zentralen Instanz bei der GWDG registrieren.
Immer öfter werden auch Konferenzen zB. im europäischen Rahmen organisiert, die ihren WLAN Zugang verstärkt über diese Roaming Prinzipien regeln. Hierfür ist EduRoam gebildet worden, das in Deutschland vom DFN unterstützt wird. Die zentrale MPG Instanz wird sich beim DFN registrieren, damit alle MPG Mitarbeiter den Zugang im europaweiten Rahmen erhalten. Im Prinzip kann jedes MPI an dem Pilotprojekt teilnehmen, indem es sich bei Rainer Gerling von der GV (gerling@gv.mpg.de) meldet.
Shibboleth-basierter Ressourcen Zugriff[edit]
Wissenschaftler wollen und müssen einen immer besseren und schnelleren Zugang zu online Ressourcen bekommen - seien dies Publikationen oder auch Primärdaten.
Auch hier muß ein Mechanismus zur Anwendung kommen, der es dem Nutzer ermöglicht, mit einer einzigen Identität, die durch das Nutzer-Management im eigenen Institut ausgestellt wird, auf all die verschiedenen Ressourcen an verschiedenen Instituten je nach seiner Rolle zugreifen und diese kombinieren zu können.
Gleichzeitig muss gewährleistet sein, dass das Authentifizierungsverfahren das Vertrauen der Anbieter (Service-Provider) findet. Nur wenn sichergestellt ist, dass die den Nutzern zugeschriebenen Metadaten (Zugehörigkeit, Rollen, ...) nachvollziehbar definiert sind und immer dem aktuellen Stand entsprechen, können entsprechende Vereinbarungen auch für kommerzielle Angebote getroffen werden.
Das von der Internet 2 Initiative entwickelte Shibboleth Programm bietet genau dafür einen technischen wie auch organisatorischen Rahmen. Die Shibboleth Komponente, die auf dem Ressourcen-Anbieter-System installiert ist, wird mit der Komponente, die auf dem eigenen Institut installiert ist, in Kontakt treten und Nutzer Attribute anfordern, falls die Authentifizierung erfolgreich durchgeführt worden ist. Die Nutzer Attribute werden über sichere Kanäle ausgetauscht und es wird dann geprüft, welche Rechte der betreffende Nutzer oder die Klasse von Benutzern (zB. alle Wissenschaftler eines Institutes) hat. Das Konstrukt der "Föderation" (federation) bietet den Rahmen für die Festlegung von Regeln (policies) und das Verwalten und Signieren der Metadaten.
Die großen Verlage haben bereits Pilotprojekte durchgeführt und werden dieses System bald in breiterem Maßstab einsetzen, um Zugriffe auf elektronische Zeitschriften zu regeln. In verschiedenen Ländern gibt es im Wissenschaftsbereich (UK, Schweiz, Finland, Norwegen) bereits vollständige Föderationen, die den umfangreichen Ressourcen-Zugriff auf diese Weise regeln.
In verschiedenen europäischen Projekten wird ein Ressourcen-Zugriff ebenfalls nur über diese Mechanismen vorgenommen. Für die MPG ergibt sich die Notwendigkeit, schnell das entsprechende Wissen aufzubauen und technisch wie auch organisatorisch umzusetzen.
Für einige Pilotapplikationen, worunter sich auch das Intranet der MPG und das von der MPDL organisierte Informations-Angebot (ausgewählte Anbieter aus der "Grundversorgung") befindet, wird ein System vor allem durch das RZG und das MPI Nijmegen realisiert, die beide bereits Erfahrungen mit dieser Technologie gemacht haben. Dazu werden die Shibboleth Komponenten bei den Pilot-Teilnehmern installiert und in die jeweiligen Umgebungen integriert. Eventuell interessierte Institute können sich bei Thomas Soddemann (thomas.soddemann@rzg.mpg.de) vom RZG oder Peter Wittenburg (peter.wittenburg@mpi.nl) vom MPI Nijmegen melden. Wegen des Aufwands können im Pilotprojekt allerdings nur eine beschränkte Anzahl von Instituten berücksichtigt werden.
In der Sitzung des BAR im Oktober 2007 wurde ein Antrag für das Projekt "MPG-AAI" genehmigt, der die Pilotprojekte absichert.
Results of the third eScience seminar[edit]
Thema: Offene Archivierbare Formate, 25./26 October 2007
Das dritte Thema der MPG eScience Seminare wurde durch eine Reihe von Vorträgen von Experten eingeleitet. Den Vorträgen folgten direkte extensive Diskussionen zu dem jeweiligen Thema.
Formate für naturwissenschaftliche Daten[edit]
Michael Lautenschlager (MPI Metereologie) stellte dar (Slides, 2MB), dass die Größe der Datenmengen nicht nur in der Metereologie (Klimaforschung) extrem zunimmt und ein gewaltiges Problem des Datenmanagements and der Archivierbarkeit entsteht. Die horizontale Granularität der Klimamodelle nimmt stetig ab (von zunächst 500 km auf jetzt 110 km) und mithin steigen die erzeugten Datenmengen von ca. 5.5 TB auf 106 TB für eine Berechnung, die sich über 240 Jahre erstreckt und bis 2100 prognostiziert. Um die bis 2010 erwarteten 35 PB zu pflegen, bedarf es eines mehrschichtigen Speicherkonzepts, das Klassen von Daten und Aufbewahrungstypen unterscheidet. Die Grenzen dessen, was über einen längeren Zeitraum (hier die typischen 10 Jahre) archiviert werden kann, sind erkennbar. Die Datensätze werden mittels standardisierter Metadaten (ISO 19115) beschrieben, um das Managementproblem zu lösen. Die Metadaten verweisen auf strukturierte und detailliert beschriebene Datensätze. Die zum Einsatz kommenden Formate werden von der Metereologen Community detailliert spezifiziert und den sich verändernden Anforderungen angepasst. Die Datenbeschreibungen liegen offen vor, so dass einer langfristigen Interpretierbarkeit nichts im Wege steht. Semantische und syntaktische Überprüfungen sichern eine hohe Datenqualität.
Diskussion
Die Überprüfbarkeit der Simulationen erfordert die Bereitstellung des Kontextes, was im strengen Sinne die Rechnerarchitektur, den Code und die Ausgangsdaten beinhaltet. In erster Annäherung könnte man dazu übergehen, lediglich den Source-Code und die Ausgangsdaten bereit zu halten (lediglich ca. 300 GB), allerdings ist damit eine exakte Reproduzierbarkeit nicht gewährleistet. Für eine Archivierung über weitaus längere Zeiträume als 10 Jahre könnte das jedoch ausreichend sein. Die Metadaten werden in einer relationalen Datenbank gehalten, um schnelle Zugriffe abzusichern. Eine Ausgabe in ein XML Format ist jedoch problemlos möglich. Auch in anderen Naturwissenschaften sind seit längerem ähnliche Tendenzen erkennbar, was ein immer ausgefeilteres Datenmanagement-Konzept erfordert und die offene und exakte Spezifikation sowohl der Daten selbst als auch der Metadaten erfordert.
- Die Folien können hier heruntergeladen werden: PDF: 2MB
Codierformate für Bilder und Video[edit]
Ralf Schäfer (HHI Berlin) stellte dar (Slides, 9MB), dass die Qualitäts- und Funktions-Wünsche extrem steigen. Bedarf es zur Übertragung von normalem jetzigen TV ca. 166 Mbps, so sind die Anforderungen für HDTV (ca. 995 Mbps) bereits um einen Faktor 6 höher und für D-Cinema (ca. 10.872 Mbps) liegen sie nochmals um einen Faktor 10 höher. Dem steht der Wunsch entgegen, mit stets verfeinerteren Kompressions-Methoden die Bitraten und damit auch die benötigten Speicherkapazitäten im Griff zu behalten. Die Speicherung von unkomprimiertem Video bei den steigenden Anforderungen ist nahezu unmöglich. Bei der Kompression von Bildern (JPEG) wird eine Folge von Operationen angewandt, bei der die diskrete Cosinus Transformation und die Quantifizierung und Reduzierung der Faktoren im Zentrum steht. Bei der Kompression von Bewegtbildern (MPEG Familie) wird zusätzlich noch eine Reduktion in der Zeit vorgenommen, wobei es hauptsächlich darum geht, so wenig wie möglich statische Inhalte zu übertragen. Die Entwicklung immer besserer Verfahren begann mit H.261 und MPEG1 im Zeitraum 1990/92 und setzte sich über H.263, MPEG2, MPEG4-V1/V2/V3 und H.264 äußerst dynamisch bis 2002 fort. H.264 scheint heute der weithin akzeptierte Kompressions-Standard zu sein und verdrängt selbst MPEG2. Mit JPEG2000 wurde ein neuer flexibler Standard für Bilder entwickelt, der unter anderem auch verlustfreie Kompressions-Schemata beinhaltet. Diese sind interessant, realisieren im allgemeinen jedoch nur Faktoren bis zu maximal 2. Wie auch in anderen neuen Standards wurden die DCT zumeist durch die bessere Wavelet Transformation ersetzt. Die Entwicklung ist nicht beendet, momentan wird insbesondere an Verfahren wie optimale Textur-Repräsentation, scalable Video, graceful Degradation und 3D Video gearbeitet. Neue Codecs wie z.B H.265 werden kommen und diese neuen Eigenschaften enthalten.
Diskussion:
Bisher haben die zwei Camps, ITU und ISO, eigene Wege beschritten. In Zukunft scheint es so zu sein, dass die zwei zusammengehen werden, was für die Standardisierung gut sein wird. Sehr problematisch kann die Kostensituation sein. Bezüglich der meisten Codecs gibt es Patent-Pools und es ist nicht von vornherein klar, wie sich Lizenzen auf Produkte umschlagen. Theoretisch gibt es zum Beispiel einen großen Kostenunterschied zwischen MPEG2 (ca. 2 $) und H.264 (einige Cent). Die Frage wurde gestellt, was die Konsequenzen für die Langzeit-Archivierung (> 100 Jahre) sind. Die Position von RS war die, dass es eigentlich nichts ausmacht, ob die Streams in MPEG2 oder H.264 codiert sind, da beide Algorithmn ja sauber definiert und dokumentiert sind. Es blieb ein Gefühl, dass die zunehmende Komplexität der Algorithmen ein Problem darstellt und dass zu viel authentische Information ersetzt wird. Je einfacher die Codecs sind, desto besser könnte es für die LZA sein. So verwendet DV keine Kompression über die Zeit, was für viele Aspekte der LZA vorteilhaft sein kann. Im Gegensatz zu den Bild-Kodierungen ist es im Bereich Audio klar, dass man direkte unkomprimierte 16 bit linear PCM Kodierungen für die LZA verwendet.
- Die Folien können hier heruntergeladen werden: PPT: 9MB
Codierung von Schriftzeichen[edit]
Jost Gippert, der sich wegen der Darstellung von vielen orientalischen Dokumenten bereits seit langem mit Schriftzeichen und deren Unterstützung durch Editoren und Dokument-Verarbeitungsprogrammen beschäftigt hat, stellte dar, wie groß die Probleme bei der Präsentation und Konversion diverser orientalischer Schriftzeichen waren (Slides, 7MB). Auf der Basis dieser Erfahrungen ist die Einigung auf UNICODE ein großer Fortschritt. Im Sinne der Archivierung hält er die Verwendung von fix-byte Kodierungen wie UTF-16 für besser als UTF-8, das wegen der variablen Byte-Zahl schwerer zu decodieren sein wird. Neue UNICODE Versionen machen es möglich, dass nahezu alle bekannten Glyphs in UNICODE repräsentierbar sein werden. Allerdings bedarf es erheblicher Anstrengungen, um neue Zeichensätze integriert zu bekommen. Abschlïeßend wurde dargestellt, dass auch UNICODE durchaus inkonsequente Kodierungsverfahren, insbesondere bei der Verwendung von diakritischen Zeichen, enthält und dass es Interpretationsprobleme gibt, die insbesondere bei Suchen zu falschen Ergebnissen führen könnte.
Diskussion:
Eine ganze Reihe von MPIen z.B. aus dem Rechtsbereich sind sehr an den UNICODE-Details interessiert, da sie mit alten Zeichensätzen zu tun haben und die entsprechenden Dokumente in Analysen einbeziehen müssen. Die Frage der Langzeit-Archivierbarkeit ist genauso wenig geklärt, wie bei den Video Codecs. Man könnte sich darauf verlassen, dass alle Versionen von UNICODE gut dokumentiert sind und dass es späteren Generationen schon gelingen wird, die Kodierungen zu entziffern. Oder aber man verlässt sich auf die Einfachheit des Kodierungs-Verfahrens.
- Die Folien können hier heruntergeladen werden: PDF: 7MB
XML-Strukturierungs-Sprache und Tag-Sets[edit]
Sebastian Rahtz stellte dar, wieso die Web-Community XML inzwischen weithin als Struktur-Auszeichnungs-Sprache akzeptiert hat und dass es einen Trend hin zu oftmals a priori definierten Komponenten gibt. Sowohl SR als auch Laurent Romary (LR) sprachen dann auch noch über Auszeichnungs-Sprachen.
Beide Vorträge richteten ihren Fokus auf die Notwendigkeit, Modellierungstechniken für semi-strukturierte (XML) Dokumente zu definieren, die es den Nutzern erlauben, mit dynamischen Dokumentenstrukturen umzugehen, die den Projekt- und Nutzeranforderungen angepasst werden können.
SR präsentierte, wie die ODD-Sprache (One Documents Does it all), die von TEI (Text Encoding Initiative) für die Definition der Infrastruktur und ihrer Elemente (über 500) gebraucht wird, das “literate programming paradigm” implementiert (Slides, 2MB). ODD erlaubt es, aus einer einzigen Spezifikation sowohl das zu erzielende Schema (DTD, RelaxNG oder W3C Schema), als auch die Nutzerdokumentation zu erzeugen. LR zeigte, dass eine ähnliche Strategie von ISO dazu verwendet wird, komplexe linguistische Strukturen aus generischen Metamodellen zu generieren. Diese Metamodelle wiederum werden mit Hilfe elementarer Daten-Kategorien aus domain-spezifischen Registries beschrieben. Eine solche Registry wird gerade vom MPI f. Psycholinguistik im Rahmen des ISOCat-Projektes implementiert.
Diskussion:
Die Diskussion konzentrierte sich auf den Bedarf verschiedener MPIs, ihre eigenen XML-Strukturen zu dokumentieren und zu pflegen, die über mehrere Jahre hinweg in ihren jeweiligen Communities entwickelt und getestet wurden. Diese Institute brauchen Unterstützung auf mehreren Ebenen, z.B.: Schema Registries, bessere Modellierungswerkzeuge für XML-Dokumente, als auch eine Registry für semantische Spezifikationen, um vorhandenes Wissen festzuhalten und zu stabilisieren. Im Bereich Textdokumente scheint TEI zur wichtigsten Organisation zur Standardisierung geworden zu sein. Im wissenschaftlichen Anwendungsbereicht könnte TEI, oder ein darauf aufbauendes Projekt, zur Beschreibung von Quelldaten, Transkription, oder digitaler Inhalte ausgebaut werden.
- Die Folien von Sebastian Rahtz' Vortrag können hier heruntergeladen werden: PDF: 2MB
Repräsentation Semantischen Wissens[edit]
Antoine Isaac, der ein Projekt verschiedener großer niederländischer Kultur-Einrichtungen zur Erzielung semantischer Interoperabilität mittels avancierter Semantic Web Techniken leitet, gab eine Übersicht über die gegenwärtigen Trends im Bereich der formalen Repräsentation semantischen Wissens (Slides, 2MB). Ein Beispiel für das zunehmende Bedürfnis nach verbesserten semantischen Technologien ist der Wunsch, auf verwandte und eventuell gar distribuierte Kollektionen simultan zugreifen zu können. Alle wesentlichen Ansätze zur formalen Repräsentation von Wissen bauen auf XML als Strukturierungssprache auf. RDF (Resource Description Framework) bietet einen simplen Mechanismus, um semantische Relationen zu beschreiben: zwei Objekte, die über eindeutige Web-Referenzen identifiziert werden können, werden mittels einer typisierten Relation verbunden. Mittels RDF-S können darüber hinaus Vokabulare erzeugt werden. RDF-S stellt bereits ein Basis-Vokabular für Relationstypen bereit. Dieses wird durch OWL (Web Ontology Language) durch ein ausführliches Arsenal an Relations-Typen erweitert, so dass komplexe Ontologien erzeugt werden können, die auch logische Inferenzen erlauben. Zur formalen Darstellung existierender Wissensrepräsentation wie zB. Thesauri und deren Integration in das Semantic Web wurde die vereinfachte SKOS Sprache entwickelt. Obwohl der Bereich der Wissensrepräsentation noch relativ jung ist, scheinen sich nunmehr klare Trends in Richtung auf die beschriebenen Technologien herauszubilden. Die großen Herausforderungen wie zB. das automatische semantische Alignment verschiedener Ontologien stellen allerdings immer noch riesige Probleme dar.
Diskussion:
Die Diskussion thematisierte die Verbindung zwischen verschiedenen Arten des Vokabular-Managements. Auf der einen Seite gibt es den Ansatz, der stark auf Bibliotheken zugeschnitten ist (library-oriented approach) und auf die Repräsentation von Index-Vokabularien zielt (vom W3C mit KOS angewandt). Auf der anderen Seite gibt es einen terminologie-orientierten Ansatz, der vom ISO-Kommittee TC 37 verfolgt wird. Dieser ermöglicht eine feinaufgelöste Repräsentation multilingualer Konzepte und bietet tiefgreifende Management-Mittel. Es wurde deutlich, dass ein Bedarf besteht, die Index-Vokabulare stufenweise in terminologie-orientierte Vokabulare zu überführen, um der fortschreitenden Entwicklung von Terminologien Rechnung zu tragen, aber auch um enge Verknüpfungen zu automatischer Indizierung und NLP-Werkzeugen (Natural Language Processing) herzustellen.
- Die Folien können hier heruntergeladen werden: PPT: 2MB
Beiträge[edit]
Tom Baker stellte die momentane Sichtweise der DublinCore Metadata Initiative dar (Slides, 0.4MB). Es hat sich die Sicht durchgesetzt, dass es sehr viele Schemas geben wird und dass die essentielle Grundlage für die Langzeit-Interoperabilität zitierbare und formal repräsentierte Vokabulare sind, die in den Schemas zur Anwendung kommen. Die Zitierbarkeit setzt die Verwendung eindeutiger und persistenter Referenzen voraus. Als formale Basis für die Darstellung von Metadaten wird RDF angesehen.
In direktem Zusammenhang mit diesem Kurzvortrag demonstrierten Marc Kemps-Snijders and Laurent Romary die ISO Data Category Registry Intiative, die zunächst zum Ziel hat, linguistisches Vokabular formal zu repräsentieren und zur Verfügung zu stellen. Allerdings könnte der auf einem ISO Standard beruhende Mechanismus auch für andere Disziplinen verwendet werden.
Robert Casties stellte die Arbeiten am MPI für Wissenschaftsgeschichte vor. Auch an dem Institut nimmt die Menge an strukturierten Informationen, insbesondere Bilder, Texte und deren Annotationen, enorm an Umfang zu, so dass auch hier mit Metadaten gearbeitet werden muss. Als großer Nachteil wird dargestellt, dass in der MPG immer noch nicht eingesehen wird, dass geisteswissenschaftliche Institute aufgrund ihrer datengetriebenen wissenschaftlichen Arbeit technisches Personal benötigt.
Ralf Schenkel von der Informatik in Saarbrücken stellte eine ganze Reihe von Fragen, die sich dem Institut bei der Lang-Zeit-Speicherung experimenteller Kontexte ergeben (Slides, 0.4MB). Ein besonders wichtiger Aspekt ist die Speicherung des Kontextes zB. von Data Mining Experimenten, wobei das Web vorzüglich die Ressource darstellt. Web Inhalte sind hochgradig dynamisch, dh. man müsste für jedes Experiment den Web-Inhalt als Snapshot speichern. Da dies unmöglich ist, ist die Nachweisbarkeit von experimentellen Resultaten nicht gegeben. Eine Lösung in der Community scheint es noch nicht zu geben.
Peter Wittenburg fügt einige Dimensionen des Problems hinzu, indem er daraufhin wies, dass die heutige Trennung von Träger und Inhalt uns einerseits eine große Freiheit gibt, sie andererseits eine Falle im Sinne der Langzeit-Archivierung darstellt. Unsere Inhalte sind zunehmend dynamisch, da die Wissenschaft natürlich von der neuen Freiheit Gebrauch machen will. Was machen wir mit den Erweiterungen und den Verlinkungen, wie speichern wir sie ab? Wie können wir Authentizität nachweisen? Muß zB. das statische OAIS Modell in Richtung auf eine dynamisches Modell (Live Archives: [1]) ergänzt werden?
Diskussion
An den Anfang der Diskussion wurden zwei Zitate gestellt:
- Terry Kuny (National Library Canada): No one knows, how to archive digital documents.
- UNESCO Report: 80% der ethnologischen und linguistischen Aufnahmen über Völker und Sprachen sind akut gefährdet, da die Träger in Kürze nicht mehr lesbar sein werden.
Sieht man also über die nächsten 10 Jahre hinaus, die für uns beherrschbar sein werden - sogar in Bezug auf die Pflege wichtiger Software, ist die Frage der Langzeit-Archivierung nicht bzw. schlecht gelöst. Es wurde postuliert, dass die 80% möglichen Datenverlusts nicht problematisch sind, wenn zumindest gewährleistet werden kann, dass etwa 10% überleben - das wäre schon viel.
Ein anderer Punkt, der angesprochen wurde, ist der nach den Ratschlägen, welche Formate und Standards denn nun im Sinne einer Langzeit-Speicherung verwendet werden sollten. Die Vorträge gingen steng genommen nicht im Kern auf diese Frage ein, sondern erläuterten den gegenwärtigen Stand der Standardisierung, Harmonisierung und Akzeptanz. Die zugrundeliegende Annahme der Sprecher ist dann die, dass, wenn eine breite Akzeptanz und Verwendung gegeben ist, es zu einer bestimmten Zeit, wenn neue Standards populär würden, mit großer Wahrscheinlichkeit optimale Konversionsroutinen geben würde. Für die Langzeit-Interpretierbarkeit wäre dann die Möglichkeit der kostengünstigen und möglichst verlustfreien Migration von essentieller Bedeutung, was primär eine organisatorisch/logistische Herausforderung ist und eine große Format-Kohärenz voraussetzt. Zentral für die Bewältigung dieser organisatorisch/logistischen Probelem ist die Speicherung der Daten in geeigneten Zentren und die Beschreibung der Daten mittels guter Metadaten.
Ein weiterer zentraler Punkt war die Frage, ob die Vorstellung des verlustfreien Kopierens angesichts der Notwendigkeit der Format- und Codierungs-Konversion eine bloße Illusion des digitalen Zeitalters sei? Lediglich auf Bitstream Niveau können wir zunächst Verlustfreiheit garantieren. Ist die Komplexität der gewählten Kodierungen korreliert mit dem Grad an Verlusten bzw. Artefakten bei Migrationsschritten? Die Frage konnte natürlich nicht geklärt werden. Allerdings herrschte ein Gefühl vor, dass einfache Kodierungen bevorzugt werden sollten, gestatten sie doch auch eine einfachere Analyse zu einer späteren Zeit, in der eventuell die Dokumentation über die Kodierung selbst nicht mehr verfügbar ist. Die Repräsentation von Audioströmen mittels linear PCM (direkte digitale Repräsentation) ist gegenüber jeder Form von komplexer Kompression vorteilhaft, lässt sie sich doch einfacher dekodieren und lässt sie sich doch ohne Artefakte in viele andere mögliche Kodierungen übertragen. Bei den Video Codecs bringen uns die zunehmenden Datenraten in riesige Probleme, da wir sie ohne Kompression kaum speichern und transferieren können. Aufgrund der geringeren Komplexität der Algorithmen, so beinhaltet zB. DV keine Kompression über Frames wie alle MPEG Algorithmen, sind einfache Algorithmen für die LZA vorzuziehen. Selbst bei der Kodierung von Zeichen mittels UNICODE erzeugt der Wille, alle möglichen Zeichen abzubilden, Ambiguitäten und Überlappungen, die zu Komplexitäten führen, die in zukünftigen Jahren einmal zu Interpretations-Problemen führen werden.
In der allgemeinen Diskussion wurden dann noch die folgenden Punkte angesprochen:
- Welche Daten müssen archiviert werden? Müssen Daten, die von Programmen erzeugt werden, lange aufgespeichert werden oder reicht es, die Programme zu pflegen und die Algorithmen zu dokumentieren selbst wenn die zugrundeliegende Hardware, auf der die Algorithmen später einmal laufen würden, zu geringen Abweichungen führen könnten?
- Müssen wir alle dynamischen Daten wie zB. Emails archivieren, selbst wenn sie Teil eines Data Mining Experiments waren?
- Standards sind selbst einer dauernden Änderung unterworfen. Wie weit muss sich der einzelne Wissenschaftler um diese Dinge bemühen oder muss er sich ncht auf die Tool-Entwickler verlassen, dass sie die Standards übernehmen werden? Es wurde allgemein akzeptiert, dass ein Bewusstsein um Standards sicherlich sehr gut ist, um Forderungen zu stellen und bei Alternativen auch gezielte Entscheidungen treffen zu können.
- Für die meisten Institute sind die Methoden zur formalen Bescheibung von Wissen noch sehr weit weg. Allerdings ist bereits oftmals eine Diskussion begonnen worden, wie man verschiedenen Terminologien für pragmatische Zielsetzungen wie zB. Suchen sinnvoll definieren und aufeinander abbilden kann. Hier ist die Vorgehensweise von ISO TC37/SC4 mit der Data Category Registry aller linguistischen Konzepte inkl. ihrer verschiedenen Terme eine Möglichkeit, die auch für andere Disziplinen gelten könnte. Allerdings müssten Schulungskurse angeboten und Ansprechpartner benannt werden, die den Instituten helfen, zu sinnvollen Entscheidungen zu kommen. Aufgrund der Trends zur Harmonisierung scheint es auch in diesem Bereich zunehmend breit akzeptierte Vereinbarungen zu geben, so dass sich Investitionen lohnen.
- Die Folien von Tom Bakers Vortrag können hier heruntergeladen werden: PPT: 0.4MB
- Die Folien von Ralf Schenkels Vortrag können hier heruntergeladen werden: PDF: 0.4MB
Konkrete Vorschläge[edit]
Als Konsequenz des Workshops wurden die folgenden Maßnahmen angeregt:
- Aufbau und Pflege eines Wikis durch die MPDL
- Benennung von Kontaktpersonen für spezielle Teilaspekte, die a) engagiert sind und b) bereits über ein detailliertes WIssen verfügen bzw. sich dieses Wissen auf jeden Fall aneignen wollen. Diese Personen sind denn auch für die Pflege von Wiki Aspekten verantwortlich.
Es wurde deutlich gemacht, dass diese Wikis nur funktionieren, wenn wenigstens eine Person die Zeit hat, zu moderieren, pro-aktiv mit den Experten zu kommunizieren und sie zu motivieren, Inhalte zu erneuern, zu ergänzen etc. Die Anwensenden waren sich einig, dass dies eine sehr geeignete Aufgabe für die MPDL wäre, die auch schnell in Angriff genommen werden sollte.
Dieses Ergebnis deckt sich sehr gut mit dem Beschluss des BARs, thematische Netzwerke mit Experten aufzubauen. Dabei sollte sich das RZG um Aspekte wie HPC, server, storage, grids, etc, die GWDG um Aspekte wie Netzwerke, Services, eInfrastrukturen etc und die MPDL um Aspekte der eScience und all die Dinge kümmern, die im Seminar zur Sprache kamen. Überlappungen können zu einem späteren Zeitpunkt geklärt werden.
Die Institute der MPG, insbesondere die Direktoren stehen unter einem enormen Druck erstklassige Forschungsresultate zu liefern und zu publizieren. Sie können daher nur wenig Zeit aufbringen, um sich um Dinge wie Standards und Langzeit-Archivierung bzw. Interpretierbarkeit zu kümmern. Auf der anderen Seite wird der Druck immer größer, Daten zumindest 10 Jahre aufzubewahren und auch interpretierbar zu halten bzw. dort wo es sich um einmalige, nicht wiederbringbare Daten handelt, diese derart aufzubewahren, dass zukünftige Generationen Zugriff darauf haben werden. Wir müssen verhindern, dass die Dynamik unserer gegenwärtigen Speichersysteme und Standards dazu führt, dass nach 100 Jahren keine Zeugnisse mehr existieren.
Zusätzlich ist es der Druck der kommenden eScience Applikationen, der es immer mehr erfordern wird, dass sich die Institute an die Standards halten, wollen sie am Austausch und an der Kollaboration teilnehmen. Die MPDL hat die Aufgabe, das erforderliche Wissen aufzubauen bzw. die Expertennetze aufzubauen und zu pflegen mit der Zielsetzung, dass sich MPIe schnell beraten lassen können.