Project Proposal Martinsried

Martinsried  Access is restricted to Usergroup:Martinsried

Ziele
Ziel ist die Entwicklung eines Datenverwaltungssystems für Wissenschaftler zur Kategorisierung und Archivierung von Forschungsdaten aus unterschiedlichen Projekten. In diesem System werden die Auswertungsprozesse innerhalb von Projekten (Projektfortgangsbeschreibung, Metadatenerfassung, Visualisierung der Zwischenergebnisse) identifiziert und abgebildet, beginnend bei der Generierung über die Prozessierung bis hin zur Publikation und Darstellung der Forschungsdaten. Am Ende entsteht eine zentrale Archivierung der Daten mit transparentem Zugriff auf Informationen zu Lebenszyklus der Daten, Projektstand, Analyse- und Projektverlauf und Versionisierung. Grundkonzept dabei ist, nicht nur die Daten an sich zu speichern, sondern auch den Kontext, in dem die Daten erstellt wurden. Durch dieses System werden den Wissenschaftlern die Rohdaten sowie die aggregierten wissenschaftlichen Forschungsdaten zu jedem einzelnen Arbeitsschritt eines Projekts über eine Suche zur Verfügung gestellt. Des Weiteren ermöglicht es durch die Dokumentation des gesamten Projektkontext (Format, Bedeutung, Eigentümer, Rechte) die Nachvollziehbarkeit der Experimente und führt zu einer besseren Transparenz der entsprechenden Publikationen. Und nicht zuletzt kann so die Langzeitarchivierung und Nachnutzung aller Daten garantiert werden.

Konkret soll ein transparentes System mit folgenden Funktionen entwickelt werden:
 * Abbildung eines konfigurierbaren, systemunterstützten Workflows zum Umgang mit großen, maschinell erzeugten Bilddaten, der den gesamten Lebenszyklus der Forschungsdaten beginnend bei der Generierung (Rohdaten) über die Prozessierung bis hin zur Publikation abbildet
 * Fortlaufende manuelle und automatische Beschreibung der jeweiligen Daten (Datengruppen) durch die Generierung von Metadaten (basierend auf vordefinierten Standards) in jedem Schritt eines Lebenszyklus
 * Automatische Extraktion und Archivierung der Metadaten aus den Messgeräten
 * Zusammenhängige Darstellung von Bilddaten, Metadaten und evtl. vorhandenen Analysen incl. Visualisierung von Experimentdaten
 * Einbindung einer Suche über den kompletten Datenbestand
 * Export zu Endnote, Word, Webseiten, Standardbildformaten oder anderer Programme zur freien Weiter-/Zwischenbearbeitung
 * Persistente Publikation von Forschungsdaten
 * Anbindung unterschiedlicher Rechtesysteme
 * Langzeitarchivierung aller gesammelter Daten

Dieses System soll durch die Entwicklung eines auf eSciDoc basierenden technischen Prototyps realisiert werden, der (wie alle eSciDoc Komponenten) als Open Source Software allen eSciDoc Nutzer frei zur Nachnutzung zur Verfügung gestellt wird. Dadurch wird auch die Eignung der eSciDoc Infrastruktur im Kontext großer Datenmengen und Datenvolumina sichergestellt. Dieser Prototyp wird in unterschiedlichen wissenschaftlichen Kontexten getestet, in der Elektronenmikroskopie und in der Lichtmikroskopie, jeweils mit Datenbeständen des Max-Planck-Instituts für Biochemie und der Universität Göttingen. Des weitern werden Guidelines über die Erfassung, Speicherung, Analyse, Auswahl, Dokumentation und Publikation von experimentellen Forschungsdaten erstellt

Arbeitspakete

 * 1) Spezifikation
 * Ziel: Ist-Zustand Analyse und Soll-Zustand Definition (beinhaltet Gespräche mit Wissenschaftlern)
 * 1) * Definition des genauen Ablaufs der Datenverarbeitung von Rohdaten bis zum Abschluss des wissenschaftlichen Projektes (Wie werden die Daten bisher in den jeweiligen Abschnitten beschrieben? Welcher Ablauf wäre zukünftig wünschenswert?)
 * 2) * Zerlegung des Ablaufs in einzelne Workflowschritte (Teilabschnitte)
 * 3) * Analyse der derzeitig verwendeten Werkzeuge bzw. Möglichkeiten zur Bearbeitung und Festlegung von wünschenswerten zukünftigen Bearbeitungstools
 * 4) * Dokumentation der Vorgehensweise
 * 5) Content Model
 * Ziel: Entwicklung eines Content Models (incl. Metadaten Sets) für Forschungsdaten bildgebender Verfahren
 * 1) * Festlegung der für das System relevanten Entitäten (z.B. Personen, Forschungsprojekte, Institutionen) und deren Beziehungen untereinander
 * 2) * Identifikation und Spezifikation der benötigen deskriptiven Metadaten der einzelnen Entitäten innerhalb der unterschiedlichen Arbeitsschritte basierend auf vorhandenen Metadaten Standards (Ziel: Interoperabilität)
 * 3) * Definition von Metadaten Sets, die flexibel per Baukastenprinzip zusammengestellt werden können (auf Basis von Default-Metadaten und frei definierbare Metadaten-Felder)
 * 4) Authentifizierung
 * Ziel: Wer darf was mit welchen Daten?
 * 1) * Definition und Implementierung von unterschiedlichen Rollen
 * 2) Entwicklung von Schnittstellenprogrammen
 * Ziel: technischen Rahmen abklären ???
 * 1) * State-of-the-Art Analyse um zu klären, ob es bereits einzelne Bearbeitungstools gibt, die von dem Prototypen wiederverwendet werden können
 * 2) * Analyse der Rohdaten incl. Festlegung der benötigen technischen Metadaten (Herstellerinformationen)
 * 3) * Entwicklung / Integration eines Schnittstellenprogramms zur automatisierten Extraktion der technischen Metadaten aus den Gerätedaten (automatische Erfassung von Metadaten aus Messgeräten/Messgeräteparameter)
 * 4) * Entwicklung / Integration eines Schnittstellenprogramms zur Konvertierung von Rohdaten in freie Bildformate zur Darstellung im Browser
 * 5) GUI Prototype
 * Ziel: Erstellung eines Click-Dummies (GUI Prototype) um die Gestaltung der Benutzeroberfläche zu definieren
 * 1) * Erstellung von GUI-Bausteinen für alle spezifizierten Funktionalitäten
 * 2) * Einführung eines Baukasten zur freien Zusammenstellung von (Web-) Oberflächen durch den Experiment-Leiter
 * 3) Technischer Prototype
 * Ziel: Erstellung des fertigen Prototypen
 * 1) * Implementierung der einzelnen Funktionalitäten:
 * Nutzer- und Rechteverwaltung
 * Projekteingabe (Erstellung eines neuen Projekts, Bearbeitung eines bereits vorhandenen Projekts)
 * Definition eines Metadaten Sets für ein Projekt
 * Verknüpfung eines Projektes mit den entsprechenden Rohdaten
 * Automatische Metadatenextraktion der Rohdaten
 * Erstellung und Dokumentation einzelner Verarbeitungsschritte
 * Publikation von (ausgewählten) Forschungsdaten
 * Einfache und detaillierte Suche nach allen Metadaten
 * Konvertierung der Bilder in unterschiedliche Formate zur schnellen Visualisierung (Thumbnails, Formate wie TIFF, JPEG etc.)
 * mport-/Exportfunktionen zur freien Weiterverarbeitung der Daten außerhalb des Datenbanksystems
 * 1) * Implementierung eines technischen Prototypen basierend auf der Spezifikation
 * 2) * Testen des technischen Prototypen
 * 3) Vorbereitung des Prodiktivbetriebs
 * Ziel: Darstellung erster beispielhafter Nutzungsszenarien
 * 1) * Erstellung eines Business Models
 * 2) * Import von Testdaten aus verschiedenen wissenschaftlichen Nutzungsszenarien

Short Summary
The increasing amount of primary data and its aggregations,gathered during scientific research, requires technical and organisational measures which exceed local resources. The project will focus on the possibilities to use the eSciDoc infrastructure as registry for aggregated data, with respective metadata on the life-cycle status of the data and discipline-specific information. By providing a technical prototype, the project will prove the feasibility of eSciDoc infrastructure to deal with large data volumina, publication of specific data sets with subject-specific, technical, legal and life-cycle metadata. In addition, the project will provide insight into the organisational measures needed to identify, model and support an institute-specific workflow for the analysis, selection and documentation of multiple primary data gathered during research.

Background
Institutes with strong focus on experimental research have to adress the challenge to select and properly describe the data resulting from experiments. Before final publication of a research result, the data are manipulated and enriched in multiple ways. Although most institutes have well-established procedures for local (or external) storage for bit-stream preservation, the necessary descriptive information on the purpose and meaning of the information, needed to properly understand the life-cycle status of the data, is not documented sufficiently. The institutes therefore run the risk of storing mass of data without structured, interoperable information on the meaning of the data.

Needs
Based on the described background, the MPI for Biochemistry, as one exemplary institute for doing experimental research combined with processing-intense methods, would like to enrich their data storage (mainly image data) with context-sensitive information on the lifecyle status of their data, by using the functionalities provided by the eScidoc infrastructure. In sum, two main aspects will be adressed by a joint project with the MPDL:

a) the organisational and functional aspect: to understand and define requirements for long-term archiving and proper retrieval of data, the relevant data, the current and envisioned workflows (human and machine-based) and the relevant points during a workflow, on which certain data has to be stored with specific descriptive metadata have to be identified and described. During the life cycle of primary data - from gathering raw data to analysis, experimental repeats until the outcome as publication and figures - the characteristics of data (meaning, format, owner, rights etc.) are changing. The crucial point will be to understand the decision points within a workflow for providing sensible descriptive information on a certain result, the human/intellectual selection criteria for relevant data and the respective functional and technical requirements, either provided by local systems or provided by supporting other systems.

b) the technical aspect: Having understood the workflows in use, the devices and systems involved, the data generated and the necessary aggregation levels needed, the possibilty for providing sensible descriptive metadata at certain points has to be provided. Providing descriptive information might include metadata on the experiment as such, the parameters used, the outcome of automatic and intellectual analysis and, in addition, the reasoning for storing certain data/snapshot. Based on the assumption, that the data and its different aggregation levels will be stored in different systems, the interoperability between the systems (content model, rights, versioning etc.) has to be secured. The aim of the project is to understand the possibilites of the eSciDoc infrastructure to serve as a metadata registry for the experimental data needed to be stored for good scientific practice and long-term archiving purposes. The storage of raw data, management and provision of additional meta-information on the different life cycle status and the representation of the data should be handled in distributed environment to ensure optimal use and retrieval. The shared responsibilities between systems have to be defined (which system is providing which data? Which information can be retrieved by which system?)

Wider context
...
 * provide information, not only data, based on open and standardised formats
 * provide base for persistently identifying relevant data and data sets
 * content model for primary data?
 * workflow, policy modelling?
 * Evaluation of integration solution with electronic Labnote books in use? (ie. include protocols and methods)
 * extend solution with other types of raw data?
 * Evaluation of integration of grid systems (e.g. iRODS)?

Costs

 * 2 (3?) FTEs (100%) scientific developer for 3 years
 * 1xE13 = 68.000 € p.a.
 * 2 FTE for 3 years = 408.000 €
 * 3 FTE for 3 years = 612.000 €


 * 1 FTE (50%) conception/functional/coordination for 3 years
 * 1xE13 = 68.000 € p.a.
 * 0,5 FTE for 3 years = 102.000 €


 * 2 FTEs (50%) scientific assistant for 3 years
 * 1xE13 = 68.000 € p.a.
 * 1 FTE for 3 years = 204.000 €


 * Hardware: Server im Umfang von ca. 10-15TE + 30TE für SAN-Ausbau