Offene EHEC-Forschung

Das Potenzial des Webs für die Wissenschaft lässt sich dieser Tage am Beispiel der EHEC-Forschung dokumentieren. Kai Kupferschmidt schildert die Entwicklungen rund um die Sequenzierung des EHEC-Erregers vor Tagen in der Science wie folgt: „scientists around the world […] are analyzing available genomic data on the fly and, via tweets, wikis, and blogs, disseminating results online“.

Die Bedeutung von Blogs und Wikis bei der EHEC-Forschung wird in einem äußerst lesenswerten Interview mit der Bioinformatikerin Marina Manrique, das Tobias Maier in seinem Blog WeiterGen veröffentlicht hat, deutlich. Manrique arbeitet für die spanische Biotech-Firma Era7 und ist mit der Auswertung der EHEC-Sequenzen beschäftigt. Auszug aus dem Interview:

„Es ist fantastisch zu sehen, wie weltweit Wissenschaftler angefangen haben, zusammen diese Daten zu analysieren. […] Die Freigabe der Rohdaten durch BGI, Lifetech und der Health Protection Agency Großbritannien war entscheidend für dieses Crowdsourcing-Bewegung, genauso wie die Nutzung von Twitter, GitHub und die privaten Blogs. […]  Am wichtigsten ist, dass dadurch dass wir unsere Ergebnisse Open-Access publizieren, vor allem unter CC0 Lizenz, wir allen Menschen die Möglichkeit geben kostenlos auf die komplett öffentlich zugänglichen Daten zu zu greifen.

Wie schnell und unbürokratisch die Forschung des Teams um  Manrique ablief erklärt sie in ihrem Blog:

During the morning sessions of the second day (2nd of June) BGI announced the release of the sequencing data of 5 IonTorrent chips […]. Just some hours later Nick Loman […] published a de novo assembly of the reads with MIRA in his blog […] . And then, some hours later (in the morning of the 3rd of June) we published the annotation of the Nick’s assembly in our website. We annotated it with the pipeline (BG7 pipeline) we were presenting at the conference […].

Die Bedeutung von Blogs, die eine schnelle und niedrigschwellige Kommunikation fördern, lässt sich z.B. an Blogposts von Nick Loman (Pathogens: Genes and Genomes) und Kat Holt (bacpathgenomics) und den dort erwähnten Referenzen zeigen.

Verschiedene kommerzielle und öffentliche Forschungseinrichtungen haben EHEC-Daten, zum Teil unter Creative-Commons-Lizenzen, zur Nachnutzung veröffentlicht. So z.B. die Health Protection Agency in Großbritannien oder das chinesische Beijing Genomics Institute (BGI) und das Universitätsklinikum Hamburg-Eppendorf. Die Daten der beiden letztgenannten Organisationen wurden unter CC0 veröffentlicht und sind darüber hinaus über einen Digital Object Identifier (DOI) eindeutig adressierbar.

Eine kollaborative Analyse der EHEC-Daten wird auf GitHub betrieben. Interessant ist, dass mit GitHub eine Plattform genutzt wird, die nicht von einer wissenschaftlichen Infrastruktureinrichtung geschaffen wurde, sondern von einem kommerziellen Hostingservice zur Software-Entwicklung.

Gesamtkonzept für die Informationsinfrastruktur online

Das „Gesamtkonzept für die Informationsinfrastruktur in Deutschland“ ist online. Erstellt wurde das Gesamtkonzept von der Kommission Zukunft der Informationsinfrastruktur (KII), die im Auftrag der Gemeinsamen Wissenschaftskonferenz (GWK) arbeitete. Auszug aus der Pressemitteilung der Leibniz-Gemeinschaft:

Die Zusammensetzung der Kommission stellt ein Novum dar. Sie repräsentiert die maßgeblichen Akteure der Informationsinfrastruktur in Deutschland, und zwar sowohl die Dienstleister selbst als auch die Förderorganisationen ebenso wie die wissenschaftlichen Nutzer.

Die Kommission definiert „Informationsinfrastruktur“ als nationales, disziplinübergreifendes „Netz“ von Einrichtungen. Diese nehmen dezidiert in öffentlichem bzw. institutionellem Auftrag die Versorgung im weitesten Sinne von Wissenschaft und Forschung mit Information und damit zusammenhängenden Dienstleistungen wahr. Vor diesem Hintergrund wird dem Konzept ein ganzheitlicher, strukturorientierter Ansatz zugrundegelegt. Disziplin-, sparten- und institutionenübergreifend werden acht Handlungsfelder beleuchtet, die aus heutiger Sicht für die Informationsinfrastruktur von zentraler Bedeutung sind:

  1. Lizenzierung
  2. Hosting / Langzeitarchivierung
  3. Nichttextuelle Materialien
  4. Retrodigitalisierung / kulturelles Erbe
  5. Virtuelle Forschungsumgebungen
  6. Open Access
  7. Forschungsdaten
  8. Informationskompetenz / Ausbildung.

Alle Handlungsfelder stehen miteinander in Zusammenhang. Darüber hinaus wurden 5 der 8 Themen parallel und in Kooperation zwischen der Kommission und der Allianz-Schwerpunktinitiative Digitale Information behandelt.

(Disclosure: Ich war an zwei KII-AGs beteiligt.)

Michael Nielsen über Open Science

Der australische Quantenphysiker Michael Nielsen, auf desen Buch „Reinventing Discovery: The New Era of Networked Science“ ich mich schon sehr freue, hat auf der TEDxWaterloo einen sehr empfehlenswerten Vortrag zum Thema Open Science gehalten.

Falls nicht bekannt:Die Essays von Nielsen zum Thema „The future of science“ sind sehr lesenswert.

(via Daniel Mietchen.)

Forschungsdatenmanagement: Welche Anforderungen haben Wissenschaftler?

„Welche Anforderungen haben Wissenschaftler bei der dauerhaften Zugänglichkeit wissenschaftlicher Daten?“ Dieser Frage geht eine Studie der niederländischen SURFfoundation nach. In der Metadstudie werden fünfzehn Publikationen zu dem Themenkomplex betrachtet.

Der Autor Martin Feijen benennt folgende Faktoren, die für Wissenschaftsmanagement und Infrastruktureinrichtungen von zentraler Bedeutung bei der Entwicklung von Massnahmen des Forschungsdatenmanagements sind (S. 4):

  • Tools and services must be in tune with researchers’ workflows, which are often discipline-specific (and sometimes even project-specific).
  • Researchers resist top-down and/or mandatory schemes.
  • Researchers favour a “cafeteria” model in which they can pick and choose from a set of services.
  • Tools and services must be easy to use.
  • Researchers must be in control of what happens to their data, who has access to it, and under what conditions. Consequently, they want to be sure that whoever is dealing with their data (data centre, library, etc.) will respect their interests.
  • Researchers expect tools and services to support their day-to-day work within the research project; long-term/public requirements must be subordinate to that interest.
  • The benefits of the support must clearly visible – not in three years’ time, but now.
  • Support must be local, hands-on, and available when needed.

Die Studie „What researchers want“ (PDF) ist frei zugänglich.

PS: Die duz hat sich in ihrer März-Ausgabe unter dem Titel „Der Kampf um den Rohstoff des Wissens“ dem Thema  angenommen. Leider sind die Beiträge mehrheitlich nicht Open Access.

Wissenschaftsrat zu Informationsinfrastrukturen

Der Wissenschaftsrat, das zentrale wissenschaftspolitische Beratungsgremium Deutschlands, hat heute drei Empfehlungen veröffentlicht, die je nach Arbeitsgebiet und Disziplin, gut und gerne als Pflichtlektüren bezeichnet werden können:

Übergreifende Empfehlungen zu Informationsinfrastrukturen

Wissenschaftlichen Sammlungen, Bibliotheken, Archiven und Datensammlungen, die unter dem Begriff Informationsinfrastrukturen zusammengefasst werden, kommt nach Auffassung des Wissenschaftsrates eine grundlegende Bedeutung für Forschung, Lehre und Nachwuchsförderung in allen wissenschaftlichen Fächern zu. „Informationsinfra­strukturen sind ein konstitutiver Teil des Wissenschaftssystems. Die Gewinnung neuer wissenschaftlicher Erkenntnisse wäre ohne sie nicht möglich. Es ist daher eine öffentli­che Aufgabe, ihre Verfügbarkeit für die Wissenschaft zu gewährleisten“, so der Vorsitzende des Wissenschaftsrates, Peter Strohschneider.

Empfehlungen zu Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften

Hinsichtlich der internationalen Wettbewerbsfähigkeit des deutschen Wissenschaftssystems ist es aus Sicht des Wissenschaftsrates notwendig, der an wissenschaftspolitischer Bedeutung zunehmenden Infrastrukturent­wicklung für die Geistes- und Sozialwissenschaften in Deutschland mehr Aufmerksam­keit zu widmen. Positiv bewertet er bereits jetzt die Entwicklung der Forschungsinfra­strukturen der quantitativen Sozial- und Wirtschaftswissenschaften. Vor allem im Be­reich großer Umfragestudien konnte hier in den vergangenen Jahren eine internationale Spitzenstellung erreicht werden. Eine vergleichbare Position gilt es auch für die qualita­tiven Sozialwissenschaften und die Geisteswissenschaften anzustreben. In diesem Sinne hat der Wissenschaftsrat Empfehlungen zur Stärkung der internationalen Konkur­renzfähigkeit von Informations- und sozialen Infrastrukturen sowie zur Ausstattung mit Großgeräten in einzelnen Feldern der Geistes- und Sozialwissenschaften in Deutsch­land ausgesprochen. Dabei äußert er sich auch zu Fragen der Archivierung von For­schungsdaten.

Empfehlungen zu wissenschaftlichen Sammlungen als Forschungsinfrastrukturen

Deutschland verfügt über eine reiche und sehr vielfältige Sammlungslandschaft, die Grundlage bedeutender und herausragender Forschung ist. Eine Systematisierung von Arten, die Erkundung evolutionären oder klimatischen Wandels sind ohne solche Sammlungen ebenso undenkbar wie die Erforschung schriftloser oder längst vergange­ner Kulturen oder die Erforschung der Entwicklung von Technik, Wissenschaften und Künsten. Der Wissenschaftsrat hat jedoch feststellen müssen, dass das Potenzial dieser Sammlungen – vor allem im universitären Bereich – noch nicht hinreichend er­kannt und genutzt wird. Der Vorsitzende des Wissenschaftsrates, Professor Peter Strohschneider: „Viele Sammlungen lagern unbekannt und ungenutzt in Abstellräumen der Universitäten, wo weder ihr dauerhafter Erhalt noch ihre wissenschaftliche Bearbei­tung möglich sind. Womöglich liegen hier noch ungeahnte Schätze für die Forschung.“

Für den 3. Februar 2011 wurden die  Empfehlungen zur Zukunft des bibliothekarischen Verbundsystems in Deutschland angekündigt.

Folien des DINI/Helmholtz Repositorien Workshop online

Vom 30.11. bis 01.12.2010 veranstaltete das Helmholtz Open Access Projekt in Zusammenarbeit mit der Deutschen Initiative für Netzwerkinformation (DINI) im Erwin Schrödinger-Zentrum des Universitätscampus in Berlin-Adlershof einen Workshop zur strategischen Weiterentwicklung von Repositorien. Über 130 Teilnehmerinnen und Teilnehmer aus Wissenschaft, Infrasturktureinrichtungen und Verlagen informierten und diskutierenden über die zukünftige Rolle von Repositorien in Forschung und Lehre.

Die Folien der Veranstaltung sind auf der DINI-Website zugänglich. Eine „Dokumentation“ der Veranstaltung ist bei Twitter (#dinihg10) zu finden.

Workshop zur Zukunft von Open-Access-Repositorien

In eigener Sache: In Zusammenarbeit mit der Deutschen Initiative für Netzwerkinformation (DINI) veranstaltet das Helmholtz Open Access Projekt vom 30.11. bis 01.12.2010 in Berlin-Adlershof (Erwin Schrödinger-Zentrum) einen Workshop zur strategischen Weiterentwicklung von Open-Access-Repositorien.

In Deutschland haben sich die Repositorien Ende der 90-er Jahre entwickelt. Unter dem Namen Hochschulschriften- oder Dokumentenserver entstanden Datenbanken, auf denen Hochschulschriften als Erst- oder Zweitveröffentlichung zugänglich gemacht wurden.

Mit der Entwicklung von Open Access wurden diese Datenbanken international unter dem Begriff Repositorien bekannt und Grundlage des „Grünen Weges“ des Open Access. Prominentes Beispiel ist das arXiv, welches 1991 am Los Alamos National Laboratory aufgebaut wurde und bis heute das zentrale Repositorium  für Preprints in den Disziplinen Physik, Mathematik und Informatik ist.

Im Bereich der außeruniversitären Forschung wurde spätestens Mitte der Nullerjahre begonnen, die seit langem bestehenden institutionellen Publikationsdatenbanken, die ausschließlich Metadaten nachweisen, zu Repositorien auszubauen, um Pre- und Postprints sowie Schriftenreihen im Open Access zugänglich zu machen. Eine Entwicklung, die im universitären Bereich erst langsam aufgegriffen wird.

Zudem sind in den letzten Jahren abseits der Text-Repositorien auch Repositorien für unterschiedlichste Formen und Formate digitaler Objekte entstanden, z.B. für Forschungsdaten.

Heute stehen Repositorien vor einer Vielzahl von Herausforderungen. Mehrheitlich werden sie immer noch als passive Dienste betrieben, die nicht in den Arbeitsablauf von Wissenschaftlerinnen und Wissenschaftlern eingebunden sind. Darüber hinaus steigen mit der Entwicklung der digitalen Wissenschaften die Anforderungen an die Repositorien (beispielsweise im Kontext virtueller Forschungsumgebungen).

Der DINI-/Helmholtz-Workshop „Repositorien – Praxis und Vision“ wird neben dem Blick auf den Stand der Repositorien an Hochschulen und außeruniversitären Forschungseinrichtungen auch folgende Themen behandeln:

  • Zusammenspiel von institutionellen und disziplinären Repositorien
  • Zusammenspiel von Forschungsdaten- und Text-Repositorien
  • Repositorien und Forschungsinformationssysteme (CRIS)
  • Repositorien und Soziale Netzwerke in der Wissenschaft

Ziel der Veranstaltung ist es, Impulse für die Weiterentwicklung der Repositorien zu geben. Während am ersten Tag Vorträge im Plenum stattfinden, widmet sich der zweite Veranstaltungstag in Sessions unterschiedlichsten Aspekten des Themenfeldes.

Programm und Anmeldung für den DINI-/Helmholtz-Workshop „Repositorien – Praxis und Vision“.

Empfehlungen zur IT-Infrastruktur in Forschung und Lehre

Die Kommission für IT-Infrastruktur (KfR) der Deutschen Forschungsgemeinschaft (DFG) hat im Oktober Empfehlungen zur IT-Infrastruktur in Forschung und Lehre veröffentlicht. Auszug aus der Pressemitteilung:

“Für den Erfolg von Hochschulen und Universitätsklinika im nationalen und internationalen Wettbewerb muss die IT-Infrastruktur für Forschung, Lehre, Organisation und Krankenversorgung effizient ausgestaltet sein. Wie dies in Zukunft geschehen kann, zeigen die von der Deutschen Forschungsgemeinschaft (DFG) herausgegebenen neuen Empfehlungen der Kommission für IT-Infrastruktur (KfR), die jetzt unter dem Titel „Informationsverarbeitung an Hochschulen – Organisation, Dienste und Systeme“ erschienen sind, für den Zeitraum von 2011 bis 2015. Wie wichtig dies ist, betont auch DFG-Präsident Professor Matthias Kleiner in seinem Vorwort: ‘Informationstechnik ist zum unverzichtbaren Teil jeder Forschungsinfrastruktur, Information zu einem zentralen Standortfaktor für Wissenschaft und Wirtschaft geworden.’”

Die Empfehlungen sollen Antragsteller, Hochschulleitungen sowie weiteren Akteuren in Bund und Ländern “einen Entscheidungshilfe bei der nachhaltigen Gestaltung IT-relevanter Prozesse an Hochschulen geben”.

Literatur:

Deutschen Forschungsgemeinschaft: Informationsverarbeitung an Hochschulen – Organisation, Dienste und Systeme. Empfehlungen der Kommission für IT-Infrastruktur für 2011–2015. Bonn, 2010. Online.

Vision: Forschungsdaten im Jahr 2030

Die High-Level Group on Scientific Data der Europäischen Kommission hat einen Report zur den Herausforderungen und Chancen im Umgang mit digitalen Forschungsdaten veröffentlicht.

Der Report „Riding the Wave: How Europe can gain from the rising tide of scientific data“ (PDF) ist das Ergebnis einer sechsmonatigen Konsultation deren Ziel es war eine „Vision 2030“ für den Umgang mit Forschungsdaten zu formulieren. Folgende Punkte sind Teil dieser Vision:

  • All stakeholders, from scientists to national authorities to the general public, are aware of the critical importance of conserving and sharing reliable data produced during the scientific process.
  • Researchers and practitioners from any discipline are able to find, access and process the data they need. They can be confident in their ability to use and understand data, and they can evaluate the degree to which that data can be trusted.
  • Producers of data benefit from opening it to broad access, and prefer to deposit their data with confidence in reliable repositories. A framework of repositories work to international standards, to ensure they are trustworthy.
  • Public funding rises, because funding bodies have confidence that their investments in research are paying back extra dividends to society, through increased use and re-use of publicly generated data.
  • The innovative power of industry and enterprise is harnessed by clear and efficient arrangements for exchange of data between private and public sectors, allowing appropriate returns to both.
  • The public has access to and can make creative use of the huge amount of data available; it can also contribute to the data store and enrich it. All can be adequately educated and prepared to benefit from this abundance of information.
  • Policy makers are able to make decisions based on solid evidence, and can monitor the impacts of these decisions. Government becomes more trustworthy.
  • Global governance promotes international trust and interoperability.

Literatur:

High-Level Group on Scientific Data: Riding the Wave: How Europe can gain from the rising tide of scientific data. European Union, 2010. Online.