Grundsätze zum Umgang mit Forschungsdaten veröffentlicht

Die Allianz der deutschen Wissenschaftsorganisationen hat im Juni „Grundsätze zum Umgang mit Forschungsdaten“ verabschiedet. Auszug aus der Pressemitteilung:

„Qualitätsgesicherte Forschungsdaten bilden die Grundlage wissenschaftlichen Erkenntnisgewinns. Allein in Deutschland kostet es mehrere Milliarden Euro pro Jahr, diese Ergebnisse zu erstellen. Ein großer Teil dieser Daten wird jedoch von Forschenden oder Arbeitsgruppen nach Abschluss ihrer Vorhaben nicht angemessen dauerhaft archiviert und ist daher einer späteren Wiederverwertung nicht mehr zugänglich. Hinzu kommt, dass mit Hilfe moderner wissenschaftlicher Methoden Daten in enormen Umfang erzeugt werden und adäquate informationsfachliche Methoden sowie die erforderlichen Infrastrukturen nicht ausreichend zur Verfügung stehen.“

Die Grundsätze wurden im Rahmen der Schwerpunktinitiative „Digitale Information“ veröffentlicht. Folgende Themenfelder werden aufgegriffen:

  • Sicherung und Zugänglichkeit
  • Unterschiede der wissenschaftlichen Disziplinen
  • Wissenschaftliche Anerkennung
  • Lehre und Qualifizierung
  • Verwendung von Standards
  • Entwicklung von Infrastrukturen

Diese Allianz-Grundsätze sind der bisherige Höhepunkt der Diskussion um den zeitgemäßen Umgang mit Forschungsdaten. In der Vergangenheit haben sich u.a. folgende Institutionen im Rahmen von Positionspapieren und anderen Veröffentlichungen mit dem Thema beschäftigt:

April 2010: Die Deutsche Forschungsgemeinschaft (DFG) verankert das Thema in ihrem „Leitfaden für Antragsteller“. (Siehe dazu auch wisspub.net)

August 2009: Die Arbeitsgruppe „Grid/eScience und Langzeitarchivierung“ des deutschen Kompetenznetzwerkes zur digitalen Langzeitarchivierung – NESTOR veröffentlicht den Bericht „Digitale Forschungsdaten bewahren und nutzen“.

April 2009: Die Arbeitsgruppe „Elektronisches Publizieren“ der Deutsche Initiative für Netzwerkinformation (DINI) veröffentlicht ihr „Positionspapier Forschungsdaten“.

Januar 2009: Der Unterausschuss für Informationsmanagement (Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme) der Deutschen Forschungsgemeinschaft (DFG) veröffentlicht „Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten“.

Juni 2008: Die Allianz der deutschen Wissenschaftsorganisationen startet die Schwerpunktinitiative „Digitale Information“. Im Handlungsfeld „Forschungsprimärdaten“ „sehen alle Wissenschaftseinrichtungen einen dringenden Handlungsbedarf “.

Forschen in virtuellen Umgebungen

Zwei aktuelle Studien widmen sich den technischen und organisatorischen Dimensionen virtueller Forschungsumgebungen.

Ende Januar veröffentlichte das britische Joint Information Systems Committee (JISC) seine „Virtual Research Environment Collaborative Landscape Study“ [1]:

The VRE Landscape Study aimed to investigate international developments in Virtual Research Communities (VRCs) and to evaluate them in relation to the activities in the JISC’s VRE programme. The study examined programmes in a number of key countries along with significantprojects and communities as well as some countries where developments on this front are just beginning. There has been a great deal of activity over the past few years in terms of prototype and demonstration systems moving into the mainstream of research practice. Notable trends areemerging as researchers increasingly apply collaborative systems to everyday research tasks.

Die Studie „Collaboratories: Connecting Researchers“ [2], die die niederländische SURFfoundation im April publizierte hat einen ähnlichen Fokus:

The report Collaboratories: Connecting Researchers compares eight software systems, evaluates the experience gained in twelve Dutch projects, and gives an overview of international trends. The report provides a more solid basis for providing facilities for the research community. It offers insights into the selection, construction, and use of online research collaboratories.

Die JISC-Studie betont die kulturelle Dimension virtueller Forschungsumgebungen und beschreibt das Potenzial kollaborativer Plattformen, die den gesamten Forschungsprozess begleiten.

Die SURF-Studie, welche acht Software-Lösungen und zwölf niederländische Projekte analysiert, kommt zum selben Schluss:

One thing that has become very clear in the course of this study is that ‘software’, though important, is not the crucial issue. It may ultimately be more about the question of ‘how to deal with differences’ – in applications, needs, tools, and software. And about the ambition and ability to tackle that question.

Quellen:

[1] Carusi, Annamaria; Reimer, Torsten: Virtual Research Environment Collaborative Landscape Study. JISC, 2010.

[2] Van der Vaart, Lilian: Collaboratories: Connecting Researchers. How to facilitate choice, design and uptake of online research collaboratories. SURFfoundation, 2010.

Videos des Science Commons Symposium online

Die Videoaufzeichnungen des Science Commons Symposium sind seit einigen Tagen online.

Die von Science Commons veranstaltete Konferenz fand am 20.02.2010 unter dem Motto „The Future of Science“ in Redmond (Washington) auf dem Microsoft Campus statt.

Die Aufzeichnungen geben einen sehr guten Überblick über den Stand der aktuellen Diskussion rund um die Zukunft des wissenschaftlichen Arbeitens im Kontext von Open Science.

Session 1 (Netcast, Video)
Cameron Neylon (ISIS): „Science in the Open: Why do we need it? How do we do it?“
Jean-Claude Bradley (Drexel Universit): „Using Free Hosted Web2.0 Tools for Open Notebook Science“

Session 2 (Netcast, Video)
Antony Williams (Royal Society of Chemist) „ChemSpider: Collecting and Curating the World’s Chemistry with the Community“
Peter Murray-Rust (University of Cambridge) „Open Data and how to achieve it“

Session 3 (Netcast, Video)
Heather Joseph (SPARC): „Is Open Access the ‚New Normal‘?“
Stephen Friend (Sage): „Setting Expectations: Need for Distributed Tasks and Evolving Disease Models“

Session 4 (Netcast, Video)
Peter Binfield (PLoS ONE): „PLoS ONE and article-level metrics – A case study in the Open Access publication of scholarly journals“
John Wilbanks (Science Commons): Keynote

Die digitale Begleitdiskussion lässt sich auf FriendFeed nachvollziehen. Eine detaillierte Zusammenfassung bietet Brian Glanz.

DFG-Ausschreibung: Informationsinfrastrukturen für Forschungsdaten

Die Deutsche Forschungsgemeinschaft (DFG) hat im Januar ihr erstes Förderprogramm zum Umgang mit Forschungsdaten bekanntgegeben:

Es besteht […] Handlungsbedarf, den nachhaltigen Umgang mit Forschungsdaten zu verbessern, um die Daten systematisch zu sichern, zu archivieren und für eine mögliche Nachnutzung bereitzustellen. Die Deutsche Forschungsgemeinschaft (DFG) unterstützt mit dieser Ausschreibung im Förderbereich Wissenschaftliche Literaturversorgungs- und Informationssysteme (LIS) Vorhaben zur Entwicklung und Optimierung von Informationsinfrastruktur, die auf einen effizienten und nachhaltigen Umgang mit Forschungsdaten abzielen. (Quelle)

Im Fokus der Ausschreibung steht der Aufbau und die Weiterentwicklung von Informationsinfrastrukturen (z.B. Forschungsdatenrepositorien) zum verantwortungsvollen und zeitgemäßen Umgang mit Forschungsdaten.

Anträge müssen bis zum 28. April 2010 eingereicht werden.

Weitere Informationen: Ankündigung und zugehöriges Merkblatt.

ERAB über E-Science und Open Access

Der Beirat für den Europäischen Forschungsraum (ERAB) greift in seinem „First Report of the European Research Area Board“ Themenfelder der Wissenschaftskommunikation auf.

In der Publikation „Preparing Europe for a New Renaissance – A Strategic View of the European Research Area“ (PDF) werden die Themen Open Access, E-Science und Science 2.0 thematisiert.

Im Kapitel 3 „An ERA based on a shared responsibility between science, policy and society“ wird Open Access als ein Milestone genannt (S. 18):

All outputs of public, non-military funded research will be available via ‘open access’ to all concerned and interested.

Im Kapitel 5 „An ERA to deliver excellence“ werden unter dem  Stichwort E-Science die Herausforderungen im Umgang mit Forschungsdaten aufgriffen. Weiter wird auch der Terminus Science 2.0 erwähnt (S. 25).

The changing internal dynamics of science challenge the way we reward excellence. ‘E-science’ transforms how researchers gather data, store them, search them, share them and publish them. Efficiency rises and simulation becomes routine. Science 2.0 is already a term coined, by analogy to the social networking methods of Web 2.0, to describe this new scientific revolution. At the same time, the provenance and curation of data is already becoming a major issue. The questions, ‘Who holds the truth in a virtual research environment?’ and, ‘How to determine excellence in an environment of abundance (of data, researchers, publication outlets, etc.)’ imply an ever-greater need for an ethical charter that binds researchers to a common set of principles.

Das Thema E-Science wird auch im Kapitel 2 „An ERA driven by societal needs“ behandelt. Hier wird die Bedeutung von E-Science-Werkzeugen in einem Milestone festgehalten (S. 16):

The tools of ‘e-science’ are deployed throughout the ERA, permitting international collaboration so that all researchers will see themselves as part of the global research system.

ERAB ist das Nachfolgegremium des Europäischen Forschungsbeirats (EURAB). ERAB wurde von der Europäischen Kommission 2008 ins Leben gerufen. Der ERAB berät die Kommission bei der Gestaltung des Europäischen Forschungsraums.

European Research Area Board: Preparing Europe for a New Renaissance. A Strategic View of the European Research Area. First Report of the European Research Area Board, 2009. Online.

Microsoft veröffentlicht Project Trident

Im Rahmen des diesjährigen Microsoft Research Faculty Summit gab Tony Hey (Microsoft External Research Corporate Vice President) die Veröffentlichung von Project Trident bekannt.

Project Trident, eine „scientific workflow workbench“, vereint ein Set von Tools, das Wissenschaftlern die Analyse umfangreicher Datensätze ermöglichen soll. Zielgruppe sind Anwender in daten-intensiven Disziplinen wie der Astronomie oder den Geowissenschaften.

Project Trident „provides graphical tools for creating, running, managing, and sharing workflows and can run workflows on a Windows HPC Server 2008 cluster.“ (Quelle). In einem White paper aus dem Dezember 2008 werden die Funktionen der Software beschrieben:

  • Automate analysis

  • Visualize and explore data

  • Compose, run, and catalog experiments

  • Create a workflow starter kit that makes it easy for users to extend the functionality of Trident

  • Learn by exploring and visualizing ocean and model data

Die Software wird momentan von der University of Washington im Rahmen der Ocean Observatories Initiative (OOI) verwendet. Einen interessanten Bericht über die Anwendung der Software in der OOI und in anderen Forschungsprojekten bietet Rob Knies.

Neben einem Word 2007 add-in unterstützt Project Trident die Integration in myExperiment, eine virtuelle Arbeitsumgebung, die z.B. die kollaborative Arbeit an einer Versuchsplanung ermöglicht.

Bereits im Mai hatte Microsoft Research mit Zentity eine „research-output repository platform“ veröffentlicht.

Technische Angaben und Download.

Forschungsverbund Interactive Science

Auch in einer digitalen Welt fühlt man sich als netzaffiner Wissenschaftler bisweilen wie mit Scheuklappen bestückt. So zum Beispiel heute morgen, als mir Christina Weyher, Projektmanagerin beim MPG-Publikationsportal Living Reviews, einen Hinweis auf den Forschungsverbund Interactive Science per Mail schickte. Die in den einzelnen Teilprojekten untersuchten Aspekte digitaler Kommunikation unter Wissenschaftlern haben klare Bezugspunkte zu Fragen, mit denen ich mich in der letzten Zeit auch ausgiebig beschäftigt habe. Vielleicht bietet sich ja in Zukunft einmal die Gelegenheit zu einem Gedankenaustausch, etwa am 24 Juni in Köln?

Vision und Wirklichkeit – The World Atlas of Language Structures Online

Dieser Beitrag soll ein Schlaglicht auf den Status Quo des web-basierten Publizierens in der Linguistik werfen, indem die Entstehung des World Atlas of Language Structures Online (WALS) dokumentiert wird.

Parallel zur Veröffentlichung in diesem Blog wurde der Beitrag bei der Tagung Berlin Open ’09 eingereicht und akzeptiert.

Was ist WALS?

WALS ist eine große Datenbank struktureller (phonologischer, grammatikalischer, lexikalischer) Eigenschaften von Sprachen, die aus Sprachbeschreibungen (etwa Referenzgrammatiken) gesammelt wurden.

WALS besteht aus 142 Weltkarten mit beschreibenden Texten, die verschiedene Eigenschaften von Sprachen behandeln. Jede dieser 142 Eigenschaften wird für 120 bis 1370 verschiedene Sprachen beschrieben. Insgesamt zeigen die Karten Informationen für mehr als 2600 Sprachen.

Damit macht WALS Informationen zur strukturellen Diversität der Sprachen der Welt auf eine Art zugänglich, die auch für interessierte Nicht-Linguisten geeignet ist, die üblicherweise keine Grammatiken zu exotischen Sprachen lesen. Zugänglichkeit der Informationen für einen derart erweiterten Kreis ist für die Linguistik besonders interessant, weil Feedback von Sprechern einer Sprache von großem Wert ist.

Die erste Auflage

Die erste Ausgabe von WALS wurde als Buch mit beigelegter CD-ROM publiziert. Die Verlagsangaben zu diesem Buch machen bereits deutlich, daß der Leserkreis dafür tatsächlich ein „elitärer Zirkel“ ist:

Price: £ 450.00 (Hardback)
712 pages, 8 halftones, 4 line illus., 3 color halftones, 161 color maps,
360 X 248 mm

Vision: Go Web

Das WALS Online Projekt bestand darin, die zweite Ausgabe im Web zu veröffentlichen. Korrekter müsste der Titel dieses Beitrags lauten: „Visionen treffen sich in der Wirklichkeit“. Denn — im Rückblick eher wenig überraschend — bestehen durchaus unterschiedliche Vorstellungen darüber, was denn „online“ eigentlich bedeutet.

Nicht zuletzt spielte auch die Vision der Max Planck Gesellschaft eine Rolle, die mit der Max Planck Digital Library eine zentrale Einheit geschaffen hat, die den Instituten Expertise und Dienste in den Bereichen Web-Publishing und Web-Hosting bietet. So entstand WALS Online als Kooperation zwischen dem Max Planck Institut für Evolutionäre Anthropologie und der Max Planck Digital Library. Während die Linguisten des Instituts ihre Fachkenntnis und die gesammelten Erfahrungen aus der ersten Auflage einbrachten, konnte die Digital Editions Gruppe der MPDL ihre Kollaborationsinfrastruktur und Web Publishing Erfahrung beitragen.

Wirklichkeit: Was bedeutet „online only“ heute?

Im Folgenden will ich nun einige Beispiele auflisten, wie und wo die „online only“ Vision heute noch mit dem herkömmlichen Wissenschaftsbetrieb kollidiert. Das das Potential für solche Zusammenstöße in der Linguistik, deren Veröffentlichungen weiterhin von Buchpublikationen geprägt sind, relativ groß ist, soll dabei nicht verschwiegen werden.

Wie zitiert man WALS Online?

Von Anfang an war die Frage wie WALS Online zitiert werden soll ein wichtiges Thema. In einer idealen „online only“ Welt besteht ein Zitat einer anderen Ressource schlicht in einem Hyperlink. Verfolgt man diesen, sollten sich die Metadaten der zitierten Ressource – Autor, Jahr der Veröffentlichung, etc. – leicht erschließen lassen. Wie in dieser idealen Welt aus solchen Verlinkungen eine Rangliste oder Wertigkeit von wissenschaftlichen Veröffentlichungen bestimmt werden kann, ist eine ander (große) Frage. Das so eine Unternehmung aber prinzipiell möglich ist, hat Google – für das Web allgemein – bewiesen.

In der heutigen Linguistik muss aber weiterhin davon ausgegangen werden, dass der Normalfall darin besteht, WALS Online in einem Buch zu zitieren. In gedruckten Werken gibt es aber keine Hyperlinks, und auch die schlichte Angabe eines URL ist wegen der Fehleranfälligkeit wenig sinnvoll. Bleibt die herkömmliche Referenz via Metadaten — also Autoren, Publikationsjahr, Titel, Verlag.

Für WALS Online bedeutet das, dass nicht nur Aspekte wie die einfache Navigierbarkeit die Aufteilung der Website beeinflusst haben, sondern auch die Frage, welches die einzeln zitierfähigen Bausteine sein sollen. Im Zweifelsfall wurde dabei der – wenn auch einschränkenden – Analogie zur Buchpublikation der Vorzug gegeben. Beispielsweise wurde die Website in „chapter“ gegliedert, um übliche Zitierweisen anwendbar zu machen.

Wie stabil ist WALS Online?

Eine weitere Frage im Umkreis des Themas „Zitierfähigkeit“ ist die nach der Stabilität des Zitierten. Wenn der Zitierende nicht mehr eine Kopie des Zitierten in seinem Besitz hat, wie wird dann bewahrt, was tatsächlich zitiert wurde? Andererseits würden wir die Analogie zum Buch zu weit treiben, wenn wir uns selbst der Möglichkeit berauben würden, Fehlerkorrekturen einfach und schnell online durchzuführen.

Für WALS Online wurde deshalb folgendes Verfahren gewählt:

  • Es wird zwischen Kerninhalten (etwa typologischen Daten) und zusätzlichen Inhalten (etwa der Positionierung von Sprachen auf der Karte) unterschieden.
  • Zusätzliche Inhalte können jederzeit korrigiert werden, die Korrektur wird aber durch einen Eintrag im Blog nachverfolgbar gemacht.
  • Kerninhalte können erst bei einer Neuauflage korrigiert werden; bis dahin werden die nötigen Korrekturen in einem Eintrag im Blog in der Kategorie Errata bekannt — und referenzierbar — gemacht.

Wie kann man WALS Karten drucken?

Ein Spezialfall für ein Zitat aus WALS ist die Übernahme einer Karte — also einer Abbildung. Auch hier wurde bei WALS Online einerseits der idealen Welt Rechnung getragen, indem einzelne Karten inklusive Zoom-Stufe und Kartenausschnitt eindeutig per URL identifizierbar sind. Andererseits tauchte recht schnell die Frage auf: „Wie kann ich Karten aus WALS Online drucken?“

Glücklicherweise erlaubt Google Maps die Verwendung von Ausdrucken in wissenschaftlichen Arbeiten (sofern gewisse Bedingungen eingehalten werden). Mit etwas zusätzlichem Programmieraufwand konnte somit auch ein Weg gefunden werden, den Ausdruck von WALS Karten in ausreichender Qualität zur Weiterverwendung in Druckwerken zu unterstützen.

Offline Modus

Während „online only“ in den Zeiten der Internet-Flatrate eine echte Option geworden ist, findet linguistische Feldforschung oftmals an Orten statt, wo eine ständige Internetanbindung alles andere als selbstverständlich ist. Linguistische Ressourcen, die auch bei längeren Aufenthalten im Amazonasgebiet verfügbar sein sollen, werden also in Zukunft einen „offline“ Modus benötigen, um praktikabel zu sein.

Neue Technologien wie Google Gears werden wohl eine generelle Lösung dieses Problems möglich machen — also Web Applikationen, die auch offline bedient werden können. Für WALS Online haben wir uns vorerst für die einfachere Lösung entschieden: Die CD-ROM Version der Daten, die der gedruckten Ausgabe beigelegt war, ist weiterhin frei verfügbar.

Interoperabilität mit der Vergangenheit

Während Zitierfähigkeit das Thema Interoperabilität für herkömmliche Publikationen größtenteils abdeckt, ergeben sich für Publikationen wie WALS, die Daten enthalten, weitergehende Möglichkeiten.

Und wieder hielte die schöne neue Online Welt passende Lösungen unter dem Stichwort Linked Data bereit. Doch in der echten Welt bedeutet „Datenbank“ leider noch nicht „Linked Data“; vielmehr reicht die Bandbreite dessen, was als „Dastenbank“ firmiert vom Zettelkasten über die Tabelle im Word Dokument bis zu „echten“ Datenbankanwendungen.

Damit bedeutet Interoperabilität in den meisten Fällen weiterhin Handarbeit, und ein Austauschformat wie CSV kann — trotz fehlender Semantik — meist einfacher verwendet werden.

Gute Zwischenschritte vom Datensilo zu Linked Data stellen momentan XML-basierte Spezialformate wie KML dar, die einerseits die meisten Ansprüche an moderne Formate erfüllen, andererseits aber durch bereits vorhandene Applikationen — im Falle von KML Google Maps — einen sofortigen Mehrwert bieten.

Erschwert wird die Entwicklung von Austauschformaten in der Linguistik übrigens auch dadurch, dass die Klassifizierung von Sprachen und der Sprachbegriff selbst kontrovers diskutiert werden und es daher keine absoluten Konsens über weitreichende Ordnungsschemata gibt.

Was bedeutet das Web für WALS?

Mit seiner Entstehungsgeschichte zeigt WALS Online einerseits die Weitsicht der WALS-Herausgeber, die sich schnell darüber im Klaren waren, dass diese Daten im Web am besten aufgehoben sind, andererseits aber auch eine Möglichkeit, die Hemmschwelle zu überwinden, die immer noch in vielen Bereichen gegenüber Publikationen im Web besteht. Durch die Erstveröffentlichung als Buch wurde einerseits den Autoren der traditionelle Lohn für ihre Arbeit zuteil – in Form eines klassischen Eintrags in ihrer Publikationsliste -, andererseits wurde eine Marke WALS etabliert, die der Publikation im Web von Anfang an Autorität verlieh.

Umgekehrt wurde den Ansprüchen moderner Web-Publikation Rechnung getragen, indem nicht einfach der „PDF auf dem Server“-Weg gewählt, sondern die Publikation dem neuen Medium angemessen aufbereitet wurde.

Das offene Verfügbarkeit im Web im Fall von WALS Online eine vielfache Nutzerzahl bedeutet, wird schon deutlich, wenn man den Buchpreis der ersten WALS Ausgabe von £450 sieht. Die erhöhte Nutzerzahl erklärt sich aber auch damit, dass sich einige der behandelten linguistischen Phänomene durchaus auch dem Laien erschließen, wie zum Beispiel das Kapitel „Tea“.

Ähnlich wie bei Open Source Software Entwicklung, gilt auch für die Open Access-Publikation von Daten: given enough eyeballs, all bugs are shallow. Zusätzlich wurde mittels eines Blogs für das Projekt ein einfacher Feedback Mechanismus geschaffen. Zusammen mit der Tatsache, dass Web-Resourcen wesentlich einfacher aktualisiert werden können als ihre gedruckten Gegenstücke wird damit tatsächlich eine kontinuierliche Verbesserung der Datenlage möglich.

Eine der erfreulichen Erfahrungen mit WALS bisher ist die rege Benutzung der Feedback Möglichkeiten. Insbesondere das Einrichten von direkten Links von jedem Datenpunkt zum Blog-Eintrag, der das Kommentieren ermöglicht, hat dazu beigetragen. Außerdem scheint diese sehr feingranulare Feedbackfunktion auch die Qualität der Kommentare zu erhöhen – so wird kaum ein Datenpunkt in Zweifel gezogen, ohne dass auf entsprechende Literatur hingewiesen wird.

Während es drei Jahre von der Druckausgabe zur zweiten Ausgabe Online dauerte, strebt das Projekt jetzt eine jährliche Neuauflage online an. Das nicht jedes Erratum sofort korrigiert wird, ist der wissenschaftlichen Natur der Publikation geschuldet. So muss gewährleistet werden, dass die Daten zitierfähig sind, was auch bedeutet, dass sich der zitierte Datenzustand nicht oder nur eindeutig nachvollziehbar ändert.

Als weiterer großer Vorteil von Web, Software-Standards und Open Access erweist sich für WALS Online die Möglichkeit, die Karten als Google Maps Mashup zu präsentieren. Aber nicht nur WALS kann von anderen Datenquellen profitieren, es bietet sich auch selbst als zusätzliche Datenquelle an, die auch bereits von anderen Applikationen – etwa CALS, dem „Conlang Atlas of Language Structures“ – genutzt wird.

Damit wird ein echter Mehrwert durch erweiterte Benutzbarkeit der Forschungsergebnisse geschaffen und gleichzeitig eine Überprüfung der Ergebnisse durch das kollaborative Internet ermöglicht.

Ausblick

Das Potential von Publikationen wie WALS Online für die Wissenschaft wird sich aber sicher erst dann vollständig erschließen, wenn der Netzwerkeffekt greift, also wenn viel mehr ähnliche Datenquellen frei verfügbar und auch miteinander kombinierbar sind.

Nachfolgeprojekte, die in diese Richtung gehen, sind bereits geplant, und werden versuchen, aus der kleinen Dateninsel WALS Online ein Linked Data-Archipel zu entwickeln.

Das die Ideen von Linked Data für die Publikation von linguistischen Daten ganz besonders geeignet ist, wird schon daran deutlich, dass die Erforschung exotischer Sprachen inhärent dezentral stattfindet. Umso wichtiger ist Interoperabilität, um eine spätere Zusammenführung der Daten zu ermöglichen.

Lessons Learned

WALS Online will weniger visionäre Zukunft sein, als vielmehr ein Schritt auf dem Migrationspfad dahin. Der Erfolg von WALS Online bestärkt uns in der Einschätzung, dass solche Zwischenschritte unabdingbar sind.

Die Lehren aus WALS Online sind deshalb:

  • Das Problem, wie Online-Publikationen wissenschaftlich zu bewerten ist, ist noch nicht gelöst.
  • Die (wissenschaftliche) Welt ist noch nicht (annähernd) vollständig digital und online:
    • Mirroring von Websites spielt weiterhin eine Rolle für weniger gut an das Internet angebundene Regionen.
    • Während sich WALS Online gut in das Web einfügt, muss auch klar sein, wie man Teile davon in gedruckten Büchern verwenden kann.
    • „Ausdrucken“ ist weiterhin eine gängige Methode auch Online-Ressourcen zu nutzen.
  • Kompromisse: Es muss ein Ausgleich gefunden werden zwischen missionarischen Ansprüchen (die wissenschaftliche Online Welt besser zu machen) und der Berücksichtigung (alt-)hergebrachter Arbeitsweisen.
  • Klassisches IT-Problem: IT muß „Domain Knowledge“ bekommen, und den „Kunden“ verstehen.
  • Datenmigration ist eine Daueraufgabe. Auch WALS Online wird hier nur eine Evolutionsstufe darstellen. Ziel muß es sein, „Daten besser zu hinterlassen, als wir sie vorfinden“.
  • Die Zukunft der wissenschaftlichen Kommunikation wird erst beginnen, wenn auch der unterstützende Mikrokosmos migriert wurde.