Data Publishing – ein kleiner Leitfaden

Erik Wilde, Eric Kansa und Raymond Yee von der UC Berkeley School of Information beschreiben in ihrem Bericht Web Services for Recovery.gov eine sinnvolle Architektur um Daten online zu publizieren.

Durch seine Beschraenkung auf die wichtigsten Architekturmerkmale, Orientierung an der Realitaet und gute Lesbarkeit ist dieser Bericht als Leitfaden fuer alle zu empfehlen, die mit Projekten im Bereich data publishing befasst sind. Dass das Atom Publishing Protocol in dieser Architektur eine zentrale Rolle spielt, scheint angesichts seiner Verbreitung und Flexibilitaet wenig verwunderlich.

Via inkdroid.

Den Teufel mit dem Beelzebub austreiben?

Einerseits trägt das web zum „information overflow“ bei, andererseits stellt es auch Lösungen dieses Problems bereit: „collaborative filtering“ und „crowdsourcing“ sind nur zwei Schlagworte, um ein Phänomen zu benennen, das vielleicht am besten anhand von Beispielen beschrieben werden kann.

In den meisten Bereichen der Physik ist der preprint server arXiv mittlerweile das Publikationsmedium. Unabhängig davon, ob ein paper irgendwann einmal in einem traditionellen Journal erscheinen wird – auf arXiv erscheint es zuerst.

Durch diese Stellung sind die Zahlen der Veröffentlichungen auf arXiv immens gestiegen; so daß es in manchen Gebieten der Physik nicht mehr möglich ist, alle neuen papers im Blick zu behalten – ein klassischer Fall von „information overflow“.

„Kobra – übernehmen Sie!“ – ein Fall für „crowdsourcing“ – und zwar mit blogs. Einem Vorbild am Canadian Institute for Theoretical Astrophysics folgend, nutzt das Albert Einstein Institut ein blog – das von der MPDL betrieben wird – um relevante neue arXiv papers für/durch die gravitational waves community zu filtern. Als „Zugeständnis“ an den traditionellen Forschungsbetrieb werden alle drei Monate die abstracts der ausgewählten preprints – angereichtert mit einem zusätzlichen Artikel – als newsletter veröffentlicht.

Ob sich diese Art „low-tech overlay journal“ bewähren wird, oder sich sogar als Beispiel von „worse is better“ gegen overlay journal Systeme mit „echten“ peer review Funktionalitäten durchsetzt, wird interessant zu beobachten sein.

Vision und Wirklichkeit – The World Atlas of Language Structures Online

Dieser Beitrag soll ein Schlaglicht auf den Status Quo des web-basierten Publizierens in der Linguistik werfen, indem die Entstehung des World Atlas of Language Structures Online (WALS) dokumentiert wird.

Parallel zur Veröffentlichung in diesem Blog wurde der Beitrag bei der Tagung Berlin Open ’09 eingereicht und akzeptiert.

Was ist WALS?

WALS ist eine große Datenbank struktureller (phonologischer, grammatikalischer, lexikalischer) Eigenschaften von Sprachen, die aus Sprachbeschreibungen (etwa Referenzgrammatiken) gesammelt wurden.

WALS besteht aus 142 Weltkarten mit beschreibenden Texten, die verschiedene Eigenschaften von Sprachen behandeln. Jede dieser 142 Eigenschaften wird für 120 bis 1370 verschiedene Sprachen beschrieben. Insgesamt zeigen die Karten Informationen für mehr als 2600 Sprachen.

Damit macht WALS Informationen zur strukturellen Diversität der Sprachen der Welt auf eine Art zugänglich, die auch für interessierte Nicht-Linguisten geeignet ist, die üblicherweise keine Grammatiken zu exotischen Sprachen lesen. Zugänglichkeit der Informationen für einen derart erweiterten Kreis ist für die Linguistik besonders interessant, weil Feedback von Sprechern einer Sprache von großem Wert ist.

Die erste Auflage

Die erste Ausgabe von WALS wurde als Buch mit beigelegter CD-ROM publiziert. Die Verlagsangaben zu diesem Buch machen bereits deutlich, daß der Leserkreis dafür tatsächlich ein „elitärer Zirkel“ ist:

Price: £ 450.00 (Hardback)
712 pages, 8 halftones, 4 line illus., 3 color halftones, 161 color maps,
360 X 248 mm

Vision: Go Web

Das WALS Online Projekt bestand darin, die zweite Ausgabe im Web zu veröffentlichen. Korrekter müsste der Titel dieses Beitrags lauten: „Visionen treffen sich in der Wirklichkeit“. Denn — im Rückblick eher wenig überraschend — bestehen durchaus unterschiedliche Vorstellungen darüber, was denn „online“ eigentlich bedeutet.

Nicht zuletzt spielte auch die Vision der Max Planck Gesellschaft eine Rolle, die mit der Max Planck Digital Library eine zentrale Einheit geschaffen hat, die den Instituten Expertise und Dienste in den Bereichen Web-Publishing und Web-Hosting bietet. So entstand WALS Online als Kooperation zwischen dem Max Planck Institut für Evolutionäre Anthropologie und der Max Planck Digital Library. Während die Linguisten des Instituts ihre Fachkenntnis und die gesammelten Erfahrungen aus der ersten Auflage einbrachten, konnte die Digital Editions Gruppe der MPDL ihre Kollaborationsinfrastruktur und Web Publishing Erfahrung beitragen.

Wirklichkeit: Was bedeutet „online only“ heute?

Im Folgenden will ich nun einige Beispiele auflisten, wie und wo die „online only“ Vision heute noch mit dem herkömmlichen Wissenschaftsbetrieb kollidiert. Das das Potential für solche Zusammenstöße in der Linguistik, deren Veröffentlichungen weiterhin von Buchpublikationen geprägt sind, relativ groß ist, soll dabei nicht verschwiegen werden.

Wie zitiert man WALS Online?

Von Anfang an war die Frage wie WALS Online zitiert werden soll ein wichtiges Thema. In einer idealen „online only“ Welt besteht ein Zitat einer anderen Ressource schlicht in einem Hyperlink. Verfolgt man diesen, sollten sich die Metadaten der zitierten Ressource – Autor, Jahr der Veröffentlichung, etc. – leicht erschließen lassen. Wie in dieser idealen Welt aus solchen Verlinkungen eine Rangliste oder Wertigkeit von wissenschaftlichen Veröffentlichungen bestimmt werden kann, ist eine ander (große) Frage. Das so eine Unternehmung aber prinzipiell möglich ist, hat Google – für das Web allgemein – bewiesen.

In der heutigen Linguistik muss aber weiterhin davon ausgegangen werden, dass der Normalfall darin besteht, WALS Online in einem Buch zu zitieren. In gedruckten Werken gibt es aber keine Hyperlinks, und auch die schlichte Angabe eines URL ist wegen der Fehleranfälligkeit wenig sinnvoll. Bleibt die herkömmliche Referenz via Metadaten — also Autoren, Publikationsjahr, Titel, Verlag.

Für WALS Online bedeutet das, dass nicht nur Aspekte wie die einfache Navigierbarkeit die Aufteilung der Website beeinflusst haben, sondern auch die Frage, welches die einzeln zitierfähigen Bausteine sein sollen. Im Zweifelsfall wurde dabei der – wenn auch einschränkenden – Analogie zur Buchpublikation der Vorzug gegeben. Beispielsweise wurde die Website in „chapter“ gegliedert, um übliche Zitierweisen anwendbar zu machen.

Wie stabil ist WALS Online?

Eine weitere Frage im Umkreis des Themas „Zitierfähigkeit“ ist die nach der Stabilität des Zitierten. Wenn der Zitierende nicht mehr eine Kopie des Zitierten in seinem Besitz hat, wie wird dann bewahrt, was tatsächlich zitiert wurde? Andererseits würden wir die Analogie zum Buch zu weit treiben, wenn wir uns selbst der Möglichkeit berauben würden, Fehlerkorrekturen einfach und schnell online durchzuführen.

Für WALS Online wurde deshalb folgendes Verfahren gewählt:

  • Es wird zwischen Kerninhalten (etwa typologischen Daten) und zusätzlichen Inhalten (etwa der Positionierung von Sprachen auf der Karte) unterschieden.
  • Zusätzliche Inhalte können jederzeit korrigiert werden, die Korrektur wird aber durch einen Eintrag im Blog nachverfolgbar gemacht.
  • Kerninhalte können erst bei einer Neuauflage korrigiert werden; bis dahin werden die nötigen Korrekturen in einem Eintrag im Blog in der Kategorie Errata bekannt — und referenzierbar — gemacht.

Wie kann man WALS Karten drucken?

Ein Spezialfall für ein Zitat aus WALS ist die Übernahme einer Karte — also einer Abbildung. Auch hier wurde bei WALS Online einerseits der idealen Welt Rechnung getragen, indem einzelne Karten inklusive Zoom-Stufe und Kartenausschnitt eindeutig per URL identifizierbar sind. Andererseits tauchte recht schnell die Frage auf: „Wie kann ich Karten aus WALS Online drucken?“

Glücklicherweise erlaubt Google Maps die Verwendung von Ausdrucken in wissenschaftlichen Arbeiten (sofern gewisse Bedingungen eingehalten werden). Mit etwas zusätzlichem Programmieraufwand konnte somit auch ein Weg gefunden werden, den Ausdruck von WALS Karten in ausreichender Qualität zur Weiterverwendung in Druckwerken zu unterstützen.

Offline Modus

Während „online only“ in den Zeiten der Internet-Flatrate eine echte Option geworden ist, findet linguistische Feldforschung oftmals an Orten statt, wo eine ständige Internetanbindung alles andere als selbstverständlich ist. Linguistische Ressourcen, die auch bei längeren Aufenthalten im Amazonasgebiet verfügbar sein sollen, werden also in Zukunft einen „offline“ Modus benötigen, um praktikabel zu sein.

Neue Technologien wie Google Gears werden wohl eine generelle Lösung dieses Problems möglich machen — also Web Applikationen, die auch offline bedient werden können. Für WALS Online haben wir uns vorerst für die einfachere Lösung entschieden: Die CD-ROM Version der Daten, die der gedruckten Ausgabe beigelegt war, ist weiterhin frei verfügbar.

Interoperabilität mit der Vergangenheit

Während Zitierfähigkeit das Thema Interoperabilität für herkömmliche Publikationen größtenteils abdeckt, ergeben sich für Publikationen wie WALS, die Daten enthalten, weitergehende Möglichkeiten.

Und wieder hielte die schöne neue Online Welt passende Lösungen unter dem Stichwort Linked Data bereit. Doch in der echten Welt bedeutet „Datenbank“ leider noch nicht „Linked Data“; vielmehr reicht die Bandbreite dessen, was als „Dastenbank“ firmiert vom Zettelkasten über die Tabelle im Word Dokument bis zu „echten“ Datenbankanwendungen.

Damit bedeutet Interoperabilität in den meisten Fällen weiterhin Handarbeit, und ein Austauschformat wie CSV kann — trotz fehlender Semantik — meist einfacher verwendet werden.

Gute Zwischenschritte vom Datensilo zu Linked Data stellen momentan XML-basierte Spezialformate wie KML dar, die einerseits die meisten Ansprüche an moderne Formate erfüllen, andererseits aber durch bereits vorhandene Applikationen — im Falle von KML Google Maps — einen sofortigen Mehrwert bieten.

Erschwert wird die Entwicklung von Austauschformaten in der Linguistik übrigens auch dadurch, dass die Klassifizierung von Sprachen und der Sprachbegriff selbst kontrovers diskutiert werden und es daher keine absoluten Konsens über weitreichende Ordnungsschemata gibt.

Was bedeutet das Web für WALS?

Mit seiner Entstehungsgeschichte zeigt WALS Online einerseits die Weitsicht der WALS-Herausgeber, die sich schnell darüber im Klaren waren, dass diese Daten im Web am besten aufgehoben sind, andererseits aber auch eine Möglichkeit, die Hemmschwelle zu überwinden, die immer noch in vielen Bereichen gegenüber Publikationen im Web besteht. Durch die Erstveröffentlichung als Buch wurde einerseits den Autoren der traditionelle Lohn für ihre Arbeit zuteil – in Form eines klassischen Eintrags in ihrer Publikationsliste -, andererseits wurde eine Marke WALS etabliert, die der Publikation im Web von Anfang an Autorität verlieh.

Umgekehrt wurde den Ansprüchen moderner Web-Publikation Rechnung getragen, indem nicht einfach der „PDF auf dem Server“-Weg gewählt, sondern die Publikation dem neuen Medium angemessen aufbereitet wurde.

Das offene Verfügbarkeit im Web im Fall von WALS Online eine vielfache Nutzerzahl bedeutet, wird schon deutlich, wenn man den Buchpreis der ersten WALS Ausgabe von £450 sieht. Die erhöhte Nutzerzahl erklärt sich aber auch damit, dass sich einige der behandelten linguistischen Phänomene durchaus auch dem Laien erschließen, wie zum Beispiel das Kapitel „Tea“.

Ähnlich wie bei Open Source Software Entwicklung, gilt auch für die Open Access-Publikation von Daten: given enough eyeballs, all bugs are shallow. Zusätzlich wurde mittels eines Blogs für das Projekt ein einfacher Feedback Mechanismus geschaffen. Zusammen mit der Tatsache, dass Web-Resourcen wesentlich einfacher aktualisiert werden können als ihre gedruckten Gegenstücke wird damit tatsächlich eine kontinuierliche Verbesserung der Datenlage möglich.

Eine der erfreulichen Erfahrungen mit WALS bisher ist die rege Benutzung der Feedback Möglichkeiten. Insbesondere das Einrichten von direkten Links von jedem Datenpunkt zum Blog-Eintrag, der das Kommentieren ermöglicht, hat dazu beigetragen. Außerdem scheint diese sehr feingranulare Feedbackfunktion auch die Qualität der Kommentare zu erhöhen – so wird kaum ein Datenpunkt in Zweifel gezogen, ohne dass auf entsprechende Literatur hingewiesen wird.

Während es drei Jahre von der Druckausgabe zur zweiten Ausgabe Online dauerte, strebt das Projekt jetzt eine jährliche Neuauflage online an. Das nicht jedes Erratum sofort korrigiert wird, ist der wissenschaftlichen Natur der Publikation geschuldet. So muss gewährleistet werden, dass die Daten zitierfähig sind, was auch bedeutet, dass sich der zitierte Datenzustand nicht oder nur eindeutig nachvollziehbar ändert.

Als weiterer großer Vorteil von Web, Software-Standards und Open Access erweist sich für WALS Online die Möglichkeit, die Karten als Google Maps Mashup zu präsentieren. Aber nicht nur WALS kann von anderen Datenquellen profitieren, es bietet sich auch selbst als zusätzliche Datenquelle an, die auch bereits von anderen Applikationen – etwa CALS, dem „Conlang Atlas of Language Structures“ – genutzt wird.

Damit wird ein echter Mehrwert durch erweiterte Benutzbarkeit der Forschungsergebnisse geschaffen und gleichzeitig eine Überprüfung der Ergebnisse durch das kollaborative Internet ermöglicht.

Ausblick

Das Potential von Publikationen wie WALS Online für die Wissenschaft wird sich aber sicher erst dann vollständig erschließen, wenn der Netzwerkeffekt greift, also wenn viel mehr ähnliche Datenquellen frei verfügbar und auch miteinander kombinierbar sind.

Nachfolgeprojekte, die in diese Richtung gehen, sind bereits geplant, und werden versuchen, aus der kleinen Dateninsel WALS Online ein Linked Data-Archipel zu entwickeln.

Das die Ideen von Linked Data für die Publikation von linguistischen Daten ganz besonders geeignet ist, wird schon daran deutlich, dass die Erforschung exotischer Sprachen inhärent dezentral stattfindet. Umso wichtiger ist Interoperabilität, um eine spätere Zusammenführung der Daten zu ermöglichen.

Lessons Learned

WALS Online will weniger visionäre Zukunft sein, als vielmehr ein Schritt auf dem Migrationspfad dahin. Der Erfolg von WALS Online bestärkt uns in der Einschätzung, dass solche Zwischenschritte unabdingbar sind.

Die Lehren aus WALS Online sind deshalb:

  • Das Problem, wie Online-Publikationen wissenschaftlich zu bewerten ist, ist noch nicht gelöst.
  • Die (wissenschaftliche) Welt ist noch nicht (annähernd) vollständig digital und online:
    • Mirroring von Websites spielt weiterhin eine Rolle für weniger gut an das Internet angebundene Regionen.
    • Während sich WALS Online gut in das Web einfügt, muss auch klar sein, wie man Teile davon in gedruckten Büchern verwenden kann.
    • „Ausdrucken“ ist weiterhin eine gängige Methode auch Online-Ressourcen zu nutzen.
  • Kompromisse: Es muss ein Ausgleich gefunden werden zwischen missionarischen Ansprüchen (die wissenschaftliche Online Welt besser zu machen) und der Berücksichtigung (alt-)hergebrachter Arbeitsweisen.
  • Klassisches IT-Problem: IT muß „Domain Knowledge“ bekommen, und den „Kunden“ verstehen.
  • Datenmigration ist eine Daueraufgabe. Auch WALS Online wird hier nur eine Evolutionsstufe darstellen. Ziel muß es sein, „Daten besser zu hinterlassen, als wir sie vorfinden“.
  • Die Zukunft der wissenschaftlichen Kommunikation wird erst beginnen, wenn auch der unterstützende Mikrokosmos migriert wurde.