Wissenschaftsrat zu Informationsinfrastrukturen

Der Wissenschaftsrat, das zentrale wissenschaftspolitische Beratungsgremium Deutschlands, hat heute drei Empfehlungen veröffentlicht, die je nach Arbeitsgebiet und Disziplin, gut und gerne als Pflichtlektüren bezeichnet werden können:

Übergreifende Empfehlungen zu Informationsinfrastrukturen

Wissenschaftlichen Sammlungen, Bibliotheken, Archiven und Datensammlungen, die unter dem Begriff Informationsinfrastrukturen zusammengefasst werden, kommt nach Auffassung des Wissenschaftsrates eine grundlegende Bedeutung für Forschung, Lehre und Nachwuchsförderung in allen wissenschaftlichen Fächern zu. „Informationsinfra­strukturen sind ein konstitutiver Teil des Wissenschaftssystems. Die Gewinnung neuer wissenschaftlicher Erkenntnisse wäre ohne sie nicht möglich. Es ist daher eine öffentli­che Aufgabe, ihre Verfügbarkeit für die Wissenschaft zu gewährleisten“, so der Vorsitzende des Wissenschaftsrates, Peter Strohschneider.

Empfehlungen zu Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften

Hinsichtlich der internationalen Wettbewerbsfähigkeit des deutschen Wissenschaftssystems ist es aus Sicht des Wissenschaftsrates notwendig, der an wissenschaftspolitischer Bedeutung zunehmenden Infrastrukturent­wicklung für die Geistes- und Sozialwissenschaften in Deutschland mehr Aufmerksam­keit zu widmen. Positiv bewertet er bereits jetzt die Entwicklung der Forschungsinfra­strukturen der quantitativen Sozial- und Wirtschaftswissenschaften. Vor allem im Be­reich großer Umfragestudien konnte hier in den vergangenen Jahren eine internationale Spitzenstellung erreicht werden. Eine vergleichbare Position gilt es auch für die qualita­tiven Sozialwissenschaften und die Geisteswissenschaften anzustreben. In diesem Sinne hat der Wissenschaftsrat Empfehlungen zur Stärkung der internationalen Konkur­renzfähigkeit von Informations- und sozialen Infrastrukturen sowie zur Ausstattung mit Großgeräten in einzelnen Feldern der Geistes- und Sozialwissenschaften in Deutsch­land ausgesprochen. Dabei äußert er sich auch zu Fragen der Archivierung von For­schungsdaten.

Empfehlungen zu wissenschaftlichen Sammlungen als Forschungsinfrastrukturen

Deutschland verfügt über eine reiche und sehr vielfältige Sammlungslandschaft, die Grundlage bedeutender und herausragender Forschung ist. Eine Systematisierung von Arten, die Erkundung evolutionären oder klimatischen Wandels sind ohne solche Sammlungen ebenso undenkbar wie die Erforschung schriftloser oder längst vergange­ner Kulturen oder die Erforschung der Entwicklung von Technik, Wissenschaften und Künsten. Der Wissenschaftsrat hat jedoch feststellen müssen, dass das Potenzial dieser Sammlungen – vor allem im universitären Bereich – noch nicht hinreichend er­kannt und genutzt wird. Der Vorsitzende des Wissenschaftsrates, Professor Peter Strohschneider: „Viele Sammlungen lagern unbekannt und ungenutzt in Abstellräumen der Universitäten, wo weder ihr dauerhafter Erhalt noch ihre wissenschaftliche Bearbei­tung möglich sind. Womöglich liegen hier noch ungeahnte Schätze für die Forschung.“

Für den 3. Februar 2011 wurden die  Empfehlungen zur Zukunft des bibliothekarischen Verbundsystems in Deutschland angekündigt.

Grundsätze zum Umgang mit Forschungsdaten veröffentlicht

Die Allianz der deutschen Wissenschaftsorganisationen hat im Juni „Grundsätze zum Umgang mit Forschungsdaten“ verabschiedet. Auszug aus der Pressemitteilung:

„Qualitätsgesicherte Forschungsdaten bilden die Grundlage wissenschaftlichen Erkenntnisgewinns. Allein in Deutschland kostet es mehrere Milliarden Euro pro Jahr, diese Ergebnisse zu erstellen. Ein großer Teil dieser Daten wird jedoch von Forschenden oder Arbeitsgruppen nach Abschluss ihrer Vorhaben nicht angemessen dauerhaft archiviert und ist daher einer späteren Wiederverwertung nicht mehr zugänglich. Hinzu kommt, dass mit Hilfe moderner wissenschaftlicher Methoden Daten in enormen Umfang erzeugt werden und adäquate informationsfachliche Methoden sowie die erforderlichen Infrastrukturen nicht ausreichend zur Verfügung stehen.“

Die Grundsätze wurden im Rahmen der Schwerpunktinitiative „Digitale Information“ veröffentlicht. Folgende Themenfelder werden aufgegriffen:

  • Sicherung und Zugänglichkeit
  • Unterschiede der wissenschaftlichen Disziplinen
  • Wissenschaftliche Anerkennung
  • Lehre und Qualifizierung
  • Verwendung von Standards
  • Entwicklung von Infrastrukturen

Diese Allianz-Grundsätze sind der bisherige Höhepunkt der Diskussion um den zeitgemäßen Umgang mit Forschungsdaten. In der Vergangenheit haben sich u.a. folgende Institutionen im Rahmen von Positionspapieren und anderen Veröffentlichungen mit dem Thema beschäftigt:

April 2010: Die Deutsche Forschungsgemeinschaft (DFG) verankert das Thema in ihrem „Leitfaden für Antragsteller“. (Siehe dazu auch wisspub.net)

August 2009: Die Arbeitsgruppe „Grid/eScience und Langzeitarchivierung“ des deutschen Kompetenznetzwerkes zur digitalen Langzeitarchivierung – NESTOR veröffentlicht den Bericht „Digitale Forschungsdaten bewahren und nutzen“.

April 2009: Die Arbeitsgruppe „Elektronisches Publizieren“ der Deutsche Initiative für Netzwerkinformation (DINI) veröffentlicht ihr „Positionspapier Forschungsdaten“.

Januar 2009: Der Unterausschuss für Informationsmanagement (Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme) der Deutschen Forschungsgemeinschaft (DFG) veröffentlicht „Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten“.

Juni 2008: Die Allianz der deutschen Wissenschaftsorganisationen startet die Schwerpunktinitiative „Digitale Information“. Im Handlungsfeld „Forschungsprimärdaten“ „sehen alle Wissenschaftseinrichtungen einen dringenden Handlungsbedarf “.

Wir auf dem 4. Leipziger Kongress für Information und Bibliothek

In eigener Sache: Ein Teil des WissPub-Teams wird die nächsten Tage auf dem 4. Leipziger Kongress für Information und Bibliothek verbringen.

Cornelius Puschmann wird in der DINISession am 15.03.2010 unter dem Titel: „Der lange Abschied vom Papier“ über Open Access in den Geisteswissenschaften sprechen.

Ein weiterer Beitrag in dieser Session wird durch Ulrich Herb geleistet: Er widmet sich dem Thema „Statistiken für Institutionelle Repositorien“ und wird Ergebnisse des DFG-Projektes OA-Statistik vorstellen.

Am 17.03.2010 wird sich Robert Forkel in der Session „Bibliotheken als Akteure im Forschungsdatenmanagement“ dem Umgang mit Forschungsdaten in der Linguistik widmen und „The World Atlas of Language Structures Online“ vorstellen.  (Seine Präsentation, inkl. einiger Anmerkungen,  ist mittlerweile online.)

Ich werde am 16.03.2010 auf dem Newcomer-Treff des BIB einige Einblicke in meinen Berufsalltag geben 🙂

Ich hoffe, ich habe keine Beiträge der Kollegen vergessen.

Allen Anwesenden einen interessanten und diskussionsreichen Kongress!

(Links folgen.)

Update, 22.03.2010: Slides eingefügt.

Berlin Verlag startet Open Access-Plattform Berlin Academic für Geistes- und Sozialwissenschaftler

Via Dörte Böhner (deren sehr informatives Twitter-Feed ich übrigens jedem wärmstens ans Herz lege) erreichte mich heute eine interessante Nachricht: der Berlin Verlag startet einen hybriden Fachverlag für die Geistes- und Sozialwissenschaften mit dem klangvollen Namen Berlin Academic.

Der Übersichtlichkeit halber zitiere ich hier umfassend aus der entsprechenden Meldung:

Auf einer neu errichteten Online-Plattform veröffentlicht Berlin Academic sein Programm nach Open-Access-Prinzipien und unter Creative-Commons-Lizenzen. Gleichzeitig werden sämtliche Titel über Print on Demand sowie in verschiedenen E-Book-Formaten vertrieben.

Berlin Academic veröffentlicht auf Deutsch und Englisch. Thematische Schwerpunkte sind geistes- und sozialwissenschaftliche Disziplinen, insbesondere Zeitgeschichte (Holocaust- und Totalitarismusforschung), Soziologie (Migration, Urbanistik, Arbeitswelten), Politikwissenschaften (Globalisierung, Global Governance), Philosophie (speziell im Spannungsfeld mit Natur- und Neurowissenschaften) sowie Kulturwissenschaften und Linguistik.

Die Berlin Academic Plattform will darüber hinaus wissenschaftlichen Institutionen und Universitäten die Möglichkeit bieten, eigene Schriften und Schriftenreihen zu veröffentlichen. Der Start einer Beta-Version der Plattform mit anschließender Testphase ist für den Sommer 2010 geplant.

So weit, so interessant, denn während es ja auch in Deutschland schon OA-Verlagsangebote gibt, wäre mir ein solches Konzept speziell für die genannten Wissenschaftsbereiche neu, was im Ausland anders ist. Bereits den Anspruch von Open Academic, einen OA-Verlag in den Buchwissenschaften zu etablieren, mag man als Beleg dafür interpretieren, dass nicht alle Verleger den Kopf in den digitalen Sand stecken.

In einem kurzen Interview erläutert Verlegerin Elisabeth Ruge den Schritt:

…mit Berlin Academic wollen wir die neuen Möglichkeiten nutzen, die der Medienwandel für das Verlagsgeschäft bietet. Gerade im wissenschaftlichen Bereich können wir mittels der digitalen Publikationsplattform den Autoren zu einer größeren Sichtbarkeit und Verbreitung ihrer Werke verhelfen. Dabei glauben wir, dass Open Access das traditionelle Verlagsmodell weder ersetzt noch gefährdet – es aber im besten Fall ergänzen kann.

Es wird sich inzwischen herumgesprochen haben, dass Open Access für Wissenschaftler eine attraktive Möglichkeit zur erweiterten Verbreitung der eigenen Forschung ist. Dass allerdings neben öffentlichen Angeboten auch immer mehr kommerzielle Verlage — und eben nicht nur große, sondern auch kleine und mittelständische Häuser — in Open Access eine Chance sehen, stimmt hoffnungsvoll.

Gerade im Bereich der Geistes- und Sozialwissenschaften ist das Buch nach wie vor die wichtigste Publikationsform. Open Access ist dagegen lange Zeit in erster Linie auf Zeitschriftenartikel beschränkt gewesen. Mit Berlin Academic wollen wir nun auch Bücher unter Open-Access-Kriterien online zugänglich machen. Das Buch ist aber keineswegs gefährdet. Im Gegenteil: Wichtige Backlist-Titel des Berlin Verlags, von Isaiah Berlin bis Anthony Grafton, erhalten ein neues Leben

…als mittelgroßer Verlag sind wir flexibler als andere und können daher mutiger experimentieren. Wir haben in den letzten Monaten Zeit und Geld in den Aufbau unser digitalen Plattform investiert, um den zukünftigen verlegerischen Herausforderungen zu begegnen. Dies ist ein spannender Prozess, von dem wir uns auch Anstöße für die traditionellen Verlagsbereiche erhoffen.

Das Buch, auch das vom lokalen Fachverlag publizierte, ist nicht gefährdet, sondern erhält „ein neues Leben“, und wissenschaftliches Publizieren in den Geistes- und Sozialwissenschaften bringt „Anstöße für traditionelle Verlagsbereiche“. Sagt eine Verlegerin.

Womöglich ist in der Hauptstadt der Geist der Berliner Erklärung irgendwie ins Trinkwasser übergegangen, jedenfalls sucht man in Frau Ruges Aussage die Jeremiade auf den Untergang unserer abendländischen Kultur vergeblich.

Wer weiß, vielleicht sprechen sich diese Erkenntnisse irgendwann in der Republik herum.

Vielleicht sogar bis in die hintersten Winkel — etwa nach Heidelberg.

Forschungsverbund Interactive Science

Auch in einer digitalen Welt fühlt man sich als netzaffiner Wissenschaftler bisweilen wie mit Scheuklappen bestückt. So zum Beispiel heute morgen, als mir Christina Weyher, Projektmanagerin beim MPG-Publikationsportal Living Reviews, einen Hinweis auf den Forschungsverbund Interactive Science per Mail schickte. Die in den einzelnen Teilprojekten untersuchten Aspekte digitaler Kommunikation unter Wissenschaftlern haben klare Bezugspunkte zu Fragen, mit denen ich mich in der letzten Zeit auch ausgiebig beschäftigt habe. Vielleicht bietet sich ja in Zukunft einmal die Gelegenheit zu einem Gedankenaustausch, etwa am 24 Juni in Köln?

Vision und Wirklichkeit – The World Atlas of Language Structures Online

Dieser Beitrag soll ein Schlaglicht auf den Status Quo des web-basierten Publizierens in der Linguistik werfen, indem die Entstehung des World Atlas of Language Structures Online (WALS) dokumentiert wird.

Parallel zur Veröffentlichung in diesem Blog wurde der Beitrag bei der Tagung Berlin Open ’09 eingereicht und akzeptiert.

Was ist WALS?

WALS ist eine große Datenbank struktureller (phonologischer, grammatikalischer, lexikalischer) Eigenschaften von Sprachen, die aus Sprachbeschreibungen (etwa Referenzgrammatiken) gesammelt wurden.

WALS besteht aus 142 Weltkarten mit beschreibenden Texten, die verschiedene Eigenschaften von Sprachen behandeln. Jede dieser 142 Eigenschaften wird für 120 bis 1370 verschiedene Sprachen beschrieben. Insgesamt zeigen die Karten Informationen für mehr als 2600 Sprachen.

Damit macht WALS Informationen zur strukturellen Diversität der Sprachen der Welt auf eine Art zugänglich, die auch für interessierte Nicht-Linguisten geeignet ist, die üblicherweise keine Grammatiken zu exotischen Sprachen lesen. Zugänglichkeit der Informationen für einen derart erweiterten Kreis ist für die Linguistik besonders interessant, weil Feedback von Sprechern einer Sprache von großem Wert ist.

Die erste Auflage

Die erste Ausgabe von WALS wurde als Buch mit beigelegter CD-ROM publiziert. Die Verlagsangaben zu diesem Buch machen bereits deutlich, daß der Leserkreis dafür tatsächlich ein „elitärer Zirkel“ ist:

Price: £ 450.00 (Hardback)
712 pages, 8 halftones, 4 line illus., 3 color halftones, 161 color maps,
360 X 248 mm

Vision: Go Web

Das WALS Online Projekt bestand darin, die zweite Ausgabe im Web zu veröffentlichen. Korrekter müsste der Titel dieses Beitrags lauten: „Visionen treffen sich in der Wirklichkeit“. Denn — im Rückblick eher wenig überraschend — bestehen durchaus unterschiedliche Vorstellungen darüber, was denn „online“ eigentlich bedeutet.

Nicht zuletzt spielte auch die Vision der Max Planck Gesellschaft eine Rolle, die mit der Max Planck Digital Library eine zentrale Einheit geschaffen hat, die den Instituten Expertise und Dienste in den Bereichen Web-Publishing und Web-Hosting bietet. So entstand WALS Online als Kooperation zwischen dem Max Planck Institut für Evolutionäre Anthropologie und der Max Planck Digital Library. Während die Linguisten des Instituts ihre Fachkenntnis und die gesammelten Erfahrungen aus der ersten Auflage einbrachten, konnte die Digital Editions Gruppe der MPDL ihre Kollaborationsinfrastruktur und Web Publishing Erfahrung beitragen.

Wirklichkeit: Was bedeutet „online only“ heute?

Im Folgenden will ich nun einige Beispiele auflisten, wie und wo die „online only“ Vision heute noch mit dem herkömmlichen Wissenschaftsbetrieb kollidiert. Das das Potential für solche Zusammenstöße in der Linguistik, deren Veröffentlichungen weiterhin von Buchpublikationen geprägt sind, relativ groß ist, soll dabei nicht verschwiegen werden.

Wie zitiert man WALS Online?

Von Anfang an war die Frage wie WALS Online zitiert werden soll ein wichtiges Thema. In einer idealen „online only“ Welt besteht ein Zitat einer anderen Ressource schlicht in einem Hyperlink. Verfolgt man diesen, sollten sich die Metadaten der zitierten Ressource – Autor, Jahr der Veröffentlichung, etc. – leicht erschließen lassen. Wie in dieser idealen Welt aus solchen Verlinkungen eine Rangliste oder Wertigkeit von wissenschaftlichen Veröffentlichungen bestimmt werden kann, ist eine ander (große) Frage. Das so eine Unternehmung aber prinzipiell möglich ist, hat Google – für das Web allgemein – bewiesen.

In der heutigen Linguistik muss aber weiterhin davon ausgegangen werden, dass der Normalfall darin besteht, WALS Online in einem Buch zu zitieren. In gedruckten Werken gibt es aber keine Hyperlinks, und auch die schlichte Angabe eines URL ist wegen der Fehleranfälligkeit wenig sinnvoll. Bleibt die herkömmliche Referenz via Metadaten — also Autoren, Publikationsjahr, Titel, Verlag.

Für WALS Online bedeutet das, dass nicht nur Aspekte wie die einfache Navigierbarkeit die Aufteilung der Website beeinflusst haben, sondern auch die Frage, welches die einzeln zitierfähigen Bausteine sein sollen. Im Zweifelsfall wurde dabei der – wenn auch einschränkenden – Analogie zur Buchpublikation der Vorzug gegeben. Beispielsweise wurde die Website in „chapter“ gegliedert, um übliche Zitierweisen anwendbar zu machen.

Wie stabil ist WALS Online?

Eine weitere Frage im Umkreis des Themas „Zitierfähigkeit“ ist die nach der Stabilität des Zitierten. Wenn der Zitierende nicht mehr eine Kopie des Zitierten in seinem Besitz hat, wie wird dann bewahrt, was tatsächlich zitiert wurde? Andererseits würden wir die Analogie zum Buch zu weit treiben, wenn wir uns selbst der Möglichkeit berauben würden, Fehlerkorrekturen einfach und schnell online durchzuführen.

Für WALS Online wurde deshalb folgendes Verfahren gewählt:

  • Es wird zwischen Kerninhalten (etwa typologischen Daten) und zusätzlichen Inhalten (etwa der Positionierung von Sprachen auf der Karte) unterschieden.
  • Zusätzliche Inhalte können jederzeit korrigiert werden, die Korrektur wird aber durch einen Eintrag im Blog nachverfolgbar gemacht.
  • Kerninhalte können erst bei einer Neuauflage korrigiert werden; bis dahin werden die nötigen Korrekturen in einem Eintrag im Blog in der Kategorie Errata bekannt — und referenzierbar — gemacht.

Wie kann man WALS Karten drucken?

Ein Spezialfall für ein Zitat aus WALS ist die Übernahme einer Karte — also einer Abbildung. Auch hier wurde bei WALS Online einerseits der idealen Welt Rechnung getragen, indem einzelne Karten inklusive Zoom-Stufe und Kartenausschnitt eindeutig per URL identifizierbar sind. Andererseits tauchte recht schnell die Frage auf: „Wie kann ich Karten aus WALS Online drucken?“

Glücklicherweise erlaubt Google Maps die Verwendung von Ausdrucken in wissenschaftlichen Arbeiten (sofern gewisse Bedingungen eingehalten werden). Mit etwas zusätzlichem Programmieraufwand konnte somit auch ein Weg gefunden werden, den Ausdruck von WALS Karten in ausreichender Qualität zur Weiterverwendung in Druckwerken zu unterstützen.

Offline Modus

Während „online only“ in den Zeiten der Internet-Flatrate eine echte Option geworden ist, findet linguistische Feldforschung oftmals an Orten statt, wo eine ständige Internetanbindung alles andere als selbstverständlich ist. Linguistische Ressourcen, die auch bei längeren Aufenthalten im Amazonasgebiet verfügbar sein sollen, werden also in Zukunft einen „offline“ Modus benötigen, um praktikabel zu sein.

Neue Technologien wie Google Gears werden wohl eine generelle Lösung dieses Problems möglich machen — also Web Applikationen, die auch offline bedient werden können. Für WALS Online haben wir uns vorerst für die einfachere Lösung entschieden: Die CD-ROM Version der Daten, die der gedruckten Ausgabe beigelegt war, ist weiterhin frei verfügbar.

Interoperabilität mit der Vergangenheit

Während Zitierfähigkeit das Thema Interoperabilität für herkömmliche Publikationen größtenteils abdeckt, ergeben sich für Publikationen wie WALS, die Daten enthalten, weitergehende Möglichkeiten.

Und wieder hielte die schöne neue Online Welt passende Lösungen unter dem Stichwort Linked Data bereit. Doch in der echten Welt bedeutet „Datenbank“ leider noch nicht „Linked Data“; vielmehr reicht die Bandbreite dessen, was als „Dastenbank“ firmiert vom Zettelkasten über die Tabelle im Word Dokument bis zu „echten“ Datenbankanwendungen.

Damit bedeutet Interoperabilität in den meisten Fällen weiterhin Handarbeit, und ein Austauschformat wie CSV kann — trotz fehlender Semantik — meist einfacher verwendet werden.

Gute Zwischenschritte vom Datensilo zu Linked Data stellen momentan XML-basierte Spezialformate wie KML dar, die einerseits die meisten Ansprüche an moderne Formate erfüllen, andererseits aber durch bereits vorhandene Applikationen — im Falle von KML Google Maps — einen sofortigen Mehrwert bieten.

Erschwert wird die Entwicklung von Austauschformaten in der Linguistik übrigens auch dadurch, dass die Klassifizierung von Sprachen und der Sprachbegriff selbst kontrovers diskutiert werden und es daher keine absoluten Konsens über weitreichende Ordnungsschemata gibt.

Was bedeutet das Web für WALS?

Mit seiner Entstehungsgeschichte zeigt WALS Online einerseits die Weitsicht der WALS-Herausgeber, die sich schnell darüber im Klaren waren, dass diese Daten im Web am besten aufgehoben sind, andererseits aber auch eine Möglichkeit, die Hemmschwelle zu überwinden, die immer noch in vielen Bereichen gegenüber Publikationen im Web besteht. Durch die Erstveröffentlichung als Buch wurde einerseits den Autoren der traditionelle Lohn für ihre Arbeit zuteil – in Form eines klassischen Eintrags in ihrer Publikationsliste -, andererseits wurde eine Marke WALS etabliert, die der Publikation im Web von Anfang an Autorität verlieh.

Umgekehrt wurde den Ansprüchen moderner Web-Publikation Rechnung getragen, indem nicht einfach der „PDF auf dem Server“-Weg gewählt, sondern die Publikation dem neuen Medium angemessen aufbereitet wurde.

Das offene Verfügbarkeit im Web im Fall von WALS Online eine vielfache Nutzerzahl bedeutet, wird schon deutlich, wenn man den Buchpreis der ersten WALS Ausgabe von £450 sieht. Die erhöhte Nutzerzahl erklärt sich aber auch damit, dass sich einige der behandelten linguistischen Phänomene durchaus auch dem Laien erschließen, wie zum Beispiel das Kapitel „Tea“.

Ähnlich wie bei Open Source Software Entwicklung, gilt auch für die Open Access-Publikation von Daten: given enough eyeballs, all bugs are shallow. Zusätzlich wurde mittels eines Blogs für das Projekt ein einfacher Feedback Mechanismus geschaffen. Zusammen mit der Tatsache, dass Web-Resourcen wesentlich einfacher aktualisiert werden können als ihre gedruckten Gegenstücke wird damit tatsächlich eine kontinuierliche Verbesserung der Datenlage möglich.

Eine der erfreulichen Erfahrungen mit WALS bisher ist die rege Benutzung der Feedback Möglichkeiten. Insbesondere das Einrichten von direkten Links von jedem Datenpunkt zum Blog-Eintrag, der das Kommentieren ermöglicht, hat dazu beigetragen. Außerdem scheint diese sehr feingranulare Feedbackfunktion auch die Qualität der Kommentare zu erhöhen – so wird kaum ein Datenpunkt in Zweifel gezogen, ohne dass auf entsprechende Literatur hingewiesen wird.

Während es drei Jahre von der Druckausgabe zur zweiten Ausgabe Online dauerte, strebt das Projekt jetzt eine jährliche Neuauflage online an. Das nicht jedes Erratum sofort korrigiert wird, ist der wissenschaftlichen Natur der Publikation geschuldet. So muss gewährleistet werden, dass die Daten zitierfähig sind, was auch bedeutet, dass sich der zitierte Datenzustand nicht oder nur eindeutig nachvollziehbar ändert.

Als weiterer großer Vorteil von Web, Software-Standards und Open Access erweist sich für WALS Online die Möglichkeit, die Karten als Google Maps Mashup zu präsentieren. Aber nicht nur WALS kann von anderen Datenquellen profitieren, es bietet sich auch selbst als zusätzliche Datenquelle an, die auch bereits von anderen Applikationen – etwa CALS, dem „Conlang Atlas of Language Structures“ – genutzt wird.

Damit wird ein echter Mehrwert durch erweiterte Benutzbarkeit der Forschungsergebnisse geschaffen und gleichzeitig eine Überprüfung der Ergebnisse durch das kollaborative Internet ermöglicht.

Ausblick

Das Potential von Publikationen wie WALS Online für die Wissenschaft wird sich aber sicher erst dann vollständig erschließen, wenn der Netzwerkeffekt greift, also wenn viel mehr ähnliche Datenquellen frei verfügbar und auch miteinander kombinierbar sind.

Nachfolgeprojekte, die in diese Richtung gehen, sind bereits geplant, und werden versuchen, aus der kleinen Dateninsel WALS Online ein Linked Data-Archipel zu entwickeln.

Das die Ideen von Linked Data für die Publikation von linguistischen Daten ganz besonders geeignet ist, wird schon daran deutlich, dass die Erforschung exotischer Sprachen inhärent dezentral stattfindet. Umso wichtiger ist Interoperabilität, um eine spätere Zusammenführung der Daten zu ermöglichen.

Lessons Learned

WALS Online will weniger visionäre Zukunft sein, als vielmehr ein Schritt auf dem Migrationspfad dahin. Der Erfolg von WALS Online bestärkt uns in der Einschätzung, dass solche Zwischenschritte unabdingbar sind.

Die Lehren aus WALS Online sind deshalb:

  • Das Problem, wie Online-Publikationen wissenschaftlich zu bewerten ist, ist noch nicht gelöst.
  • Die (wissenschaftliche) Welt ist noch nicht (annähernd) vollständig digital und online:
    • Mirroring von Websites spielt weiterhin eine Rolle für weniger gut an das Internet angebundene Regionen.
    • Während sich WALS Online gut in das Web einfügt, muss auch klar sein, wie man Teile davon in gedruckten Büchern verwenden kann.
    • „Ausdrucken“ ist weiterhin eine gängige Methode auch Online-Ressourcen zu nutzen.
  • Kompromisse: Es muss ein Ausgleich gefunden werden zwischen missionarischen Ansprüchen (die wissenschaftliche Online Welt besser zu machen) und der Berücksichtigung (alt-)hergebrachter Arbeitsweisen.
  • Klassisches IT-Problem: IT muß „Domain Knowledge“ bekommen, und den „Kunden“ verstehen.
  • Datenmigration ist eine Daueraufgabe. Auch WALS Online wird hier nur eine Evolutionsstufe darstellen. Ziel muß es sein, „Daten besser zu hinterlassen, als wir sie vorfinden“.
  • Die Zukunft der wissenschaftlichen Kommunikation wird erst beginnen, wenn auch der unterstützende Mikrokosmos migriert wurde.

Digitale Geisteswissenschaften in Deutschland?

Edit 10.04.09: der Beitrag hat erfreulicherweise schon nach kurzer Zeit eine Diskussion entstehen lassen. Besonders der ausführliche Kommentar von Fotis Jannidis differenziert das Bild der Computerphilologie als Fachbereich in Deutschland deutlich, bestätigt mich allerdings in meinem Eindruck, dass der ‚umbrella term‘ Digitale Geisteswissenschaften in Deutschland noch wenig Verwendung findet.

Nicht erst seit Twitter und dem iPhone ist es ein ziemlich verlässlicher Zustand, dass Internet-Trends aus dem angelsächsischen Sprachraum irgendwann auch bei uns ankommen. Auch in der wissenschaftlichen Kommunikation sind Ideen aus den USA, Kanada und Großbritannien normalerweise beliebt, wenn sich auch die Wissenschafts- und Bibliothekswelt hier insgesamt vielleicht ein wenig skeptischer gegenüber neuen Gadgets gibt, als dies auf der anderen Seite von Kanal und Atlantik der Fall ist.

Verwunderlich ist allerdings, dass ein bestimmter Wissenschaftstrend von drüben nicht so recht Fuß bei uns fassen will: Digital Humanities Computing. Digitale Geisteswissenschaften sind die Symbiose von Informatik und (mehr oder weniger) klassischen Humanities-Disziplinen wie Literatur- und Sprachwissenschaft, Geschichte, Philosophie und Kunstgeschichte. Durch den Einsatz computergestützter Methoden soll einerseits der Zugang zum Untersuchungsgegenstand – Artefakten menschlicher Kultur, wie z.B. literarischen Texten, Kunstwerken, historischen Dokumenten – verbreitert und demokratisiert werden, und zum anderen eine neue wissenschaftliche Perspektive entstehen. Ein simples und spielerisches, aber durchaus anschauliches Beispiel ist diese Visualisierung der frequentesten Begriffe in Shakespeares Kaufmann von Venedig in einer ‚word cloud‘, erstellt mit dem Statistiktool Many Eyes.

75761ef0-ada0-11dd-bde3-000255111976 Blog_this_caption

Verfahren aus der Computerlinguistik, wie z.B. Text Mining, sind typisch für die Digital Humanities (DH). Die Methodik ist explorativ – der Untersuchungsgegenstand wird gehandhabt wie eine beliebige Datenmasse, ganz ohne Scheu vor dem Kunstwerk. Ob auch dieser ‚technokratische‘ Ansatz eine gewissen Mitschuld daran trägt, dass solche Methoden in Deutschland noch relativ wenig gebräuchlich ist, das sei dahingestellt. Es gibt zwar auch hierzulande Studiengänge zur Computerphilologie, aber diese sind im Selbstverständnis deutlich technisch und computerlinguistisch geprägt und scheinen die Mainstream-Geisteswissenschaften theoretisch und methodisch nahezu vollständig auszuklammern.

Insbesondere in den USA hat das Konzept hingegen bereits eine verhältnismäßig lange und (so scheint es mir jedenfalls) integrativere Geschichte. So wurde schon 1992 an der University of Virginia das Institute for the Advancement of Technology in the Humanities gegründet. Mehrere Fachverbände betreiben gemeinsam digitalhumanities.org, wo unter anderem der Companion to the Digital Humanities als Open Access-Publikation lebt, quasi das Gründungsdokument der Bewegung, und in diesem Jahr wird in Maryland die neunte Digital Humanities Conference ausgerichtet. Auch die Liste der DH-Einrichtungen weltweit wächst stetig, mit besonders vielen Gründungen in Nordamerika.

Die vermutlich grösste DH-Initiative, in deren Rahmen sich über 400 Wissenschaftler dort mit dem Thema beschäftigen, ist das umfassend von der Mellon Foundation geförderte Project Bamboo. In dem ‚Grasswurzel‘-Projekt sollen Geisteswissenschaftler, Softwareentwickler, Bibliothekare und IT-Experten gemeinsam Lösungen und Werkzeuge für den Einsatz in der geisteswissenschaftlichen Forschung planen und konzipieren – ein ambitioniertes und organisatorisch auch ziemlich kompliziertes Unterfangen, welches geleitet ist von dem Gedanken der Community-Beteiligung:

Bamboo is a multi-institutional, interdisciplinary, and inter-organizational effort that brings together researchers in arts and humanities, computer scientists, information scientists, librarians, and campus information technologists to tackle the question:

How can we advance arts and humanities research through the development of shared technology services?

In mancherlei Hinsicht ähnliche Bemühungen gibt es auch auf europäischer Ebene, aber mit einem anderen Schwerpunkt. So wurde zum Beispiel 2005 das Projekt DARIAH (Digital Research Infrastructure for the Arts and Humanities) initiiert, welches auf deutscher Seite unter anderem von der Max Planck Digital Library getragen wird.

Aber im direkten Vergleich mit Bamboo werden die unterschiedlichen Zielsetzungen der beiden Initiativen schnell deutlich.

DARIAH:

DARIAH’s mission is to facilitate long-term access to, and use of all European arts and humanities data for the purposes of research. DARIAH is the digital research infrastructure that will connect scholarly data archives and repositories with cultural heritage for the arts and humanities across Europe, making scattered resources accessible through one click.

Während Bamboo als Ausgangspunkt also die Frage hat, durch welche Werkzeuge und Methoden geisteswisseschaftliche Forschung neue Forschungsfelder erschließen kann, und diese Frage gemeinsam mit den Wissenschaftlern zu beantworten versucht,  konzentriert sich DARIAH auf den Zugang zu digitalen Informationen – ein wichtiges Unterfangen, aber eines, welches die Forschung selbst weitgehend unberührt lässt. Die an DARIAH beteiligten Partner haben eine starke technische Orientierung und der Begriff „Infrastruktur“ wird häufig verwendet. Auch bei interessanten Programmen wie TextGrid stehen technische Aspekte relativ deutlich im Vordergrund:

Es gibt [..] ein großes Entwicklungspotenzial für die Schaffung integrierter Instrumente, die sowohl die spezifischen Anforderungen der Textwissenschaften in den Bereichen der philologischen Bearbeitung, Analyse, Annotation, Edition und Publikation erfüllen als auch den Transfer von e-Science-Methoden netzbasierten Arbeitens in die Geisteswissenschaften ermöglichen.

Bei der Teilnehme an einem von der DFG organisierten Roundtable zu Methoden in der anglistischen Literatur-, Kultur- und Sprachwissenschaft im letzten Monat wurde aber für mich sehr klar erkennbar, dass der Transfer von e-Science-Methoden netzbasierten Arbeitens in die Geisteswissenschaften kein technisches, sondern vielmehr ein kulturelles und wissenschaftssoziologisches Problem darstellt. Und Analyse, Annotation, Edition und Publikation sind zwar für Linguisten und Editionswissenschaftler mitunter interessant, für das Gros der Geisteswissenschaftler in Deutschland aber wohl eher (noch) nicht. Das macht TextGrid auf keinen Fall weniger bedeutsam, sondern verdeutlicht höchstens, dass in Deutschland bisher eher wissenschaftliche Nischenbereiche ‚digitalisiert‘ werden, und nicht unbedingt das ganze breite Spektrum der Geisteswissenschaften. Aber was nicht ist, kann ja durchaus irgendwann werden – vielleicht noch schneller und mit noch besserem Ergebnis, wenn man die Fachwissenschaftler ähnlich wie in den USA stärker in den Entwicklungsprozess einbezieht.

Gerade das offensichtliche Interesse von Fördereinrichtungen an dem Themenkomplex DH sollte jedenfalls auch Wissenschaftler in Deutschland aufhorchen lassen. So hat das National Endowment for the Humanities (NEH) seit kurzem ein festes Office of Digital Humanities – eine Einrichtung, die der DFG zumindest im Moment noch fehlt. Aber auch die DFG hat ihr Interesse am Thema schon deutlich signalisiert, unter anderem mit dieser Ausschreibung im letzten Jahr.

Wann (und wo) wird in Deutschland der erste Lehrstuhl für digitale Literaturwissenschaft ausgeschrieben? Wann wird das erste Institut für Digitale Geschichtswissenschaften eröffnet? Eine interdisziplinäre Forschungseinrichtung wäre mir ja persönlich am liebsten. Wer weiß, vielleicht kommt man ja so auch schneller zur viel beschworenen Exzellenz