DOIs und umfangreiche Metadaten bei Crossref

Ein DOI ist ein eindeutiger Identifier und eine URL, die zum wissenschaftlichen Beitrag führt.

Was viele jedoch nicht wissen, dass hinter einem DOI auch extrem umfangreiche und frei verfügbare Metadaten über den Beitrag stecken (können). Zu diesen Metadaten im JSON-Format gelangt man, wenn man den DOI mit einer anderen URL aufruft:

http://api.crossref.org/works/10.1128/JVI.03123-13

Bibliografische Grunddaten

Hinsichtlich den Metadaten von Artikel, Buchbeiträgen oder Bücher umfasst das Schema die klassischen Angaben, wie Titel, Publikationsdatum, Volume, Issue, Seitenzahlen, Journal, Serientitel, Journal, ISSN, Buchtitel, AutorInnen und Herausgebern.

Bezüglich AutorInnen ermöglich das Schema die Erfassung einer ORCID und einer Affiliation. Anstelle bzw. zusätzlich zur Erfassung der Affiliation als Text dürfte demnächst die ROR ID hinzukommen.

Lizenzangaben

Unter welcher Lizenz ein wissenschaftlicher Beitrag zugänglich ist, kann ebenfalls im Schema ausgegeben werden:

Hinsichtlich Open Access wird überwiegend eine Creative Commons Lizenz ausgegeben. Wie ein Blick auf alle verfügbaren Lizenz-Informationen bei Crossref zeigt, gibt es allerdings auch Verlage die wohl aus Versehen, aber auch aus voller Absicht eine eigene Lizenz vergeben. Unpaywall greift beispielsweise auf diese Information zurück.

Text-Mining

Die meisten DOIs führen zunächst auf eine Landing-Page und erst von dort dann zum eigentlichen Volltext. Für das Text-Mining oder die Archivierung möchte man aber direkt zum Volltext kommen und auch eine Präferenz mitgeben, in welchem Format (HTML, PDF, XML, EPUB) man den Volltext erhalten möchte. Das Crossref-Schema erlaubt dies via dem Element link, wo Verlage die direkte URL zum Volltext und dem entsprechenden Format deklarieren können.

Funding-Information

Die Typischen Informationen des „Funding Acknowledgments“ können strukturiert bei Crossref ausgegeben werden:

Einige Verlage wie z.B. MDPI lassen die AutorInnen diese Information strukturiert erfassen, andere extrahieren diese Informationen vom Paper mittels Text-Mining. Für die Identifikation der Förderorganisationen, wird eine von Crossref gepflegte Liste von 21k Organisationen verwendet. Es gibt zurzeit Bestrebungen, dass Förderorganisationen für Grants ebenfalls einen DOI bei Crossref registrieren, und somit eine solidere Verknüpfung von Publikationen zu Grants möglich ist.

Zitationen / Referenzen

Die verwendete Literatur bzw. die verwendeten bibliografischen Quellen können bei Crossref registriert werden. Im Idealfall passiert das strukturiert mittels Verweis auf einen anderen DOI:

Aber auch wenn kein DOI existiert kann die Referenz ausgegeben werden:

Crossref berechnet dann für Angabe die Anzahl Zitationen innerhalb des Crossref-Korpus.

Welche Publikationen sich hinter dieser Anzahl verstecken ist (bislang) via Crossref direkt nur für den Verlag einsehbar, welcher den DOI registriert hat. Dennoch können Dritte, wie OpenCitations die Metadaten aller DOIs nutzen um einen offenen Index mit Zitation zu erstellen. Die „Initiative for Open Citations“ (I4OC) versucht Verlage zu überzeugen ihre Zitationsdaten bei Crossref verfügbar zu machen.

DOIs für Peer Reviews

Seit 2017 ermöglicht Crossref auch die separate Vergabe von DOIs für Artefakte des Peer Reviews (z.B. referee reports, decision letters, and author responses). In den Metadaten der Publikation wird dann auf diese Artifakte verwiesen.

Weitere DOI Agenturen: DataCite, mEDRA

Nun ist Crossref nicht die einzige Organisation die DOIs vergibt. Aktuell gibt es noch 7 weitere Agenturen, welche beispielsweise auch DOIs für Filme vergeben (z.B. Harry Potter). Um zu sehen, bei welcher Agentur ein DOI registriert ist, kann man auch die API von Crossref nutzen:

https://api.crossref.org/works/10.19218/3906897011/agency

Aus meiner persönlichen Erfahrung haben ca. 80% aller aktuellen wissenschaftlichen Publikationen einen DOI. 98% dieser DOIs werden bei Crossref registriert. Die restlichen 2% verteilen sich auf die beiden Agenturen DataCite und mEDRA.

DataCite

Auch wenn der Fokus von DataCite bei Forschungsdaten liegt, haben einige Mitglieder von DataCite angefangen auch DOIs für primäre wissenschaftliche Publikationen wie Journals zu vergeben. Dies ist zwar nicht falsch, allerdings können mit dem auf Daten ausgerichteten Metadatenschema von DataCite einige Eigenheiten (z.B. Bibliografische Angaben oder auch Referenzen) nicht oder nur mit dem Verlust von Semantik ausgedrückt werden. Die Metadaten sind auch über eine eigene API ähnlich zu der von Crossref verfügbar:

Inzwischen empfehlen Crossref und DataCite gemeinsam, dass Zeitschriftenartikel, Konferenz papers oder Preprints besser bei Crossref registriert werden sollten.

mEDRA

Einige wenige Verlage die vom traditionellen Buchhandel herkommen, registrieren ihre DOIs via mEDRA. Die Metadaten können unter folgender REST API als XML aufgerufen werden.

http://www.medra.org/servlet/rest/metadata/10.2376/0300-4112-79-16

mEDRA bietet inzwischen auch eine Weiterleitung an Crossref an, so dass die Metadaten auch via Crossref-API erhältlich sind (z.B. 10.3238/ARZTEBL.2018.0008A)

Crosscite

Um die spezifischen Metadaten der verschiedenen DOI Agenturen zu erhalten, ist es unumgänglich über das jeweils spezifische Metadatenschema zu gehen.

Für einfachere Anwendungen, wie beispielsweise ein Zitat in einem bestimmten Zitierstil oder BibTeX zu erhalten, haben Crossref, DataCite und mEDRA zusammengespannt und bieten unter crosscite.org eine gemeinsame Abfrage und Ausgabe an.

De facto Standard

Für primäre wissenschaftliche Publikationen (insbesondere Zeitschriftenartikel, Bücher und Buchkapitel) ist die Registrierung und das Abliefern von Metadaten bei Crossref inzwischen ein de facto Standard geworden. Die Vollständigkeit der Metadaten unterscheidet sich jedoch noch stark nach Verlag bzw. Herausgeber.

Vor kurzem hat Crossref ein Dashboard geschaffen, wo man für die über 14’000 Mitglieder sehen kann, wer welche Metadaten liefert.

Participation Report für ACS: https://www.crossref.org/members/prep/316

G8-Staaten verabschieden Open-Access-Statement

Erfreuliche Nachrichten aus London: Die WissenschaftsministerInnen der größten Industrienationen würdigen den offenen Zugang zu wissenschaftlichen Publikationen und Forschungsdaten.

In einer heute verabschiedeten Erklärung heißt es zum Thema Open Access:

„We recognise that G8 nations have an important opportunity and responsibility to promote policies that increase access to the results of publicly funded research results to spur scientific discovery, enable better international collaboration and coordination of research, enhance the engagement of society and help support economic prosperity.“

Erfreulich ist, dass die G8-Staaten – wie zuvor bereits Science Europe und der Global Research Council (GRC) –, den Grünen und Goldenen Weg als komplementäre Strategien des Open Access anerkennen und keine der beiden Strategien hervorheben.

Zum Thema Open Research Data, wird – unter Bezug auf den Report „Science as an open enterpris“ der Royal Society – festgesellt:

„We are committed to openness in scientific research data to speed up the progress of scientific discovery, create innovation, ensure that the results of scientific research are as widely available as practical, enable transparency in science and engage the public in the scientific process.“

Zur Umsetzung des offenen Zugangs zu wissenschaftlichen Daten wollen die Staaten kooperieren.

In diesem Zusammenhang ist auch die heute in Brüssel verabschiedete Open-Data-Strategie der EU von Interesse. Änderungen in der „Richtlinie 2003/98/EG über die Weiterverwendung von Informationen des öffentlichen Sektors“, sollen laut Pressemitteilung, den Zugang zu „geographic and weather data, statistics or digitised books“ verbessern und damit auch die digitale Wirtschaft fördern.

Großbritannien setzt auf Open Access

Mit der Verabschiedung der „Innovation and Research Strategy for Growth“ (PDF) spricht sich die britische Regierung für eine deutliche Förderung von Open Access aus. In dem Kapitel „Expanded access to Research Publication and Data“ (S. 76) der Innovationsstrategie heißt es:

„The Government, in line with our overarching commitment to transparency and open data, is committed to ensuring that publicly-funded research should be accessible free of charge. Free and open access to taxpayer-funded research offers significant social and economic benefits by spreading knowledge, raising the prestige of UK research and encouraging technology transfer.“

Von den Research Councils geförderte Wissenschaftlerinnen und Wissenschaftler sollen verpflichtet werden ihre Publikationen auf Open-Access-Repositorien zugänglich zu machen.

Wissenschaftsminister David Willetts erläutert den Schritt im Guardian:

„We set out very clearly in the document today our commitment to open access. We want to move to open access, but in a way that ensures that peer review and publishing continues as a function. It needs to be paid for somehow. One of the clear options is to shift to a system from which university libraries pay for journals to one in which the academics pay to publish. But then you need to shift the funding so that the academics could afford to pay to publish.“

Ein weiteres Schwerpunktehema der Innovationsstrategie ist Open Data. Hier wird u.a. die Einrichtung eines Open Data Institute (ODI) angekündigt (S. 3-4) :

„We have commissioned independent groups of academics and publishers to review the availability of published research, and to develop action plans for making this freely available. We will also create an Open Data Institute, which will develop semantic web technologies for using data more effectively, and will advise the public sector and business as to how best to use these and manage their data so it can be exploited for economic and social benefits.“

Fred Friend vom University College London kommentiert die Entwicklung auf der JISC-Repositories-Liste:

„For those of us who witnessed the negative reaction of the previous UK Government to the 2004 Parliamentary Enquiry, these words are wonderful to read, and a tribute to the work carried out since 2004 to bring home to Government the potential benefits of OA to research and education communities and to the taxpayer.“

An dieser wegweisenden Entwicklung werden sich zukünftige Open-Access-Strategien in Europa messen lassen müssen.

Open Data vs. Open Access to Research Data

Jens Klump hat unter dem Titel „Open Data und Open Access to Data – Die ungleichen Geschwister“ auf den diesjährigen Open-Access-Tagen einen schönen Vortrag zur Problematik des Begriffes „Open Data“ im wissenschaftlichen Umfeld gehalten. Auszug aus dem Abstract:

Die Forderung nach einem offene Zugang zu Daten erfährt in der öffentlichen Diskussion mehr und mehr Beachtung. Aber handelt es sich bei Open Data und Open Access to Data um ein und das selbe? Tatsächlich sind die Motivation und die Entstehungsgeschichte hinter Open Access und Open Data sehr unterschiedlich. Open Data fordert vor allem den Zugang zu Daten staatlicher Stellen. Aber auch im Kontext der Wissenschaft wird intensiv diskutiert, wie mit Forschungsdaten umgegangen werden soll. Hat die Öffentlichkeit Anspruch auf Zugang zu Daten aus öffentlich geförderter Forschung? In der Debatte um den Klimawandel spielte der Zugang zu Forschungsdaten schon eine wichtige Rolle. (Quelle.)

Die Schwierigkeit ist eine fehlende Definition des Begriffes „Open Data“. Der Eintrag in der deutschsprachigen Wikipedia zeigt, dass die Begriffsbildung noch offen ist.

Klump schlägt in seinem Vortrag vor, für den Zugang zu Forschungsdaten im Sinne des Open Access künftig von „Open Access to Research Data“ zu sprechen. Seine Vortragsfolien sind online.

Dieser Vorschlag erscheint mir wichtig und  sinnvoll. Die Herausforderungen bei der Umsetzung des offenen Zugangs zu Forschungsdaten sind häufig durch ganz spezielle und disziplinspezifische Fragestellungen gekennzeichnet. So gilt es, im Wissenschaftsbereich Reputationssysteme zu berücksichtigen, um Anreize für den „Open Access to Research“ Data zu entwickeln. Eine undifferenzierte Forderung nach „Open Data“ wird diesen vielfältigen Herausforderungen nicht gerecht.

PS: Matthias Spielkamp weist im iRights Blog auf ein Video des Elektrischen Reporters zum Thema „Open Data“  hin. (Das Video ist der Dummy für ein Video-Format namens ePolitik.)