DOIs und umfangreiche Metadaten bei Crossref

Ein DOI ist ein eindeutiger Identifier und eine URL, die zum wissenschaftlichen Beitrag führt.

Was viele jedoch nicht wissen, dass hinter einem DOI auch extrem umfangreiche und frei verfügbare Metadaten über den Beitrag stecken (können). Zu diesen Metadaten im JSON-Format gelangt man, wenn man den DOI mit einem anderen URL aufruft:

http://api.crossref.org/works/10.1128/JVI.03123-13

Bibliografische Grunddaten

Hinsichtlich den Metadaten von Artikel, Buchbeiträgen oder Bücher umfasst das Schema die klassischen Angaben, wie Titel, Publikationsdatum, Volume, Issue, Seitenzahlen, Journal, Serientitel, Journal, ISSN, Buchtitel, AutorInnen und Herausgebern.

Bezüglich AutorInnen ermöglich das Schema die Erfassung einer ORCID und einer Affiliation. Anstelle bzw. zusätzlich zur Erfassung der Affiliation als Text dürfte demnächst die ROR ID hinzukommen.

Lizenzangaben

Unter welcher Lizenz ein wissenschaftlicher Beitrag zugänglich ist, kann ebenfalls im Schema ausgegeben werden:

Hinsichtlich Open Access wird überwiegend eine Creative Commons Lizenz ausgegeben. Wie ein Blick auf alle verfügbaren Lizenz-Informationen bei Crossref zeigt, gibt es allerdigns auch Verlage die wohl aus Versehen, aber auch aus voller Absicht eine eigene Lizenz vergeben. Unpaywall greift beispielsweise auf diese Information zurück.

Text-Mining

Die meisten DOIs führen zunächst auf eine Landing-Page und erst von dort dann zum eigentlichen Volltext. Für das Text-Mining oder die Archivieurng möchte man aber direkt zum Volltext kommen und auch eine Präferenz mitgeben, in welchem Format (HTML, PDF, XML, EPUB) man den Volltext erhalten möchte. Das Crossref-Schema erlaubt dies via dem Element link, wo Verlage die direkte URL zum Volltext und dem entsprechenden Format deklarieren können.

Funding-Information

Die Typischen Informationen des „Funding Acknowledgments“ können strukturiert bei Crossref ausgegeben werden:

Einige Verlage wie z.B. MDPI lassen die AutorInnen diese Information strukturiert erfassen, andere extrahieren diese Informationen vom Paper mittels Text-Mining. Für die Identifikation der Förderorganisationen, wird eine von Crossref gepflegte Liste von 21k Organisationen verwendet. Es gibt zurzeit Bestrebungen, dass Förderorganisationen für Grants ebenfalls einen DOI bei Crossref registrieren, und somit eine solidere Verknüpfung von Publikationen zu Grants möglich ist.

Zitationen / Referenzen

Die verwendete Literatur bzw. die verwendeten bibliografischen Quellen können bei Crossref registiert werden. Im Idealfall passiert das strukturiert mittels Verweis auf einen anderen DOI:

Aber auch wenn kein DOI existiert kann die Referenz ausgegeben werden:

Crossref berechnet dann für Angabe die Anzahl Zitationen innerhalb des Crossref-Korpus.

Welche Publikationen sich hinter dieser Anzahl verstecken ist (bislang) via Crossref direkt nur für den Verlag einsehbar, welcher den DOI registriert hat. Dennoch können Dritte, wie OpenCitations die Metadaten aller DOIs nutzen um einen offenen Index mit Zitation zu erstellen. Die „Initiative for Open Citations“ (I4OC) versucht Verlage zu überzeugen ihre Zitationsdaten bei Crossref verfügbar zu machen.

DOIs für Peer Reviews

Seit 2017 ermöglicht Crossref auch die separate Vergabe von DOIs für Artefakte des Peer Reviews (z.B. referee reports, decision letters, and author responses). In den Metadaten der Publikation wird dann auf diese Artifakte verwiesen.

Weitere DOI Agenturen: DataCite, mEDRA

Nun ist Crossref nicht die einzige Organisation die DOIs vergibt. Aktuell gibt es noch 7 weitere Agenturen, welche beispielsweise auch DOIs für Filme vergeben (z.B. Harry Potter). Um zu sehen, bei welcher Agentur ein DOI registriert ist, kann man auch die API von Crossref nutzen:

https://api.crossref.org/works/10.19218/3906897011/agency

Aus meiner persönlichen Erfahrung haben ca. 80% aller aktuellen wissenschaftlichen Publikationen einen DOI. 98% dieser DOIs werden bei Crossref registriert. Die restlichen 2% verteilen sich auf die beiden Agenturen DataCite und mEDRA.

DataCite

Auch wenn der Fokus von DataCite bei Forschungsdaten liegt, haben einige Mitglieder von DataCite angefangen auch DOIs für primäre wissenschaftliche Publikationen wie Journals zu vergeben. Dies ist zwar nicht falsch, allerdings können mit dem auf Daten ausgerichteten Metadatenschema von DataCite einige Eigenheiten (z.B. Bibliografische Angaben oder auch Referenzen) nicht oder nur mit dem Verlust von Semantik ausgedrückt werden. Die Metadaten sind auch über eine eigene API ähnlich zu der von Crossref verfügbar:

Inzwischen empfehlen Crossref und DataCite gemeinsam, dass Zeitschriftenartikel, Konferenz papers oder Preprints besser bei Crossref registriert werden sollten.

mEDRA

Einige wenige Verlage die vom traditionellen Buchhandel herkommen, registrieren ihre DOIs via mEDRA. Die Metadaten können unter folgender REST API als XML aufgerufen werden.

http://www.medra.org/servlet/rest/metadata/10.2376/0300-4112-79-16

mEDRA bietet inzwischen auch eine Weiterleitung an Crossref an, so dass die Metadaten auch via Crossref-API erhältlich sind (z.B. 10.3238/ARZTEBL.2018.0008A)

Crosscite

Um die spezifischen Metadaten der verschiedenen DOI Agenturen zu erhalten, ist es unumgänglich über das jeweils spezifische Metadatenschema zu gehen.

Für einfachere Anwendungen, wie beispielsweise ein Zitat in einem bestimmten Zitierstil oder BibTeX zu erhalten, haben Crossref, DataCite und mEDRA zusammengespannt und bieten unter crosscite.org eine gemeinsame Abfrage und Ausgabe an.

De facto Standard

Für primäre wissenschaftliche Publikationen (insbesondere Zeitschriftenartikel, Bücher und Buchkapitel) ist die Registrierung und das Abliefern von Metadaten bei Crossref inzwischen ein de facto Standard geworden. Die Vollständigkeit der Metadaten unterscheidet sich jedoch noch stark nach Verlag bzw. Herausgeber.

Vor kurzem hat Crossref ein Dashboard geschaffen, wo man für die über 14’000 Mitglieder sehen kann, wer welche Metadaten liefert.

Participation Report für ACS: https://www.crossref.org/members/prep/316
Werbeanzeigen

ROR – Die offene ID für Forschungsinstitutionen

Die seit längerem bekannten Bestrebungen, eine internationale und offene ID für Institutionen im Forschungsumfeld zu schaffen, sind in ROR (https://ror.org) gemündet.

Wer ist ROR

Hinter ROR stehen aktuell die vier Organisationen Crossref, DataCite, Digital Science und der California Digital Library. Besonders sichtbar nach aussen ist Maria Gould von der CDL.

Wie es sich zu einer richtigen offenen Initiative gehört ist tatsächlich vieles noch offen. So muss ein passendes Geschäftsmodell, eine Governance oder Prozesse zur Pflege der Daten erst noch definiert werden. Alle interessierten Personen und Institutionen sind dazu eingeladen mitzumachen und beizutragen.

Daten von GRID

Was hingegen schon klar ist, dass ROR initial auf den Daten von GRID von Digital Science basiert. Als erster Schritt wurden im Februar 2019 die 96’000 Organisationen von GRID in eine (minimum viable) Registry kopiert.

ROR Registry: https://ror.org/search

Die Daten sind ebenfalls lesend über eine API erhältlich, die zurzeit jedoch noch sehr spärlich dokumentiert ist. Ein statischer Export aller Daten auf Figshare ist in Vorbereitung.

Fokus Top-Level Affiliation Angabe

Ein typischer Use-Case von ROR ist die Erfassung der Affiliation bei Angaben zu Personen, was mit der aktuellen API bereits umgesetzt werden kann.

Affiliation Eingabe mit API-Lookup

Für die Erfassung und dem Bearbeiten von Organisationen ist ein Hybrid-Ansatz vorgesehen. Einerseits soll sich ein Team von ROR darum kümmern. Änderungen und Neuerfassungen sind aktuell an info@ror.org zu melden. Anderseits ist langfristig (anders als bei GRID) vorgesehen, dass Organisationen selber ihrer Daten bei ROR verwalten können.

Für den Moment ist der Fokus von ROR die Erfassung der Top-Level Organisationen. Bei einer Universität ist somit noch keine Erfassung von Fakultäten, Departement oder Institutionen vorgesehen. Diese Beschränkung ist mit dem Ziel von Reduzierung von Komplexität für den Beginn nachvollziehbar. Allerdings bleibt damit der Einsatz von ROR beschränkt und entfaltet damit kaum das Potential, welches gerade bei dem angestrebten selbstverwaltenden Ansatz möglich wäre.

Insbesondere sind viele dieser Daten bereits in einer oder der anderen Form vorhanden (z.B. GERiT für Deutschland).

Organization Identifiers

Das Problem von unterschiedlicher Schreibweise von wissenschaftlichen Institutionen ist insbesondere aus der Bibliometrie bekannt. Wenn Forschende bei einer Publikation ihre institutionelle Zugehörigkeit angegeben, ergeben sich häufig unterschiedliche Schreibweisen. Viele Hochschulen haben deshalb Richtlinen erlassen, wie die Zugehörigkeit angegeben werden soll.

Beispiel TU Graz:

Zwei Varianten des Universitätsnamens stehen bei der Angabe der Affiliation bei Publikationen und Forschungsprojekten zur Auswahl – eine englische und eine deutsche:

  • Graz University of Technology
    bzw.
  • Technische Universität Graz.

Die englische Variante der Affiliation ist generell der deutschen vorzuziehen, besonders wenn es sich um Publikationen in internationalen Medien handelt.

Akronyme (TU Graz, TUG etc.) und Abkürzungen (Graz Univ. Techn., Techn. Univ. Graz etc.) sind bei der Angabe der Affiliation bei Publikationen und Forschungsprojekten grundsätzlich unzulässig.

Beispiel Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU)

FAU - Empfehlungen für die standardisierte Angabe der Affiliation bei deutschund englischsprachigen Publikationen

Auch beim Funding Acknowledgement führen unterschiedliche Schreibweisen zu einer erschwerten Auswertung von Publikationsdatenbanken:

Inzwischen haben sich verschiedene Initiativen etabliert, welche mit einem eindeutigen Identifier Klarheit schaffen wollen. Besonders erwähnenswert sind Ringgold, GRID und Funding Data von CrossRef.

Ringgold

Ringgold bietet aktuell mit Abstand die grösste globale Abdeckung an Identifiers für Organisationen im wissenschaftlichen Umfeld.

Ringgold - Universität Bern

Ringgold Inhalt: Beispiel Universität Bern

Ringgold ist 2003 als Dienstleister für Subskriptions-Verlage entstanden, um deren Kundendaten zu harmonisieren. Inzwischen verwenden auch die weit verbreiteten Manuskript-Einreiche-Systeme Editorial Manager (Aries) und ScholarOne (Clarivate) die Daten von Ringgold um die Affiliation zu standardisieren.

Ebenfalls greift ORCID auf die proprietären Ringgold Daten zurück, wenn es beispielsweise darum geht Anstellungen zu erfassen:

ORCID-Universität Bern - Steuerrecht

ORCID: Auswahl für die Anstellung wird mit Ringgold Daten gefüttert.

Ringgold hat die Grunddaten der Organisationen via ISNI öffentlich gemacht. Weitere Informationen z.B. zur Hierarchie oder Typ bleiben jedoch nur kostenpflichtig zugänglich.

Global Research Identifier Database – GRID

GRID wurde von Digital Science für die Verwendung bei den eigenen Systemen wie Symplectic Elements, UberResearch Dimensions, Figshare oder Altmetric geschaffen. Die Daten stehen aber unter einer CC-0 Lizenz zu Verfügung. Nach eigener Aussage wurden in den letzten Jahren mehr als £2 Mio in GRID investiert.

Funding Data (Crossref)

Um die Funding Acknowledgements zu harmonisieren wurde 2012 bei Crossref das  FundRef gestartet. Elsevier stellte eine initiale Liste von Förderorganisationen zu Verfügung, die nun monatlich von CrossRef aktualisiert wird. Inzwischen sind 15’900 Organisationen auf dieser Liste. Jeder Organisation wurde ein DOI zugewiesen unter dem zusätzliche Namen, Akronyme und Hierarchien der Organisation verfügbar sind:

Viele Verlage (hier sieht man welche) geben die bei den Funding Acknowledgements aufgeführten Organisationen strukturiert als Organisations-DOI bei Crossref aus:

Crossref Funding Data.jpg

Links: Acknowledgement auf Publikation / Rechts: Funding Angaben via Crossref REST-API

Organization Identifier Working Group

In verschiedenen internationalen Workshops artikulierte sich das Bedürfnis nach einer einheitlichen und offenen Lösung für Organization Identifiers. Daraus bildete sich 2017 unter dem Lead von ORCID, Crossref & Datacite eine Working Group, welche zunächst eine Übersicht mit Vor und Nachteilen der vorhandenen Systeme zusammenstellte. Ebenso wurden Empfehlungen hinsichtlich Governance und Scope einer neuen Lösung vorgeschlagen. Ein wichtiges Merkmal ist beispielsweise die Empfehlung, dass Organisationen ihre Daten selber pflegen können. Ende Oktober wurde  basierend auf diesen Empfehlungen ein „Request for Information“ (RFI) veröffentlicht.

Im Januar 2018 fand dann in Spanien ein Stakeholder Meeting zur Organization ID statt, wo die eingetroffenen Antworten aus dem RFI präsentiert und diskutiert wurden.

RFI Response

Zusammenfassung der erhaltenen Antworten aus dem Request for Information

Das 26-seitige Dokument mit den erhaltenen Antworten bezeugt ein grosses Interesse an einer einheitlichen Organization ID von unterschiedlichen Perspektiven.

Es fällt auf, dass Ringgold kein Interesse anmeldet, um bei der offenem Lösung einen zentralen Part zu übernehmen. Obwohl eine solche Lösung das aktuelle Geschäftsmodell von Ringgold massiv konkurrenziert.

Digital Science ist da einiges offener, verweist aber auf die bisherigen Investitionen, bei denen man bei einer Partizipation das eigene Kosten-Nutzen Verhältnis gut abwägen muss:

Due to the nature of the Digital Science products and services, Digital Science will need to continue a GRID-like undertaking even if an open alternative is developed and maintained externally. Most of the reasons are around speed to changes to policies, flexibility and ability to accommodate client use cases and needs. This means that Digital Science will have to continue to invest resources in this area, an open alternative is not eliminating this need. But we see the possibility to do this as an additional layer on an open identifier system.

Crossref gibt mit einer sehr detaillierten Antwort klar zu erkennen, den Lead übernehmen zu wollen:

  • Crossref is interested in being a host for the new registry.
  • Crossref supports creating a joint venture non-profit collaboration of representative stakeholders to launch a registry. Crossref does not support creating a new entity (e.g. 501c3) at the start although this is something that could happen later.
  • Crossref is interested in participating in the governance of the new registry
  • Crossref can make significant resources available to help launch an independent registry.
  • Crossref is well placed to undertake the above based on current experience running its own services and infrastructure including the Open Funder Registry.
  • Crossref has developed an estimated expense budget and rationale for an independent registry that it is willing to share with the group of organizations that create the new joint venture collaboration.

ORCID und DataCite beschränken ihr Mitwirken auf die Unterstützung der Governance und letztlich der Verwendung in den eigenen Systemen.

Grosses Interesse signalisierte Publisher Solutions International mit ihrer IP-Registry, wo aktuell über 60’000 Bibliotheken und ihre IP-Ranges erfasst sind.

Auch von Bibliotheksseite gab es positive Rückmeldungen. Das Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (HBZ), die British Library, die California Digital Library und OCLC beschreiben ihre Erfahrungen mit der gemeinsamen Pflege von Normdaten und Identifers und interessieren sich diese Arbeit weiter auszubauen. Die BL und OCLC sind bereits stark bei ISNI involviert. ISNI selber hat sich auch noch explizit als Host anerboten.

Eine interessanten Input bezüglich Geschäftsmodell kommt von der Global Legal Entity Identifier Foundation (GLEIF), welche im Finanzbereich Identifier (z.B: 391200PHRPB1YWIPRE56) vergibt.

Ebenso bekunden weitere Stellen wie der Australian National Data Service (ANDS), die Foundation for Science and Technology, Portugal das Library and Information Centre, Hungarian Academy of Sciences, das European Directory of Marine Organisations EDMO, das Répertoire national des structures de recherche (RNSR) Interesse an einer internationalen Lösung und die Möglichkeit die aktuell lokal verwendeten Daten zu Verfügung zu stellen.

Die DFG verwies auf ihre Erfahrung bei der Erfassung und Verwaltung von 25’000 Organisationseinheiten von deutschen Hochschulen im Rahmen des Research Explorers. Da gibt es zurzeit etwa 6000 Änderungen und 1500 Neueinträge pro Jahr.

Nächste Schritte

Am Workshop wurde beschlossen, dass ORCID, DataCite und Crossref (als Interim Lead) im Austausch mit allen Interessierten ein Proposal vorbereiten, in dem die Partner, die Governance-Struktur, die juristischen Details sowie ein Memorandum of Understanding definiert werden.