arXiv & Open Access Text Mining

Nature berichtete gestern von einem Vorhaben, das exemplarisch Vorteile des offenen Zugangs zu Informationen beschreibt: Ein Team der Harvard University wird die ca. 740.000 Volltexte des Open Access Repositorys arXiv mittels Text Mining Methoden analysieren. Ziel ist es die Halbwertszeit wissenschaftlicher Begriffe und Konzepte, ihre Dissemination oder gar ihren Mem-Charakter zu erfassen, kurzum: Wissenschaftstrends zu kartographieren. Neben dieser eher szientometrischen Perspektive gibt es allerdings  die angewandte Perspektive des Retrievals: Die Auswertungen erlauben es auch, die relevantesten Publikationen zu einer spezifischen Thematik zu bestimmen. Das sogenannte Cultural Observatory Team der Harvard University hat bereits Erfahrungen mit Analysen dieser Art gesammelt als es mit ähnlichen Verfahren 5 Millionen Texte, die in Google Books indiziert waren, auswertete. Die arXiv-Implementierung verspricht allerdings bessere Usability: Dokumentempfehlungen innerhalb des Google Book Index sind von begrenztem Nutzen, schließlich ist ein Großteil des Materials nicht offen zugänglich. Davon abgesehen illustriert das Projekt den Vorteil der Zugänglichmachung von Informationen unter offenen Lizenzen: restriktive Nutzungsbedingungen, wie sie v.a. im Closed Access üblich sind, untersagen Text Mining.

Hinterlasse einen Kommentar