SWIB11

SEMANTIC WEB
IN BIBLIOTHEKEN

ABSTRACTS

How Linking Changes the Role of Library Data: Examples from the Wider World / Thomas Baker

Discussion in the W3C Library Linked Data Incubator Group (2010-2011) tended to focus on the benefits of linked-data technology to libraries. This talk explores how library data - datasets, element sets, and value vocabularies - when linked, provide new forms of support to scholarly and cultural communities in the wider world. Well-maintained value vocabularies, their concepts identified by URI and backed by institutional persistence policies, can function as magnets, forming hubs of incoming links from thousands of providers. The global agricultural research community maintains a key thesaurus, AGROVOC, through an effort distributed across multiple language areas. Its linked data strategy aims at solutions that will work in low-resource and low-bandwidth conditions and at tools that can use natural-language processing to assign appropriate URIs and automate the "triplification" of existing data ("wrapping the legacy").

In the library world, the standards underpinning bibliographic description, such as ISBD, FRBR, FRAD, FRSAD, and RDA, are being translated into the language of linked data. Triplified standards provide building blocks for descriptive practice based not on fixed records, but on statements that can be differently recombined and bundled for diverse, even unanticipated, uses - aggregated "just in time" instead of being maintained "just in case". As for other artifacts of long-term cultural importance, libraries could play a key role in preserving the underlying vocabularies, ensuring their long-term usefulness as the "footnotes" of library data.

The High and Lows of Library Linked Data / Adrian Stevenson

This session will explore the progress of the UK JISC-funded LOCAH Project: Linked Open Copac and Archives Hub. The project is making records from the Archives Hub service and Copac service available as Linked Data. The Archives Hub is an aggregation of archival metadata from repositories across the UK; Copac provides access to the merged library catalogues of libraries throughout the UK, including all national libraries. In each case the aim is to provide Linked Data, so that we make our data interconnected with other data sets.

The presentation will cover aspects of data modelling, the selection of vocabularies and the design of URI patterns. It will examine options for enriching the data, to provide links to other datasets. A prototype visualisation will be shown, demonstrating how Linked Data can enable researchers to interrogate data in different ways. The presentation will conclude with a look at some of the main opportunities and barriers to the creation and use of Linked Data.

The presentation will address a number of the questions posed by SWIB, including: how to produce useful links to and between newly published datasets; where to find LOD applications which show the added value created by linking assets; the value of open licences to LOD-based infrastructures.

Cataloguers as the Ultimate Reasoning Machines - Training Cataloguers to Create Intelligent Linked Library data / Rurik Greenall

The linked library data umbrella covers many projects aimed at converting data from MARC and other traditional library formats using mapping processes and automated linking, however, at NTNU University Library we do original cataloguing directly in RDF and argue that there is a huge benefit to be had from intelligent, enrichment at source; this means that the cataloguers output information that far outstrips the kind of linking created using automated processes. In fact, this is one of the key reasons we commissioned the development of a system to help our cataloguers do this.

This presentation gives details of the training given to our cataloguers, the system we commissioned and the results demonstrated in our discovery platform for historical manuscripts.

Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen / Magnus Pfeffer

In einem laufenden Projekt untersuche ich gemeinsam mit Kai Eckert von der UB Mannheim und Studierenden an der Hochschule der Medien mögliche Anwendungsfälle für Ausleihdaten aus Bibliothekssystemen als Linked Data. Das erste Szenario ist der statistische Vergleich von (Teil-)Bibliotheken.

Hierbei muss die Beschreibung der Bibliotheken, ihres Bestanded und der Ausleihbedingungen als Vokabular modelliert werden. Dieses Vokabular und seine Semantik muss sich an den vorhandenen Standards und Empfehlungen für den statistischen Bibliotheksvergleich orientieren und sollte auf jeden Fall auch die Abbildung der DBS erlauben.

Das zweite Szenario ist die Aggregation von Ausleihinformationen auf Titelebene zur Analyse des Nutzerverhaltens. Als Anwendung steht dabei ein alternatives Ranking für das Retrieval im Vordergrund, das auf der Beliebtheit der Titel basiert. Grundsätzlichen wäre mit dieser Art Daten aber auch eine Anwendung für die Optimierung des eigenen Bestandes und des Bestandsaufbaus denkbar, die dann völlig unabhängig von der verwendeten Bibliothekssoftware und einer bestimmten Data Warehouse Lösung wäre.

Die Herausforderung bei der Modellierung des zweiten Szenarios sind die verschiedenen denkbaren Granularitäten, in denen die Daten aufbereitet werden. So ist es möglich, jeden einzelnen Ausleihvorgang zu modellieren und zu beschreiben. Dabei würden nahezu alle Informationen erhalten bleiben, die im Bibliothekssystem erfasst wurden. Für den Anwendungsfall im Retrieval wäre aber eine gröbere Abbildung, die die Daten auf Titelebene aggregiert, wünschenswert.

Derzeit entstehen die Datenmodelle für die genannten Szenarien und eine beispielhafte Abbildung von Echtdaten aus dem Bibliothekssystem der UB Mannheim. Wir werden die Modellierung und die Echtdaten im Laufe der nächsten Monate auf dem Linked Data Service der UB Mannheim bereitstellen.

Pragmatic Linked Data at the University of Southampton / Christopher Gutteridge

The University of Southampton is at the forefront of work in the semantic web and has produced various open and linked data sites and tools over the years (Blog). Now it has embarked on a project to make large amounts of the organisation's own data available as Linked Open Data, in a sustainable and useful way. Many parts of the University are involved including research, teaching, catering, finance, estates and transport. This has then been used to build a number of useful applications for the University staff, students and visitors. A very pragmatic approach has been taken, and rather than just publish the RDF, a website has been published over the top of the data which creates immediate value from data which was previously buried in spreadsheets. The focus has been on creating a agile, manageable and sustainable system rather than something perfect but brittle. The data comes from a mix of sources; various databases, 4 different EPrints repositories and a large number of google-docs spreadsheets, each maintained by the appropriate data owner (Example).

All the tools used to build the service are free open source software. We use a virutal machine running Ubuntu Linux, store our data in 4-store. The smaller datasets are edited using Google Spreadsheets. We prepare our data using OpenOrgGrinder (created by us but open source) which converts spreadsheets into RDF, XSLT and rapper. To provide useful views of our data we use ARC2 PHP library, Graphite PHP Library (created by us) and Google Maps. The public SPARQL endpoint sits in front of the real endpoint and adds extra features not available from 4store.

culturegraph.org - Aufbau eines Hubs für Linked Library Data / Markus Geipel, Adrian Pohl

Culturegraph.org ist ein Linked-Open-Data-Service, dessen Zielsetzung die einheitliche, verlässliche und persistente Referenzierbarkeit von kulturellen Erzeugnissen ist. Der Dienst wird zurzeit kooperativ von der Deutschen Nationalbibliothek (DNB) und dem Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz) mit Unterstützung der Arbeitsgemeinschaft der Verbundsysteme aufgebaut.

Zunehmend öffnen sich die Datenbanken von Verlagen, Bibliotheken und Bibliotheksverbünden dem Linked-Open-Data Konzept. Neben den Vorteilen und Perspektiven die diese Entwicklung mit sich bringt, wächst auch die Heterogenität der verwendeten Beschreibungen und Identifikatoren. Eine weitere Herausforderung ist das Erkennen von Datensätzen, welche die gleichen Ressourcen beschreiben, da es in den Katalogen - insbesondere für bibliographische Ressourcen - große Überschneidungen gibt. Schließlich gewinnen auch Normdaten an Bedeutung, insbesondere wenn Sie mit weiteren Datenquellen verknüpft werden.

Culturegraph.org adressiert diese Herausforderungen. Als offene Diensteplattform soll Culturegraph.org die Möglichkeit bieten Metadaten abzugleichen und Äquivalenzen zu berechnen. Die Ergebnisse werden frei verfügbar nach den Linked-Open-Data Standards angeboten. In weiteren Ausbaustufen sollen Normdaten hinzukommen und mit weiteren für Kultureinrichtungen relevanten Datenquellen verknüpft werden.

Linked-Data-based Web Services für die Wirtschaftswissenschaften / Joachim Neubert

Web Services mit relativ simplen Programmierschnittstellen bieten eine Chance, mit wenig Aufwand Datenbestände "on-the-fly" in eigene Applikationen einzubinden. Einfacher als bei Linked-Data-Veröffentlichungen, die der "reinen Lehre" (RDF, SPARQL) folgen, können solche Webservices in Web-2.0-Manier integriert werden. Den Bibliotheken insgesamt bietet das die Chance, ihre Daten - und hier speziell ihre Terminologie- und Normdaten - niedrigschwellig nachnutzbar zu machen. Ein Beispiel dafür sind Autosuggest-Services für Personennamen (und dahinter liegende Identitäten), ein anderes Vorschlagsdienste für Retrievalvokabular aus Thesauri, angereichert möglicherweise aus Mappings zu anderen Vokabularen. Durch die fachliche Zentrierung - in unserem Falle auf die Wirtschaftswissenschaften - wird zugleich die Relevanz der Vorschläge erhöht. Der Beitrag wird zum einen ein REST-orientiertes API beschreiben, zum anderen die LOD-basierte-Infrastruktur, die dahinter steht.

Ontologiegesteuerte wissenschaftliche Recherche mit RODIN / René Schneider, Fabio Ricci, Javier Belmonte

Das Projekt RODIN (= ROUe D'INformation), das seiner Definition nach ein anwendungsorientiertes Forschungsprojekt ist, hat das Ziel, im Rahmen von E-lib.ch eine alternative Portalidee zu realisieren, die die benutzerdefinierte Suche in heterogenen Informationsquellen erlaubt.

In RODIN werden letztlich zwei Suchstrategien miteinander verbunden: eine einfache aber benutzerdefinierte Meta-Suche über Widgets, sowie eine ontologiegesteuerte fortgeschrittene Suche, die auf bibliographischen und enzyklopädischen Ontologien im SKOS-Datenmodell beruht und auf den Resultaten der Meta-Suche aufbaut. RODIN versteht sich somit als Werkzeug für Informationsspezialisten und fortgeschrittene Benutzer im akademischen Kontext, die ein differenziertes und differenzierendes System zur explorativen Recherche benötigen, das ihnen als Komplement zu herkömmlichen Suchmaschinen dienen kann.

RODIN wird nach Ablauf der der ersten Projektphase (Ende 2011) zunächst in der während der Projektzeit entwickelten Form "out-of-the-box" als allgemeines Webportal zur Verfügung stehen, der Quell-Code wird auf einer Open-Source Plattform zum Download bereitgestellt. Darauf aufbauend kann die Software auf einzelne Informationsportale zugeschnitten werden ("customized version") und auf den Websites anderer Portale jene Widgets und Ontologien integrieren, die für den jeweiligen Forschungsbereich von Interesse sind.

Linked Data Light - Linkaggregation mit BEACON / Jakob Voß

Eine Einstiegshürde zum Bereitstellen und Nutzen von Links im Rahmen des Semantic Web besteht darin, dass die dazugehörige RDF-Technologien eine gewisse Einarbeitung erfordern. Gerade für kleinere Einrichtungen ist es oft mühsam, sich erst mit technischen Aspekten wie der Konfiguration von Webservern und Triple-Stores auseinanderzusetzen, wenn nur eine überschaubare Anzahl von Links publiziert werden sollen. Das im Rahmen der Wikipedia entwickelte BEACON-Format bietet hier eine einfache Alternative. Es soll gezeigt werden, wie und wo BEACON bereits verwendet wird, wann der Einsatz von BEACON sinnvoll ist und wie sich mit BEACON bereitgestellte Links in andere Linked-Data Anwendungen einpassen lassen.

Tipping the Sacred Cow: Thinking Beyond the Journal System / Herbert van de Sompel

More than a decade after the emergence of electronic journals, the Web-based scholarly communication system still strongly resembles its paper-based predecessor. The growing frustration with this status-quo is illustrated by three prominent events in 2011 alone aimed at bringing together thought leaders to reflect on an improved scholarly communication system that better leverages the technical and social capabilities offered by the networked environment: the Beyond the PDF meeting, the Dagstuhl Workshop on the Future of Research Communication , and the Microsoft Research Transforming Scholarly Communication Workshop . Meanwhile, glimpses of eminent changes can already be observed, including the emergence of a machine-actionable layer of scholarly communication in which semantic technologies play a significant role and the growing interest in "papers" that are more tightly integrated in the scholarly process and environment. Examples of these changes can mostly be characterized as experimental, and their eventual deployment may still take years. Meanwhile, there remain plenty of opportunities to introduce straightforward improvements aimed at better aligning scholarly communication with established Web practices.

Notes on Bibliographica / William Waites

Bibliographica was conceived as a project to annotate the relationships between scholarly works and their authors so as to create a semantic map of the history and evolution of discourse in particular domains. The first step towards this was to collect a large amount of ground data, that is bibliographic metadata about the works and authors in question. To this end we have assisted in the publication of linked data version of the British National Bibliography as well as scientific publications from the medline database, some 23 million individual works in all. We have also investigated several strategies for publishing and working with this data, particularly the suitability of using RDF databases to underpin web application frameworks such as Pylons. This presentation gives an overview of our experiences in this endeavour.

Enhanced Publications, Linked Data und Erfahrungen aus dem eco4r-Projekt / Wolfram Horstmann

Forschungsergebnisse stehen heute in verschiedensten Datenausprägungen (Texte, Software, Visualisierungen, Mikrodaten) mit unterschiedlichem Komplexitätsgrad hinsichtlich ihrer Strukturen und Modelle online zur Verfügung. Das bietet einen deutlichen Mehrwert im Bezug auf Transparenz und Wiederverwendung und einer verbesserten Metadatenqualität und Auffindbarkeit in (semantischen) Suchmaschinen.

Trotz vorhandener Modelle und Prototypen (z.B. Frameworks wie OAI-ORE, Ontologien für bibliographische Modelle), entstehen "Enhanced Publications" nicht per se. Sie erfordern einen Dokumentationsaufwand, der durch den Autor oder eine Service-Einrichtung wie der Bibliothek geleistet werden muss. Zusätzlich sind zuverlässige Linked Data Terminologiedienste für die Repräsentation der Publikationen und eine entsprechende Softwareunterstützung erforderlich.

Im eco4r-Projekt wurden in einem konkreten Anwendungsszenario (komplexe) Publikationen aus produktiven Repositories der Projektpartner aggregiert und visualisiert. Damit lassen sich die verteilt vorliegenden Publikationen unter neuen Kriterien zusammenstellen. Neben dem Austausch komplexer Informationseinheiten über Systemgrenzen hinweg, werden im Projekt auch Aspekte der Langzeitarchivierung betrachtet.

Der Vortrag beleuchtet die praktischen Ergebnisse des Projekts und hinterfragt gleichzeitig die Machbarkeit von "Enhanced Publications" für den produktiven Einsatz in der wissenschaftlichen Kommunikation.

Das LODUM Projekt: Transparente Forschung auf Basis von Linked Library Data / Carsten Keßler, Tomi Kauppinen, Umut Tas

Das Linked Open Data University of Münster (LODUM) Projekt zielt auf die Verbesserung der Sichtbarkeit und Transparenz der Universität unter Nutzung von Semantic Web Technologien ab. Hauptziel ist die Verbesserung der Zugänglichkeit von Forschungsergebnissen (Publikationen, Forschungsdaten, Modellen, Methoden und Software), um transparente und reproduzierbare Forschung zu gewährleisten. Dieser Linked Science Ansatz setzt auf einen verbesserten Austausch von Resultaten sowohl innerhalb als auch zwischen den verschiedenen Disziplinen. Dabei spielt die Publikation als nach wie vor vorherrschende Art der Dokumentation von Forschungsergebnissen eine zentrale Rolle. LODUM nutzt dabei Linked Data nicht nur als neuen Metadatenstandard für bilibograpische Daten, sondern strebt eine Verknüpfung der Publikation mit allen relevanten Daten und Modellen an. Durch Bereitstellung der Daten und Modelle in dereferenzierbarer, maschinenlesbarer Form soll so in Zukunft die Nachvollziehbarkeit von Forschungsergebnissen in Cloud-Umgebungen möglich werden.

Dokumentation des Forschungsprozesses in einer Bibliothek als Linked Data / Benjamin Zapilko, Brigitte Mathiak

Die Darlegung des gesamten Forschungsprozesses als Linked Data macht Zusammenhänge zwischen einzelnen Entitäten (Autoren, Publikationen, Forschungsprojekte, etc.) nicht nur explizit, sondern gibt ihnen auch eine semantische Information über den Zusammenhang selbst. In Bibliotheken kann der Einsatz von Linked Data Technologien eine Recherche über den gesamten Forschungsprozess ermöglichen, indem Verknüpfungen zu weiteren Informationstypen hergestellt werden, die nicht zwingend in der Bibliothek selbst dokumentiert werden. Historisch gesehen, werdenunterschiedliche Informationstypen oft nicht nur mit verschiedenen, nicht verknüpften Metadatenstandards dokumentiert, sondern auch physikalisch getrenntvoneinander gespeichert.Durch die Verwendung von Ontologien können diese Hürden der Datenintegration überwunden werden und originär nicht verbundene Daten semantisch miteinander vernetzt werden. Bei GESIS - Leibniz-Institut für Sozialwissenschaften wird der institutseigene Forschungsprozess bereits vollständig in der Bibliothek erfasst. Die prototypische Ergänzung um Linked Data Technologien soll dabei nicht nur technische und konzeptionelle Probleme der Datenintegration überwinden, sondern auch die Zusammenhänge innerhalb des Forschungsprozesses darlegen. Dazu wird die etablierte Ontologie SWRC (Semantic Web for Research Communities), die umfangreiche Forschungsprozesse abbildet, genutzt und um neue Verlinkungen zu weiteren etablierten Ontologien und Vokabularen ergänzt, um Interoperabilität im Sinne des Linked Data Gedanken zu anderen verfügbaren Daten zu gewährleisten.

What needs to happen in a scholarly publishing reform? / Björn Brembs

Scholarly publishing is fundamentally broken at essentially all levels starting with basic functionality and ranging to access, incentives, attribution, archiving, share/re-use and cost/benefit. What could be the feasible alternatives which would move scholarly publishing closer to a modern, IT-based system? A system which assists scientists in sorting, filtering and discovering relevant scientific findings? Which provides open access to tax-payer-funded research at a reasonable price? Which provides an incentive structure with an attribution system that benefits science and scientists rather than publishers and bureaucrats? I will argue that a natural candidate for developing such a system is the one institution on this planet which has centuries of experience in archiving and making accessible the literature and data of scientists: university libraries.

In addition to centuries of experience, many libraries in our digital age lack a sense of purpose or direction because of it. Creating a world-wide, peer-reviewed, open access, federated digital library of science is exactly the kind of task any modern university library should dream of taking part in. This digital utopia is exactly what scientists today are in desperate need of and libraries would be able to deliver.

The Open Citation Corpus and the SPAR Ontologies / David Shotton

The Open Citations Corpus is a database of approx. 6.3 million biomedical literature citations, harvested from the reference lists of all open access articles in PubMed Central. These contain references to approx. 3.4 million papers, which represent ~20% of all PubMed-listed papers published between 1950 and 2010, including all the most highly cited papers in every biomedical field. The Open Citations Corpus web site allows you to browse these bibliographic records and citations, to select an individual article, and to visualize its citation network in a variety of displays. Details of each selected reference, and the data and diagrams for its citation network, may be downloaded in a variety of formats, while the entire Open Citations Corpus can be downloaded in several formats including RDF and BibJSON. CiTO, FaBiO and other SPAR (Semantic Publishing and Referencing) Ontologies ontologies have been used to encode this information in RDF, after parsing the National Library of Medicine DTD XML obtained from PubMed Central, and after undertaking considerable work to remove the errors that exist in approximately 1% of the literature references. Further information about the Open Citation Corpus, the data processing, and the JISC Open Citations Project that supported this work, is given on the Open Citations Blog.