Viele Unternehmen kennen wohl das Problem: Ihre Server und Festplatten sind voller Daten, die unorganisiert und unstrukturiert vor sich hin schlummern und nicht weiter verarbeitet werden können. Mithilfe von Linked Data-Technologien werden aus diesen unstrukturierten Datensammlungen wertvolle Wissenssysteme. Aber welche Vorteile bringt Linked Data genau?

Der Linked Data Ansatz strebt die höchstmögliche technische und semantische Interoperabilität zwischen Datenbanken, Repositorien und anderen werthaltigen Informationsquellen an. Das erlaubt die kosteneffiziente Zusammenführung verteilt vorliegender Datensets, die Entwicklung von service-orientierten Produkten und ermöglicht eine Bewirtschaftung des digitalen Contents entlang der gesamten Wertschöpfungskette (Mitchell & Wilson 2012; Cranford 2009).

Vorteile von Linked Data

Die Vorteile von Linked Data gegenüber konventionellen Integrationstechnologien lassen sich laut Auer (2011) folgendermaßen beschreiben:

De-Referenzierbarkeit: Die Verwendung von URIs erlaubt nicht nur, Ressourcen im Web eindeutig zu identifizieren, sondern auch diese Ressourcen inklusive der angereicherten Zusatzinformation abzurufen.

Kohärenz: Die Verwendung von RDF (Resource Description Framework)  als universelles Datenmodell erlaubt die kohärente Vernetzung von Informationen aus unterschiedlichen Namensräumen und ermöglicht auf diese Weise die semantische Anreicherung von Information durch sogenannte typisierte Links.

Integrierbarkeit: Das normierte RDF-Datenmodell erlaubt – aus technischer Perspektive – die niedrigschwellige Integration von Informationen aus den vernetzten, dispers vorliegenden Datenquellen. Mittels Schema-Mapping (z.B. von RDF Vokabularien) und Instance Matching können in Folge semantisch hoch expressive Informationsbestände aggregiert und abgefragt werden.

Aktualität: Die Datenquellen und ihre Netzstruktur können aufgrund des geteilten Datenmodells leicht aktualisiert und veröffentlicht werden – ohne zusätzliche Integrationsaufwände oder Performanceverluste, wie sie üblicherweise bei konventionellen Extraktionsmaßnahmen oder Datentransformationen entstehen. Dies garantiert unter anderem eine hohe Aktualität der Daten und darauf aufbauender Dienste.

Beispiele: Wer nutzt Linked Data, und wie?

Als konkrete Manifestation des Linked Data Paradigmas lässt sich die seit 2007 stetig wachsende Linked Data Cloud, eine dezentrale und kollaborativ gewachsene Infrastruktur aus RDF-Daten, anführen. Diese Data Cloud umfasste mit Stand 2013 mehrere hundert Milliarden Fakten aus unterschiedlichsten Themenfeldern und mittlerweile tausenden Datenquellen (z.B.: datahub). Diese Daten sind vorwiegend offen lizenziert und werden bereits aktiv kommerziell genutzt.

Unternehmen und öffentliche Organisationen veröffentlichen ihre Datensets in der Linked Data Cloud und nutzen gleichzeitig deren Daten, um hauseigene Datenbestände anzureichern und Rich Content Anwendungen darauf aufzusetzen. Insbesondere Unternehmen aus der Pharma-Industrie (z.B. Roche, Merck, Elly Lilly) und der Medienbranche (z.B. BBC, NY Times, Reuters, Reed Elsevier, Wolters Kluwer, Pearson Publishing, Springer Verlag, ACM, Agence France Press, Google, Facebook) haben sich als Early Adopter von Linked Data Technologien hervorgetan.

Literatur:

  • Auer, Sören (2011). Creating Knowledge Out of Interlinked Data. In: Proceedings of WIMS’11, May 25-27, 2011, p. 1-8
  • Cranford, Steve (2009). Spinning a Data Web. In: Price Waterhouse Coopers (Ed.). Technology Forecast, Spring 2009. http://www.pwc.com/us/en/technology-forecast/spring2009/index.jhtml, aufgerufen am September 20, 2013
  • Mitchell, Ian; Wilson, Mark (2012). Linked Data. Connecting and exploiting big data. Fujitsu White Paper, March 2012. http://www.fujitsu.com/uk/Images/Linked-data-connecting-and-exploiting-big-data-%28v1.0%29.pdf, aufgerufen am  September 12, 2013