Unsere Welt ist voller Daten. Eine Information, die nicht mit anderen Daten verknüpft ist, ist jedoch wie ein Buch, das in keinem Bibliothekskatalog aufscheint: Im wachsenden Datenurwald, der um uns in die Höhe ragt, wird sie irgendwann nicht mehr gefunden. Die Lösung für dieses Problem heißt „Linked Data“: Damit werden im Netzjargon Daten bezeichnet, die untereinander vernetzt und nach internationalen Standards organisiert sind.

Sind denn nicht eh schon alle Daten vernetzt?

Nicht ganz. Im Regelfall werden Daten in Formaten wie HTML, CSV oder auch in Form von proprietären APIs bereitgestellt. Das birgt aber einige Probleme:

  • Die Integration zusätzlicher Quellen ist aufwendig
  • Veränderungen in der Datenbankstruktur gehen oftmals zu Lasten der Systemintegrität
  • Aktualisierungen der Datenbasis in Echtzeit sind meist nur unter hohen Aufwänden möglich

Ein dynamisches, hoch vernetztes Datensystem sieht anders aus. Hier kommt Linked Data ins Spiel: Daten, die in einem Standard-Format vorliegen und von Maschinen gelesen und verwaltet werden können. Ein Computer kann damit etwa die Bedeutung von Informationen oder die Beziehungen zwischen unterschiedlichen Datenätzen erkennen, leichter nach bestimmten Daten suchen und ähnliche Daten automatisch verknüpfen. Aus einem unstrukturierten Datenfriedhof werden wertvolle Wissenssammlungen.

Linked Data im Detail

Linked Data bedient sich sogenannter Semantic Web Standards um existierende Datenbestände hoch strukturiert aufzubereiten und plattformunabhängig für die Integration und Syndizierung bereitzustellen.  Hierbei werden Daten mittels des normierten Datenmodells RDF (Resource Description Framework, siehe W3C 2004) strukturiert und verfügbar gemacht. Die semantisch angereicherten Daten werden im konventionellen Sinne nicht relational sondern als Graph  repräsentiert. Sowohl die Knoten als auch die Kanten des Graphen sind über URIs (Uniform Resource Identifiers) eindeutig identifizierbar und referenzierbar. Dieser semantische RDF-Graph kann mittels der normierten Abfragesprache SPARQL (W3C 2008) feingranular und in hoher semantischer Tiefe abgefragt werden. Dies erlaubt die leichte Formulierung expressiver Datenbankabfragen, die mit konventionellen Mitteln entweder gar nicht oder nur mit hohen technischen und personellen Aufwänden machbar wären.

Die Idee von Linked Data geht übrigend auf Tim Berners-Lee, den Begründer des WWW, zurück. Seine Ausführungen zu Linked Data sind hier nachzulesen.

Literatur: