Man stelle sich vor, es gäbe keine Links im WWW. Oder noch besser: Wir packen linkfreie HTML-Dokumente in ein Zip-Archiv und bieten dieses zum Download an. Klingt total bescheuert? Ist es auch. Denn mit einem “World Wide Web” hat das dann nichts mehr zu tun.
Aber wie gehen wir eigentlich mit Daten um? Die Einsicht, dass Rohdaten in maschinenlesbarer Form veröffentlicht werden müssen breitet sich so langsam aus. Doch reicht das wirklich aus? Ist es in Ordnung CSV- oder XML-Dateien in ZIP-Archive zu packen und zum Download anzubieten, wie es zum Beispiel data.gov tut? Es ist ein Segen im Vergleich zum Vorgehen deutscher Behörden, die Daten in PDF-Dokumenten oder Flash-Anwendungen verstecken, oder sie ganz vom Internet fern halten. Aber es ist nicht so wie es sein sollte. Es ist genauso irrsinnig wie der oben beschriebene Umgang mit HTML-Dokumenten.
Wir brauchen keine Website von der man Daten herunterladen kann. Wir benötigen ein Web aus Daten. Die Daten selbst müssen zu einem weltweiten, grenzenlosen Netz werden. Niemand geringeres als der Erfinder des WWW, Tim Berners-Lee fordert eben dies übrigens schon seit 2006. Er beschreibt 4 Grundprinzipien für “Linked Data”:
- Use URIs as names for things
- Use HTTP URIs so that people can look up those names
- When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL)
- Include links to other URIs. so that they can discover more things
Die Regeln sind im Grunde genommen sehr einfach. Und doch verlangen sie ein grundlegendes Umdenken im Umgang mit Daten und dem Web insgesamt. Die erste Regel verlangt, dass wir URIs verwenden um Dinge zu benennen. Wir identifzieren bereits Webseiten über URIs – genauer: URLs – und auch die besagten ZIP-Paketen werden so identifiziert. Hier muss der erste Umdenkprozess ansetzen: Wir identifzieren nicht mehr nur Webseiten und Dateien über URIs, sondern alle möglichen Dinge. Der Begriff “Ding” beschränkt sich dabei nicht auf konkrete, physische Objekte sondern umfasst prinzipiell alles Exisitente oder Denkbare, auch Personen, Organisationen, abstrakte Konzepte, Themengebiete, Termine und ähnliches fallen darunter.
Die zweite Regel hat einen eher technischen Hintergrund. HTTP-URIs haben schlicht den Vorteil, dass sie über das Domain Name System auflösbar sind.1 Dies ist nötig um die dritte Regel zu erfüllen: Über die URI müssen nützliche Informationen über das identifzierte “Ding” abrufbar sein. Dass nur strukturierte Rohdaten in offenen Formaten wirklich nützlich sind, weiß jeder der die Open Data Principles verinnerlicht hat. Doch Berners-Lee fordert ausdrücklich Standards wie RDF und SPARQL.
Nie gehört? Womöglich, denn die meisten maschinenlesbaren Daten die im Web zu finden sind, liegen in Form von XML oder CSV vor. Ich werde an dieser Stelle zumindest kurz auf RDF eingehen. Wo liegt das Problem bei CSV? Wer das Problem nicht sieht, der werfe einen Blick auf diese Datei und beantworte folgende Fragen:
- Welche Daten sind in der Datei enthalten? Worum geht es?
- Was bedeutet ein einzelner Datensatz / eine Zeile dieser Datei?
- Was bedeutet der Wert in Spalte 3 (und den anderen Spalten)?
CSV-Dateien sind nur verwertbar, wenn die Bedeutung der Daten zwischen den Kommunikationspartnern (d.h. dem der die Daten bereitstellt und demjenigen der sie weiter verarbeitet) abgestimmt ist. Außerdem muss die Bedeutung in die Anwendungen, die die Daten nutzen wollen implementiert werden. Unterschiedliche Anwendungen und sogar unterschiedliche Versionen der gleichen Anwendung könnten die Daten völlig unterschiedlich interpretieren, da die Bedeutung der Daten aus ihnen selbst nicht hervorgeht.
1 Es gibt zum Beispiel Spezial-URIs für ISBN, die auf den ersten Blick hervorragend scheinen um Bücher zu identifzieren. Da diese aber nicht auflösbar (vereinfacht gesagt: über den Browser abrufbar) sind, sollte man sie für den Aufbau eines Webs aus Daten nicht verwenden, sondern sich auf die etablierten HTTP-URIs beschränken.























2 Comments
Sehr schöner Artikel.
Das Bild ist über https eingebunden und wird bei Leuten ohne CACert Root Certificate nicht angezeigt!
Danke. Ist gefixt :-)
3 Trackbacks
[...] Warum wir Daten verlinken müssen [...]
[...] Artikel ist zuerst im Blog des Open Data Network erschienen. Der Autor ist Angelo [...]
[...] [1] Eine gute Einführung in Linked Data bieten die zwei TED-Talks des Web-Erfinders Tim Berners-Lee. Von Ian Davis und Tom Heath gibt es auch einen “30 Minute Guide to RDF and Linked Data”. Deutschsprachige Einführungen sind meines Wissens bisher kaum existent. Kürzlich hat Angelo Veltens etwas zum Thema auf Deutsch publiziert:“Warum wir Daten verlinken müssen”. [...]