FLASH INFORMATIQUE FI



Publier ses données sous forme de Linked Open Data


Après des années de tâtonnements, le Web est enfin prêt à accueillir toute la richesse de vos données, et cela dans des formats ouverts et interopérables....



Welcome to the nascent Web of Data.


Philippe CAUDRE-MAUROUX


Quel format choisir pour publier ses données en ligne  ? Malgré l’engouement extraordinaire pour l’Open Data et le partage de données, le problème du choix du format se pose encore et toujours. Les formats antédiluviens ou semi-propriétaires (tels CSV ou Excel) sont bien sûr à proscrire, pour leur manque d’expressivité d’une part, et leur manque d’ouverture d’autre part. XML demeure un bon choix pour publier des documents. Il se révèle par contre peu pratique pour la publication de données brutes, de par la rigidité de ses schémas et la difficulté inhérente à mixer des éléments XML provenant de documents hétérogènes. JSON a le vent en poupe pour l’échange de données point à point, même si le format n’a jamais été prévu pour modéliser ou intégrer des données complexes.
La solution la plus prometteuse dans ce domaine est peut-être le LOD formalisme moderne et standardisé par l’organe faîtier du Web, le W3C.

L’émergence du Web des données

Tout commence en 2006 par une note publiée par Tim Berners-Lee promulguant une méthode de publication des données tirant partie de l’architecture du Web. Le créateur du Web met en avant quatre principes fondamentaux qui sont toujours à la base de la publication de Linked Open Data :

  1. utiliser des URI pour identifier les objets ou données à partager ;
  2. utiliser des URI HTTP afin que n’importe qui puisse déréférencer lesdites URI, par exemple en utilisant un navigateur Web ;
  3. fournir des informations structurées en RDF lorsque lesdites URI sont déréférencées ;
  4. et, finalement, inclure des liens vers d’autres URI similaires dans les informations ainsi fournies.

Le résultat de cette potion magique en quatre points  ? L’émergence d’un Web de données ouvertes et interconnectées, le LOD Cloud (fig. 1).

fig. 1 – Le LOD Cloud, où chaque noeud représente un jeu de données et chaque lien un ensemble d’interconnections entre deux jeux de données. En septembre 2011, le LOD Cloud comptait plus de 30 milliards de triples. Il croît aujourd’hui de manière exponentielle

De la BBC au New York Times en passant par les gouvernements américain ou britannique, un nombre toujours croissant d’acteurs choisissent LOD pour publier leurs données. L’avantage de cette approche tient en un mot : intégration. Alors qu’il faut souvent des semaines pour intégrer des données relationnelles ou XML hétérogènes, il suffit d’une requête SPARQL (l’équivalent LOD de SQL) pour intégrer des jeux de données LOD, quels que soient leurs schémas et leur provenance.

LOD : mode d’emploi

Le processus de publication commence bien sûr par la conversion de ses données en RDF. Plusieurs solutions sont envisageables pour accomplir cette tâche. D2R, par exemple, est une solution générique qui permet de transformer semi-automatiquement des bases de données relationnelles en RDF par le biais de mappings configurables. XML2RDF permet, lui, de convertir des documents XML. D’autres outils tels Protégé ou IWB fournissent des interfaces complètes pour éditer à la fois les données RDF et leurs schémas RDFS (RDF Schema) ou OWL.

Une fois les données transformées en RDF, il est de bon ton de les lier à d’autres données existantes sur le LOD Cloud afin de promouvoir l’interopérabilité des jeux de données (cf. point 4 ci-dessus). Ces liens peuvent être établis au niveau des schémas (en écrivant des correspondances entre le schéma de ses données et d’autres schémas ou ontologies), ou au niveau des données elles-mêmes, en les reliant à d’autres données LOD de manière semi-automatique (p. ex., en utilisant Silk ou en explorant des bases de données LOD comme DBpedia).
Reste finalement à publier les données ainsi obtenues. Là encore, plusieurs solutions sont possibles. La plus simple est sans doute de fournir un dump des données et de le référencer sur un catalogue en ligne (tel ckan). Une autre solution est de charger ses données dans une base de données RDF (comme Virtuoso, Owlim, ou une base de données classique supportant le RDF telle que DB2 ou Oracle) et de fournir une interface de requêtes (SPARQL end-point) afin que tout un chacun puisse directement interroger et intégrer ce nouveau jeu de données avec des données existantes, et ce de manière dynamique.
De nombreuses ressources sont disponibles en ligne pour vous aider dans cette démarche. Linkeddata.org est sans doute un bon point de départ pour explorer l’univers LOD. Le jeu en vaut-il la chandelle  ? D’après la Loi de Metcalf, l’utilité d’un réseau d’information est proportionnelle au carré du nombre de ses connexions. Alors, données liées ou données esseulées, le choix est peut-être moins cornélien qu’il n’y paraît.

NB : Philippe Cudré-Mauroux est Professeur FNS à l’Université de Fribourg. Il sera Program Committee Chair de l’International Semantic Web Conference 2012 qui se déroulera à Boston en novembre. Webpage





Glossaire

LOD (Linked Open Data) :
méthode de publication de données s’appuyant sur les technologies Web (URIs, liens, RDF) et promulguant l’interconnexion des jeux de données
OWL (Web Ontology Langage) :
supplante RDFS en permettant la définition de schémas de données complexes.
RDF (Resource Description Framework) :
pierre angulaire du Web sémantique et du LOD, RDF modélise les données sous forme de triples . , par exemple, encode le fait que phil_cm est le créateur du document paper182.
RDFS(RDF Schema) :
couche schéma de RDF, qui permet de spécifier le schéma de ses données RDF en définissant des hiérarchies de classes et de prédicats.
SPARQL :
langage de requêtes structuré, pendant de SQL pour les données RDF.
URI((Uniform Resource Identifier) :
courte chaîne de caractères identifiant une ressource sur un réseau physique ou abstraite, et dont la syntaxe respecte une norme d’Internet. Un URI doit permettre d’identifier une ressource de manière permanente, même si la ressource est déplacée ou supprimée. W

W = tiré de Wikipédia




Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.