FLASH INFORMATIQUE FI



La citation des données de recherche


Une citation pérenne grâce au système des digital object identifiers (DOI) et au consortium Datacite.



How to cite research data efficiently with the help of digital object identifiers (DOI) and the Datacite consortium.


Lionel WALTER


La problématique de la citation de sources numériques en ligne est bien connue [1]. Que ce soit des données primaires ou des données secondaires  le problème est identique. L’adresse URL est la solution de facilité, mais après quelques années, il est rare que celle-ci soit encore fonctionnelle. Alors, comment conforter l’apport indiscutable des liens hypertextes en garantissant leur pérennité  ?
Le concept de Digital Object Identifier (DOI) lancé en l’an 2000 par l’International DOI Foundation apporte une solution efficace à ce problème. Un DOI est une chaîne de caractères qui commence par 10. et contient un / (par exemple 10.1016/j.iheduc.2003.11.004). En ajoutant ce DOI à la suite de l’URL http://dx.doi.org on obtient une nouvelle URL http://dx.doi.org/10.1016/j.iheduc..... Celle-ci est par construction nettement plus pérenne que l’URL originale (dans ce cas précis http://www.sciencedirect.com/scienc..., URL qui sera amenée à changer à chaque fois que le service Sciencedirect sera renommé). Le système DOI enregistre chaque DOI ainsi que l’URL vers laquelle il doit être redirigé. Il vient d’être publié en tant que norme ISO [2].
Ce procédé est largement établi et utilisé notamment par plus de 3000 éditeurs, regroupés au sein du consortium CrossRef Plus de 54 millions de documents numériques ont à ce jour un DOI. Les fournisseurs d’information s’engagent au moment de l’enregistrement d’un DOI à maintenir son fonctionnement pérenne. À chaque migration de leur système informatique, fusion de plusieurs organisations ou changement de nom, l’URL associée à un DOI doit être mise à jour. De plus, lors de l’enregistrement de l’URL associée à un DOI, l’éditeur a la possibilité d’ajouter d’autres informations (comme le titre d’un article, ses auteurs...) dans un format structuré. L’énorme base de données ainsi créée est ensuite utilisable gratuitement par les bibliothèques pour améliorer leurs services. À l’EPFL, nous l’utilisons notamment dans le cadre de l’archive institutionnelle Infoscience ainsi que pour notre résolveur de liens SFX.
Depuis 2010, de nombreuses bibliothèques se sont réunies dans un autre consortium, appelé Datacite , qui leur permet d’attribuer des DOI. Comme le nom du consortium l’indique, le but premier de ce consortium est de fournir des DOI à des données primaires de la recherche qui seraient stockées, par exemple, dans les systèmes d’information des bibliothèques universitaires. La bibliothèque de l’EPFL, en collaboration avec l’EPFZ, a rejoint ce consortium. Elle est donc désormais à même d’attribuer des DOI à des documents ou données qui lui sont confiés par le biais d’Infoscience. Ce service est d’autant plus important pour les données primaires, car certaines ne seront probablement jamais publiées par des éditeurs scientifiques.
Une des premières applications concrètes de ce mécanisme porte sur les thèses. Toutes les thèses de l’EPFL ont désormais un DOI qui a la forme suivante 10.5075/epfl-thesis-40884088 est le numéro de la thèse. Ainsi, chaque doctorant peut citer sa thèse avec un lien pérenne vers le pdf dès qu’il connaît le numéro de sa thèse. Ce DOI sera d’ailleurs prochainement imprimé sur la page de couverture de la thèse. Les applications ultérieures de ce mécanisme concerneront probablement les données primaires. Mais de ce côté-là, rien n’est encore clairement établi. Quelles données doivent être conservées, dans quel format, pendant combien de temps  ? Quelles métadonnées doivent être associées à ces données  ? Quels sont les droits sur ces données, quelle licence utiliser  ? Au niveau de la citation, des questions se posent sur la granularité à adopter pour l’attribution des DOI. Attribue-t-on un DOI pour un ensemble de données, ou bien un DOI pour chaque sous-ensemble  ?
Votre bibliothèque suit l’état de l’art dans ces différents domaines, notamment par sa participation au consortium Datacite et au projet e-lib.ch qui a pour but de penser la bibliothèque numérique de demain au niveau suisse. N’hésitez pas à nous contacter en cas de questionnements !






Glossaire

CrossRef :
agence officielle d’enregistrement des DOI (digital object identifier) pour les éditeurs scientifiques.
données primaires :
résultats bruts d’expériences, mesures effectuées par des machines, relevés météorologiques,...
données secondaires :
documents décrivant et analysant des résultats obtenus, généralement basés sur des données primaires.


Article du FI-EPFL 2012 sous licence CC BY-SA 3.0 / L. Walter

[1] DELLAVALLE et al. Information Science : Going, Going, Gone : Lost Internet References. Science 2003 302 : 787-788 (doi:10.1126/science.1088234)

[2] Information et documentation - Système d’identifiant numérique d’objet, norme ISO 26324:2012:2012-05



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.