FLASH INFORMATIQUE FI

L’information indexée


Métadonnées et Dublin Core




François SCHMITT


La facilité avec laquelle les nouvelles technologies de l’information permettent aujourd’hui à tout un chacun de publier ses travaux sur Internet ne doit pas cependant laisser croire qu’il suffit de mettre à disposition sur un serveur tous nos documents et de leur attribuer des URL pour que le tour soit joué.

Un projet de publication électronique devrait en effet être mené avec un minimum de rigueur afin que les informations diffusées puissent être non seulement disponibles sur le long terme avec des URL stables, mais également exploitables grâce à une structuration concertée des données. Ceci pour garantir le repérage, l’analyse et la récupération des documents par les moteurs d’indexation et, bien sûr, par les internautes.

Pour ce faire, il est conseillé de joindre à tout document ou fichier électronique une carte d’identité dans laquelle seront recensés les paramètres essentiels à son identification et au traçage de l’information qui y est contenue. Ces informations sur les ressources documentaires sont appelées des métadonnées (du grec meta : second, au-delà, de nature plus élevée et fondamentale) et forment un ensemble structuré d’informations décrivant une ressource qui soit l’accompagne, soit y est directement intégré (encapsulage). Ces informations sur l’information se retrouvent, par exemple, dans les notices bibliographiques des catalogues de bibliothèques qui nous renseignent sur la nature de l’information contenue dans le document catalogué et se traduisent par des données univoques telles que l’auteur, le titre, le sujet, etc., facilement identifiables par l’utilisateur.

Les Bibliothèques fortes de leur expérience dans le traitement de l’information ont désiré apporter à la communauté Internet leur savoir-faire dans ce domaine en proposant une indexation plus fine que celle déjà générée par les balises des documents html, mais il n’était pas question de proposer à des non-spécialistes une structuration aussi développée et complexe que, par exemple, le format MARC21 qui est utilisé pour le catalogage professionnel. Cela aurait été un frein au but visé : un emploi simple, souple et le plus largement répandu possible.

Ainsi, un standard de métadonnées consensuel a été développé depuis 1995 en collaboration entre l’OCLC (Online Computer Library Center) et le NCSA (National Center for Supercomputing Applications) à Dublin (Ohio). Ce standard est appelé le Dublin Core, core utilisé pour signifier ici l’aspect central, le noyau des métadonnées minimales sans lesquelles l’information ne peut pas être considérée comme exploitable.

Le Dublin Core se veut international et extensible. Il cherche à couvrir les besoins des disciplines spécialisées dans la gestion de l’information. Depuis 2003, il est devenu une norme ISO et présente un intérêt certain de par sa simplicité et son applicabilité dans tous les formats de fichiers (utilisable avec HTML et XML). Le standard DC est en outre le format minimum de l’Open Archives Initiatives (OAI) qui permet, via l’interopérabilité des serveurs, l’exposition et la récolte de métadonnées.

Structure du Dublin Core :

Le DC est formé de 15 éléments optionnels, répétables et pouvant apparaître sans ordre. Ces éléments peuvent être répartis en 3 groupes :

1. Contenu

 Titre / Title
 Sujet / Subject [i.e. mots-clés]
 Description [i.e. résumé]
 Source [i.e. référence originelle]
 Langue / Language
 Relation [i.e. autre(s) source(s) en rapport]
 Couverture / Coverage [i.e. spécification spatio- temporelle]

2. Propriété intellectuelle

 Créateur / Creator [i.e. auteur]
 Editeur / Publisher
 Contributeur / Contributor
 Droits / Rights

3. Administratif (Instanciation)

 Date
 Type
 Format
 Identifiant / Identifier

(http://www.unige.ch/cyberdocuments/theses2002/FerrerAlconM/meta.html

Application pratique

L’élaboration d’une granularité de l’information est particulièrement efficace lorsque l’on doit traiter une collection de documents dont la forme reste plus ou moins constante comme, par exemple, une collection de thèses qui, quel que soit leur contenu, présentent des caractéristiques formelles identiques répétables. Préparer une grille de saisie avec des éléments choisis selon la profondeur de l’information souhaitée offre une gestion simple et cohérente pour l’ensemble des objets qui viendront enrichir la collection.

Voici une illustration des métadonnées retenues dans le cadre du projet des thèses électroniques de l’Université de Genève qui a choisi d’ajouter des éléments supplémentaires hors Dublin Core (directeur de thèse, etc.), mais qui présentent un ensemble homogène et structuré permettant une identification aisée et une qualité d’information optimum pour ces documents académiques.

Et à l’EPFL ?

La Bibliothèque centrale a inauguré en mars 2003 la mise à disposition des thèses sous forme électronique via son catalogue des thèses (http://library.epfl.ch/theses/) dont les notices reprendront d’ici la fin de l’année les données du Dublin Core en conformité avec les prescriptions du projet international Cyberthèses. Les docteurs et les doctoresses pourront directement saisir ou compléter ces données (attribuer par exemple des mots-clés) grâce à un formulaire en ligne qui permettra aussi l’échange d’information avec d’autres serveurs, notamment dans le cadre du projet E-Helvetica de la Bibliothèque nationale suisse (http://www.e-helvetica.admin.ch/).

Pour en savoir plus :

Sites

Dublin Core : http://www.dublincore.org/

OCLC : http://www.oclc.org/home/

NCSA : http://www.ncsa.uiuc.edu/

OAI : http://www.openarchives.org/documents/FAQ.html

Norme ISO 15836:2003 : http://www.niso.org/international/SC4/n515.pdf

Guide d’utilisation du Dublin Core

en anglais : http://dublincore.org/documents/usageguide/

en français : http://www.bibl.ulaval.ca/DublinCore/usageguide-20000716fr.htm

Eléments du Dublin Core

en anglais : http://dublincore.org/documents/dces/

en français : http://www-rocq.inria.fr/ vercoust/METADATA/DC-fr.1.1.html

Dublin Core en HTML : http://www.ietf.org/rfc/rfc2731.txt



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013. Vous désirez recevoir la clé USB contenant tous les numéros, inscrivez-vous avec le formulaire inform.epfl.ch pour la recevoir.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.