FLASH INFORMATIQUE FI



Forme. signe et ... évasion

Vers une définition du document numérique


Objet de notre quotidien, le document nous paraît si évident qu’il ne semble pas nécessaire de le définir précisément. Et pourtant, l’exercice pourrait se révéler plus ardu qu’il n’y paraît. Information, donnée, texte, fichier, papier, article, feuille, ressource, image, courrier, etc. cette sélection de termes employés parfois comme synonymes ou pour désigner des objets similaires, nous montre à quel point l’objet document peut être complexe, et ce d’autant plus qu’il s’est trouvé enrichi, augmenté par le passage au numérique. Mais cette évolution, si elle lui a conféré une plus grande plasticité, a également induit, pour l’objet matériel que nous connaissions jusqu’ici, une perte de stabilité.



This paper presents a global approach to the concept of document which takes into account its digital evolution. It is a summary of a paper published in 2003 by Roger T. Pédauque, a multidisciplinary group of research scholars, which analyses the concept of document under three aspects : the document as a form (as a material or immaterial object), sign (as meaningful object) or medium (as communication vector).


Patricia PLAZA GRUBER


En 2003, dans un article intitulé Document : forme, signe et médium, les re-formulations du numérique[(PÉDAUQUE, Roger T. Document : forme, signe et médium, les re-formulations du numérique. Version 3. 8-07-2003. @rchiveSIC (2003) [sic_00000511 - version 1].)], un collectif de chercheurs transdisciplinaires, réunis sous le pseudonyme de de Roger T. Pédauque, se propose d’analyser la notion de document dans son passage au numérique et de le définir selon trois axes d’études :

  1. anthropologique (le document/forme comme objet à voir),
  2. cognitive (le document/texte comme objet à penser) et
  3. sociale (le document/relation comme objet à transmettre).

Les caractéristiques dégagées dans chaque axe sont vues comme des traits dominants de celui-ci. Elles n’excluent pas les caractéristiques mises en lumière par les autres approches, mais mettent en évidence plusieurs dimensions du document, perméables entre elles, et qui s’éclairent mutuellement.
Cet article se propose de présenter brièvement ces trois dimensions du document, illustrées par des propositions de définition, qui évoluent au gré des apports du numérique.

Le document comme forme

Ici le document est traité comme un objet, matériel ou immatériel. Le document est un objet ou une inscription dont on repère les frontières et que l’on peut directement percevoir, sans utiliser d’outil. Le support traditionnel dominant est le papier, la trace l’écriture, manuscrite ou imprimée.
Une première définition du document est ainsi posée par cette équation :

Document = support + inscription

La musique enregistrée, le cinéma puis l’audiovisuel ont introduit un premier changement, en rendant l’utilisation d’un outil nécessaire à la perception du contenu.
Le passage de l’analogique au numérique a fondamentalement modifié la notion de support en permettant de mêler texte, image, son et animation. La publication électronique a ensuite rendu possible la production à la demande d’un document (à l’écran ou sur papier), déplaçant l’attention initialement portée au support vers la publication elle-même.
Le passage au numérique a également induit des changements profonds au niveau de l’inscription. Dans le contexte numérique, celle-ci peut être rapprochée de la notion de codage utilisée en informatique et qui permet de manipuler, transporter des objets. Toujours dans ce contexte (et par analogie à la définition de programme informatique Programme = logiciel + données), la définition de document numérique peut être résumée ainsi :

Document numérique = structure + données

Comme on le sait, la structure peut énormément varier d’un document à l’autre, allant du très au très peu, voire pas, structuré. Deux courants de recherche analysent cette structuration. Le premier part de l’analogique pour aller vers le numérique, il concerne les procédés de dématérialisation des documents papier classiques, ou numérisation, qui se basent sur le traitement de l’image et la reconnaissance de formes. Le second courant fait le cheminement inverse : les documents sont reconstitués à partir d’algorithmes en remontant leur structure ou logique interne pour rendre le texte lisible à l’écran. Ces recherches ont débouché sur la bureautique, puis la publication électronique et ont trouvé une application à grande échelle avec la révolution du Web. À ce niveau, le Web peut être vu comme une infinité de documents reliés entre eux. Ces deux courants ont mis en évidence deux niveaux fondamentaux de structuration des documents :

  • la structure logique, c’est-à-dire la construction d’un document en parties et sous parties articulées entre elles, et dont l’élément de structure le plus bas est le texte ou le signal analogique (unifié sous différents formats : unicode, MPEG, ...)
  • la représentation formelle de la présentation avec la notion de balisage qui décrit la structure d’un document plutôt que ses caractéristiques physiques.

Le succès de la norme XML   mashups, et de ces dérivés, est probablement dû à la convergence de ces mouvements.
Ceci permet de modifier l’équation du document en y insérant ces nouvelles caractéristiques :

Document XML = Données structurées + mise en forme [1]

« Le numérique a déplacé la question du support du document, qui en assurait la stabilité grâce à la fixité de l’inscription, vers la problématique de sa structure (...). [E]n séparant de façon radicale la structure logique d’un texte de sa représentation visuelle, elle autorise des traitements formels différents pour un même contenu, à une échelle inédite ».

Pédauque, 2003

De cet axe, une première définition, partielle, du document est proposée :

« Un document numérique est un ensemble de données organisées selon une structure stable associée à des règles de mise en forme permettant une lisibilité partagée entre son concepteur et ses lecteurs »

Pédauque, 2003


OTLET Paul, Traité de documentation : le livre sur le livre, théorie et pratique. Bruxelles. Editions Mundaneum. 1934. 431 p.

Le document comme signe

Cet axe d’étude traite du document comme objet signifiant. Une définition du document traditionnel pourrait être exprimée par l’équation suivante :

Document = inscription + sens

Le support est devenu ici secondaire. L’importance est donnée au contenu porteur de sens et matérialisé par l’inscription. Ce sens se définit par rapport au contexte de production et de diffusion du document qui va conditionner son interprétation.
Trois idées-forces émergent de cette approche :

  1. La création : la mise en document est une manière pour nous d’appréhender ce qui nous entoure. En réalisant des documents, nous classons nos idées, organisons notre discours pour nous aider à penser le monde. La notion de genre textuel et de collection ici est fondamentale : les documents sont regroupés dans de grandes catégories dont les différents éléments sont en relation. Le classement varie selon les situations et les époques, il marque nos représentations sociales.
  2. L’interprétation : un document n’a de sens que s’il est lu ou interprété par un lecteur (au sens large), et cette interprétation dépend du contexte dans lequel elle se fait. Un même document pourra être compris de manière différente selon l’époque et la situation sociale ou individuelle du lecteur.
  3. Les signes : tout objet est potentiellement un signe et pourrait être un document. En ce sens, une carotte de glace, un échantillon de tissu, un animal dans un zoo, etc. [2], sont des documents, car ils sont décrits, classés et inventoriés dans un système de représentation. Mais la grande majorité des documents sont construits à partir du langage écrit ou parlé.

Ces trois idées ont permis l’invention des langages documentaires organisés de façon associative ou hiérarchique (références bibliographiques, index, thésaurus, résumés, etc.), conséquence de l’explosion documentaire qui s’est manifestée dès la fin XIXe siècle. Il a ainsi été possible de construire à partir des documents (ou des images ou des objets eux-mêmes) un langage formel permettant de les classer pour les retrouver à la demande.
Plus récemment, les outils de traitement automatique de la langue sont apparus, issus du travail commun d’informaticiens et de linguistes pour traiter une problématique similaire. Ils ont eu des résultats spectaculaires dans leur application au Web sous forme de moteurs. La démarche a consisté à isoler les éléments logiques pour les modéliser.
À la lumière de ces éléments, l’équation définissant un document pourrait être modifiée comme suit :

Document numérique = texte informé + connaissances

Texte informé signifiant que le texte (au sens large, y compris audio-visuel) pourrait être soumis à un traitement afin d’en repérer les unités d’information. Le remplacement de sens par connaissances introduit la notion de personnalisation pour un lecteur ou un usager donné.
L’arrivée du Web sémantique avec une structuration toujours plus formalisée des documents (XML) et l’insistance sur l’indexation (RDF   mashups) a encore modifié la portée de ces évolutions en introduisant les ontologies. Ce n’est plus tant un ensemble de fichiers reliés entre eux qui est visé, mais la constitution d’un réseau qui utilise pleinement les capacités de calcul des machines connectées pour le traitement sémantique des textes. Des métadonnées que l’on peut modéliser et combiner prennent alors toute leur valeur.
L’équation peut ainsi être complétée :

Document WS = texte informé + ontologies

Selon cet axe d’étude, une nouvelle définition, toujours partielle, du document peut être proposée :

« Un document numérique est un texte dont les éléments sont potentiellement analysables par un système de connaissance en vue de son exploitation par un lecteur compétent »

Pédauque, 2003

Document comme médium

Ici c’est la fonction sociale du document qui est analysée. Le document est principalement considéré comme vecteur d’un message entre des personnes.
Deux idées sous-tendent cette approche :

  1. Le document a pour fonction de prouver.
  2. Le document a pour fonction d’informer.

« Un document donne un statut à une information. Il est porté par un groupe social qui le suscite, le diffuse, le sauvegarde et l’utilise ».

Pédauque, 2003

C’est également un discours rattaché à son auteur par une signature. Il a donc une valeur d’évidence de l’activité (avec un sens plus large que la notion de preuve juridique) et une valeur d’information, de renseignement, de témoignage.
La définition suivante est avancée :

Document = inscription + légitimité

Les documents sont vus ici comme des outils de régularisation des sociétés humaines. Ils permettent de communiquer et de pérenniser les lois, normes et les informations nécessaires à leur fonctionnement. L’organisation politique et sociale s’appuie sur l’échange de documents.
Une économie interne du document s’est construite à partir des évolutions technologiques qui le constituent et des modalités de la mise en document. Mettre en document peut être vu comme un acte de communication entre un ou plusieurs expéditeurs et un ou plusieurs destinataires. La dynamique de cette mise en document est étudiée principalement selon deux axes : le premier s’intéresse à la communication organisationnelle et étudie les documents dans un processus de travail, le second analyse la communication des médias et s’intéresse au processus de publication.
Une nouvelle équation définissant le document est proposée :

Document numérique = texte + procédure

L’avènement du Web a de nouveau induit un changement d’échelle étendant le numérique à la société toute entière et permettant à tout un chacun d’être à la fois producteur et consommateur de documents. L’augmentation du nombre de documents ainsi mis à disposition ne permet plus de repérer, filtrer ces documents de la manière classique, c’est-à-dire a priori. Ceci doit plutôt se faire a posteriori, selon divers procédés qui tiennent comptent des liens pointant vers les documents eux-mêmes et des algorithmes des moteurs de recherche.
Une troisième équation est proposée, qui intègre cette importance prise par le Web :

Document Web = publication + accès repéré

Dans cette équation,

« la publication seule ne ferait plus la légitimité, il faudrait lui adjoindre la notoriété par le repérage de l’accès ».

Pédauque, 2003

Une troisième définition du document est avancée :

« Un document numérique est la trace de relations sociales reconstruites par les dispositifs informatiques ».

Pédauque, 2003

En conclusion

Dans chacun de ses axes, la notion de contrat de lecture est soulignée au travers de la lisibilité dans le premier, de la compréhension dans le second et de la sociabilité dans le troisième. Il est probable que dans ces trois dimensions s’incarne la notion moderne de document.

« Un document ne serait finalement qu’un contrat entre des hommes dont les qualités anthropologiques (lisibilité-perception), intellectuelles (compréhension-assimilation) et sociales (sociabilité-intégration) fonderaient une part de leur humanité, de leur capacité à vivre ensemble ».

Pédauque, 2003

Pour aller plus loin



Glossaire

RDF (Ressources Description Framework) :
modèle de métadonnées défini par le W3C.
XML (Extensible Markup Language) :
est un langage informatique de balisage générique qui dérive du SGML.W

W = tiré de Wikipédia

[1] En rappelant que stricto senso, la norme XML ne définit pas de mise en forme, celle-ci est définie par XSL.

[2] Voir également l’article de ERTZSCHEID, Olivier. L’homme est un document comme les autres : du World Wide Web au World Life Web. . [consultation 05.07.2012].



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.