FLASH INFORMATIQUE FI



Échange, élaboration collective et conservation de documents : état des lieux et recommandations




Anne POSSOZ

Jean-Claude BERNEY

Jean-Daniel BONJOUR


Tu m’as envoyé une lettre que je ne peux pas lire ! C’est quoi ce .docx ? J’ai un problème pour lire ton annonce de conférence ! C’est quoi ce .odt ? Ton document ne s’imprime pas correctement ! Je n’arrive plus à ouvrir mes anciens documents ! Les enjeux de disposer de formats de documents ouverts pour la bureautique sont aujourd’hui une préoccupation majeure. Les administrations devant communiquer entre elles, mais aussi avec la population, décident de plus en plus de s’appuyer sur des normes officiellement reconnues. Par ailleurs, dans cette nouvelle ère numérique, la question de la pérennité des données devient cruciale. C’est ainsi que l’ISO [1] se voit sollicitée ces dernières années dans le domaine des formats de documents.
Le format le plus approprié pour un document donné dépend souvent du contexte (outil utilisé, fonctionnalités attendues ...). Après avoir passé en revue les différents aspects à prendre en compte, nous ferons quelques recommandations pragmatiques applicables à la situation cet été 2008. Selon l’évolution future de l’interopérabilité des outils et des formats, ces recommandations pourraient se simplifier.

Contexte

Quels documents ?

Il s’agira dans cet article de documents tels une lettre, un article, une feuille de calcul, une présentation pour une conférence, peut-être même une thèse. Ces documents font partie de ce que l’on appelle aujourd’hui la bureautique. Le son et la vidéo sortent du champ de réflexion du présent article.

Quel usage ?

Se poser la question des auteurs du document, de ses destinataires et de son utilisation à long terme est important pour le choix de l’outil de production et du format d’enregistrement. Les conditions sont différentes pour

  • un document personnel ou à divulguer ;
  • un auteur unique ou un groupe d’auteurs ;
  • un document à imprimer (comme s’il était écrit à la main) ou à distribuer sous forme informatique ;
  • un document statique ou évolutif dans le temps ou qui servira de modèle ;
  • un document à archiver ou non.

Quel outil ?

Les outils de bureautique utilisés aujourd’hui à l’EPFL sont principalement :

  • les suites Microsoft Office (2003 et 2007, parfois encore 97, sous Microsoft Windows ; et 2004 et 2008, sous Mac OSX [2]) ;
  • OpenOffice.org (OOo), logiciel libre sous licence LGPL, disponible pour les trois OS Windows, Mac et Linux ; il donne lieu à des versions dérivées : NeoOffice [3] sous Mac OSX (qui va tout bientôt perdre sa raison d’être, l’intégration Aqua étant disponible dès OOo v3, en version bêta au moment d’écrire cet article) et StarOffice [4], la version SUN ; les formats de documents de OOo et de ces deux dérivées sont strictement identiques ;
  • LaTeX, le plus ancien des trois, préféré par les mathématiciens et les physiciens pour ses qualités typographiques et la possibilité de composition de formules mathématiques complexes, sous licence libre LPPL [5] ; LaTeX existe pour les trois OS Windows, Mac et Linux.

Quel format ?

Le format d’un document, c’est la manière de représenter les données de ce document pour les stocker dans un fichier informatique. Il s’agit de stocker le fond (le contenu) et la forme (la mise en page).
On peut distinguer deux grandes classes de formats pour ces fichiers :

  • ceux qui favorisent l’interopérabilité, stockant les données sous forme lisible par un oeil humain : des balises précisent la structure et la forme (un peu comme pour le html) ; pour les documents, c’est principalement le XML [6] qui est utilisé ; le format TeX utilise un principe similaire aux balises ;
  • ceux qui accordent la priorité aux performances, sans soucis d’interopérabilité, stockant les données sous forme binaire ; le contenu n’est alors pas lisible par un oeil humain mais uniquement à l’aide d’un programme adapté ; tributaires de l’évolution de ces programmes et des sociétés qui les développent, ces formats posent beaucoup de problèmes à long terme.

Considérons ici les principaux formats liés aux outils mentionnés.

  • TeX : les données de LaTeX au format TeX (.tex) sont éditées comme du simple texte par l’auteur, qui inclut les commandes de mise en forme et de structuration (titre, légendes, index, bibliographie, etc.), puis celles-ci sont interprétées par le moteur TeX qui crée un document au format DVI (device independent, .dvi) pouvant être à son tour visualisé ou imprimé à l’aide de divers outils libres ; les fichiers .tex étant du texte ils peuvent être lus par d’autres outils et aisément convertis vers d’autres formes de documents (PDF, HTML, diapositives de présentations ...). Diverses revues scientifiques, de mathématiques, physique ou biologie, préfèrent ce format [7].
  • MS Office, jusqu’à Office 2003 inclus (.doc, .xls, .ppt) : ces formats sont de type binaire (données brutes, avec la mise en forme dans une zone particulière du document et qui fonctionne par pointeurs). Ce n’est que tout récemment (sous la pression de la concurrence et du public) que Microsoft a mis à disposition la documentation de ces formats [8]. Si des applications sont parvenues à importer ce type de format, c’est par méthode de reverse engineering (autorisé par la loi s’il s’agit d’interopérabilité ) mais qui ne peut pas garantir une fiabilité à 100%.
  • Les versions de MS Office pour Mac jusque Office 2004 utilisent ce même format.
  • ODF ou Open Document Format (.ods, .odt, .odp) : est le format de document natif de OpenOffice.org et de KOffice, structuré en XML et enregistré sous forme compressée (zip).

ODF, Open Document Format


L’histoire du format ODF remonte à StarOffice de Sun et OpenOffice.org, la version libre du même logiciel. Dès 2001, OpenOffice.org a commencé à utiliser XML pour les formats de ses documents. Quand les développeurs de KOffice, la suite office de KDE (environnement graphique libre) ont aussi voulu faire du XML, ils ont proposé de collaborer sur la définition d’une norme.
C’est ainsi qu’un groupe de travail technique de l’OASIS (Organization for the Advancement of Structured Information Standards) s’est créé spécifiquement pour les formats de document. L’OASIS regroupe de nombreux membres dont les plus connus sont Sun, IBM, Oracle, HP, Corel, Microsoft et Intel. A noter que Microsoft n’a pas souhaité participer au groupe de travail sus-mentionné. Lors de ses premiers pas, ODF suivait aussi l’évolution du tout jeune XML. Des versions préliminaires de ODF sont approuvées par l’OASIS en 2004, puis 2005. En mai 2005, ODF (v1.0) est approuvé comme norme OASIS.
En septembre 2005, l’OASIS soumet alors à l’ISO ODF v1.0 pour approbation (par la procédure fast-track). En mai 2006, ODF v1.0 est approuvé comme norme ISO/IEC 26300. Cette approbation par l’ISO a un impact car de plus en plus d’administrations, conscientes de l’importance de l’accès à long terme et pour tous, souhaitent n’utiliser que des standards ouverts, la reconnaissance d’une norme par l’ISO devant être une garantie.
L’interopérabilité devenue possible suite à la publication de cette norme, divers outils utilisent aujourd’hui ODF, soit comme format de base (OpenOffice.org, KOffice), soit comme format supporté (Google docs, IBM Lotus Symphony, Corel WordPerfect). Et tout récemment, fin mai 2007, Microsoft a annoncé que lors de la prochaine mise à jour de MS Office 2007, ODF v1.1 et PDF v1.5 seront supportés. Ce Service Pack 2 (SP2) est attendu d’ici mi-2009. Lors de cette même annonce, Microsoft a manifesté son intention de participer au développement des nouvelles versions de ODF. L’avenir nous dira si nous avançons ainsi vers l’interopérabilité ou si les rêves ne se réalisent pas toujours.

  • MS OOXML ou Microsoft Office Open XML (.docx, .xlsx, .pptx) : depuis la suite MS Office 2007, Microsoft utilise un format structuré en XML pour encoder les données. Ce format est aussi celui de la suite Office 2008 pour Mac OSX (voir encadré pour les appellations OOXML).

OOXML, Office Open XML


OOXML a été créé par Microsoft pour répondre à la forte pression de la concurrence (OpenOffice.org notamment), à l’intérêt pour le format ODF (normalisé) et aux demandes de plus en plus pressantes en matière d’interopérabilité des formats de documents.

Pour sa suite bureautique, Microsoft utilisait un format binaire, propriétaire et dont la documentation n’est disponible que depuis le 15 février 2008. Il s’agit du format des fichiers.doc,.xls et.ppt. Ce format était le standard de facto jusqu’à l’apparition du format ODF, reconnu comme norme ISO en 2006.

La demande d’interopérabilité a conduit Microsoft a produire un format basé sur XML, qu’il a nommé Office Open XML ou OOXML. Il a alors soumis ce format à l’Ecma qui l’a reconnu comme norme ECMA 376 le 7 décembre 2006. L’Ecma l’a alors soumis pour normalisation à l’ISO, fin 2006, par la voie fast-track, sous le label DIS 29500. Lors d’un premier vote, en septembre 2007, les membres ISO (il s’agit des National Body, NB) n’ont pas approuvé ce format sans qu’il soit revu et corrigé, vu ses nombreuses faiblesses et absence de cohérence avec d’autres normes ISO. L’Ecma, mandatée par l’ISO, a alors modifié le format pour une nouvelle consultation. C’est ainsi qu’en février 2008 a eu lieu à Genève un Ballot resolution meeting (BRM), réunion où se sont retrouvés les experts techniques afin de résoudre plus d’un millier de commentaires émis par les NB. Une semaine ne pouvant suffire pour cette consultation, un vote en bloc a eu lieu sur la majorité des commentaires. Un nouveau vote des membres de l’ISO a eu lieu fin mars et le 2 avril 2008, l’ISO a annoncé la norme officielle ISO/IEC 29500. Quatre pays ayant récemment déposé un recours contre les vices de forme de cette procédure, l’affaire n’est pas encore terminée.
Cette trajectoire tumultueuse risque de mener à confusion. Par OOXML, entend-on MS-OOXML, le format de MS Office 2007 ou Ecma-OOXML, la norme ECMA 376 ou ISO-OOXML, la norme ISO/IEC 29500 ? Dans cet article pragmatique, c’est le seul standard de facto de la suite MS Office 2007 qui est pris en compte.
Le 21 mai 2008, Microsoft a annoncé que ISO-OOXML ne serait pas implémenté avant la prochaine version de MS Office, sans donner de date. Il est piquant de voir que ODF (défini sans que Microsoft souhaite participer à son élaboration, mais cela pourrait changer) devrait donc être fonctionnel sous MS Office avant ISO-OOXML (issu de Microsoft) !

  • PDF, format de visualisation et d’impression : est aujourd’hui largement répandu ainsi que normalisé (ISO PDF/A). Sa spécificité est de préserver la mise en forme jusque dans les moindres détails et indépendamment de la plate-forme de lecture (en embarquant notamment dans le fichier les polices utilisées). Conserver un fichier .pdf revient à conserver une copie papier. Même si certaines applications (telles Illustrator ou Inkscape) permettent d’y apporter des modifications, ce n’est que de façon extrêmement limitée. Les outils de lecture du format PDF existent sur tous les systèmes. OpenOffice.org permet d’enregistrer directement ses documents au format PDF. Pour la suite Microsoft Office, il est possible d’installer un plugin qui permet la sauvegarde au format PDF.

Interopérabilité et pérennité

Pour travailler en collaboration, l’idéal serait que tous ces formats de document reposent sur une convention unique de ce que peut contenir un document. Ainsi, passer d’un format à un autre serait garanti. Ce n’est pas le cas aujourd’hui et si des outils tels que OpenOffice.org permettent d’importer et exporter des documents au format Microsoft Office binaire (.doc, etc.), l’utilisation dans des outils différents ne donnera pas exactement la même mise en page, et la structure en sera parfois même affectée (OpenOffice.org implémentant notamment des types de styles que MS Office ne connaît pas : styles de page, de cadre, de listes, etc.). La situation est encore plus complexe pour les feuilles de calcul. L’échange d’un document au format MS Office entre une version de MS Office Windows et Mac OSX pose aussi parfois quelques problèmes, et même entre différentes versions de MS Office sur la même plate-forme !
Un autre point important, concernant la mise en page, est de s’assurer d’avoir à disposition les mêmes polices de caractères pour tous les environnements.
À ce jour, il n’y a pas encore de bonnes solutions de conversion entre MS OOXML et ODF. Des plugins permettant de lire OOXML dans OpenOffice.org sont en chantier. Et Microsoft vient d’annoncer qu’ils supporteront le format ODF 1.1 dans la prochaine version de MS Office 2007 (SP2) qui devrait être disponible mi-2009.
Notons toutefois que pour des textes simples et avant la mise en forme finale, il est envisageable de travailler sur un document au format .doc, l’une utilisant OpenOffice.org et l’autre MS Office.
On se rend aussi compte que, pour pouvoir continuer à lire ses documents dans quelques années, il faut être prudent. Une sauvegarde au format PDF est sans doute la stratégie la plus fiable. Mais s’il s’agit de documents que l’on veut pouvoir continuer à modifier, il sera alors nécessaire de les rouvrir et de les réarchiver avec chaque nouvelle version d’outil logiciel. En principe deux versions consécutives permettent d’ouvrir un document de la version antérieure.
De son côté, si TeX n’est pas directement interopérable avec les autres formats de documents, il est par contre champion dans le domaine de la pérennité. Ce fait n’est pas le fruit du hasard puisque son créateur, Don Knuth, a délibérément figé TeX en 1989 et arrêté son développement futur précisément à cette fin.

Recommandations

Comme il s’agit d’un problème à multiples facettes, voici quelques grandes lignes à respecter. Commençons par ce qui est le plus simple et clair.

Documents statiques

Pour transmettre tout document qui ne doit pas être modifié par le destinataire, utiliser uniquement le format PDF (ou HTML). C’est en particulier vrai pour les documents mis à disposition sur le Web. Un archivage figé est aussi le mieux conservé au format PDF.

Rédaction en groupe

Si plusieurs personnes participent à la rédaction d’un même document un peu complexe, la seule garantie de fonctionnement parfait est de s’accorder dans le groupe à utiliser le même outil, et d’avoir à disposition les mêmes polices de caractères. Il est aussi important de sauvegarder le document dans le format natif de la suite bureautique choisie.

S’il s’agit d’un document simple et dont le contenu seul est écrit par plusieurs personnes, diverses solutions sont possibles. On peut utiliser un wiki ou s’échanger le document au format .doc de MS Office. L’enregistrement des modifications et leur acceptation fonctionnent bien entre MS Office et OpenOffice.org. Il est judicieux d’utiliser des polices de caractères courantes.

Archives

L’archivage de documents figés se fait en PDF. L’archivage de documents qui doivent pouvoir être réutilisés ultérieurement se fait de préférence dans le format natif de l’outil bureautique utilisé. Lors de la sortie d’une nouvelle version de l’outil concerné, il est largement conseillé de reprendre le document et de le sauvegarder à nouveau.

Documents personnels

Il est possible d’utiliser son outil préféré tout en ayant à l’esprit les exigences liées à la pérennité et à l’archivage.

Feuilles de calculs

La compatibilité de feuilles de calcul est toujours plus risquée, même si OpenOffice.org reprend aujourd’hui la très grande majorité des documents MS Office (.xls).
Les macros sont toujours un moyen fragile de travailler à long terme, et ceci même avec une suite de bureautique unique (cf. problèmes de migration de macros d’une version MS Office à l’autre). Les éditeurs de logiciels peuvent décider d’apporter des changements importants au langage des macros. Le passage de macros d’un outil à l’autre est plus délicat encore.

Illustrations

Rares sont les documents scientifiques qui ne contiennent pas des images, des figures, des équations, etc. (on parle de documents composites). La présence d’illustrations matricielles (bitmap ou raster, c’est-à-dire sous forme de points, comme des photos) ne pose désormais plus de problème lors de l’échange de documents entre plates-formes ou suites bureautiques différentes. Par contre, la modification des illustrations vectorisées (comme des figures et des équations) n’est aujourd’hui possible que si les auteurs, travaillant en collaboration sur un même document, s’accordent sur le choix des logiciels de dessins et d’élaboration d’équations. Les modules logiciels, intégrés dans les suites bureautiques MS Office et OpenOffice.org, ont acquis une grande maturité (nécessitant de moins en moins le recours à des logiciels externes), mais ne sont pas compatibles ! Retravailler des figures ou équations n’est donc aujourd’hui possible que si l’on utilise la même suite bureautique, d’où l’importance pour le groupe de se mettre d’accord sur les outils !
Dans le cas où l’on utilise des logiciels de dessin/équation spécifiques (externes à la suite bureautique), on rappelle à l’utilisateur l’importance de sauvegarder également ces objets au format natif, indépendamment du document dans lequel ils sont insérés.

Format / Outil bureautiqueTeXMS binaire ODFMS-OOXMLPDFSystème
LaTeXVVWindows, Mac, Linux
MicrosoftMS Office 2003VWindows
MS Office 2004VMac OSX
MS Office 2007Oannoncé Vvia pluginWindows
MS Office 2008OVvia pluginMac OSX
OpenOffice.orgOpenOffice.org 2import via addonOVV Windows, Mac, Linux
StarOfficeOVVWindows, Linux
NeoOffice 2OVVMac OSX
OpenOffice.org 3OVannoncéVWindows, Mac, Linux

Table 1 - Support de formats courants par des outils de bureautique

Convention : V : totalement supporté ;O : partiellement supporté (risques de pertes)

Et demain ?

Dans ce domaine en constante évolution, nous voyons certains aspects converger. La version de OpenOffice v3 pour Mac OSX, déjà en version beta, est maintenant basée Aqua. Ainsi, NeoOffice n’aura plus de raison d’être.
OpenOffice.org v3 devrait aussi permettre l’importation et l’édition de documents PDF/A ; cette fonctionnalité devrait être incluse dans la version finale annoncé pour septembre 2008 [9].
L’annonce de Microsoft d’inclure ODF dans MS Office 2007 (SP2, annoncé pour le premier semestre 2009) de même que l’exportation en PDF/A méritera toute notre attention.
Si, du point de vue commercial des vendeurs de logiciels, les formats multiples sont un avantage, il est évident que du point de vue des utilisateurs un format unique est de loin préférable, tant pour l’interopérabilité que pour l’utilisation à long terme.
Voudrez-vous encore relire des documents dans 10 ans ?
Pensez-vous encore pouvoir relire vos documents dans 10 ans ?

[1] Organisation internationale de standardisation

[2] La version 2004 de Mac OSX est le pendant de 2003 Windows et la version 2008 de Mac OSX celle de 2007.

[3] NeoOffice était une version de OOo v2 adaptée à l’environnement graphique natif de Mac OSX, Aqua, la version OOo v2 imposant l’utilisation de X11.

[4] StarOffice de SUN ajoute des compléments à OOo pour utilisation en entreprise.

[5] TeX a été créé en 1977 par le mathématicien et informaticien Donald Knuth qui voulait une bien meilleure qualité typographique que ce qui existait.

[6] XML : eXtensible Markup Language, est un langage de balise extensible

[7] Pour un tour d’horizon de revues biologiques

[8] Microsoft a finalement publié ses formats binaires le 15 février 2008

[9] Pour l’ensemble des nouveautés de OOo v3, voir ici



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.