FLASH INFORMATIQUE FI



IM2.DI, intégration de documents dans des archives multimédias de réunions




Denis LALANNE

Didier VON ROTZ

Rolf INGOLD


Introduction

Le projet IM2.DI, mené au sein du groupe DIVA/DIUF de l’Université de Fribourg, s’insère dans le pôle de Recherche National sur la gestion interactive et multimodale des systèmes d’information (IM2), dirigé par l’Institut Dalle Molle d’Intelligence Artificielle Perceptive (IDIAP) à Martigny. L’objectif principal du projet IM2.DI est l’intégration des documents dans des applications multimodales en mettant en correspondance différents types de documents statiques (articles scientifiques, journaux, diaporamas, etc.) avec des enregistrements audio/vidéo de réunions, de conférences ou de cours. Par exemple, les différents types de documents statiques utilisés au cours d’une réunion, distribués sous la forme de papier ou projetés sur un écran, seront analysés et comparés aux données audio/vidéo afin de relier entre elles toutes les modalités. En d’autres termes, le but principal de IM2.DI est d’établir des liens entre des documents non-temporels et d’autres medias temporels. La création de ces liens temporels devrait permettre de temporaliser les documents statiques et donc d’utiliser ce médium, hautement thématique et structuré, facilement indexable, comme interface d’accès à des données multimédias. Citons à titre d’exemple, les archives multimédias de conférences (voir projet SMAC en collaboration avec le CERN et l’École d’Ingénieurs de Fribourg) dans lesquelles il devient courant de trouver pour chaque article sa forme numérique au format PDF, le diaporama correspondant et enfin un enregistrement audio/vidéo de la présentation de l’article par l’auteur. La création de liens document/image et document/parole permettra de lier temporellement tous les documents, aussi bien statiques (article PDF) que multimédias (présentation PPT et enregistrement audio/vidéo), et d’utiliser les documents statiques comme interfaces d’accès à des données multimédias.

Documents statiques et analyse de réunions

Les recherches en informatique connaissent actuellement un engouement important pour l’enregistrement et l’analyse de réunions, principalement car les réunions sont hautement multimodales ce qui sera une caractéristique essentielle des systèmes de communication de demain. Cependant, aucune de ces recherches sur l’analyse de réunions ne prend en compte les documents statiques traditionnels, c.-à-d. qui peuvent être imprimés (p. ex. journaux, articles scientifiques, rapports, etc.), qui sont pourtant une partie intégrante de la grande majorité des réunions (Lalanne et al., 2005). Nous proposons dans ce projet d’analyser les documents statiques en liaison avec des réunions et de considérer conjointement a) les liens linguistiques entre leur contenu et la transcription de la parole ainsi que b) leurs similarités graphiques avec des enregistrements vidéo. La construction de ces liens devrait ainsi aboutir à un alignement complet entre les documents statiques et des données temporelles et devrait permettre de (a) produire semi automatiquement des procès verbaux multimédias, sorte de comptes-rendus interactifs et (b) construire des interfaces qui utilisent les documents statiques comme vecteurs thématiques et structurés pour naviguer sur des archives de réunions. Nous pensons que ces liens faciliteront notablement l’accès aux enregistrements de réunions, ainsi que la navigation et la recherche à travers des corpus multimédias. Dans la suite de cet article, nous présentons une application qui permet d’enregistrer des réunions, de les archiver et de les indexer.

Enregistrement de réunions

JPEG - 7.5 ko
fig. 1
L’environnement d’enregistrement de réunions installé à l’université de Fribourg

Un environnement d’enregistrement de réunions a été mis en place dans notre laboratoire, en collaboration avec l’École d’Ingénieurs et d’Architectes de Fribourg. Cet environnement capture aussi bien des données audio et vidéo, pour chacun des participants à la réunion, que les documents statiques qui sont projetés, discutés ou simplement présents sur la table durant la réunion. L’équipement a été installé dans une salle de réunion existante, et permet d’enregistrer jusqu’à 8 participants en gros plan. La salle enregistre plusieurs modalités liées aux documents grâce à une douzaine de caméras et huit microphones. Ces périphériques, ainsi qu’un projecteur vidéo, sont connectés à différents ordinateurs personnels, contrôlés et synchronisés par un ordinateur maître. Sur ce dernier, une application ergonomique, dédiée à la capture de réunions, permet de spécifier les sièges, correspondant à un couple caméra/microphone, qui doivent être enregistrés, les périphériques qui doivent être actifs et de nombreuses autres options de contrôle. Une fois l’enregistrement terminé, l’application gère de plus tous les posttraitements (p. ex. compressions, analyses, etc.) ainsi que l’archivage des réunions sur un serveur de fichiers.

Analyse de documents

Dans la plupart des moteurs de recherche et des systèmes de recherche d’information, la structure multicouches des documents, i.e. structures physique, logique, thématique et temporelle, n’est pas prise en compte, et les documents sont indexés au mieux par leur structure thématique ou simplement par un ensemble de mots. La structure physique désigne la segmentation d’un document en zones homogènes, partageant les mêmes propriétés typographiques ou graphiques. La structure logique regroupe ces blocs physiques en entités logiques, p. ex. un titre, un article, un auteur, etc., et organise le document sous la forme d’une hiérarchie de blocs logiques. La structure thématique ne travaille que sur le contenu textuel et correspond à une segmentation en blocs sémantiquement homogènes, i.e. des thèmes. Enfin, la structure temporelle considère toutes les opérations effectuées sur un document afin de le temporaliser, par exemple une modification, la projection de ses parties lors d’un diaporama, des interactions gestuelles, etc. Nous pensons que cette représentation multicouche des documents peut améliorer considérablement (a) l’indexation et la recherche de documents et (b) leurs associations avec d’autres médias, comme c’est le cas dans l’enregistrement et l’analyse de réunions, où l’extraction des structures physiques, logiques et thématiques permet de lier les documents avec la transcription de la parole et avec l’image des documents dans les enregistrements vidéo de la réunion.

Le PDF est devenu le format pivot pour échanger des documents statiques, principalement car il préserve la mise en page et pour cette raison, notre équipe DIVA a implémenté un outil, Xed, qui permet d’extraire les structures physique et logique d’un document PDF. Il suit une approche hybride qui consiste à fusionner (a) des méthodes d’extraction de bas niveau, basées sur la forme électronique du document, à (b) des méthodes d’analyse d’image du document. À première vue, il serait plus naturel d’extraire la structure physique directement à partir du fichier PDF, en se servant de sa structuration interne. Notre expérience nous a toutefois montré que les informations structurelles ne sont pas toujours fiables. Dans des documents multi-colonnes, l’ordre d’apparition des blocs de texte ne reflète en général pas l’ordre de lecture. Pire, il arrive que des portions de phrase ou des mots isolés n’apparaissent pas dans leur contexte, mais de manière isolée à la fin d’un fichier, en fonction, selon nous, de l’historique d’édition du document et des logiciels qui ont servi à le produire. L’analyse à partir de l’image TIFF présente pour nous l’avantage de considérer une représentation quasi universelle.

Alignement entre des documents statiques et des données temporelles

Afin de naviguer sur des archives multimédias au travers des documents, il est tout d’abord nécessaire de construire des liens entre les documents statiques et d’autres médias, qui sont eux temporels, tels que l’audio ou la vidéo (Lalanne et Ingold, 2005). Nous appelons alignement temporel des documents l’opération qui consiste à extraire les relations entre des portions de documents, à différents niveaux de granularité, et le temps de présentation dans la réunion (fig. 2).

JPEG - 8.3 ko
fig. 2
L’alignement temporel de documents crée des liens entre des extraits de documents et les intervalles de temps dans lesquels ils étaient soit (a) dans le discours, soit (b) dans le champ visuel, soit (c) dans le champ de l’interaction gestuelle d’une réunion.

L’alignement temporel de documents crée des liens entre des extraits de documents et les intervalles de temps dans lesquels ils étaient soit (a) dans le discours, soit (b) dans le champ visuel, soit (c) dans le champ de l’interaction gestuelle d’une réunion. Il est donc possible de mettre en correspondance des extraits de documents avec des extraits audio et vidéo, et par extension avec des annotations de la parole, de la vidéo et/ou des gestes. Nous avons identifié trois modalités qui peuvent être associées et alignées temporellement avec les documents :

  • La parole : le contenu textuel des documents est comparé avec la transcription de la parole, qui renferme des index temporels pour chaque tour de parole des interlocuteurs et pour chaque énoncé de parole. Les tours de parole sont des monologues, i.e. des segments du dialogue où un seul interlocuteur s’exprime, divisés en énoncés de parole. Un énoncé de parole est une partie cohérente d’un monologue à laquelle peut être associé un acte de dialogue tel qu’une question, une prise de parole, un désaccord, etc. L’alignement document/parole permettra de savoir : quand fut discuté un document ? et qu’est-ce qui a été dit à propos d’un document ?
  • La vidéo et l’image : les documents électroniques sont comparés aux images extraites des enregistrements vidéo de documents (p. ex. la vidéo des diaporamas projetée sur un écran) afin d’identifier les différents documents visibles dans les vidéos et d’associer aux documents concernés des index temporels liés à leurs périodes d’apparition dans le champ visuel des participants. Cet alignement vise la résolution de trois types de questions : (1) à quel moment un document était-il dans le champ visuel des participants ? (2) de quel document s’agissait-il ? (3) quel était le contenu de ce document ?
  • Les gestes : les interactions gestuelles avec des documents sont capturées et analysées (p. ex., pointer du doigt un document projeté sur un écran) afin d’en déduire à quel moment et quelle partie de document était dans le champ d’interaction gestuelle des participants. Nous n’avons pas encore démarré de travaux sur l’interaction gestuelle avec des documents et ce sujet n’a été que très peu traité jusqu’à maintenant, et devrait aboutir à des applications temps réel utilisant les documents papier comme moyen d’accéder à des données numériques et multimédias.

Une interface de navigation basée sur les documents statiques

Un prototype d’interface utilisant les documents statiques comme outil d’interaction, et permettant de naviguer sur des archives multimédias de réunions a été implémenté par notre groupe. D’abord, l’outil permet de faire une recherche thématique en utilisant un ensemble de mots-clefs et les articles les plus pertinents sont retournés par le système et organisés spatialement selon les mots-clefs spécifiés. Ce navigateur cross-réunions permet de visualiser rapidement un grand nombre d’articles, ainsi que leurs liens ; il favorise une navigation thématique sur l’ensemble des réunions, en utilisant comme points d’accès non seulement le contenu de la transcription des réunions, mais aussi le contenu des documents discutés ou visionnés durant les réunions.

Lorsque l’utilisateur choisit un article ou un journal, l’enregistrement de la réunion correspondante est ouvert à l’instant où l’article ou le journal est discuté, ainsi que toutes les données liées à cette réunion, telles que les séquences audio/vidéo de chaque participant, la transcription des dialogues, les documents et diaporamas de la réunion, ainsi que toutes les annotations liées à ces données. Toutes ces données sont synchronisées, ce qui signifie qu’elles ont toutes la même référence temporelle : le temps de la réunion. Lorsque l’utilisateur clique sur l’une des représentations visuelles de ces données, tous les autres composants se synchronisent, i.e. se positionnent au même moment dans la réunion, et affichent leur contenu à cet instant. Par exemple, cliquer sur un article d’un document place les séquences audio/vidéo à l’instant où l’article était discuté, positionne la transcription au même instant et affiche le document qui était projeté. Ces liens visuels sont une illustration directe des alignements documents/parole et documents/vidéo présentés plus haut.

La visualisation SunBurst en bas à droite de l’écran (fig. 3) représente la durée complète de la réunion.

JPEG - 8.6 ko
fig. 3
ce prototype d’interface de navigation, basé sur les documents, a été implanté en Java (JMF). Tous les composants, audio, vidéo, transcription, documents, visualisations, sont synchronisés sur le temps courant de la réunion, grâce aux alignements temporels de documents.

Chaque couche symbolise une annotation temporelle différente : les blocs thématiques des documents discutés, les diapositives visibles à chaque instant, les tours de parole, et les énoncés de parole. D’autres annotations temporelles pourraient être ainsi affichées, suivant le type de réunions, les données capturées, ou encore suivant les outils d’analyse disponibles (les actes de dialogue, les prises de note, les gestes, etc.). Ces annotations contiennent les marqueurs temporels de début et de fin de chaque changement d’état (i.e. nouvel interlocuteur/tour de parole, nouveau thème, changement de diapositive, etc.), ainsi que des informations topologiques pour les documents. Par exemple, la transcription de la parole contient des tours de parole, c’est-à-dire des segments de parole où un seul interlocuteur s’exprime, divisés en énoncés de parole, avec les temps respectifs de début et de fin. La visualisation SunBurst est interactive ; les utilisateurs peuvent cliquer sur n’importe quelle partie d’une couche afin d’accéder à un moment spécifique de la réunion, une diapositive spécifique ou à tout ce qui a été dit concernant un article spécifique d’un document. Le SunBurst, ainsi que d’autres visualisations similaires, révèle les relations ou contradictions potentielles entre des ensembles d’annotations et permet ainsi d’améliorer la génération automatique d’annotations.

A l’heure actuelle, 22 réunions, d’une quinzaine de minutes chacune, ont été intégrées dans cette interface de navigation basée sur les documents. Une évaluation a été effectuée par 8 utilisateurs afin de mesurer l’utilité des alignements de documents statiques pour naviguer sur des archives multimédias de réunions. Les performances des utilisateurs pour répondre à des questions, aussi bien unimodales que multimodales (par exemple : quels articles de la une du Monde ont été discutés par Didier ?), ont été ainsi mesurées aussi bien d’un point de vue qualitatif que quantitatif (par exemple : durée, nombre de clics afin d’accomplir la tâche, satisfaction de l’utilisateur, etc.). Les 8 utilisateurs ont résolu 76% des questions posées lorsqu’ils avaient à disposition les alignements de documents et seulement 66% des questions lorsqu’ils n’avaient pas les alignements. Ces différences de performance sont devenues particulièrement apparentes pour les questions multimodales, i.e. qui nécessitaient des informations aussi bien contenues dans la transcription de la parole que dans les documents projetés ou discutés. Dans ce cas, 70% des questions ont été résolues lorsque les alignements étaient disponibles et seulement 50% des questions lorsqu’ils n’étaient plus à disposition.

Conclusion

Cet article présente une application développée à l’université de Fribourg qui permet de combler le fossé entre des données multimédias de réunions et les documents statiques utilisés lors de ces réunions. L’analyse de documents permet tout d’abord de construire une représentation multicouche des documents et de créer des index utiles à l’alignement avec d’autres modalités. En particulier, les alignements documents/parole et les alignements documents/vidéo permettent de temporaliser les documents et de construire des interfaces de navigation et de recherche sur des archives multimédias de réunions.

Bibliographie


  • Denis Lalanne, Rolf Ingold, Didier von Rotz, Ardhendu Behera, Dalila Mekhaldi, Andrei Popescu-Belis (2005) - Using Static Documents as Structured and Thematic Interfaces to Multimedia Meeting Archives. In Bengio S. & Bourlard H., eds., MLMI 2004 : Proceedings of the Workshop on Machine Learning for Multimodal Interaction, LNCS 3361, Springer-Verlag, Berlin, pp. 87-100.
  • Denis Lalanne et Rolf Ingold, Documents statiques et multimodalité, L’alignement temporel pour structurer des archives multimédias de réunions. Numéro spécial de la revue scientifique et technique Document numérique sur le thème Temps et Documents (2005). Service éditorial Hermès.

Liens




Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.