FLASH INFORMATIQUE FI



Memoria-Mea, ou comment stocker, classifier, rechercher et mémoriser ses informations multimédias personnelles




Anne LE CALVE

Philippe RICHARD

Hatem GHORBEL

Elena MUGELLINI


Dans le cadre du projet Memoria-Mea, la HES-SO, l’IDIAP, l’Université de Fribourg et l’Université de Sienne mettent en place une équipe interdisciplinaire capable d’approcher de manière globale la problématique complexe de l’extraction et de l’exploitation de l’information. Ce projet est non seulement collaboratif sur le plan organisationnel et institutionnel, mais aussi d’un point de vue scientifique. Dès lors, un des objectifs majeurs est la connexion des différentes forces afin d’intégrer par synergie les différentes compétences et résultats de la recherche dans une solution globale de Personal Information Management System destinée à un large public.

Avec l’arrivée en masse des nouvelles technologies qui ont envahi notre vie quotidienne lors de nos activités privées (voyage, rencontre, social, etc.) et de nos activités professionnelles (réunions, télétravail, etc.), nous ne pouvons que constater l’augmentation drastique et exponentielle de la quantité d’information digitale [1] à laquelle nous sommes capables d’accéder et de sauvegarder sur nos supports informatiques (ordinateur, PDA, etc.). Cette situation a créé une complexité infranchissable à laquelle l’être humain doit pouvoir faire face et doit être capable de gérer d’une manière optimale. Trouver, stocker, chercher et manipuler les données digitales doivent être des tâches simples et intuitives. Or, nous constatons que cette problématique est loin d’être résolue ; pire encore, dans la réalité de notre vie quotidienne nous sommes souvent incapables de retrouver la bonne information au moment qui nous est opportun. L’information utile pour nous à un moment donné n’est jamais trouvée ou elle arrive si tard qu’elle devient rapidement obsolète. Il arrive souvent que l’information ne soit pas au bon endroit : elle peut être à la maison quand nous sommes au bureau ou vice versa, elle peut être aussi stockée sur le mauvais support que nous n’avons pas sous la main.
Une autre frustration s’ajoute à cela, la fragilité de notre mémoire. Par exemple, nous pouvons savoir ce que nous cherchons, mais nous n’arrivons plus à mettre la main dessus. Nous pouvons également oublier d’utiliser l’information même si nous avons dépensé beaucoup d’énergie pour la sauvegarder à un endroit précis afin de pouvoir la restituer par la suite selon nos besoins.
Le projet Memoria-Mea vise à pallier ces problèmes cités plus haut en développant un système permettant à une personne d’organiser, de classifier et de rechercher tout type d’information multimédia numérique avec laquelle elle a interagi pendant ses activités quotidiennes.

Gestion personnelle de l’information

Le PIM [2] (Personal Information Management) est l’axe de recherche scientifique actuel traitant de la problématique liée aux activités que des personnes exécutent pour acquérir, organiser, maintenir et récupérer l’information digitale pour leur utilisation quotidienne.
Le fonctionnement idéal d’un système PIM est celui qui nous garantit d’avoir toujours la bonne information à la bonne place, au bon moment et dans le bon format correspondant à notre besoin à un instant donné. Les outils et les technologies actuels nous aident, certes, à dépenser moins de temps avec des tâches fastidieuses et répétitives liées à la gestion de l’information en général comme le classement, la correction automatique, etc., mais ils sont très loin de nous garantir ce fonctionnement idéal, car ils souffrent de plusieurs défaillances :

  • Ces outils sont incapables d’assurer tous les besoins des utilisateurs lors de leurs activités quotidiennes (privées et professionnelles) par exemple l’accès précis et intuitif à toute l’information que l’utilisateur possède ou la recherche personnalisée et contextuelle d’un certain type d’information.
  • Ces outils n’offrent pas de techniques de visualisation assurant des vues personnalisées et personnalisables sur la masse d’information, permettant par exemple à une personne d’avoir une vue temporelle ou thématique de ces données.
  • La prolifération et la diversité de ces outils sont devenues le grand problème menant à la fragmentation de l’information : en effet, une personne peut maintenir plusieurs schémas organisationnels de ces documents digitaux (photos, emails, vidéos, bookmarks, etc.) qui sont quasiment comparables, mais inévitablement inconsistants. Cela est largement accentué si la personne possède plusieurs comptes emails, plusieurs ordinateurs (privé et professionnel), et utilise des supports mobiles (PDA ou Smartphones).
  • Ces outils ne permettent pas d’englober la totalité des sources informatives dont nous disposons, notamment le contenu multimédia et multimodal des téléphones portables. L’information contenue dans un téléphone mobile n’est pas complètement exploitée voire pas encore exploitable sous certains aspects. Au-delà du transfert de la voix, textes, contacts, rendez-vous, tâches, vidéos, sons, images, documents de format propriétaire et autres applications peuvent également être reçus et envoyés à partir d’un cellulaire.

Téléphone mobile : source d’information à exploiter

Prenons un exemple concret sur ce dernier point. À partir d’une photo prise par un téléphone portable, il devrait être possible de retrouver la date, l’heure, le lieu du cliché, mais aussi les participants, voire l’événement. Il est aujourd’hui envisageable grâce à des algorithmes de détecter la présence d’un ou plusieurs visages sur une photo, fournissant alors pour peu qu’elles soient judicieusement exploitées des informations supplémentaires très précieuses. Si l’utilisateur a la possibilité d’associer ces visages avec les contacts de son répertoire, l’information s’enrichit encore. Bien que des prototypes de détection de visage pour téléphones mobiles existent, cette fonctionnalité n’est pas encore disponible sur le marché. Or, grâce aux informations intrinsèques et déductibles contenues dans le téléphone portable, il serait possible d’extraire la connaissance de l’image elle-même et ainsi alimenter le PIM (fig. 1).

JPEG - 13.5 ko
fig. 1
téléphone mobile : source d’information supplémentaire vers le PIM

Il va sans dire que toute la question de la structuration de l’information récupérée du système d’information du téléphone mobile devient névralgique. Les ontologies vont permettre de structurer des informations hétérogènes et, en fin de compte, il sera possible de fédérer les données et informations de diverses sources afin d’enrichir le Personal Information Management. L’utilisation de métatags sera aussi nécessaire dans la phase d’extraction de l’information du SI mobile. Toute la problématique et le potentiel de la gestion, du partage et de la diffusion de l’information sont ainsi mis en évidence. Et même si le marché propose déjà nombre de solutions de synchronisation entre téléphones portables ou entre téléphones portables et ordinateurs, toutes les questions de connexion, de compatibilité, d’ergonomie et de facilité d’utilisation des solutions existantes n’ont pas encore trouvé réponse. Une fois les données du téléphone transférées sur un ordinateur tout n’est pas résolu. Il apparaît dès lors comme une nécessité de pouvoir industrialiser la recherche et la collecte d’informations. Les moteurs de recherche et autres outils de syndication sont là pour nous aider. Cependant, seuls les agents intelligents sont capables de se substituer à un opérateur humain pour effectuer une recherche réellement fine. Et sans données structurées, ces agents ne peuvent pas travailler. L’information nécessite d’être structurée, catégorisée et sémantisée avant d’en permettre une représentation personnalisée et intelligente.

Memoria-Mea

Le but du projet Memoria-Mea est donc la mise en place d’une plate-forme PIM qui corresponde à un organisateur informationnel de notre mémoire numérique personnelle (voir fig. 2).

JPEG - 15.2 ko
fig. 2
architecture Memoria-Mea

Grâce à la plate-forme Memoria-Mea, une personne pourrait organiser, classifier, et rechercher tout type d’information multimédia avec laquelle elle a interagi pendant ses activités quotidiennes. Plus en détail, les données sont traitées sur deux niveaux différents par la plate-forme :

  • niveau générique (voir fig. 2 (c)) : ce niveau applique des traitements génériques d’indexation et de génération de métadonnées via des outils existants (ex. Google desktop, etc.) et les résultats sont stockés dans une base de données dédiée.
  • niveau sémantique (voir fig. 2 (b)) : ce niveau applique des traitements personnalisés d’indexation et de génération de métadonnées via un modèle sémantique basé sur des techniques de datamining et d’expression ontologique.

Les processus de recherche, de visualisation et de classification de l’information se basent sur la logique de l’utilisateur, ses préférences, ainsi que sur les aspects contextuels exprimés via les deux niveaux de traitements cités plus haut. Cela va permettre à la plate-forme Memoria-Mea de fournir des modalités personnalisées et personnalisables de gestion et d’accès à l’information (voir fig. 2 (a)).
La philosophie adoptée dans le cadre de la réalisation de ce projet consiste à réutiliser une majorité de techniques et de réalisations existantes actuellement dans le domaine de la recherche d’informations et des techniques d’indexation et de classification (voir fig. 2 (c)) par exemple Google Desktop, etc.
Les collections du CERN et du Centre de traitement de l’information du canton de Neuchâtel, ainsi que les collections privées des personnes impliquées dans le projet seront utilisées pour assurer la masse nécessaire d’informations afin d’effectuer les tests dans des conditions réelles (voir fig. 2 (d)). De manière synthétique, le projet s’intéresse à résoudre les problématiques suivantes :

  • Le traitement d’une image prise par un téléphone mobile avec exploitation des différentes métadonnées associées (heure et date de la photo, lieu par coordonnées GSM, etc.) ;
  • La création de couches sémantiques personnalisées basées sur des approches ontologiques et des techniques de datamining décisionnel
  • La mise en place d’un module de recherche contextuelle
  • La spécification d’une interface de visualisation et de navigation personnalisable.

Les ontologies à la rescousse

Ainsi, il pourrait à l’avenir être possible de retracer en semi-automatiques certains événements de façon chronologique, géographique, thématique ou contextuelle. Pour cela, l’approche sémantique développée dans ce projet va permettre l’exploitation optimale des différentes informations et la découverte de leurs liens. Afin de représenter les différents liens sémantiques entre les diverses classes d’objets du système, nous suggérons de modéliser cette conception sous forme d’ontologie, dont le rôle est de spécifier un vocabulaire consistant et non ambigu de l’ensemble des connaissances du domaine ainsi que la nature et le contexte des relations qui les interconnectent.
Une ontologie est une spécification formelle d’une conceptualisation partagée [3]. Dite appliquée (applied ontology) [4], elle explicite des concepts relatifs à un niveau de connaissance particulier et les règles de leur utilisation dans une application définie.
Dans notre cas, l’ontologie serait ainsi une représentation abstraite de l’ensemble des connaissances propres aux sous domaines considérés dans les trois scénarii, à savoir celui d’un député cantonal, d’un chercheur et d’un voyageur.
Afin de décrire une ontologie, il existe plusieurs formalismes parmi lesquels nous citerons le Resource Description Framework [5] (RDF). RDF est un environnement pour la conceptualisation et le traitement des connaissances d’un domaine précis. Il s’appuie essentiellement sur la représentation des objets et des entités qui composent ce domaine en tant que ressources, caractérisées par des propriétés et des valeurs attribuées à ces propriétés.
Cette association, dite de triplet, permet de décrire les caractéristiques des classes avec le modèle attribut/valeur et ainsi lier entre les différentes classes puisque les valeurs des attributs peuvent être des liens sémantiques vers d’autres classes ; on retrouve ainsi une représentation en réseau de connaissances. RDF peut être utilisé dans de nombreux types d’investigation, par exemple dans la recherche d’informations afin de fournir de meilleures performances aux moteurs informatiques ; dans la description structurelle du contenu et de l’interaction du contenu des documents Web (Web sémantique [6]) ou des bibliothèques numériques ; ou encore dans les applications de partage et d’échange de connaissances.
Le langage Web Ontology Language [7] de W3C est une extension de RDF qui permet l’intégration de diverses formes de raisonnement (telles que les contraintes de cardinalité, d’(in)égalité, de type de données, etc.) afin d’offrir une meilleure efficacité et une grande souplesse dans la représentation des connaissances.
La création des ontologies RDF/OWL est une tâche complexe en soi et requiert l’utilisation d’un outil d’édition qui offre une interface utilisateur agréable pour la création consistante des classes et de leurs descriptions. Dans ce contexte, l’éditeur Protégé [8] développé par l’université de Stanford offre un GUI et un environnement très puissant au niveau de la conception des modèles RDF/OWL. Protégé génère des descriptions en syntaxe XML qui peuvent par la suite être parsées dans les applications à l’aide des parseurs spécialisés comme Jena [9]. Protégé pourra également être intégré comme un élément logiciel par la suite directement dans nos applications afin d’offrir à l’utilisateur final un moyen de maintenir ses ontologies.

Le travail d’une équipe

À l’heure de l’explosion du nombre de terminaux multimédias et multimodaux aux fonctionnalités toujours plus étoffées, la notion de Personal Information Management (PIM) devient de plus en plus présente tant dans l’industrie que dans le monde de la recherche académique. Faisant appel à des compétences multiples, l’extension de l’offre passe par des collaborations entre différents centres de compétences. Le projet Memoria-Mea est un exemple en la matière. La collaboration instaurée entre les RCSO TIC et ISnet de la HES-SO et l’IDIAP est à l’image du monde multiculturel et international dans lequel nous évoluons.

JPEG - 12.6 ko
fig. 3
structure collaborative du projet

Les intervenants venant de ces divers partenaires sont les suivants : Omar Abou Khaled, Houda Chabbi, Fabian Cretton, Nastaran Fatemi, Dominique Gabioud, Hatem Ghorbel, Blaise Hurtlin, Markus Jaton, Anne Le Calvé, Sébastien Marcel, Elena Mugellini, Nicolas Pittet, Florian Poulin, Philippe Richard, Laura Raileanu, Andrés Revuelta, Yann Rodriguez, Maria Sokhn.
L’équipe de Memoria-Mea est ouverte à toute proposition de collaboration ou de coopération avec les milieux académiques ou l’industrie désireux d’investir dans le domaine.

[1] La notion d’information digitale se réfère dans le cadre de ce projet à tous types de documents multimédias qu’une personne possède.

[2] Personal Information Management (PIM) is the practice of managing information that helps us in our daily lives such as addresses, phone numbers, to-dos, appointments, notes, documents, folders, and also, these days, urls and email addresses.

[3] Cf. Gruber, T. R., A translation approach to portable ontologies, in Knowledge Acquisition, 5 (2), 1993, pp. 199 - 220.

[4] Cf. Peter Mika. Applied Ontology-based Knowledge Management : A Report on the State-of-the-Art. Master’s thesis, Vrije Universiteit, Amsterdam, Amsterdam, August 2002.

[5] World Web Consortium (W3C), Resource Description Framework (RDF).

[6] The Semantic Web Community Portal, Semantic Web, cf. www.semanticweb.org/. Voir également les sites www.w3.org/2001/sw/ et www.w3.org/DesignIssues/Semantic.html.

[7] (OWL).

[8] Développé par Stanford University.

[9] Jena est un parseur des fichiers RDF/OWL utilisée dans l’environnement Java et développé par HP Labs.



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.