FLASH INFORMATIQUE FI

FI spécial été 2007 - Images


La réalité augmentée : un sixième sens au service de l’industrie




Jacques BAPST


La réalité, c’est bien, mais...

Qui n’a pas rêvé, durant une excursion en montagne, de pouvoir contempler le panorama et observer les sommets environnants en étant capable de citer le nom de chacun d’eux et, pourquoi pas, de pouvoir mentionner son altitude et le nom de la chaîne dont il fait partie. Tout cela, naturellement, sans avoir à sortir une carte géographique et à tenter - péniblement - de s’y retrouver.
Imaginez le succès qu’aurait un marchand offrant des lunettes de montagne permettant de protéger les yeux d’une part, mais également d’ajouter, en surimpression sur le panorama observé, des informations qui s’afficheraient dans le champ de vision de l’utilisateur et qui s’adapteraient en fonction de ce qu’il regarde.
Ainsi équipé de ces lunettes révolutionnaires, notre randonneur pourra contempler les sommets voisins et verra s’inscrire, au-dessus de chacun d’eux, comme écrit dans l’azur, le nom et l’altitude de tous ceux qui se trouvent dans son champ de vision. En tournant son regard vers la station d’arrivée de la télécabine, il verra s’afficher l’horaire de la dernière cabine et, pourquoi pas, le menu du restaurant qui s’y trouve.
Bien sûr, ce scénario est encore un peu futuriste, mais il illustre ce que nous promet le domaine de la réalité augmentée.


JPEG - 12.4 ko
La scène réelle est enrichie avec des informations virtuelles

Réalité virtuelle

On parle de réalité virtuelle [1] quand un système crée un environnement artificiel dans lequel l’utilisateur a l’impression d’évoluer et avec lequel il peut interagir. Pour obtenir ce sentiment d’immersion dans l’environnement virtuel, il faut que le système agisse sur les différents canaux sensoriels de l’utilisateur (ses cinq sens) et que les mouvements de cet utilisateur soient pris en compte et influencent l’environnement de synthèse.
La vue étant, chez les humains, le plus important des cinq sens [1], on parle déjà de réalité virtuelle lorsqu’on se contente de générer des images de synthèses visionnées, de préférence, à l’aide d’un périphérique immersif : par exemple un casque de visualisation, appelé visiocasque (HMD, Head-Mounted Display) ou en projetant les images de sorte qu’elles occupent une large part du champ de vision (par exemple à l’aide d’un dispositif de type CAVE [2] ou autres équipements avec un affichage panoramique).
On peut considérer que les jeux vidéo ou les simulations de mondes virtuels (par exemple l’omniprésent Second Life [3]) entrent dans le domaine de la réalité virtuelle au sens large, même si l’immersion n’est pas toujours très bonne et que tous les sens ne sont pas sollicités.
La réalité virtuelle permet de reproduire un environnement très proche de notre monde réel ou, au contraire, de créer des mondes synthétiques totalement imaginaires dans lesquels on rencontrera des objets et des créatures étranges qui ne se comporteront pas nécessairement comme on pourrait s’y attendre.


JPEG - 13.8 ko
Continuum entre environnements réel et virtuel

Immersion et présence

Le sentiment d’appartenance à un univers virtuel dépend du degré d’immersion que l’on a réussi à produire et qui se décompose selon deux axes principaux.
Il y a d’abord l’immersion sensorielle qui se produit lorsque - idéalement - tous nos sens sont contrôlés par le système qui gère l’environnement virtuel. Sans une connexion directe avec le système nerveux périphérique ou central, certaines sensations sont difficiles, voire impossibles à reproduire à l’aide de périphériques (par exemple, agir sur le sens de l’équilibre, simuler une accélération continue [2], reproduire l’effet de conditions environnementales telles que pluie, neige, etc.).
Il y a ensuite l’immersion mentale qui est caractérisée par le degré d’implication de l’utilisateur dans le monde virtuel, son sentiment d’être absorbé (accaparé) par l’histoire qui s’y déroule. Même si elle est favorisée par une immersion sensorielle, l’immersion mentale peut également être créée hors d’un environnement virtuel, en lisant un livre ou visionnant un film par exemple (nombre de personnes sont émues et vont jusqu’à pleurer lors de certaines scènes).
L’immersion accroît le sentiment de présence à l’intérieur du monde virtuel. L’utilisateur a l’impression de faire partie du monde virtuel, d’y prendre part, d’en être un acteur (first-person view).

Réalité augmentée

La réalité augmentée [4] n’est rien d’autre qu’un mélange, soigneusement dosé, entre le monde réel et la réalité virtuelle. L’environnement réel est enrichi avec des informations (stimulations) de synthèse.
En fait, il existe un continuum [5] qui va d’un environnement réel jusqu’à un environnement purement virtuel. La réalité augmentée fait partie de cette zone intermédiaire qui mélange réalité et informations de synthèse et que l’on nomme parfois environnement hybride ou réalité hybride (Mixed-Reality).


JPEG - 2.2 ko
Principe du casque optical see-through (à gauche) et video see-through (à droite) (illustration tirée de [6])

Dispositifs d’affichage

Dans un environnement de réalité augmentée, l’utilisateur est généralement équipé avec un visiocasque qui lui permet de voir le monde réel avec les données virtuelles incrustées. Ces visiocasques peuvent être de deux types différents appelés optical see-through et video see-through.
Les équipements de type optical see-through sont équipés de miroirs semi-transparents qui permettent à l’utilisateur de voir, par transparence, le monde réel et sur lesquels on peut y incruster des informations projetées par de petits moniteurs situés latéralement ou au-dessus des miroirs.
Dans les équipements de type video see-through deux caméras filment le monde réel et, par traitement numérique, on y ajoute les informations virtuelles. Les images résultantes (une pour chaque oeil) sont ensuite projetées sur de petits moniteurs - de type LCD (liquid crystal display) ou OLED (Organic Light-Emitting Diode) par exemple).


JPEG - 6.9 ko
Lumus optical see-through [7] & Virtual retinal display [8]

Il existe un troisième genre d’équipement, appelé virtual retinal display ou retinal scan, qui pourrait également, à terme, jouer un rôle non négligeable dans ce domaine. Un tel dispositif, aux caractéristiques prometteuses [3], trace les informations virtuelles directement sur la rétine au moyen de trois faisceaux lumineux qui balaient la rétine à la manière des tubes cathodiques des (anciens) téléviseurs.
L’utilisateur a l’impression de voir l’information virtuelle flotter à une certaine distance de lui et doit focaliser son regard à cet endroit (l’image n’existe naturellement que sur sa rétine).
Malgré une certaine complexité technique, cette technologie possède a priori beaucoup d’atouts par rapport aux dispositifs d’affichage cités précédemment :

  • images virtuelles très lumineuses et avec une haute résolution
  • vaste domaine de couleur possible (gamut)
  • grand angle de vision
  • images stéréoscopiques
  • miniaturisation possible (intégration dans des lunettes légères).

Tracking


JPEG - 3.5 ko
Suivi de l’orientation de la tête de l’observateur

Un des problèmes clés de la réalité augmentée est de garantir, à tout instant, la synchronisation visuelle entre les informations du monde réel et les informations virtuelles associées, le tout étant dépendant de la scène observée par l’utilisateur.
Le système doit donc connaître, en permanence, la position et l’orientation [4] de la tête de l’utilisateur afin d’adapter les informations affichées en fonction de son champ de vision actuel.
Le suivi, en continu, de la position et de l’orientation de la tête est appelé tracking . Pour que le système de réalité augmentée soit utilisable et constitue une interface naturelle, il est impératif que la précision du tracking et que la vitesse de rafraichissement soient suffisantes (c’est-à-dire qu’elles tiennent compte des caractéristiques du système perceptif humain). L’alignement des objets virtuels par rapport au monde réel constitue actuellement l’un des défis majeurs de la réalité augmentée. Les défauts d’alignement - appelés registration error - peuvent être d’ordre statique (mauvais alignement spatial, en l’absence de tout mouvement) ou dynamique (défaut d’alignement temporel lorsque l’utilisateur ou les objets du monde réel bougent). La qualité du tracking est naturellement une des clés importantes pour garantir cet alignement à tout instant. Sans un suivi du positionnement précis et fiable, la réalité augmentée est vouée à l’échec.
La réalisation d’un dispositif de tracking peut faire appel à différentes technologies. On trouve sur le marché des trackers qui sont basés sur :

  • des capteurs mécaniques (avec un rayon d’action limité) ;
  • les champs électromagnétiques (perturbés par les objets ferromagnétiques) ;
  • les ondes acoustiques ultrasoniques (perturbées par les obstacles entre l’émetteur et le récepteur) ;
  • des capteurs inertiels composés d’accéléromètres et de gyroscopes (avec une lente dérive, même en l’absence de mouvement) ;
  • la détection visuelle, par des caméras, de cibles placées à des endroits connus dans l’environnement (cette technique connue sous le nom de tracking optique, nécessite une importante puissance de calcul pour le traitement numérique des images).

Il existe également des périphériques spécialisés dans la détection de la position de certaines parties du corps (gants détectant la position des doigts, détection de la position du regard, détection de la position des membres, etc.).


JPEG - 5.7 ko
Exemple de cibles de type ARTag

Tracking optique


JPEG - 2.1 ko
Équipement de tracking optique

L’idée de base du tracking optique consiste à placer dans l’environnement des cibles dont le contenu, la taille, la position et l’orientation sont connus du système. L’utilisateur est équipé d’une caméra dont la fixation doit être solidaire de sa tête. Par analyse d’image, le système localise et identifie les cibles vues par la caméra. Il détermine ensuite, par calcul, la position et l’orientation de la caméra, donc celle de la tête de l’utilisateur (la taille et la déformation d’une cible connue permet de déterminer l’endroit depuis lequel on l’observe). Si ce système de tracking est utilisé seul, il impose qu’à chaque instant, au moins une cible de taille suffisante se trouve dans le champ de vision de la caméra. Par extension, on pourrait imaginer exploiter des éléments - connus et immuables - du monde réel comme cibles et de pouvoir ainsi travailler sans modifier l’environnement dans lequel on évolue.

Tracking hybride


JPEG - 9.8 ko
Détermination de la position et de l’orientation par analyse d’image (ARToolKitPlus [9])

Les différentes techniques de tracking ayant toutes leurs avantages et inconvénients, il peut être bénéfique de combiner plusieurs méthodes dans le but d’exploiter à chaque instant les informations qui semblent les plus pertinentes et d’améliorer ainsi la détermination de la position et de l’orientation. On parle alors de tracking hybride.
Parmi les systèmes passifs et peu invasifs, il peut être intéressant d’associer un système inertiel avec une détection optique de cibles.
La dérive inévitable du système inertiel [5] peut être corrigée à chaque fois que des cibles se trouvent dans le champ visuel de la détection optique.

Projet 6ème sens


JPEG - 8.2 ko
Informations virtuelles incrustées dans le visiocasque de l’opérateur

Le projet baptisé 6ème Sens est un projet de recherche développé à l’École d’Ingénieurs et d’Architectes de Fribourg [6] en partenariat avec l’EPFL [7] et l’Université de Fribourg [8]. Ce projet est principalement financé par la Fondation Hasler [10] dans le cadre du programme de recherche Man-Machine Interaction.
Le but de ce projet est d’offrir un environnement de supervision mobile (wearable) pour les opérateurs travaillant dans des installations industrielles complexes, notamment dans l’industrie chimique. L’idée générale du projet est de développer une interface multimodale intuitive et main libre, basée sur la réalité augmentée ainsi que sur la synthèse et la reconnaissance vocale.
Actuellement, les installations chimiques sont fortement automatisées et pilotées depuis des salles de contrôle centralisées et informatisées. Cependant, pour certaines opérations, des opérateurs sont malgré tout nécessaires à proximité de l’installation. Ces opérateurs communiquent généralement par radio avec la salle de contrôle. On peut ainsi leur transmettre les actions à entreprendre et ils peuvent également s’enquérir de certaines informations dont ils ne disposent pas sur place. Compte tenu de la qualité généralement assez médiocre de la transmission radio et de l’absence d’un protocole rigide, cette manière de faire n’est pas sans risque de confusion ou de mauvaise interprétation des informations et dans ce genre d’industrie, les erreurs peuvent avoir des conséquences funestes.
Le projet 6ème Sens vise donc à simplifier, rationaliser et sécuriser le travail des opérateurs qui se trouvent auprès de l’installation en leur mettant à disposition les informations nécessaires. Ces opérateurs seront ainsi équipés d’un dispositif de réalité augmentée portable comprenant également un équipement audio leur permettant de commander l’installation grâce à la voix et de recevoir des informations et des quittances grâce à la synthèse vocale. Le suivi de l’opérateur est assuré par un tracking hybride (plate-forme inertielle combinée à une détection optique de cibles) et la transmission des informations (audio, vidéo, données) entre l’équipement mobile et le système de contrôle est assurée par un réseau sans fil de type WiFi avec une optimisation de la bande passante qui prend en compte le contexte courant (phases d’activité, alarmes, dangers, etc.). Dans ce projet, un accent important est également mis sur l’aspect ergonomique (l’utilisabilité) de l’interaction homme-machine ainsi que sur la prise en compte du contexte afin de n’offrir à l’opérateur que les informations pertinentes et les commandes utiles et applicables à chaque instant. Le choix des modalités et des styles d’interaction prendra en compte l’état courant du système à superviser, les conditions environnementales (installations, topologie des lieux) ainsi que les connexions sociales (présence d’autres opérateurs à proximité).
La qualité des visiocasques (si l’on souhaite rester dans des domaines de prix abordables), le poids de l’équipement mobile ainsi que son autonomie constituent actuellement les défis principaux de ce projet. La fiabilité de la reconnaissance vocale en environnement bruité nécessite également une attention toute particulière afin d’éviter de fâcheuses confusions.

En conclusion

Il est probable qu’avec la miniaturisation des équipements électroniques on arrive, dans un avenir raisonnablement proche, à produire des lunettes de réalité augmentée dont l’aspect, le poids et le confort ne les distingueront que peu des lunettes médicales ou lunettes de soleil actuelles.
Dans un avenir un peu plus lointain, on peut raisonnablement imaginer pouvoir disposer d’un système de tracking ambiant performant, un peu à l’instar du GPS, mais avec une précision plus grande et qui soit utilisable à l’intérieur des bâtiments.
Combinés aux améliorations constantes des communications mobiles, de la puissance de calcul et de l’autonomie des systèmes embarqués, ces progrès permettront l’émergence de systèmes de réalité augmentée plus confortables et performants qui trouveront, sans doute, des applications dans les domaines industriel et privé.
Il sera dès lors possible d’alléger quelque peu son sac de montagne en le soulageant du poids des cartes topographiques... si tant est, naturellement, que l’équipement de réalité augmentée soit plus léger, ce qui reste encore à démontrer !

Références


[1] fr.wikipedia.org/wiki/Réalité_virtuelle
[2] CAVE : salle de réalité virtuelle qui, par projection d’images stéréoscopiques 3D sur chaque paroi (4 à 6 surfaces) donne l’illusion aux personnes qui se trouvent à l’intérieur d’être immergée dans l’environnement virtuel. On parle parfois de théâtre virtuel ou de voûte d’immersion. Le terme CAVE est une marque déposée de l’Université de l’Illinois à Chicago.
[3] secondlife.com/
[4] fr.wikipedia.org/wiki/Réalité_augmentée
[5] Paul Milgram, H. Takemura, A. Utsumi and F. Kishino (1994). Augmented Reality : A class of displays on the reality-virtuality continuum. SPIE Vol. 2351-34, Telemanipulator and Telepresence Technologies
[6] Holger Luczak, Matthias Roetting, Olaf Oehme (2003). Visual Displays In : J. A. Jacko and A. Sears (Eds) The Human-Computer Interaction Handbook.
[7] www.lumusvision.com/
[8] www.engadget.com/
[9] Wagner Daniel, Schmalstieg Dieter,ARToolKitPlus for Pose Tracking on Mobile Devices
[10] www.haslerstiftung.ch

[1] La vue fournit près de 90% des informations reçues par le cerveau et on estime le débit d’information à environ 108 bits/s.

[2] Dans certaines limites, la gravité peut être utilisée pour simuler une accélération ou une décélération. Les simulateurs de vol exploitent généralement cette technique en inclinant la cabine du simulateur sans changer le référentiel visuel du pilote.

[3] Du moins sur le papier, car cette technologie a été développée en 1991 déjà, à l’Université de Washington (HIT Lab). Le fait que la société Microvision Inc en possède une licence exclusive freine probablement son développement.

[4] On nomme pose la combinaison des informations de position et d’orientation. La pose est caractérisée par six valeurs (trois coordonnées x, y, z et trois angles nommés pitch, yaw, roll)

[5] Cette dérive (drift) est provoquée par la double intégration nécessaire pour passer de l’accélération à la position.

[6] EIA-FR : Olivier Naef, Philippe Crausaz, Jacques Bapst

[7] EPFL, Automatic Control Laboratory : Denis Gillet, Christophe Salzmann, Damien Perritaz

[8] UniFR, Département d’informatique, Pervasive & Artificial Intelligence : Béat Hirsbrunner, Michèle Courant



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.