FLASH INFORMATIQUE FI

FI-spécial été 2009 - Mobil-IT


Etude du contexte social et collecte de données à partir de smartphones




Daniel GATICA-PEREZ

Jeffrey NEWMAN

Niko KIUKKONEN


Le téléphone portable : un outil de monitorage

Ces dernières années, les scientifiques ont eu de plus en plus envie de se servir d’outils de monitorage temps réel ou presque temps réel pour comprendre le comportement humain. Le téléphone portable est devenu l’un de ces outils largement utilisés dans ces études. La raison de sa popularité est facile à expliquer. On peut identifier au moins trois bonnes raisons pour expliquer le fait que des appareils mobiles sont irremplaçables dans ce type d’études.
Premièrement, les téléphones portables sont des compagnons essentiels pour la plupart des gens ; nous les transportons tout le temps avec nous. Cela donne une occasion unique de surveiller les humains de façon presque continue. La possibilité de surveiller les gens de façon non intrusive en temps réel sans les obliger à porter du matériel supplémentaire est fondamentale.
Deuxièmement, les téléphones portables modernes sont pourvus de nombreux capteurs différents. Ces capteurs donnent une information sur la localisation, l’accélération, les activités, l’environnement sonore, et le plus important pour nous, vos interactions sociales. L’information continue donnée par ces différents capteurs, et la corrélation de ces données avec d’autres données du téléphone sont un atout pour le monitorage social. On a ainsi une information riche de contenu sur les activités quotidiennes des personnes.
Troisièmement, les appareils mobiles sont aujourd’hui au centre de nos réseaux sociaux. Nous les utilisons pour faire des appels ou envoyer des SMS, mais aussi pour rester connectés à nos réseaux virtuels, organiser notre vie de tous les jours et chercher, créer, consommer de l’information. Cette énorme quantité d’information sociale que nous transportons dans nos téléphones portables est une mine d’or pour les chercheurs afin de mieux comprendre les interactions, contexte et comportement sociaux des gens.

L’étude du contexte social et la collecte de données

Il est évident que les téléphones portables sont une excellente plate-forme pour surveiller la vie quotidienne des gens. Nous avons envisagé la possibilité de collecter une grande quantité de données de la part de participants sélectionnés pendant une période suffisamment longue pour résoudre diverses interrogations de chercheurs liées au comportement humain. Après plusieurs versions de logiciels développées dans le but de construire une solution sûre et fiable pour collecter les données intéressantes, nous sommes à présent prêts pour lancer l’étude. Nous envisageons de fournir des smarphones multimédia Nokia à 120-150 participants soigneusement sélectionnés et de collecter leurs données pendant 9 à 12 mois, de façon continue.
Les données collectées consistent en une information de géolocalisation précise, une information sur le réseau cellulaire utilisé, les appels téléphoniques, les messages SMS, des données concernant l’accélération, une information multimédia (quel morceau de musique vous écoutez ou quand les photos ont-elles été prises), des données concernant l’agenda, les processus actifs dans le téléphone, les appareils Bluetooth ou WiFi détectés, et une information sur l’environnement acoustique (bruit de fond sans le contenu des conversations). Nous croyons que toutes ces données seront très utiles pour résoudre nos interrogations de chercheurs.

Protection de la vie privée

Par dessus tout, nous assurerons la protection de la vie privée des participants à l’enquête. Les données ne seront collectées que dans le but des projets de recherche. Tous les participants à cette campagne seront volontaires pour donner leurs contributions sans compensation financière autre que le remboursement des frais liés à leur participation. Toutes les informations sont rassemblées pour une meilleure compréhension des interactions sociales et du comportement quotidien des participants. L’ensemble de données collectées a été choisi en tenant compte de la protection de la vie privée des participants. Pour chaque élément de données collectées la première priorité a été la protection de la vie privée - ce qui nous a obligé à réfléchir soigneusement à la façon d’utiliser ces données, quels risques pouvaient être sous-jacents, et s’il était réellement nécessaire de collecter cette information. Si nous n’étions pas capables de justifier, d’un point de vue scientifique, le besoin de ce type de données que nous envisagions de collecter, ou si nous n’étions pas sûrs de pouvoir garantir la protection de la vie privée, alors cette donnée ne faisait pas partie de la campagne. Toutes les données qu’on pourrait rattacher à un individu, sont rendues anonymes avant tout traitement ultérieur. De plus, tous les participants peuvent connaître toutes les données collectées les concernant et peuvent détruire celles de leur choix à chaque instant (y compris après la fin de l’enquête) ou stopper momentanément l’enregistrement s’ils le désirent.

Quels sont les résultats que nous attendons  ?

Nous voulons utiliser les données collectées pour modéliser le lien entre l’interaction sociale, le temps et le lieu. Quelle est l’importance d’un lieu donné pour maintenir, créer ou peut-être perdre nos connexions sociales  ? Allons-nous changer nos modèles ou nos structures de communication suivant le contexte, le lieu ou le temps  ? Quels contextes et lieux sont-ils les plus importants pour les interactions sociales  ? Toutes les questions permettant une meilleure modélisation des interactions entre temps, lieux et liens sociaux nous intéressent, et nous croyons sincèrement trouver des réponses grâce à ces données.

Modèles de comportement

Daniel Gatica-Perez et son groupe à l’IDIAP à Martigny vont étudier des méthodes probabilistes pour découvrir des modes de comportement personnel et social à partir des données que nous allons collecter. Cette recherche a deux buts. Tout d’abord, développer des algorithmes qui représentent le comportement humain au niveau personnel et du groupe à partir des données brutes des capteurs, basées sur l’intégration de sources d’observation hétérogènes (lieu, mouvement, proximité et communication). Ces descripteurs de comportement devraient en principe donner des instantanés à court terme du rythme physique et social des vies des personnes étudiées. Le deuxième but est le développement de méthodes d’apprentissage automatique pour découvrir des habitudes personnelles (régularités dans la vie des personnes sur des longues périodes de temps) et de mettre en évidence et caractériser des groupes de personnes d’après des modèles de communication, une proximité et des habitudes semblables. La recherche vise à écrire des algorithmes capables de répondre à des questions comme : quelles sont les habitudes quotidiennes ou hebdomadaires de tel utilisateur de téléphone  ? Est-ce qu’aujourd’hui est un jour spécial pour telle personne  ? Comment sont reliées entre elles les différentes communautés qui existent à l’intérieur d’un groupe de personnes  ? La disponibilité de données réelles pour une large population, pendant une longue période, est fondamentale pour ce type d’études.

Modèles de mobilité

Une fois collectées, les données de localisation et d’accélération obtenues à partir des téléphones mobiles représentent aussi une opportunité unique pour construire des modèles de choix discrets pour la prédiction du comportement des individus en termes de déplacement. Habituellement, ce sont les individus eux-mêmes qui donnent par écrit les données lors d’enquêtes sur les transports, d’où des biais systématiques, erreurs d’arrondis ou de perception. Au laboratoire TRANSP-OR de l’EPFL, nous travaillons à partir des informations de localisation fournies par les logs GPS pour prédire comment les gens voyagent, en comparant les prédictions données par nos modèles avec les questionnaires remplis par les participants le jour même où ils portaient le téléphone expérimental.
Cependant, la qualité des données provenant des récepteurs GPS est toujours limitée par différentes sources d’erreurs, le nombre de satellites en vue, l’affaiblissement de la précision du positionnement horizontal (HDOP), la géométrie du satellite, les caractéristiques de l’horloge ou du récepteur, les effets atmosphériques et ionosphériques, la réflexion du signal multi-path ... Lors d’études précédentes, on écartait les observations de localisation de peu de précision et on ne gardait que les points que l’on supposait être d’une précision suffisante, que l’on associait avec les noeuds de transport les plus proches, ce qui pouvait ou non être le vrai emplacement. Au lieu d’écarter des données faibles mais potentiellement importantes lors de l’analyse du choix des chemins, nous gardons cette information (le lieu ainsi que l’estimation de l’imprécision) pour générer statistiquement un ensemble de probabilités pour des chemins différents (mais semblables, en général).


Nous analysons les données d’un point de vue spatial et temporel. Cela nous permet de relier les mouvements spatiaux-temporels des individus à une projection dans l’espace et le temps du réseau de transport. Par exemple, sur la figure, on voit un exemple de réseau et trois points provenant de GPS. Si nous avions appliqué un algorithme traditionnel de map-matching, nous aurions pu conclure que le voyageur utilisait la route B, car le point G1 est légèrement plus proche du tracé vertical. Une représentation plus généralement probabilistique aurait exclu la route C, à cause du point G3, mais n’aurait pas vraiment différencié les probabilités des routes A et B. En disposant aussi de l’information temporelle, qui nous montrera une différence soit de 1, soit de 3 minutes entre les enregistrements des points G1 et G2, nous pourrons identifier plus sûrement la route réellement prise.
Ainsi, nous pouvons différencier par exemple, un voyageur dans un bus qui s’arrête fréquemment, d’un voyageur dans une voiture, qui s’arrête aussi à cause du trafic ou de la signalisation, mais pas aussi régulièrement qu’à des arrêts de bus. De plus, pour permettre une discrimination encore plus précise entre différents chemins, cette méthode intégrera des biais potentiels qui pourraient être introduits dans le post-traitement des données, notamment ceux du map-matching.

Une innovation ouverte

L’ensemble des données que nous aurons après une année de surveillance des téléphones des participants sera porteur d’informations utiles pour des recherches dans différents domaines. Nous espérons que le travail que nous allons entreprendre aidera plus tard de nombreux scientifiques qui n’ont pas eu auparavant accès à ce type de données. Pour favoriser l’innovation ouverte dans des domaines scientifiques différents, nous avons l’intention de fournir ces données aux groupes qui présentent un plan de recherche valable. De plus, le groupe devra se plier aux règles concernant le traitement des données et la protection de la vie privée.

Conclusion

Nous allons collecter des données avec une forte connotation sociale de la part de 120-150 volontaires durant la deuxième moitié de 2009 et les premiers six mois de 2010. Ces données seront utilisées pour résoudre des problèmes de recherche multi-disciplinaire, depuis des modèles d’interaction sociale, jusqu’à des modèles de mobilité. Ceci est possible grâce aux téléphones portables modernes qui fournissent une excellente plate-forme avec de nombreux capteurs pour enregistrer le comportement humain. Si vous êtes intéressé par cette campagne d’acquisition de données, ou si vous avez un intérêt scientifique pour utiliser ces données, n’hésitez pas à nous contacter !

traduit de l’anglais par Jacqueline Dousson



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.