FLASH INFORMATIQUE FI



Cookies en folies


Surfer sur Internet n’est pas anonyme



Browsing Web is not anonymous


Laurent KLING


Nos butineurs doivent se retrouver dans la forêt de fenêtres ouvertes par chaque usager. Un jalon immatériel est dissimulé dans les entrailles des navigateurs, le cookie. Ce témoin peut se décomposer en deux catégories temporelles :

  • bref, juste le temps nécessaire pour l’action,
  • interminable, des durées qui surpassent largement l’histoire.

Le témoin immuable

Désireux de partir d’un exemple concret, j’ai extrait des entrailles de mon ordinateur la liste des cookies patiemment cumulée depuis 3 ans. Le résultat est impressionnant :

  • 8500 cookies dans Safari,
  • 270 cookies dans Flash.

A priori, la durée nécessaire pour accomplir une action technique ne devrait pas dépasser une heure, peut-être atteindre 24 heures.
En réalité, uniquement 0.1 % (9 cookies) répondait à ce critère limité à un jour. Intrigué par une proportion si faible, j’ai réalisé une analyse en combinant les tableaux croisés dans Excel et la puissance du logiciel statistique R.



fig. 1 - répartition statistique des cookies d’uen durée supérieure à 1 jour

Désireux d’analyser dans le détail la distribution des données, 26 domaines DNS (comme epfl.ch) ont été retenus. Pour simplifier le dépouillement, l’ordre habituel serveur.entreprise.pays a été inversé.
cinq sites sont présentés dans cet article, deux académique l’EPFL et le MIT, un du monde du logiciel libre Sourceforge et deux entreprises, Yahoo et Apple. Si on exclut les anomalies, les sites Web de l’EPFL sont raisonnables, la durée de vie ne dépasse pas deux ans.



fig. 2 - ch.epfl - un cookie Flash est présent avec une adresse IP 128.178.50.23



fig. 3 - edu.mit
Pour un autre campus, le MIT les durées deviennent difficilement compréhensibles, pourquoi conserver des jalons techniques pendant 10 ans ?


fig. 4 - net.sourceforge

Pour Sourceforge, on peut également s’interroger sur la durée de vie sur un site hébergeant des projets open source.
Pour deux sites commerciaux, Apple et Yahoo l’utilisation de cookies pour suivre l’usager avec des échéances importantes semble logique dans un esprit mercantiliste.


fig. 5a - com.apple



fig. 5b - com.yahoo

Pour l’ensemble des sites, la durée de vie très longue des cookies (au plus 7089 ans) suggère une utilisation pour identifier l’internaute, pas pour conserver des préférences.
Pour visualiser les cookies sur Safari, je recommande l’utilisation de safaricookies qui permet de se rendre compte de l’étendue des dégâts.


fig. 6 - http://sweetpproductions.com/safari...

Flash, cookies cachés

Apple est le fer de lance de la croisade refusant l’intégration de la technologie Flash. En premier dans sa tablette iPad, puis dans la dernière version d’ultraportable MacBook Air.
Sans entrer dans ce débat sur l’intérêt de disposer de cette extension, nombreux sont les bandeaux publicitaires en Flash. Sur un iPad, leur absence représente un confort d’utilisation indéniable. En 2002, à partir de la version 6 de Flash, il est possible pour un créateur de contenu d’utiliser un objet enregistré dans votre ordinateur (Local Shared Object). Cette donnée cachée permet de contourner l’effacement de cookies. Il suffit de dupliquer l’information avec un jalon Flash LSO. Cette fonction a suscité l’intérêt de la commission américaine du commerce (FTC) en 2010. Probablement par réaction, la dernière version 10.3 de Flash du 15 mai 2011 propose la suppression de ces informations  !

Un monde sans Flash et sans cookies

La directive 2002/58/CE sur la Protection des données dans le secteur des télécommunications par le parlement européen a engendré relativement peu d’intérêt à sa parution en 2002, contrairement à la date de la mise en application dans les états membres du 25 mai 2011.
La principale nouveauté est l’accord explicite de l’usager pour l’enregistrement de ses données, y compris pour les cookies. Naturellement les chantres de la liberté du commerce voient dans cette directive une contrainte insupportable. Même aux USA où la protection des données personnelles informatiques est presque inexistante, il existe un débat dans une commission du sénat sur la vie privée (Senate Commerce Committee on Privacy). L’objectif est de supprimer les informations quand on le désire avec la mise en place des instruments législatifs - Do Not Track.
Pour ceux qui désirent goûter au monde paisible de l’Internet sans Flash, il existe l’extension clicktoflash sur Safari qui présente vos pages avec des encarts pour chaque composant Flash. Si l’un d’eux vous intéresse, un clic et c’est visible. Un effet remarquable de cette absence est une économie conséquente des ressources informatiques (processeur et mémoire). Pour Firefox et Google Chrome, l’extension Flashblock utilise une méthode similaire. Et finalement, les utilisateurs d’Internet Explorer possèdent une solution moins élégante en interdisant les sites pouvant utiliser Flash (lifehacker.com/5533694/use-Internet-explorers-built+in-flash-block-feature).



fig. 7 - page Web libérée de Flash

Il existe la solution ultime de supprimer régulièrement l’ensemble de vos cookies et LSO dans votre ordinateur, par exemple sur un Macintosh avec Safari :

~/Library/Cookies/Cookies.plist
~/Library/Preferences/Macromedia/Flash Player/#SharedObjects/
~/Library/Preferences/Macromedia/Flash Player/ macromedia.com/support/flashplayer/sys/

Malheureusement, la suite de cet article va démonter que ces actions ne sont pas suffisantes pour protéger votre vie privée.

Votre environnement informatique, une trace indélébile

Pour préserver sa vie privée, on pourrait être tenté de supprimer régulièrement les cookies et les données persistantes contenues dans nos navigateurs Internet. A priori, on imagine que l’utilisation du mode navigation privée cache aux regards extérieurs nos visites sur les sites Web. En pratique, c’est une illusion, car dès qu’on visite une page sur Internet, on laisse des empreintes sur le serveur. Si le concepteur utilise un service externe d’analyse de fréquentation comme Google Analytics, vos visites vont directement tomber dans l’escarcelle de Google.
Il est improbable que vous regardiez le code source de vos sources d’informations favorites pour découvrir ce contenu JavaScript :

<script src="http://www.google-analytics.com/urchin.js" type="text/javascript">
</script>
<script type="text/javascript">
_uacct = "UA-610236-1";urchinTracker();
</script>

Pour la page d’accueil de l’EPFL, le code de Google Analytics est contenu dans un fichier annexe.

/* Google Analytics */
jQuery.jGoogleAnalytics('UA-4833294-1', {topLevelDomain: '.epfl.ch'} );

En 2010, un chercheur d’une association de défense des libertés individuelles américaines (Free Frontier Fondation) a écrit un article avec comme hypothèse : Votre navigateur est-il unique  ? Au départ, nous pensons naïvement que le fait d’utiliser un navigateur standard dans notre ordinateur nous rend anonymes. Une visite sur le site nous démontre le contraire.
Mon butineur est unique, seul parmi 1’611’981. Cela représente 20.62 bits d’entropie de l’information  ! Quels sont les indices révélateurs  ?

  1. mes polices de caractères, unique, 1 sur 1’611’981
  2. mes extensions, 1 sur 806’000
  3. le type du navigateur, 1 sur 230’000
  4. la langue, 1 sur 637
  5. mon écran, 1 sur 28
  6. ma zone horaire, 1 sur 8
  7. j’accepte des supercookies, 1 sur 2.3
  8. j’accepte des cookies, 1 sur 1.3.

Il est étonnant de constater que la liste des polices de caractères installées chez moi suffit à me distinguer. Encore plus surprenant, comment un site Web peut-il détecter le contenu de mon ordinateur  ? La réponse est malheureusement simple, l’utilisation du mélange de deux technologies Flash et Java.
Sur mon iPad, qui est une machine fermée sans Flash ni Java, j’osais espérer être moins reconnaissable.



fig. 8 - panopticlick Ipad unique

En pratique il n’en est rien, je suis également unique, pas par la présence de polices que l’absence de Flash et de Java rend impossible à détecter, mais par la combinaison des autres facteurs.

La première défense, vous-même

Si on vous demande de communiquer votre code bancaire, il est certain que vous allez refuser. Bizarrement, si vous allez faire réparer un ordinateur, peut-être allez-vous spontanément proposer votre mot de passe informatique. Comment peut-on imaginer une telle différence de comportement  ? Je crois que la clé réside dans la dématérialisation de l’information. Sous la forme habituelle de papier, de classeurs ou d’archives, l’information est tangible. Si vous déménagez un classeur fédéral, personne ne va s’inquiéter. Si par contre vous transportez une suite de chariots remplis de papier, il est probable que quelqu’un arrête ce transfert physique. Dans le cas des fuites des câbles diplomatiques américains, c’est probablement des wagons de documents qui ont été transférés sous une forme numérique apparemment inoffensive, des DVD. Une autre propriété de l’information digitale est qu’elle est inaltérable, telle une oeuvre d’art reproductible à l’infini sans perte de qualité. Cette copie est tellement parfaite qu’il est impossible de distinguer l’original de la copie. Cette problématique n’est pas nouvelle, en 1935 Walter Benjamin a décrit la perte de l’aura, jalon important pour comprendre l’art moderne.
La sécurité peut prendre des cheminements particulièrement tortueux. Confronté à la nécessité de renforcer la complexité des mots de passe dans un cénacle de spécialistes informatiques, la première remarque est d’ordre pratique, ce changement provoque trop de demandes de support. Par analogie avec la limitation de la vitesse automobile, l’objection serait que cette mesure va engendrer trop de contraventions. La réponse rationnelle est que cette contrainte va réduire la gravité des accidents, évitant des vies brisées.

Entropie numérique

En 1948, le mathématicien Claude Shannon publie l’article qui crée la théorie de la communication moderne, entre autres il décrit la relation entre le signal et le bruit. Dans le même papier, il décrit l’entropie qui correspond à la quantité d’informations transmises. Dans son article en 1951, l’entropie n’est pas uniquement fonction de la complexité, mais également de la fréquence d’utilisation. Un caractère possède une entropie de 0.6 a 1.3 bit, un mot inhabituel employé par Shakespeare ou Umberto Eco représente 0.4 bit par caractère. Une retombée inattendue de ce théorème est la capacité de comprimer l’information sous une forme non destructive. Tout usager qui compresse un dossier utilise sans le savoir la méthode LZW imaginée par des élèves de Claude Shannon.
Pour dénombrer les 6,92 milliards d’habitants vivants de la terre, il faut utiliser 32.7 bits. Pour tous les humains ayant vécu sur notre planète, environ 106 milliards en 2002, 36.6 bits sont suffisants.
Un cinquième des cookies dépasse le long terme (une durée de vie supérieure à 9 ans). Dans ce sous-groupe, 42 % possèdent une entropie supérieure au nombre total d’humains. Le moins qu’on puisse dire est que les informaticiens ont une vision à très long terme... Parfois, la quantité d’informations contenues dans le cookie est digne d’un article, le record est 3141 caractères pour com.yieldmanager.ad dont voici un extrait :

b!!!$K!!%#4!!<NC<ynxU!!)OK!!!!#<PulM!!)OU!!!!#<LTvT!!-?2!!!!%=!20>!!-O3!!!!#=!20>!!0eW!!!!#<YOqs!!0o,!!!!%<y>BB!!0sA!!!!*<x>nC!!1Mx!!!!8=!=48!!1N4!!!!8=!=48!!1N=!!!!-=!=48!!1NC!!!!.=!=48!!1NO!!!!3=!=48!!2!d!!!!#<nA.[!!2-9!!!!$<dZO@!!28Y!!!!$<o(!8!!3I$!!6D)<NR!8!!3gT!!!!/<QXpJ!!3gX!!!!/<QXpJ!!3gh!!!!/<QXpJ!!3go!!!!/<TW)Q!!3i3!!!!)

Un monde civilisé ? Bizarrement, les usagers sur Internet se comportent comme si celui-ci est un espace de liberté sans contrôle. Tel un Far West du monde moderne, ils imaginent la possibilité de naviguer sans laisser de traces et disposer de ressources sans limites.
Naïvement, on pourrait espérer se rendre invisible par l’utilisation de redirection qui cache et transforme votre adresse IP. Cette parade est caduque s’il est particulièrement facile d’identifier votre navigateur. Les amateurs de Tor ne doivent pas lire ces lignes (Tor est un outil pour dissimuler votre trafic Internet dans un environnement partagé, voir article Désécurisé, paru dans FI4/08). Probablement par une simplification sans égale, on nous promet des guerres cybernétiques similaires au film Indépendance Day. Dans cette légumineuse hollywoodienne, navet ou citrouille, l’humanité est confrontée à une menace extraterrestre disposant de technologies supérieures aux nôtres. Le dénouement est vraiment grotesque, un virus informatique humain détruit les envahisseurs. Par un curieux hasard du scénario, les extraterrestres ont décidé de nous copier en utilisant un microprocesseur de chez nous.

Un danger nettement plus tangible est une attaque délibérée contre votre forteresse numérique :

  • on attaque le coffre-fort d’une entreprise commerciale spécialisé dans la fabrication de clé ;
  • on duplique les clés pour entrer chez vous.

Cela n’est pas un roman d’espionnage, c’est réellement arrivé pour RSA et Lookeed. Heureusement, Lookeed possédait d’autre mécanisme de sécurité que seulement la clé RSA. Suite à cette attaque, RSA vient d’annoncer le changement de quarante millions de clés électronique.



fig. 9 – quarante millions de clés électroniques RSA à changer

Cette méthode est connue depuis l’antiquité, face à une muraille infranchissable, on peut saper ses fondations ou simplement construire une rampe d’accès au piton rocheux.



fig. 10 - rampe d’accès au piton de Massada construite en 7 mois, 73 après J.C

Les attaques informatiques fonctionnent uniquement si le code malicieux s’inscrit dans une architecture matérielle et logicielle très spécifique. Au lieu de prôner un monde homogène où les défauts se propagent à la vitesse de la lumière, il est préférable d’utiliser des environnements hétérogènes.
De la même manière, il est vain de vouloir se protéger si nos habitudes ou l’ingéniosité des pirates nous convainquent d’ouvrir un document manifestement vérolé. Dans ce cas qui est familier, la cause n’est pas à rechercher du côté d’une faille technologique inconnue, mais plutôt de notre soif de découvertes accompagnée d’une curiosité inébranlable.



Glossaire

l’histoire :
la définition de l’histoire est généralement associée au début de l’écriture, soit environ 5400 ans depuis les poteries d’Abydos en Égypte. Chez moi, 4 cookies expirent le 1er janvier 10000, dépassant la limite des dates dans mon tableur favori.
Shannon, Claude E :
Prediction and entropy of printed English, The Bell System Technical Journal, 30:50-64, January 1951


Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.