FLASH INFORMATIQUE FI

FI-spécial été 2008 - Pérenne-IT


Dépassement de capacité




Laurent KLING


La mise à disposition d’espace de conservation des données devient un service générique. Ce service peut être même gratuit avec un modèle économique basé sur un financement annexe. Un usager est confronté à une myriade de supports pour conserver ses informations :

  • mémoire vive,
  • mémoire permanente,
  • disque dur de son poste de travail,
  • mémoire embarquée dans un périphérique (clé USB, iPod, téléphone portable),
  • disque dur connecté sur son ordinateur,
  • disque réseau.

À l’étendue des possibilités physiques, on doit ajouter une série de critères :

  • pérennité des données,
  • présence de sauvegarde secondaire (backup)
  • capacité de relecture,
  • ubiquité de l’accès.

Du croisement entre support et critère, on peut isoler une catégorie spécifique, le stockage universel par le réseau.

Accès à l’information

La fulgurante progression d’Internet nous permet de disposer d’un accès quasi universel aux données. La présence physique peut être remplacée par une utilisation à travers le réseau. L’interface Web représente une voie intéressante avec comme bémol le risque accru pour la sécurité. L’authentification reste un élément central du contrôle de l’accès aux données.

Pérennité des données

La conservation est probablement l’élément essentiel du stockage. C’est une évidence, mais chacun d’entre nous a été confronté à une perte de données. À part les erreurs de manipulation, c’est souvent une fiabilité imparfaite de la configuration qui entraîne ces dégâts.

Capacité de relecture

Avec le bagage linguistique suffisant pour le support papier, on n’imagine pas de problèmes pour relire un livre, un rapport ou une œuvre. Par définition, le monde numérique convertit des informations compréhensibles en données binaires. Cette conversion entraîne deux conséquences paradoxales :

  • Absence de perte d’information, au contraire des autres technologies de reproduction, la copie de données numériques n’engendre aucune perte, on peut la reproduire à grande échelle, la déplacer sur différents supports sans défaut de transfert. À ce titre, elle présente un intérêt évident pour l’archivage.
  • Perte de format, l’information numérique est transmise intacte, mais il n’est pas certain que son contenu soit compréhensible. De nombreux formats propriétaire existent, l’utilisateur d’un programme pour l’architecture ne connaît pas la description informatique de ses dessins.

Avec l’évolution des programmes, l’utilisateur peut être confronté à l’impossibilité de relecture, car son logiciel actuel ne comprend plus la version obsolète de ses archives.
Sur la durée d’une vie humaine, on peut imaginer qu’une information soit passée par :

  • une carte perforée à ses débuts ;
  • une conversion en caractères IBM EBCD Holerith (6 bits) ;
  • un transfert en IBM EBDIC (8 bits) ;
  • une conversion en ACSII 7 bits ;
  • une utilisation en ASCII 8 bits IBM PC ;
  • une transcRiption en ASCII 8 bits Macintosh ;
  • une conversion en UTF8 ;
  • un courriel en MIME avec un codage BASE64.

À chaque étape, il est essentiel de connaître le codage utilisé pour éviter de prendre des vessies pour des lanternes.

Le cheminement d’un usager

Méconnaissance de la technologie, au départ de l’utilisation d’un ordinateur, la notion de conservation des données est abstraite. En 1984, j’ai eu l’occasion de devoir retrouver un fichier MacWrite 1.0 sur un Macintosh 128. Les documents sont conservés en mémoire avant d’être écrits sur la disquette 3.5" de 400 ko (contenant le système d’exploitation accompagné de MacWrite et MacPaint).
Après une vérification détaillée de l’état de surface magnétique, je suis arrivé à la conclusion que le document n’avait pas été écrit sur la disquette. Voici le dialogue avec cette victime d’une interface utilisateur trop simple :
Moi - Comment avez-vous travaillé  ?
Usager - Le Macintosh, il suffit de l’allumer et de l’utiliser
Moi - Vous avez sauvegardé le contenu de votre travail  ?
Usager - J’ai procédé de la même manière qu’au départ, j’ai écrit mon texte et j’ai éteint l’appareil  !
Malheureusement, je n’ai pu que lui conseiller de réécrire son document...
En 2008, il est certain que si vous éteignez brutalement votre ordinateur, votre traitement de texte favori conservera une sauvegarde qu’il vous proposera d’utiliser au prochain lancement de l’application, vive le progrès  !

  • Fausse promesse, échaudée par une expérience de perte de données, un usager prévoyant envisage un espace de sauvegarde. Une lecture attentive de revue spécialisée lui a permis de découvrir l’acronyme RAID (Redundant Array of Inexpensive Disks). Avec cette information, il décide d’acheter un disque externe miroir RAID 1 de 1000 Go. Ne désirant pas lire le mode d’emploi, il commence à sauvegarder le contenu de son ordinateur portable sur ce média presque sans limites. Dans une seconde étape, la place disponible sur son appareil étant comptée, il utilise son support externe comme espace de travail pour ses montages vidéo. Après 13 mois sans problème, son disque dur semble défectueux. Malgré ses tentatives, il ne peut récupérer son précieux contenu (de conservation, il est maintenant utilisé comme archive). En désespoir de cause, il appelle le service après-vente, imaginez sa fureur quand il apprend que sa sauvegarde n’offre aucune possibilité de récupération. Une lecture attentive du mode d’emploi lui aurait permis de découvrir que le miroir (Raid 1) n’est pas activé d’usine, car la capacité utile est divisée par deux. À l’achat, il était configuré en entrelacer (Raid 0) qui présente d’excellentes performances avec un risque élevé de perte de données en cas d’incident technique sur n’importe quel disque.
  • Solution idéale, après un parcours initiatique douloureux, l’usager aguerri connaît ses besoins :
    • un support accessible par le réseau depuis toutes les plates-formes,
    • une capacité raisonnable pour conserver ses données les plus précieuses,
    • une garantie de récupération en cas d’incident technique (RAID, UPS, sauvegarde),
    • un coût nul.

Probablement, cette solution va exister avec Google Documents, un plug-in dans Firefox permet déjà d’utiliser son compte Gmail comme support de données. Si je rajoute le critère de la confidentialité, Google s’écroule, il me reste à trouver une autre possibilité.

  
JPEG - 6 ko
fig. 1 – Macintosh 128, en 1984 le début d’une informatique conviviale pour tous

Serveur de fichier sur le réseau ou Network Attached Storage (NAS)

L’EPFL possède un système centralisé qui offre un espace de stockage :

  • complexe,
  • efficace,
  • accessible uniquement par le réseau,
  • coûteux.

Du point de vue d’un administrateur système, sans tenir compte du coût, ce NAS est magique, il se comporte comme un disque dur sur le réseau avec des possibilités miraculeuses :

  • une capacité d’augmentation de l’espace disque sans interruption,
  • un API conforme à un acteur important du marché,
  • une authentification Kerberos,
  • une gestion des permissions d’accès évoluée.

Comme tout le monde, vous avez deviné que l’API provient de Microsoft avec une authentification Active Directory et une gestion des droits NTFS. Par rapport à sa capacité utile, ce tableau idyllique possède un seul bémol : le prix par téra-octet est élevé.

  
JPEG - 16 ko
fig. 2 – GMail avec Gspace

Le NAS en pratique

À cause du coût, il nous faut gérer l’espace avec précaution. Actuellement, chaque équivalent plein temps de la Faculté STI dispose de 7.1 Go. Les esprits chagrins se moqueront de la faible capacité par usager, ils argumenteront qu’une clé USB de 8 Go dépasse l’espace alloué pour un coût modique.
Une clé USB aux amphétamines, cette critique est raisonnée ; mais avec le NAS EPFL vous avez en plus la possibilité de :

  • moduler l’espace mis à disposition,
  • authentifier l’accès,
  • assurer la sauvegarde,
  • dématérialiser le support,
  • assurer un archivage.

À la vue de ces caractéristiques, il paraît évident que le NAS ne peut servir pour :

  • conserver des données volumineuses,
  • dupliquer des données sur le NAS,
  • sauvegarder sa collection complète de fichiers MP3 ou AAC.

Au final, il est rationnel de travailler directement sur le NAS, ce qui permet :

  • de ne plus sauvegarder l’entier de votre ordinateur,
  • de ne copier sur le portable que les documents volumineux en cours de travail, limitant les risques en cas de perte ou de vol,
  • de ne presque pas se soucier de l’endroit où se trouve l’information.
  
JPEG - 29.9 ko
fig. 3 – Utilisation du NAS pour un institut, 720 Go, 150’511 dossiers et 1’579’928 fichiers le 24 juin, 12 h 27

La face cachée du NAS

De nombreux artefacts technologiques sont complexes par nature, heureusement masqués à l’usager. Par exemple, un touriste qui prend l’avion ne soupçonne pas l’incroyable hiérarchie humaine nécessaire pour accomplir une activité apparemment routinière.
Pour un serveur de fichiers, il existe plusieurs méthodes pour segmenter l’espace mis à disposition :

  • Uniquement des espaces communs, c’est probablement la granulométrie la plus grossière, à la facilité de mise en œuvre répond une série d’inconvénients chroniques :
    • incapacité de séparer le bon grain de l’ivraie, quelques utilisateurs gourmands (ayant découvert le service en premier) vont utiliser 70 % de l’espace alloué. Une fois occupé, l’entropie va rendre extrêmement difficile de le réduire ;
    • égoïsme, pourquoi se soucier des autres  !
    • augmentation continue de l’utilisation par l’absence de garde-fous. Dans un cas réel, un usager avait conservé l’entier de son ordinateur, système d’exploitation, applications et fichier temporaires dans un NAS  !
  • Uniquement des espaces privatifs, passant de Charybde en Scylla, on quitte le collectivisme pour retrouver le capitalisme qui représente une solution adéquate à notre désir d’individualité. Pour des raisons pratiques, un dossier de travail est souvent accessible selon un mécanisme complexe. Par exemple, mon compte (lkling) dans my.epfl.ch : /l/lk/lkling. Cette logique n’est pas gratuite, elle suit des problèmes techniques comme l’espace maximum sauvegardé en une nuit ou le temps de reconstruction de l’ensemble de la hiérarchie après un crash sévère.

Une hiérarchie humaine

Pour Active Directory, le problème de l’organisation est similaire. En 2000, j’ai tenté d’imaginer un agencement ad hoc différent des structures de l’école. Avec l’aide des usagers, je suis rapidement arrivé à la conclusion que la seule architecture valable est : la hiérarchie administrative du jour.
Ce constat est maintenant mis en pratique dans toute l’école pour Active Directory (adieu OU vaches, OU poules ou OU cochon). Par mimétisme, j’ai appliqué le même principe pour le NAS de la Faculté STI.
Mon rattachement est : EPFL / STI / STI-SG / STI-IT, avec comme compte : lkling.
Dans le NAS, cette hiérarchie devient stisrv.epfl.ch/sti-sg/sti-it/lkling.
Dans cette structure, on rajoute un dossier collectif : stisrv.epfl.ch/sti-sg/sti-it/stiit-commun.

Naturellement, cette logique se retrouve dans les groupes de sécurité dans Active Directory. Si la hiérarchie est stable un jour, il est probable qu’il existe des modifications dès le lendemain. La synchronisation du NAS sur le bottin est identique à celle d’Active Directory décrite dans l’article, SANAS : un disque de 30’000 Go à l’EPFL et une utilisation dans la Faculté STI paru dans le FI5/05.

Un espace limité

Par principe dans un espace sécurisé, les usagers anonymes n’existent pas. Ainsi, chaque document ou dossier créé dans le NAS possède son créateur. En conséquence, le quota d’un usager correspond à l’ensemble des fichiers qu’il a écrits. S’il dépose beaucoup de travaux pour la communauté, il ne sera pas pénalisé, car il est aisé d’augmenter sa limite. De la même manière, l’espace utilisé par une unité est la somme de ses membres.

Dépassement de capacité, lissage de courbe de charge

En plus de responsabiliser l’interlocuteur, l’utilisation d’un quota individuel permet de réaliser un dépassement de capacité. En effet, l’espace alloué représente le maximum.
Au départ, il est certain que cette limite supérieure n’est pas atteinte. En plus, un nombre limité d’usagers a besoin de l’ensemble de son quota (fig. 4). En tenant compte de ces réflexions, la méthodologie actuellement utilisée est la suivante :

Éviter de diviser l’espace disque

En théorie, pour bénéficier au mieux de la diversité du quota utilisé par chacun, il est préférable de ne pas subdiviser l’espace, on pourrait imaginer un système de fichiers (filesystem) unique pour l’ensemble de l’EPFL. En pratique, Il n’est pas raisonnable que la taille d’un filesytem dépasse 1 ou 2 To, car le temps de sauvegarde et de reconstruction devient excessif. Pour la faculté STI, les filesystems d’usagers sont au nombre de 8, un par institut, deux pour les centres, et un pour les services généraux.

Allouer un espace minimum

Toujours en tenant compte que l’utilisation va croître, on pourrait créer un espace nul à sa mise en service. En pratique, cet espace minimum peut être estimé à 1 Go par personne.

Suivre l’évolution de la demande

Avec un serveur classique, la logique veut qu’on crée un filesystem correspondant au volume théorique maximum. Si l’estimation est trop faible, il faut recommencer ce processus par le remplacement du serveur ou son extension. Il est probable que l’espace ne sera jamais complètement occupé. Cela est désastreux, car on achète l’ensemble du serveur, pas uniquement la partie utilisée.
Avec le NAS EPFL, l’augmentation de la capacité est miraculeuse, l’espace logique est accru par une simple ligne de commande sans interrompre le service et avec une rapidité foudroyante (moins de 5 minutes).
En conséquence, le seul travail de l’administrateur consiste à suivre l’évolution de la consommation et à l’augmenter quand cela est nécessaire. Ainsi, le taux d’utilisation de l’espace alloué est élevé.

Allouer un quota virtuel

Avec ce mode de gestion, il est aisé d’être proactif sans coût supplémentaire. Voici la comparaison entre espaces alloués, consommés et théoriques (fig. 5). Pour s’assurer que seuls les usagers licites utilisent le NAS, le quota par défaut est ridicule, 20 Mo par usager (fig. 6). Cela ne pose pas de problème, car la gestion des quotas est automatisée.

Un archivage de facto

Si l’utilisation d’un espace sécurisé n’est pas la norme, la notion d’archivage est encore plus difficile à faire parvenir aux utilisateurs. Régulièrement, la demande d’accéder aux archives m’est transmise, mais le plus ironique c’est que jamais on ne me contacte pour les créer  ! La majorité des usagers suivent un parcours à travers l’EPFL, ils sont souvent étudiants au départ, peuvent devenir assistant - doctorant dans un laboratoire, une fois leur thèse terminée, ils peuvent changer de rattachement. Si l’arrivée dans la structure est simple, le départ est plus complexe, que faire des données présentes  ?
Pour le NAS-STI, le dossier d’un usager est créé à son arrivée dans l’unité de référence. À son départ, seul son accès au laboratoire est supprimé, mais il reste propriétaire de ses données. Ces modifications d’autorisation se déroulent dans l’espace immatériel d’Active Directory, il n’y a pas de changement physique sur les données. Dans ce cadre, les documents d’un usager sont toujours sa propriété, par contre leurs accès ne sont pas forcément garantis  !
En utilisant le NAS pour conserver ses fichiers importants, l’usager crée automatiquement des archives (fig. 7).
À son départ, les données sont conservées dans son laboratoire. En conséquence, et avec son accord, il est facile d’autoriser un tiers à accéder à tout ou partie des données.
Dans les rapports de l’utilisation du NAS, les données archivées ne sont pas décomptées pour l’unité.

  
JPEG - 8.9 ko
fig. 4 – évolution utilisation quota NAS
JPEG - 7.2 ko
fig. 5 – progression d’un institut
JPEG - 6.9 ko
fig. 10 – quota minimum
JPEG - 7.4 ko
fig. 7 – évolution stockage utile - archive

Responsabiliser l’usager

La visibilité de l’utilisation de l’espace disque est souvent réduite à sa plus simple expression :

  • Sous Windows XP, uniquement la capacité restante est affichée ;
  • Sous Mac OS 10, il est aisé d’activer une option qui affiche l’espace des dossiers et de leurs contenus sous une forme hiérarchique (fig. 8).

Pour les aficionados de la ligne de commande, dans le monde Unix, Linux et Mac OS : du -k | sort -nr | more.
En français, afficher l’utilisation de la hiérarchie courante, puis la trier par ordre décroissant et finalement la présenter écran par écran. Pour obtenir un rapport dans un fichier texte, vous avez deviné : du -k | sort -nr > utilisation.txt.
Dans les trois cas, la vision se focalise sur la hiérarchie et pas sur la qualité des données.
Heureusement, il existe un algorithme qui permet de visualiser l’espace occupé en termes de surface, Tree-map inventé par Brian Johnson et Ben Shneiderman en 1991 [1].
Cette vision géométrique est naturellement plus explicite qu’un nombre ou un arbre hiérarchique. Parmi les nombreux outils qui utilisent cette représentation j’ai sélectionné WinDirStat sous Windows. Après avoir désactiver la pseudo présentation tridimensionnelle, nous avons :

  • une présentation triple du contenu :
    • hiérarchique,
    • par type de fichier,
    • graphique ;
  • la liste par type de fichier, ce qui permet de vérifier le type d’utilisation du NAS et d’éviter que les vidéos représentent la majorité de l’utilisation ;
  • la capacité de sélectionner un espace utilisé et de découvrir sa position dans la hiérarchie est particulièrement utile ;
  • un logiciel basé sur KDirStat sous Linux ;
  • un logiciel OpenSource  !

Par exemple, dans le même espace disque d’une faculté, l’œil repère facilement un rectangle étendu, en cliquant dessus, on obtient sa position dans la hiérarchie accompagnée par son type (fig. 9). Dans ce cas, c’est un fichier généré par le logiciel intégré de sauvegarde de Windows d’une taille de 8 Go  ! En sauvegardant l’entier de son volume de travail, l’usager se prive de la possibilité de naviguer dans les différentes versions de ses documents (snapshot) et charge inutilement l’espace qui conserve ces différentes versions.
Sur le Macintosh, il existe Disk Inventory X (fig. 10) - www.derlien.com/, qui offre le même principe de fonctionnement que WinDirStat, il est également gratuit et OpenSource.
Ces outils de visualisation de l’espace occupé sont également utiles pour n’importe quel support, de la clé USB au disque dur interne en évitant des données à double ou volumineuses.
Volontairement, j’ai passé sous silence les produits commerciaux qui offrent peu de fonctionnalités supplémentaires.

  
JPEG - 14.1 ko
fig. 8 – Mac OS 10, tri par taille
JPEG - 25 ko
fig. 9 – WinDirStat
JPEG - 23.7 ko
fig. 10 – Disk Inventory X sur dossier NAS

Changement de technologie, changement de pratique

En conclusion, il est essentiel de garder à l’esprit les concepts sur lesquels nous construisons nos méthodes de travail.
À l’arrivée du NAS, sans réfléchir j’ai reproduit le comportement habituel :
Allouer l’ensemble de l’espace disponible comme système de fichiers. Après réflexion, il m’est apparu que cette méthodologie était erronée, car elle ne tenait pas compte d’un élément essentiel : la capacité d’augmenter à chaud l’espace utilisé sans interrompre le service.
Dans une logique de développement durable, il est primordial de remettre notre ouvrage sur le métier, car la vitesse de l’évolution s’accompagne des mêmes modifications dans nos processus. Il est certain que l’énergie utilisée par notre société basée autour de l’information est faramineuse.

Pour le futur, les pays émergents vont probablement poursuivre le même chemin que les pays les plus développés et engendrer une progression exponentielle des besoins énergétiques.
British Petroleum a récemment publié une étude sur l’état du marché du pétrole en 2007. On relève 2 éléments inquiétants :

  • la consommation mondiale de pétrole a augmenté de 1,1 % en 2007, soit 1 million de barils par jour en plus (bpj) ;
  • la production mondiale de pétrole a baissé de 0,2 %, ou 126000 barils par jour, la première baisse depuis 2002.
    JPEG - 10.8 ko
    fig. 11

Cette information peut engendrer deux réactions :

  • pour répondre aux besoins, construisons de nouvelles raffineries  !
  • pour limiter nos besoins, changeons nos comportements  !

Peut-être faudra-t-il se poser la question de la pertinence de nos modes de travail accompagnée de leurs quêtes frénétiques de l’amélioration des capacités  ?

[1] Tree-Maps : a space-filling approach to the visualization of hierarchical information structures. Brian Johnson, Ben Shneiderman - Proceedings of the 2nd conference on Visualization’91, 1991



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.