FLASH INFORMATIQUE FI



Statut de la cellule AFS de l’EPFL et perspectives d’avenir




Jean-Jacques DUMONT

Michel JAUNIN


Le système de fichiers distribués AFS n’est pas nouveau. Utilisé en production au CERN dès 1992 ainsi qu’ultérieurement à l’ETHZ, il répond à des besoins évidents liés à la mobilité des personnes souhaitant retrouver leur environnement de travail en se connectant au réseau en un point quelconque. Simultanément, AFS permet aussi d’optimiser et de sécuriser l’usage des ressources de stockage disponibles sur ce réseau.

DFS (Distributed File System) devait être un produit dérivé d’AFS, répondant aux mêmes critères, mais intégré dans l’environnement DCE (Distributed Computing Environment) de l’OSF (Open Software Foundation). L’échec de l’OSF allait toutefois aussi entraîner la fin de DFS. Mais cet échec n’était pas prévisible en 1991 lorsque le SIC choisit comme serveur de stockage central une petite machine Cray, le service étant provisoirement rendu par NFS. Pourquoi ce constructeur ? Parce que d’un côté il s’était contractuellement engagé à fournir DFS dès que disponible, et qu’il offrait des outils de migration/sauvegarde performants (DMF - Data Migration Facility) qui permettaient d’utiliser au mieux les robots STK et leur énorme capacité. L’objectif de cette opération était de progressivement créer un domaine DFS qui bénéficierait des investissements en espace de stockage/archivage déjà réalisés pour les autres machines centrales. Pour revivre cette époque, un petit tour dans les archives Web du FI s’impose, en particulier l’article du FI 8/94 de Martin Ouwehand : DFS, le système de fichiers distribués du futur,
http://dit-archives.epfl.ch/FI94/8-94-page1.html. On constatera qu’il était même déjà prévu d’offrir ce type de service aux étudiants dans les salles de cours (voir dans le FI 9/94 l’article de Roland Wuillemin : Expérience d’une nouvelle salle de stations IN2,
http://dit-archives.epfl.ch/FI94/9-94-page1.html).
Les plus curieux devront remonter aux archives papier pré-Web, car les articles les plus anciens sur le sujet datent de 1991 et 1992.

L’effondrement de l’OSF et l’émergence sur ses ruines de l’empire Microsoft allaient toutefois modifier le contexte et infléchir la politique informatique de l’Ecole vers un morcellement anarchique des moyens de stockage, de sauvegardes et d’archivage, facilité par des budgets informatiques encore bien consistants. En conséquence, les projets d’évolution d’un service central vers un système de fichiers distribué et homogène furent abandonnés et même oubliés...

Mais cette liberté d’acquisition de moyens de stockage locaux a un prix : certes pas tellement au niveau de l’espace disque, dont le coût n’a cessé de diminuer, mais plutôt au niveau des systèmes de sauvegardes, grands dévoreurs de ressources HW + SW + humaines. L’enquête effectuée dans les départements au début du projet IT 2001 allait le révéler : un retour à une vision distribuée ou globalisée du stockage/archivage était à nouveau généralement souhaité, à condition que les accès puissent être sécurisés à l’aide d’un annuaire des personnes soigneusement tenu à jour. D’où les besoins prioritaires définis dans le cadre d’IT 2001 : d’abord la constitution de l’annuaire des personnes autorisées, qui nécessite la mise en place de procédures d’accréditation des personnes beaucoup plus efficaces que celles en vigueur jusqu’à présent. Ensuite, la création d’une proto-cellule AFS au SIC, avec son corollaire : l’introduction d’un service de sauvegardes centralisé utilisant le robot STK qui est toujours en activité. Autrement dit, retour à la case 1991-4.

Toute l’infrastructure nécessaire à la réalisation de la première phase de ces projets existe et a été testée depuis décembre 2002. C’est précisément l’annonce faite par les délégués du SIC au premier Comité Informatique de l’EPFL (CI) de janvier 2003. Par première phase, nous entendons la mise en exploitation de ces services pour une population réduite et consciente de participer à une phase exploratoire. D’où la proposition d’accueillir comme premiers utilisateurs de la cellule AFS les étudiants participant à l’expérience laptops de la faculté STI. Il incombe maintenant aux membres du CI de proposer d’autres populations pilotes ancrées dans leurs facultés respectives et choisies en fonction de leur mobilité, en tenant compte des éléments suivants :
• l’installation d’un client AFS est une opération prenant en générale une dizaine de minutes pour une personne expérimentée. En fonction du succès de ce nouveau service, il sera possible de développer pour les clients des installeurs automatisés tels que déjà réalisés pour le client Sun.

• pour un accès depuis l’extérieur du site EPFL, l’utilisation du client AFS nécessite en outre la présence sur le poste de travail d’un client VPN, ce qui peut paraître contraignant dans certains cas (postes à accès public par exemple).

• AFS n’est pas prévu pour accueillir les gros fichiers de type métier, qui sont traités sur les machines locales (labos ou instituts). Ce n’est pas non plus un outil de gestion de documents. Ceux-ci seront discutés dans le cadre du projet groupware, qui devrait bientôt entrer dans l’actualité. Il faut plutôt le voir comme un remplaçant de NFS et Samba, avec les avantages déterminants que nous décrivons en annexe.

Les soussignés ont proposé aux membres du Comité Informatique de l’EPFL de préparer dès maintenant la seconde phase de la réalisation du projet, soit l’extension de la cellule actuelle de façon à progressivement pouvoir offrir le service de fichiers distribués au moins à l’ensemble de la population étudiante de l’EPFL. L’architecture du système est telle qu’une extension équilibrée se fait autant par l’ajout de serveurs aux endroits où les fichiers sont utilisés que par l’augmentation de la capacité d’un serveur central unique, de façon à satisfaire simultanément les deux critères d’optimisation qui sont à l’origine du concept AFS : d’un côté, rapidité des accès aux fichiers de travail, assurée par le système de caching/mirroring sur le poste de travail lui-même et sur un serveur AFS local ; de l’autre, efficacité des procédures de sauvegarde/archivage sur le robot STK obtenue en augmentant les possibilités de stockage sur la machine centrale, ce qui est censé éviter l’engorgement du réseau. Cela implique :
• que les responsables dans les facultés effectuent dans leurs domaines respectifs un inventaire des postes de travail susceptibles de devenir un client AFS et des serveurs de fichiers déjà utilisés localement qui pourraient être intégrés dans la cellule AFS. Eventuellement prévoir au budget des facultés une ou plusieurs machines supplémentaires, selon les besoins identifiés et la répartition topologique des postes correspondants ;

• que le SIC prévoie une extension de la configuration centrale de façon à assurer l’équilibre de l’ensemble.

Un groupe de travail incluant les responsables du système AFS et de ses outils de sauvegardes sera formé afin de coordonner l’ensemble des activités liées à la croissance progressive de la cellule .epfl : inventaires, demandes d’octroi justifiées et tests lors de chaque modification de configuration. Il devra tenir compte des éléments suivants :
• l’ensemble des serveurs peut être géré par un pool de responsables assurant une présence permanente. En phase d’exploitation de routine, trois personnes consacrant une partie de leur temps à cette activité devraient suffire (deux d’entre elles étant basées au SIC). La gestion des utilisateurs sera en effet très simplifiée par l’interface Gaspar et les nouvelles procédures d’accréditation

• pour faciliter la tâche de ce pool, il est souhaitable que tous les serveurs soient du même type, bien qu’AFS fonctionne de façon équivalente sur tout type de machine Unix/Linux. L’introduction de serveurs exotiques dans la cellule ne se fera que si on peut avoir l’assurance qu’ils soient correctement gérés localement
• pour la même raison de simplification de la gestion en pool, il est souhaitable qu’une machine hébergeant un serveur AFS soit dédiée à cette activité, bien qu’il n’y ait aucune raison technique pour qu’il en soit ainsi
• l’implantation d’un serveur local est recommandée mais pas toujours nécessaire selon le type d’activité locale (taille et nombre des fichiers, fréquence des accès, possibilités de caching sur les machines clientes...), ou la fréquence des sauvegardes souhaitée (ce processus étant relativement lent selon nos premières expériences). Seule la pratique pourra nous indiquer les choix topologiques optimaux, et notamment les performances attendues au niveau des serveurs centraux (évolution vers une solution SAN, dédoublement du serveur de backup et des canaux d’accès au robot)
• du point de vue de la gestion budgétaire, le modèle utilisé pour le déploiement de l’Active Directory devrait être utilisé : définition d’une enveloppe globale réajustée à chaque phase du déploiement (sur 2-3 ans) en fonction des nouveaux besoins et des nouvelles technologies apparaissant sur le marché ; distribution de cette enveloppe entre les parties centrales et décentralisées selon la répartition de ces besoins (essentiellement étudiants et personnel mobile)

Objectifs calendaires

• début de la phase suivante en mars 2003
• réévaluation de la situation en juin 2003
• possibilité d’ouverture du service à tous les étudiants pour la rentrée d’octobre 2003, si tout se passe au mieux.

Références

• FI9/02 : cellule AFS à l’EPFL,
http://dit-archives.epfl.ch/FI02/fi-9-2/9-2-page3.html
• FI 1/03 : cellule AFS epfl.ch en service public,
http://dit-archives.epfl.ch/FI03/fi-1-3/1-3-page2a.htm.

Avantages et inconvénients d’AFS par rapport aux autres systèmes de fichiers distribués

A l’EPFL, on trouve principalement comme serveurs de stockage de fichiers :

• NFS dans le monde Unix
• serveurs natifs dans le monde Microsoft (DFS) et Apple (Appleshare)
• Samba pour stocker des fichiers Microsoft ou Apple sur un serveur Unix.

Dans quasiment tous les cas où des fichiers de travail doivent pouvoir être accédés depuis divers postes de travail ou partagés entre plusieurs personnes travaillant sur un même projet, AFS peut remplacer avantageusement toutes ces solutions actuelles. En effet :
• l’utilisation de Kerberos pour l’authentification des utilisateurs garantit une sécurisation optimale des accès, l’intégrité des données (avec aussi la possibilité de les crypter) et une simplification extrême de la gestion des utilisateurs et groupes d’utilisateurs (ceux-ci s’inscrivent et gèrent eux-mêmes leurs paramètres d’authentification à l’aide de l’interface Gaspar/Kerberos)
• système d’ACL facilitant le travail en groupes
• OpenAFS est un logiciel libre utilisé sur un grand nombre de sites académiques, ce qui garantit une adaptation rapide aux nouveaux systèmes, aussi bien du côté clients que du côté serveurs
• des clients AFS existent sur quasiment tous les systèmes utilisés à l’EPFL
• des logiciels serveurs tournent indifféremment sur quasiment tout type de machine Unix/Linux, et même sur Windows, bien que cette dernière variété ne soit pas recommandée
• solution homogène, simple à gérer, offrant une solution de sauvegarde/archivage centralisé,scalable (donc indépendante des fantaisies des constructeurs ou éditeurs) et ... gratuite.

Inconvénients

• protocole relativement lent, compensé par le gain d’efficacité provenant du caching pour les accès, du mirroring pour les sauvegardes
• n’est utile que pour les fichiers de travail de taille modérée, donc à l’exclusion des gros fichiers de données « métier  » et du stockage de courrier électronique ou autres documents nécessitant l’utilisation d’une base de données (classement et recherches par méta-données)
• nécessité d’installer un client et de changer ses habitudes (ce qui risque de peser lourd dans la balance)



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.