FLASH INFORMATIQUE FI



Nettoyage de printemps des clusters généralistes


Changements dans la gestion des clusters HPC centraux Callisto, Antares et Jupiter



Changes in the management of the central HPC clusters Callisto, Antares and Jupiter.


Jacques MENU

Vittoria REZZONICO


Lecture seulement

Le premier changement est intervenu lors de l’interruption de production de mi-mars dernier pour des mises à jour logicielles. Désormais, les dossiers racines des utilisateurs de ces machines, hébergés dans le système de fichiers users, sont montés en lecture seulement sur les noeuds de calcul. Cela a été fait en conformité avec les contrats de prestation (SLA) du DIT concernant ces machines. Le but est de pousser les utilisateurs à utiliser le système de fichiers de travail scratch, qui est à disposition des applications pour les fichiers qu’elles créent. Seuls les dossiers racines, occupant 7 TB environ, sont sauvegardés, les 31 TB de scratch ne le sont pas. Cette même politique est d’ailleurs en vigueur sur le BlueGene/P de CADMOS , par exemple.

Quotas

Le second changement est en cours de mise en place : il s’agit de quotas sur l’espace disque. Le CoPiL-HPC en a décidé ainsi suite aux problèmes récurrents d’engorgement de ces systèmes de fichiers, pour éviter que des utilisateurs soit empêchés de travailler par d’autres qui occupent un très grand espace disque.
Le système de fichiers parallèle GPFS, utilisé sur ces machines, permet d’avoir des quotas par blocs pour les données et par i-nodes pour les métadonnées, ce dernier type limitant le nombre de fichiers et dossiers qui peuvent être créés.

Combien

Les limites peuvent être spécifiées par utilisateur ou par groupe, au sens du rattachement administratif, mais aussi par fileset. Cette notion offre une grande flexibilité : un tel fileset peut être défini pour un projet transversal à plusieurs groupes, par exemple.
Le CoPil-HPC a décidé que des quotas seraient appliqués sur tout l’espace disque, soit users et scratch, selon les lignes directrices suivantes :

  • le quota est par groupe au sens Unix ;
  • la quantité allouée dépend du montant payé par le groupe pour l’utilisation des plates-formes centrales.

Concrètement :

  • les utilisateurs ayant un compte pour des tests auront 1GB d’espace sur users et 2 GB sur scratch ;
  • les groupes payant le ticket d’entrée minimum auront 10 GB sur users et 50 GB sur scratch ;
  • les groupes achetant des parties de la machine auront en plus une quantité proportionnelle aux parties payées, selon les formules :
    • dossiers racines : 10 + a × p × capacité totale de users
    • espace de travail : 50 + b × p × capacité totale de scratch

avec :

    • p : quantité d’argent totale relative reçue par le DIT pour les priorités par le groupe en question ;
    • a, b : coefficients de sur-réservation.

On a choisi pour commencer :
a = 1.0 ; &nsbp; &nsbp;&nsbp;&nsbp;&nsbp; b = 1.35.

Quand

L’activation des quotas va se faire de manière progressive :

  • le 4 avril, envoi d’un mail à tous les utilisateurs, les avertissant de l’activation imminente des quotas ;
  • les groupes qui se situent au-dessus de leur quota ont eu une période de grâce de deux semaines pour diminuer leur occupation des disques. Les utilisateurs concernés ont reçu un mail spécifique ;
  • deux semaines après le premier mail, les quotas ont été appliqués.

Les quotas en vigueur seront visibles en tout temps sur les pages HPC.

Comment

La mise en oeuvre de quotas présente certains risques :

  • il peut y avoir sous-utilisation de l’espace de stockage, tous les groupes n’utilisant peut-être pas l’entier du quota auquel ils ont droit. C’est là la raison d’être des coefficients de sur-réservation ;
  • les utilisateurs dont les applications utilisent peu de puissance de calcul comparativement, mais manipulent beaucoup de données, peuvent être pénalisés.

Les quotas sont nouveaux sur les machines centrales du DIT, et nous n’avons pas encore d’expérience à ce sujet. Les règles ci-dessus seront adaptées si le besoin s’en fait sentir.
Leur application évitera la gêne mutuelle entre groupes, afin de rendre le travail de tou-te-s plus agréable.



Glossaire

CADMOS (Center for Advanced Modeling Science) :
www.cadmos.org
CoPil-HPC :
Comité de Pilotage HPC


Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.