FLASH INFORMATIQUE FI

Numéro spécial Calcul à haute performance à l’EPFL


Les ressources de calcul du DIT – Panorama des ressources disponibles




Jacques MENU

Pascal JERMINI

Michela THIEMARD

Christian CLÉMENÇON

Jean-Claude LEBALLEUR


JPEG - 10.3 ko
Panorama des ressources de calcul disponibles au Domaine IT

Introduction

Le DIT offre à la communauté de l’EPFL différentes ressources de calcul à haute performance, mais il n’est pas toujours évident de s’y retrouver et de choisir la ressource la mieux adaptée au type de problème que l’on souhaite résoudre. En effet, les applications ne s’exécutent généralement pas de manière optimale sur toutes les machines de calcul à disposition, étant donné leur architecture souvent très différente. Il peut en résulter une utilisation contre-productive des ressources, ce qui n’est pas dans l’intérêt des utilisateurs !
Chaque serveur de calcul a des caractéristiques particulières, comme notamment le type de réseau d’interconnexion entre les noeuds de calcul, ou bien la quantité de mémoire par noeud. Ces différences sont importantes, car la plupart des applications ne se comportent pas de manière similaire suivant l’environnement dans lequel elles sont exécutées. Par exemple, une application très gourmande en mémoire ne pourra pas s’exécuter convenablement sur une machine n’en disposant que peu : il devient donc intéressant de déplacer ce genre d’applications sur des machines ayant une plus grande capacité mémoire et de laisser la place aux applications pouvant se contenter d’une quantité moindre de mémoire. Connaître les différences et les limitations de chaque machine permet de choisir le serveur de calcul le plus adapté et ainsi d’optimiser l’utilisation des ressources : il serait en effet dommage d’exécuter une application peu adaptée sur une machine, alors qu’une autre pourrait tout à fait remplir la tâche, et ce, de manière optimale.

Les machines à disposition

Nous allons décrire les ressources de calcul que le DIT met à disposition des chercheurs de l’EPFL. Il ne s’agit pas d’une description détaillée (pour ceci voir la page web des ressources de calcul centrales), mais plutôt d’une présentation de l’éventail des machines disponibles, avec leurs spécificités, le type d’applications qui y sont particulièrement bien adaptées, ainsi que quelques autres informations utiles.
Toutes les machines parallèles à mémoire répartie (Mizar, Alcor, Callisto et Blue Gene/L) se basent sur le standard MPI (Message Passing Interface) pour la communication entre les noeuds de calcul. Il est donc indispensable que les applications utilisées sur ces serveurs fassent usage de MPI pour implémenter leur parallélisme. Le DIT offre régulièrement un cours de quatre jours, axé sur la programmation parallèle avec MPI. Les dates du prochain cours ne sont pas encore connues, mais il a lieu en général deux à trois fois par année en mars et en septembre.

Mizar, Alcor & Callisto

Ces machines sont des clusters généralistes avec un réseau rapide dédié entre les noeuds de calcul :

  • Mizar est constituée de 224 noeuds bi-processeur AMD Opteron à 2.4GHz avec chacun 4GB de mémoire. Les noeuds de calcul sont interconnectés entre eux par un réseau rapide Myrinet.
  • Mizar SMP est arrivée sur le campus il y a trois ans, en même temps que Mizar. C’est une machine SMP (symmetric multiprocessing), constituée de 16 processeurs Itanium à 1.6GHz avec 64GB de mémoire partagée. Chaque processeur voit en effet les 64GB de mémoire comme une seule mémoire unifiée, ce qui n’est pas le cas des autres machines, où chaque processeur ne voit que la mémoire présente localement dans le noeud.
  • Alcor, arrivée en 2006 est basée sur la même architecture que Mizar. Elle est constituée de 24 noeuds bi-processeur double-coeur (dual-core) Intel Woodcrest à 3.0GHz, avec chacun 16GB de mémoire et interconnectés entre eux par un réseau rapide Myrinet.
  • Callisto est la dernière machine généraliste arrivée sur le campus et elle vient d’être ouverte aux utilisateurs. Elle est consituée de 128 noeuds bi-processeur quadri-coeur (quad-core) Intel Harpertown à 3.0GHz, avec chacun 32GB de mémoire, reliés par un réseau rapide de type InfiniBand.
  • Les jobs idéaux pour Mizar, Alcor et Callisto sont parallélisés et nécessitent plusieurs noeuds de calcul, afin d’exploiter le réseau rapide. Les jobs exécutés sur ces machines ont trait à des domaines variés, voir les interviews en page 18. Ceux pour Mizar SMP sont aussi des jobs parallèles, mais nécessitant beaucoup de mémoire.

Contact
Web

Blue Gene/L

  • Blue Gene/L est un ordinateur massivement parallèle, arrivé sur le campus mi-2005, qui convient exclusivement aux applications parallèles s’exécutant sur un très grand nombre de processeurs (au moins 512 jusqu’à un maximum de 8192).
  • Ce qui fait la particularité de cette machine est son très grand nombre de noeuds (4096 noeuds double-coeur) interconnectés par plusieurs réseaux spécialisés, la faible vitesse de ses processeurs (700 MHz) et la relativement petite taille de mémoire locale par noeud (512 MB).
  • Vu l’architecture très spéciale de Blue Gene/L et notamment la faible quantité de mémoire disponible par noeud de calcul, la programmation de cette machine demande une attention particulière quant à l’exploitation du parallélisme et à la gestion de la mémoire. De par ses caractéristiques - faible vitesse des processeurs et réseaux d’interconnexion rapides - cette machine convient à des applications dont le rapport communication/calcul est élevé, c’est à dire des applications dont les tâches doivent beaucoup communiquer. Parmi les jobs les plus représentatifs on peut citer les simulations de colonnes néo-corticales et des simulations de dynamique moléculaire.

Contact
Web

Greedy

  • Cette ressource de calcul est différente des précédentes et est disponible depuis mi-2006. Elle a pour but de récupérer les cycles de calcul non utilisés sur les PC des salles des étudiants et des collaborateurs. On est donc en présence de ressources décentralisées et non dédiées. En effet, le propriétaire des noeuds de calcul est toujours prioritaire sur les jobs.
  • Les systèmes d’exploitation installés sur Greedy sont très variés, vu qu’elle est constituée de machines personnelles. On y trouve donc diverses versions de Windows, Linux et Mac OSX. La mémoire disponible par noeud de calcul n’est pas très élevée (environ 1 GB).
  • Sur Greedy, il n’est possible de soumettre que des jobs mono-processeur. Leur durée idéale est de 3 ou 4 heures vu la volatilité de la puissance de calcul disponible. Par contre, Greedy accepte des jobs compilés, ainsi que des jobs utilsant Matlab, Mathematica, R, Octave,...

Contact
Web.

En résumé...

Le tableau ci-dessous résume les caractéristiques principales des différents serveurs de calcul centraux que le DIT met à la disposition des utilisateurs. Ces informations permettent de faire un premier choix sur la machine la mieux adaptée au type d’application que l’on souhaite exécuter. Ce ne sont pas les seuls critères dont il faut tenir compte, mais c’est déjà un bon début !

RessourceNombre de coeursFréquenceMémoire/CoeurPuissance théorique en TflopsInterconnexion (vitesse)
Mizar4482.4 GHz2048 MB2.15Myrinet (2Gb/s)
Mizar SMP161.6 GHz4096 MB0.1(SMP) (-)
Alcor963.0 GHz4096 MB1.15Myrinet (2Gb/s)
Callisto10243.0 GHz4096 MB12.29InfiniBand (20Gb/s)
Blue Gene/L8192700 MHz256 MB23Propriétaire (2.8Gb/s)
Greedy 600- 1GB 0.72 - (-)

Conclusion

Comme le montre la section précédente, le DIT offre une variété de machines de calcul aux caractéristiques et buts divers. Au premier abord, il peut être difficile de choisir la bonne machine, adaptée aux besoins spécifiques d’une application donnée. Il est donc judicieux d’en discuter avec les administrateurs des machines qui sauront vous aiguiller vers la bonne ressource de calcul. Une utilisation correcte des ressources est dans l’intérêt de tous les utilisateurs, car ces ressources sont toujours plus sollicitées !
Une fois que le choix de la machine désirée est arrêté, il faut encore savoir comment l’utiliser, notamment savoir soumettre des jobs, connaître leur état ou bien tout simplement se familiariser avec l’environnement de travail. Outre la documentation utilisateurs spécifique à chaque serveur, le DIT offre un nouveau cours, intitulé Utilisation des serveurs de calcul du DIT. Ce cours a pour but de présenter en une journée comment utiliser les serveurs de calcul centraux et le Grid (par exemple soumission de jobs, les différents espaces de stockage) et sera donné selon la demande des utilisateurs.

Politique d’accès aux ressources de calcul du DIT

Dès janvier 2009, une nouvelle politique d’achat et d’accès aux ressources centrales sera appliquée. On dénombre trois catégories de serveurs de calcul disponibles au DIT :

  • supercalculateur (Blue Gene/L)
  • cluster standard (Mizar, Alcor, Callisto)
  • grille de calcul (Greedy)

Pour la première, l’accès est réservé à des projets de recherche approuvés par la Direction.
Pour la deuxième, tout membre de l’EPFL peut y accéder, avec cependant une priorité plus élevée pour les personnes contribuant à l’achat de ces machines. En effet, l’EPFL (VPAI/DIT) finance 2/3 du matériel et du logiciel, le 1/3 restant étant financé par des laboratoires, instituts, sections, facultés.
Pour la troisième, tout membre de l’EPFL y accède gratuitement avec la même priorité.
À noter que l’allocation des ressources centrales est gérée par le Comité de pilotage HPC. La nouvelle politique d’accès n’est pas encore complètement définie : le texte sera finalisé et officialisé dans les semaines qui vont suivre.



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.