FLASH INFORMATIQUE FI



Blue Gene/L - Le nouvel ordinateur massivement parallèle de l’EPFL




Christian CLÉMENÇON


Dans le cadre du projet Blue Brain mené en collaboration avec IBM, l’EPFL a acquis cet été un Blue Gene/L, le dernier né des superordinateurs d’IBM encore considéré comme prototype. Cet ordinateur massivement parallèle est doté de 4096 noeuds biprocesseurs et de 2TB de mémoire. Il atteint une vitesse de calcul théorique de pointe de 22.8 TFlops (1012 opérations en virgule flottante par seconde) et 18.2 TFlops au test High Performance Linpack. Ces performances en font la machine scientifique la plus puissante de Suisse, et la placent au neuvième rang mondial. L’ordinateur le plus rapide au monde est actuellement aussi un Blue Gene/L qui réalise 136.8 TFlops au test Linpack avec 65536 processeurs (source : www.top500.org).
Le Blue Gene/L de l’EPFL est dédié en priorité à trois projets scientifiques de recherche dont les applications peuvent pleinement tirer avantage de l’architecture de la machine. Le projet Blue Brain a pour but, dans une première phase, de simuler en trois dimensions les interactions électrochimiques des neurones d’une colonne de néocortex. Il utilisera une part importante des ressources de la machine. Un autre projet mené à l’EPFL étudie le repliement des protéines et le rôle de ces dernières dans le développement de maladies telles que Creutztfeld-Jacob. Une équipe du laboratoire IBM à Rüschlikon travaille dans le domaine de la simulation des semi-conducteurs du futur. D’autres projets de l’EPFL pourront tirer avantage de la puissance de la machine, par exemple pour des études de confinement de plasma ou pour des simulations de dynamique des fluides (voir Projet Blue Brain, Flash du 14 juin 2005).
Le système Blue Gene/L est installé dans la salle des machines du DIT et géré par son groupe exploitation. Après la phase d’installation et de configuration menée par les ingénieurs d’IBM et l’acceptation après les tests de validation, la machine est entrée en fonction à mi-juillet et depuis cette date tourne à plein régime. La figure 1 montre au centre deux des quatre racks du Blue Gene/L, et à gauche les frontales et serveurs périphériques de gestion du système.

Technologie

Le Blue Gene/L a effectué une percée significative dans la technologie des superordinateurs en offrant des performances jamais atteintes dans un espace réduit et à des coûts de construction et d’exploitation comparativement faibles.
Ce succès est en grande partie dû à l’utilisation de circuits intégrés de type SoC (System-on-Chip) à faible consommation, qui incorporent la majeure partie de la fonctionnalité du Blue Gene/L. Cette faible consommation n’est possible que grâce à l’utilisation de processeurs individuels aux performances modestes. La puce d’un noeud de calcul est réalisée selon un procédé IBM CMOS Cu-11 de 130 nm intégrant plus de 95 millions de transistors. Ce circuit inclut une paire de processeurs PowerPC 440 cadencés à 700 MHz, deux unités de calcul en virgule flottante, les caches L2 et L3 de respectivement 2 KB et 4 MB, le contrôleur d’accès-mémoire DDR, le contrôleur du tore tridimensionnel d’interconnexion des noeuds, les contrôleurs de trois autres réseaux spécialisés et finalement un adaptateur gigabit Ethernet, le tout pour une puissance consommée de 13W. Un noeud est pour l’essentiel constitué par le circuit intégré décrit ci-dessus et par 512 MB de SDRAM.
L’utilisation de puces de faible puissance à basse fréquence ne convient que lorsque l’utilisateur peut disposer d’un très grand nombre de processeurs. La machine a donc été conçue avant tout dans une optique de scalabilité. La faible diffusion de chaleur permet ainsi d’intégrer 1024 noeuds biprocesseurs dans une armoire de 0.9 x 0.9 x 1.9m (19 pouces) qui consomme au maximum 25 kW et qui est refroidie à l’air. De plus, grâce à cette haute densité de noeuds, plus de 85% de la connectivité se réalise à l’intérieur des armoires, diminuant ainsi la complexité du câblage et permettant d’interconnecter à un coût raisonnable une machine comprenant un très grand nombre de noeuds répartis dans plusieurs racks (jusqu’à 64).

JPEG - 10.6 ko
fig.2
Vue éclatée de la configuration de Blue Gene/L de l’EPFL

La figure 2 montre les différents composants de la plate-forme Blue Gene/L de l’EPFL. La plus petite partie enfichable est la carte de calcul qui comprend deux noeuds avec chacun 512 MB de mémoire. Seize cartes de calcul sont disposées dans un tiroir de 19 pouces. Chaque tiroir contient également une carte dédiée aux entrées/sorties tout à fait identique à une carte de calcul.

JPEG - 17 ko
fig.3
Tiroir de 32 noeuds de calcul et d’une carte E/S

La figure 3 montre un tiroir en détail. Seize tiroirs sont assemblés en un midplane qui dispose de 512 noeuds (1024 processeurs). Le midplane constitue la plus petite partition utilisable de la machine. Un rack contient deux midplanes, soit 1024 noeuds. Finalement, les quatre racks totalisent 4096 noeuds.

JPEG - 16.5 ko
fig. 4
Câblage du tore d’une armoire

La topologie physique d’interconnexion interne du Blue Gene/L est un tore à trois dimensions de 16x16x16. La figure 4 montre le câblage du tore d’un rack entre ses deux midplanes et vers les autres racks.

Architecture


JPEG - 22.4 ko
fig. 5
Architecture du système Blue Gene/L de l’EPFL

La figure 5 schématise l’architecture générale du système Blue Gene/L. À droite, la machine parallèle est représentée par deux des 128 tiroirs de noeuds. À gauche, on distingue les systèmes périphériques, dont le serveur central de gestion de l’ensemble (noeud de service), les serveurs de fichiers et de backup, et les frontales. Un réseau fonctionnel de type gigabit Ethernet interconnecte la machine parallèle et tous les systèmes périphériques. Un second réseau Ethernet permet au noeud de service de contrôler la machine parallèle (de découvrir et diagnostiquer ses composants et de booter les noeuds). Finalement, les frontales présentent le système à l’extérieur via le réseau EPNET.

Le Blue Gene/L est un ordinateur à traitement massivement parallèle (MPP). Chaque noeud de calcul dispose de sa propre mémoire vive de 512 MB et d’un micro noyau en guise de système d’exploitation. Les noeuds d’entrée/sortie (notés E/S) tournent un système Linux complet. Trois réseaux internes spécialisés prennent en charge les différents types de communications inter-processeurs et le transfert des données d’E/S des tâches.

Premièrement, le réseau tore 3D à faible latence (100 ns par lien) et large bande passante (2.1 Gb/s de moyenne) est utilisé pour les communications point à point. À travers ce réseau, chaque noeud peut communiquer avec n’importe quel autre noeud de la machine.
Un second réseau, dit réseau global collectif, relie tous les noeuds de la machine par une arborescence. Il prend en charge et optimise les communications collectives. À travers ce réseau, chaque noeud de calcul peut diffuser des données à tous les autres noeuds de la machine (broadcast), ou à un sous-ensemble de noeuds (multicast), avec une latence inférieure à 5 ?s. Le réseau collectif prend également en charge les opérations d’entrées/sorties des tâches. Il est à noter que la figure 1 ne montre que la partie de l’arborescence du réseau collectif utilisée pour les E/S, c’est-à-dire celle qui relie les 32 noeuds d’un tiroir à sa carte d’E/S. Les données écrites par une tâche sont amenées vers le noeud d’E/S qui les dirige ensuite vers un serveur de fichiers à travers le réseau fonctionnel. Inversement, les données lues par une tâche sont transférées au noeud d’E/S correspondant qui les achemine ensuite vers le noeud de calcul concerné. Un noeud d’E/S peut ainsi transférer jusqu’à 70 MB/s, même lorsque tous les noeuds qu’il contrôle réalisent simultanément des entrées/sorties.
Le troisième réseau interne (non illustré) est optimisé pour la synchronisation par barrière et la diffusion des interruptions.
Quatre serveurs de fichiers, gérés par le système de fichiers parallèles GPFS (General Parallel File System) propriétaire d’IBM, offrent aux utilisateurs un espace de stockage disque de 28TB. Un serveur séparé procède à la sauvegarde de cet espace disque sur des cartouches du robot Storage Tek.
Finalement, quatre frontales offrent aux utilisateurs l’environnement de compilation, de lancement des tâches et de mise au point des applications.

Environnement logiciel

Le Blue Gene/L est une machine du type SPMD qui supporte le modèle de programmation par envoi de message utilisant le standard MPI (Message Passing Interface). La bibliothèque MPI du Blue Gene est une version optimisée de la bibliothèque open-source MPICH2. Le système d’exploitation est basé sur Linux SLES 9.0, y compris pour les serveurs périphériques et les frontales. Les noeuds de calcul tournent un micro noyau monotâche sans mémoire virtuelle. Le micro noyau maintient l’interface du système Linux.

Les frontales offrent des compilateurs croisés (cross-compilers) pour les langages C/C++ et Fortran.

La machine peut être partitionnée de manière à ce que plusieurs utilisateurs puissent jouir d’un ensemble dédié de noeuds et de ressources réseau. La partition la plus petite est constituée par un midplane de 512 noeuds et la plus grande par les 4096 noeuds des quatre racks. La version actuelle du système batch LoadLeveler est assez rudimentaire en ce qui concerne les possibilités et l’optimisation du partage des ressources. Elle sera améliorée à fin 2005.
Deux modes d’exécution sont supportés : le mode coprocesseur utilise le premier processeur de chaque noeud de calcul pour l’application et le second est dédié aux communications ; le mode virtuel consacre les deux processeurs de chaque noeud à l’application. Ce dernier profite aux applications à forte granularité (communiquant peu). En mode virtuel, l’utilisateur peut donc disposer d’un maximum de 8192 processeurs.

Conclusion

Le Blue Gene amène une nouvelle dimension dans le calcul intensif par son architecture adaptable qui supporte un très grand nombre de processeurs à un coût de construction et d’exploitation raisonnable. IBM prévoit pour sa prochaine génération, le Blue Gene/P, des performances au-delà du petaflops (1015 Flops).

Contacts

Administration et information système :

Informations complémentaires




Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.