FLASH INFORMATIQUE FI



Du nouveau pour le HPC : Blue Gene/Q Lemanicus

Le dernier bijou technologique de la région lémanique


L’EPFL accueille depuis le début de l’année un nouveau supercalculateur de type IBM Blue Gene/Q, appelé Lemanicus, à disposition des chercheurs des universités de Lausanne et de Genève et de l’EPFL. Cet article présente les principales caractéristiques de ce nouveau système.



From the beginning of this year, EPFL is hosting a new IBM Blue Gene/Q supercomputer, called Lemanicus, available to the research community of the universities of Geneva and Lausanne and of EPFL. This paper outlines the main characteristics of the new system.



Christian CLÉMENÇON

Jacques MENU


Introduction

Le nouvel ordinateur massivement parallèle Blue Gene/Q (abrégé BG/Q) Lemanicus est doté de 1024 noeuds de calcul de 16 coeurs et de 16 TB  [1] de mémoire vive, pour une puissance de calcul théorique maximale de 209 TFLOPS  [2] Il est quatre fois plus puissant que son prédécesseur le Blue Gene/P pour un volume quatre fois plus petit (une armoire au lieu de quatre). Cette machine se situe au 141ème rang du classement TOP500  [3]. L’efficacité énergétique a été considérablement améliorée, grâce essentiellement à un système de refroidissement sophistiqué. À cet égard, notre Blue Gene/Q est classé au 10 ème rang de la liste GREEN500  [4] des ordinateurs les plus écologiques du monde.
En outre, pour satisfaire aux demandes de plus en plus exigeantes des simulations scientifiques en matière de volume et de flux de données sur disque, le système est un des premiers au monde à bénéficier d’une technologie d’avant garde d’IBM en matière de stockage massivement parallèle. Il dispose de 2.1 PB  [5] d’espace disque et a été dimensionné pour un débit lecture/écriture sur fichiers de 30 GB/s. Ainsi, grâce au nouveau système BG/Q, la région de Suisse occidentale s’inscrit dans la continuité en disposant d’un puissant outil pour promouvoir le calcul scientifique à haute performance (HPC  [6] dans les instituts qui participent à l’initiative CADMOS, dont l’EPFL ainsi que les universités de Genève et Lausanne.

Installation

Le BG/Q Lemanicus est installé dans le nouveau centre de calcul de l’EPFL inauguré l’été dernier (voir FI 5/12, Un nouveau centre de calcul à l’EPFL). La figure 1 illustre l’ensemble des racks BG/Q en salle machine. L’installation du BG/Q s’est déroulée pendant le mois de novembre 2012. Les ingénieurs d’IBM et de Gate Informatic SA ont été présents sur site pendant environ quatre semaines. Après l’acceptation et la phase de test, la production a démarré à mi-février et le système tourne à plein régime depuis lors. Le système est géré par le groupe exploitation du Domaine IT de l’EPFL (DIT-EX).



fig. 1 – vue du rack BG/Q à l’avant et de ses trois racks périphériques (© Alain Herzog)

Il faut souligner que l’arrivée du BG/Q a nécessité des travaux d’aménagement très importants des infrastructures de refroidissement hydraulique du centre de calcul. Il a fallu en effet construire une boucle de refroidissement séparée avec un système de purification d’eau très performant. La figure 2 montre les installations hydrauliques en sous-sol propres au BG/Q. En ce qui concerne ce projet, nous tenons spécialement à remercier Aristide Boisseau et le personnel de la DII qui ont activement mené ces travaux d’aménagement à satisfaction.
Après trois ans et demi de service, le Blue Gene/P a définitivement été arrêté le 28 février dernier, pour être ensuite démonté.



fig. 2 – vue des installations de refroidissement hydraulique du rack BG/Q en sous-sol du centre de calcul (© Alain Herzog)

Caractéristiques du Blue Gene/Q Lemanicus

Le BG/Q Lemanicus compte au total 16384 coeurs et 16 TB de mémoire vive. Bien que considérablement plus performante, l’architecture parallèle du BG/Q est similaire à celle du BG/P. Le système est formé d’un seul rack de 1024 noeuds de calcul, câblé de manière à former un tore penta-dimensionnel de 4x4x4x8x2. Un rack est composé de deux mid-planes de 512 noeuds. Un mid-plane peut lui-même être subdivisé en blocs de 256, 128 ou 64 noeuds. La quasi-totalité des fonctions d’un noeud de calcul est assurée par un circuit intégré de type BQC spécialement conçu et fondu par IBM, intégrant des processeurs PowerA2 64-bits cadencés à 1.6 GHz. Les différents composants matériels du système BG/Q Lemanicus sont illustrés à la figure 3.



fig. 3 – vue éclatée de la configuration du BG/Q Lemanicus

Du point de vue efficacité énergétique – c’est-à-dire en terme de puissance de calcul fournie par unité de puissance électrique consommée – le BG/Q se situe avec un rendement de 2101.12 MFLOPS/W  [7] dans le peloton de tête des solutions HPC listées au GREEN500. Cet excellent résultat est essentiellement dû à l’utilisation de puces de faible puissance à basse fréquence, et donc à faible dissipation de chaleur, ainsi qu’à un système de refroidissement hydraulique novateur qui s’étend jusqu’au coeur du système, autour des composants des cartes processeur. Cette solution permet d’intégrer 1024 noeuds de seize coeurs dans une armoire de 1.2 x 1.3 x 2 m qui consomme moins de 90 kWh.

Architecture du système

La figure 4 schématise l’architecture générale du système BG/Q Lemanicus. À droite se trouve la machine parallèle représentée par son rack. À gauche, on distingue les systèmes périphériques, dont le serveur central de gestion de l’ensemble (noeud de service), les serveurs de fichiers et leurs disques, le serveur de backup, et les deux frontales. Un réseau fonctionnel de type QDR Infiniband  [8] interconnecte les noeuds de la machine parallèle avec tous les systèmes périphériques. Un réseau secondaire Ethernet permet au noeud de service de contrôler la machine parallèle (pour les diagnostics et le démarrage des noeuds). Deux frontales présentent le système à l’extérieur via le réseau EPNET de l’EPFL et offrent aux utilisateurs l’environnement de compilation, de lancement des tâches et de mise au point des applications. Finalement, le système BG/Q est relié temporairement au système BG/P par un réseau rapide de 2x10 GbE pour la migration des données.



fig. 4 – architecture du système BG/Q Lemanicus

De L à Q en passant par P

Les différences essentielles entre le BG/L, le BG/P et le BG/Q sont illustrées sur le tableau ci-dessous. On remarquera qu’à unité de calcul égale, le BQ/Q opère des sauts de performance et d’efficacité bien plus significatifs que son prédécesseur le BG/P. Dans l’en-tête, les années de mise en service des systèmes à l’EPFL sont indiquées entre parenthèses.

Blue Gene/L (2005) Blue Gene/P (2009) Blue Gene/Q (2012)
Système 4 racks, 4096 noeuds, 8192 coeurs 4 racks, 4096 noeuds, 16384 coeurs 1 racks, 1024 noeuds, 16384 coeurs
Mémoire principale 2 TB 16 TB 16 TB
Perf. Max / Linpack 23 / 18 TFLOPS 56 / 47 TFLOPS 172 / 209 TFLOPS
Efficacité 0.23 GFLOPS/W 0.37 GFLOPS/W 2.1 GFLOPS/W
Refroidissement Air Air-eau Entièrement eau
Noeud
Coeurs 2 x PowerPC 440 4 x PowerPC 450 16 x PowerA2
Fréquence CPU 700 MHz 850 MHz 1.6 GHz
Architecture PowerPC 32-bits PowerPC 32-bits PowerPC 64-bits
L3 Cache 4 MB 8 MB 32 MB
Mémoire Principale 512 MB – 5.6 GB/s 4 GB – 13.6 GB/s 16 GB - 42.6 GB/s
Réseau
Topologie Tore 3D Tore 3D Tore 5D
Bande passante 2.1 GB/s 5.1 GB/s 40 GB/s
Entrées/sorties
Bande passante ≈ 1 GB/s Max 10 GB/s Max 30 GB/s

Allocation des ressources de calcul

Pour exécuter une application parallèle sur le BG/Q, un utilisateur demande au système batch LoadLeveler  [9] le nombre de noeuds de calcul qu’il souhaite pour exécuter sa tâche. Si disponibles, ces noeuds lui sont alloués sous forme d’un bloc régulier de cartes processeurs pour toute la durée de sa tâche. Les seuls blocs réalisables par le système d’allocation des ressources BG/Q sont de 64, 128, 256, 512 et 1024 noeuds de calcul. L’ordonnanceur de tâches de LoadLeveler alloue les blocs physiques de la machine en fonction de l’importance des projets dans un mode dit fair share. Le grain élevé du bloc (64 noeuds) et le petit nombre de blocs réalisables sur un système d’un rack, restreignent significativement les possibilités de partage des ressources de calcul entre les différents utilisateurs par rapport aux précédentes machines.

Type d’applications pouvant bénéficier de la puissance de calcul du BG/Q

Le BG/Q est un superordinateur massivement parallèle, offrant un rapport élevé entre bande passante des communications et vitesse de calcul des processeurs. La machine est dite équilibrée, car la vitesse de ses processeurs est plutôt modeste et la bande passante de ses réseaux plutôt relativement élevée. Le BG/Q a donc essentiellement été conçu pour des applications parallèles capables de s’exécuter efficacement sur un très grand nombre de processeurs et dont les tâches communiquent souvent et beaucoup entre elles. Il est à souligner que ce n’est pas forcément le cas de toutes les applications de calcul scientifique. En particulier, seules des applications utilisant la librairie MPI  [10] peuvent être exécutées. C’est donc le rôle des ingénieurs applicatifs de CADMOS de sélectionner et d’allouer les ressources de calcul aux projets scientifiques pouvant le mieux exploiter l’architecture du BG/Q.

Système de stockage GSS avant-gardiste

Le système BG/Q Lemanicus a été retenupar IBM pour une installation pilote d’un tout nouveau système de stockage appelé GSS  [11] annoncé à SC’12 (Super Computing). C’est donc un des premiers systèmes au monde à bénéficier de cette technologie très prometteuse dans le monde HPC, et plus largement dans bien d’autres domaines de l’informatique.
Le système GSS consiste à confier directement la gestion des disques aux serveurs de fichiers, au lieu de s’appuyer sur des baies de stockage externes avec contrôleurs. Les disques sont donc directement attachés aux serveurs de fichiers. Le logiciel GNR tourne sur les serveurs pour réaliser toutes les tâches inhérentes au contrôle des disques, telles que le calcul et la répartition des parités, la reconstruction en cas de panne, la vérification des données, etc. Une bonne présentation de la solution GSS est disponible.
Cette approche comporte de nombreux avantages par rapport aux solutions classiques avec baies de stockage, dont les plus significatifs sont les suivants :

  • Réduction significative du TCO (coût total) du sous-système de stockage :
    • pas de contrôleur hardware externe (souvent onéreux, complexe et difficile à gérer) ;
    • accepte des disques et enceintes standard low-cost du marché ;
    • tourne sur des serveurs x86 standard, sous Linux RedHat ;
    • complètement intégré à GPFS ;
  • Mécanismes d’intégrité des données plus souples :
    • plusieurs schémas de redondances disponibles ;
    • sommes de contrôle des données de bout-en-bout ;
    • données et parités réparties sur tous les disques (Declustered Raid) ;
    • impact limité de la reconstruction des disques ;
  • Performances accrues et équilibrées :
    • réglage de bout-en-bout du système simplifié, car il y a moins de protocoles et technologies impliqués dans la chaîne des entrées-sorties ;
    • n’importe quel système de fichiers bénéficie de la bande passante maximale, car tous les disques sont toujours mis à contribution ;
    • les performances se mesurent naturellement avec le nombre d’éléments (blocs) GSS utilisés.

La solution GSS retenue pour le système Lemanicus comporte trois blocs. Chaque bloc est constitué de deux serveurs IBM de type x3650 M4 et de six enceintes comprenant chacune 58 disques NL-SAS de 3TB, soit au total 1044 TB de capacité brute et 10 GB/s de bande passante max par bloc. Les trois blocs GSS offrent au total 2.1PB de capacité de stockage utile et une bande passante maximale de lecture et d’écriture d’environ 30 GB/s.
Les performances réelles des entrées-sorties mesurées depuis les noeuds de calculs du BG/Q atteignent entre 20 et 26 GB/s suivant les cas de tests, c’est-à-dire accès en lecture ou écriture à un fichier unique partagé, ou accès à des fichiers séparés par chaque processus.

Conclusion

Le Blue Gene/Q Lemanicus - premier supercalculateur de ce type installé en Suisse - dote la région lémanique d’un puissant outil de calcul scientifique au service des institutions participantes. Il leur offre un environnement HPC précurseur tant du point de vue de l’efficacité énergétique que de la solution de stockage, basée sur une technologie qui semble vouée à un bel avenir.
De manière plus générale, les supercalculateurs de type Blue Gene sont actuellement des acteurs incontournables dans le cercle restreint des machines à haute performance. À ce jour, le deuxième ordinateur le plus puisant du monde est le Blue Gene/Q Sequoia de www.llnl.gov qui compte 96 racks pour une puissance de calcul maximale théorique de 20.132 PFLOPS. Nous avons vu que le Blue Gene/Q opère un saut important en terme de performance et d’efficacité par rapport à ces prédécesseurs. Cette nette amélioration technologique place les ordinateurs d’IBM en bonne position dans la course à l’exascale (un milliard de milliards d’opérations de calcul par seconde), dont les premières réalisations sont espérées pour 2020.

Informations pratiques

[1] TB (Terabytes) : 1012 octets.

[2] TFLOPS (Teraflops) : unité de mesure de la puissance des ordinateurs exprimée en mille milliards d’opérations de calcul en virgule flottante par seconde (1012).

[3] TOP500 : liste des 500 ordinateurs les plus puissants de la planète.

[4] GREEN500 : liste des 500 ordinateurs les plus efficaces de la planète du point de vue énergétique.

[5] PB (Pétabytes) : 1015 octets.

[6] HPC (High Performance Computing ou en français Calcul à Haute Performance) : terme utilisé pour se démarquer de calculs faits sur des ordinateurs de bureau standard, et implique en général des clusters ou des superordinateurs.

[7] MFLOPS/W : unité de mesure de l’efficacité d’un ordinateur exprimée en million d’opérations de calcul en virgule flottante par seconde et par Watt consommé.

[8] Infiniband : technologie de communication point-à-point, utilisée principalement dans le domaine du calcul à haute performance, pour les échanges de données à haute vitesse et faible latence. QDR en est la version à 40 Gbits/s.

[9] LoadLeveler : système batch d’IBM, réalisant la gestion et l’ordonnancement des tâches.

[10] MPI (Message Passing Interface) : protocole de communication utilisé pour programmer les communications entre les différents noeuds de calcul d’un cluster.

[11] GSS (GPFS Storage Server) : solution de stockage d’IBM basée sur GPFS et la technologie GPFS Native Raid (GNR).



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.