FLASH INFORMATIQUE FI



tout public HPC : l’énergivore


Retour sur le 2e workshop sur les infrastructures HPC.



Feedback from the 2nd HPC infrastructures workshop.


Aristide BOISSEAU


Après le premier workshop de 2009 qui s’est déroulé au CSCS (voir article du FI8/2009 : Défis techniques pour les centres de calcul) la deuxième édition a eu lieu début octobre à Dourdan (au sud de Paris) à proximité du site militaire du CEA de Bruyères-le-Châtel. Le CEA a organisé deux jours de conférences et huit sessions avec des intervenants de différents domaines tels que des constructeurs IT (CRAY, Intel, HP, IBM... ) et des utilisateurs de différentes universités/organismes gouvernementaux (Riken au Japon,  CSCS ,  CEA ,  LRZ ,  ORNL ,  NCSA ). Ces derniers ont présenté leurs projets en cours ou à venir et les défis qui se profilent pour la prochaine décennie. Cet article résume ces deux jours de workshop qui ont abordé plus particulièrement la problématique des infrastructures des centres de calcul hébergeant des ressources HPC supérieures à plusieurs MW.

La maîtrise de l’énergie

Pour faire fonctionner ces Formule 1 du FLOPS  il faut évidemment de la puissance électrique, non seulement pour alimenter la machine elle-même, mais aussi pour la refroidir. Dans ce domaine nous parlons de plusieurs MW voire des dizaines de MW. Le coût d’exploitation de ces infrastructures représente une part non négligeable dans le TCO  de ces mastodontes du calcul.
Prenons comme exemple le projet Jaguar hébergé à l’ORNL qui délivre 2.33 pétaFLOPS pour une consommation électrique de 7 MWh. Prenons un KWh à 15cts et calculons le coût annuel des besoins en électricité : 0,15x7000x24x365 = 9,2 millions de CHF.

PNG - 7.3 ko
fig. 1
PUE et coût

À ce coût il faut rajouter le coût énergétique pour le refroidissement qui est fonction du PUE. Le PUE avancé par l’ORNL est de 1.25, d’où le coût annuel de 11,5 millions de CHF. Évidemment plus le PUE sera petit plus l’économie sera importante. La figure 1 montre l’importance de la maîtrise du PUE sur la facture énergétique.
Une bonne mise en valeur également du PUE est montré sur la figure 2, plus le PUE est petit plus l’efficacité est grande : si on dispose d’un MW avec un PUE de 1.25 alors 80% pourront être dédiés pour le calcul alors qu’avec un PUE de 2 on tombe à 50%.

PNG - 2.5 ko
fig. 2
PUE et répartition de la puissance

Évolution des coûts

PNG - 13.7 ko
fig. 3
tarif MWh

L’évolution des coûts de l’énergie est aussi un point important dans le TCO des centres de calculs. La Figure 3 montre l’évolution du coût du MWh en Suisse sur trois années (2007-2009). Difficile alors de faire des projections du tarif du MWh sur les prochaines années. Le coût d’achat d’un super calculateur est généralement connu une fois le contrat d’achat signé, il n’en va pas de même pour le calcul de son TCO qui inclut tous les autres frais de fonctionnement dont la facture énergétique.
La mise en place de génératrices de cogénération ou de trigénération présentée par la société MTU peut être un atout pour pérenniser la gestion de l’énergie. La production d’énergie est optimisée sur ces nouvelles technologies, MTU annonce une efficacité électrique de 49% ( 90% si on optimise les énergies thermiques et électriques), valeur supérieure aux autres technologies dans ce domaine (micro turbine, génératrice au gaz).
La trigénération génère à partir d’une énergie primaire (du gaz en règle général) trois énergies utilisables : électrique, thermique (chauffage industriel par exemple) et production de froid.
Ce qui est tout à fait adapté aux besoins des centres de calcul, on peut citer en particulier l’exemple concret l’hôpital de Bad Berka (RFA) qui utilise la chaleur générée pour la stérilisation, le froid généré pour les salles d’opérations et évidemment l’électricité.

Les nouvelles infrastructures

Différents projets ont été présentés à Dourdan notamment une visite in vivo du futur site du CEA où sera hébergé le futur Tera100 pouvant délivrer 1.25 pétaFLOPS. Toutes ces nouvelles infrastructures utilisent l’eau comme composant essentiel de refroidissement, beaucoup plus efficace que l’air. L’eau est utilisée dans les racks pour le refroidissement des machines, comme présenté dans l’article déjà cité de l’année passée : Défis techniques pour les centres de calcul. Le PUE est fixé dans le cahier des charges, il est donc un objectif à atteindre. Les nouveaux centres de calculs sont donc des centres de mesures pour établir la meilleure gestion de l’énergie possible. Pour diminuer le TCO d’une infrastructure et également son PUE, la politique de redondance doit être soigneusement étudiée. Dans le domaine HPC les noeuds (CPU/cores) de calculs représentent souvent 80% de la puissance totale de la machine. Ces noeuds n’ont pas besoin d’être sur du courant secouru, autant d’économies réalisées lors de la mise en place de l’infrastructure : pas d’UPS, pas de batteries, pas de génératrice à installer pour cette partie importante de la puissance d’une machine HPC.
Vu les TCO des infrastructures, tous les moyens sont bons pour faire baisser le PUE, l’utilisation du free cooling est privilégiée selon les ressources à disposition (air froid, eau...). Le CSCS à Manno va puiser l’eau dans le lac de Lugano, l’EPFL dans le lac Léman. L’utilisation de la géothermie est évoquée dans la mise en place du futur centre de calcul PAWSEY à Perth en Australie (objectif 1 pétaFLOPS pour 2013). En effet l’air ambiant et l’eau salée ne font pas une alliance idéale avec le free cooling dans le sud-ouest de l’Australie. Au centre de recherche de Riken au Japon des génératrices de cogénération sont utilisées pour la génération du courant et du refroidissement de l’eau (objectif 10 pétaFLOPS en 2012), le solaire est également utilisé pour accentuer l’effort mis sur l’utilisation des énergies renouvelables.
Pour éviter les transformations successives de courant donc les pertes, pour améliorer le PUE, on peut privilégier des équipements en 400V plutôt qu’en 220V par exemple. Ce choix fait partie des décisions concernant les nouvelles infrastructures du CSCS à Manno.

L’avenir

Les constructeurs annoncent un refroidissement de plus en plus proche des points des sources de chaleur : c’est-à-dire directement sur les cartes et les chips (CPU/Core/Mémoire...).
Le projet QPACE d’IBM est un premier pas dans ce sens, de plus il est sur la première marche de la Green 500 list. IBM a présenté également son projet AQUASAR qui est mis en place à l’ETHZ. Le but de ce projet est d’avoir une valeur élevée de mégaFLOPS/W et une faible émission de CO2. Les composants les plus énergivores sont directement refroidis à l’eau, au plus proche du composant. Le système peut être refroidi avec de l’eau à 60°C, l’eau en sortie est à 65° et utilisable pour des besoins industriels (chauffage, ...) ; voir vidéo expliquant les principes du projet. La suite logique du refroidissement serait de se diriger vers des fluides plus efficaces pour les échanges thermiques que l’eau, pour le moment aucun constructeur n’a évoqué cette option. C’est sans doute encore du domaine de la R&D et de la confidentialité chez les constructeurs, car aucun n’en a parlé (IBM, CRAY, Intel, HP). Dans ce numéro, l’article On-chip cooling using micro-evaporators du laboratoire de transfert de chaleur et de masse peut montrer une direction possible dans ce sens.

Go to exaFLOPS

Sans nul doute la prochaine barrière à atteindre sera la barre de l’exaFLOPS : soit environ 500 Jaguars décrits plus haut dans cet article. Si on extrapole de manière linéaire en terme de puissance la machine demanderait 3.5 GW (sans compter l’infrastructure de refroidissement et le facteur PUE)  ! Une belle centrale électrique en perspective. En terme de surface au sol il faudrait 23 hectares environ pour poser les racks. Avec ses valeurs cette future machine ne risque pas de voir le jour. Néanmoins, un des objectifs de l’ORNL est un HPC exaFLOPS avant la fin de la décennie pour une consommation électrique dans une fourchette de 50 à 100MW voire moins. Ceci implique de facto que le nombre de FLOPS par watt doit croître fortement par exemple ! Reste à savoir si les constructeurs pourront tenir cette croissance. En tout cas la course est lancée depuis longtemps, l’Empire du Milieu vient de détrôner l’Oncle Sam de sa place de numéro un du HPC ; :).



Glossaire

CEA :
Commissariat à l’Energie Atomique
CSCS
Swiss National Supercomputing center
FLOPS (FLoating point Operations Per Second) :
nombre d’opérations à virgule flottante par seconde.
LRZ :
Leibniz-Rechen Zentrum
NCSA :
National Center for Supercomputing Applications.
ORNL :
Oak Ridge National Laboratory.
PUE (Power Usage Effectiveness) :
nombre sans unité qui représente le rapport de la puissance électrique totale nécessaire au centre de calcul divisé par la puissance électrique consommée par les matériels informatiques.
TCO (Total Cost of Ownership) :
coût total de possession.
UPS (Uninterruptible Power Supply) :
alimentation secourue.


Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.