FLASH INFORMATIQUE FI

Numéro spécial HPC


Défis techniques pour les centres de calcul




Vittoria REZZONICO

Fabien FIGUERAS


La construction d’infrastructures est désormais un défi stratégique : les ordinateurs deviennent de plus en plus puissants et la concentration de cette puissance ne cesse d’augmenter. Le centre de calcul en tant que local doit être projeté avec comme but non seulement l’hébergement physique des machines, mais aussi l’efficacité énergétique et tout ce que cela comporte.

Introduction

Le CSCS (Centre Suisse de Calcul Scientifique) basé au Tessin a organisé à Lugano début septembre la 1st European Workshop on HPC Centre Infrastructures. Deux jours de conférences, dix-sept sessions animées par des intervenants de haut niveau, chercheurs (ETHZ, IBM Research...), constructeurs (Intel, Bull, Sun, Cray, APC, SGI...) et utilisateurs (CEA, CSCS, University of Illinois...) qui ont présenté l’état de l’art, les tendances pour les cinq prochaines années et leurs expériences concernant les processeurs, machines de calcul et centres de calcul. Les échanges informels avec les participants ont aussi permis de se faire une idée des orientations du HPC en Allemagne, Irlande, Belgique et France.
Dans cet article, nous utiliserons les informations les plus marquantes données lors de cette conférence pour présenter le principal problème auquel les gestionnaires des centres de calcul sont ou vont être confrontés, l’évacuation de la chaleur des machines. Nous présentons brièvement les solutions techniques disponibles actuellement. Puis nous terminons en analysant le cas de l’EPFL.

Problématique de la densité de puissance

Le mieux est l’ennemi du bien

Depuis l’avènement des premières machines de calcul après la Deuxième Guerre mondiale, les constructeurs ont continuellement oeuvré pour augmenter la puissance de calcul, diminuer la place utilisée, réduire la consommation électrique et si possible baisser le coût d’acquisition.
Si d’un côté les chercheurs jouissent de machines de plus en plus performantes et peuvent résoudre des problèmes avant insolvables, de l’autre les responsables des centres de calcul doivent trouver comment évacuer de plus en plus d’énergie au m2.
Pour fixer les idées, voici quelques ordres de grandeur : un sèche-cheveux consomme 1.6kW, un rack Blue Gene/L 25kW, un rack Blue Gene/P 46.3kW. Pour avoir une idée de ce que le futur nous réserve, nous pouvons citer une annonce de Cray : une ligne de 4 racks, avec par rack entre 113 et 119 kW  !

PUE  ?

Il existe plusieurs métriques pour évaluer l’efficacité d’un centre de calcul du point de vue énergétique, le PUE (Power Usage Efficiency) est la plus couramment utilisée actuellement. C’est un nombre sans unité qui représente le rapport de la puissance électrique totale nécessaire au centre de calcul divisé par la puissance électrique consommé par les matériels informatiques.
Ce nombre est donc toujours supérieur à 1. Les valeurs actuelles moyennes sont de l’ordre de 2. Google a obtenu 1.2 en construisant ses propres machines, sans bloc d’alimentation électrique ni ventilateur et en profitant au maximum du refroidissement gratuit (Free cooling).

Solutions actuelles pour le refroidissement

Tous les utilisateurs de serveurs ne s’appelant pas Google, il faut trouver d’autres solutions que la fabrication de machines. D’abord, il faut utiliser, si possible, les ressources mises à disposition gratuitement par la nature. Il faut aussi optimiser les racks qui hébergent les machines dans les centres de calcul.

Les fondements de l’échange thermique

Trois relations importantes qui permettent de mieux comprendre l’influence du fluide utilisé pour transférer l’énergie et celui de la température de l’air chaud à l’entrée d’une unité de refroidissement.

E=m.Cp.(Tf -Ti )

C’est la relation macroscopique qui permet de calculer l’énergie thermique E (en Joule) fournie ou reçue quand une quantité de matière m (en kg) passe d’une température Ti à une température Tf. Le coefficient Cp est la chaleur spécifique à pression constante (J.kg -1.K-1), les températures sont en degrés Kelvin. Pour mémoire Cp (eau liquide)= 4186 et Cp(Air) = 1005.
Cette relation est fondamentale, mais pas suffisante pour nos besoins. En effet les composants ne baignent pas dans un fluide immobile, il est en mouvement et l’échange d’énergie se fait par convection forcée. De plus, on doit introduire la notion de temps nécessaire pour le transfert de cette énergie. Si on divise les deux membres par t (temps en secondes), on obtient à gauche une puissance P (en Watt). Du côté droit, décomposons la masse comme produit du volume (en m3) par la masse volumique du fluide ]rho ; (en kg/m3) et remarquons que des m3/s représentant un débit que l’on note Q on obtient finalement :

P =ρ.Cp.Q.(Tf -Ti )

Pour mémoire ρ(eau liquide)= 998 et ρ(Air)=1.293. Donc si on fixe la puissance et l’écart de température le rapport entre le débit d’air et le débit d’eau sera de (ρ(eau).Cp(eau))/(ρ(air).Cp(air)) soit (4186*998)/(1005*1.293)=3223.

P=k. S.(Tc -Tf )

Utilisée pour les échangeurs de chaleur cette relation macroscopique permet de calculer la puissance thermique ( P en Watt) échangée entre un milieu froid à une température Tf et un milieu chaud à une température Tc à travers une surface S (en m2), les températures sont en degrés Kelvin. Le coefficient k, sans dimension, est en général fonction, entre autres, du débit du fluide considéré.
Donc pour échanger le plus d’énergie possible avec un appareil donné (ce qui fixe S) il faut que l’écart de température soit le plus grand possible.

Les ressources gratuites

Encore un ordre de grandeur. Combien économise-t-on pour chaque kW gagné  ? Prenons un prix du kW.h de 15 centimes. Une année de 365 jours dure 365*24 = 8760h donc 1 kW coûte 8760*0.15= 1314 CHF.
Si la ressource est gratuite, son utilisation ne l’est pas, en effet il faudra peut-être traiter l’air pour enlever des particules de poussière et contrôler son taux d’humidité.

Air ambiant

JPEG - 15.5 ko

Pour refroidir, il est possible d’utiliser l’air ambiant, même si par grande chaleur il faut un moyen complémentaire. La température moyenne à Lausanne est comprise entre -2 et 14 degrés.
La température d’air requise pour refroidir un Blue Gene/P doit être comprise entre 15 et 18 degrés. Pour chaque rack il faut refroidir 46 kW soit en arrondissant 60’000 CHF par an  !

Eau de lac

La température minimum du lac Léman est de 6 degrés ; même si c’est plus chaud que la température minimale de l’air c’est largement suffisant pour les besoins de refroidissement. De plus, la température moyenne est constante dans les profondeurs du lac. Comme on l’a déjà vu, la capacité thermique de l’eau est 4 fois plus grande que celle de l’air et le débit nécessaire est 3223 fois plus faible. Donc si on ne doit retenir qu’une énergie gratuite on choisira l’eau.

Les racks

Les machines sont installées dans des armoires : les plus simples sont complètement passives, les plus sophistiquées sont équipées d’alimentations électriques intelligentes, surveillables à distance et autonomes thermiquement.

JPEG - 7.8 ko
Porte réfrigérante avec ventilateurs intégrés

Racks à air

Simple
Le rack le plus simple ne participe pas directement au refroidissement des machines. Il est utilisé seulement pour maintenir les machines les unes au dessus des autres. En mesurant la température des machines on observe que plus on s’élève dans le rack plus la température de la machine s’élève.

Allée froide

À moindres frais, il est possible d’optimiser les échanges thermiques en cloisonnant les racks de manière à éviter les mélanges d’air froid et d’air chaud. L’air froid est pulsé dans l’allée, aspiré par les serveurs et rejeté dans la pièce. On appelle cette organisation des racks confinement de l’allée froide. Dans cette configuration les serveurs ont une température d’entrée plus homogène quelle que soit leur place dans le rack.

JPEG - 9 ko
Flux d’air dans une allée froide
JPEG - 9.5 ko
Vue extérieure d’une allée froide
JPEG - 19.4 ko
Vue intérieure d’une allée froide

Allée chaude
Le confinement de l’allée chaude fonctionne à l’inverse de celui de l’allée froide. L’air froid est aspiré par les serveurs et l’air chaud recraché dans l’allée confinée. Ce qui permet d’éviter un mélange inutile avec l’air ambiant, mais aussi d’envoyer l’air à la température la plus chaude possible dans l’unité de refroidissement. Comme on l’a vu plus haut, l’écart de température sera le plus grand possible, un meilleur rendement du refroidisseur sera donc obtenu !

Racks à eau

Lorsqu’il s’agit d’amener de l’eau dans un centre de calcul, les plus sensibles auront peur du mélange entre eau et électricité. Plusieurs manières d’utiliser l’eau existent, chacune d’entre elles doit résoudre ce problème de cohabitation entre eau et électricité. La principale difficulté est d’éviter la condensation.

JPEG - 7.9 ko
Circuits d’eau glacée pour rack autonome

Porte réfrigérante

Pour ce type de dispositif, l’air est aspiré dans la salle par les serveurs, chauffé puis passe dans un échangeur air/eau installé dans la porte arrière du rack.
On trouve deux types de portes : les passives et les actives. Les passives ne sont constituées que d’un échangeur, ce sont les ventilateurs des serveurs qui doivent supporter la perte de charge nécessaire au franchissement de l’échangeur ; dans ce cas les débits d’air ne sont pas excellent et le coefficient k se dégradant, les capacités de ces portes sont très limitées.
Les portes actives comportent un ensemble de ventilateurs qui augmentent le flux d’air, le rendement est meilleur et la capacité de refroidissement augmente.

Rack autonome

Les racks autonomes sont fermés : l’air circule dans les serveurs puis est accéléré par des ventilateurs intégrés au rack, il passe ensuite dans un échangeur air/eau et retourne aux serveurs. Il n’y a pas d’échange avec l’air de la salle. Le débit d’air et le débit d’eau peuvent être régulés pour garantir une température constante à l’entrée des serveurs. Toutes les machines du rack sont à la même température.

JPEG - 16.5 ko
Colonne de 4 racks, de gauche à droite, air ambiant à 32°C, refroidissement à 22°C par passage dans un échangeur air/eau, réchauffement dans le premier rack (+113 kW), passage dans un échangeur air/eau pour refroidir l’air à 22°C, etc.

En colonne

Ce système existe avec plusieurs variantes, aspiration d’air frais (12/15°) ou d’air chaud (32°). Le principe reste cependant le même pour les deux systèmes. L’air est aspiré dans la salle, refroidi ou non, envoyé dans les serveurs puis une fois réchauffé il passe dans un échangeur air/eau, est refroidi et rentre dans le rack de serveurs suivant et ainsi de suite.

JPEG - 6.7 ko
Rack autonome avec échangeur en bas et ventilateurs intégrés à la porte

Cas de l’EPFL

L’EPFL dispose de plusieurs locaux dédiés à l’hébergement du matériel informatique. Historiquement l’informatique centrale était dédiée au HPC, puis de nombreux petits serveurs sont apparus ainsi que des équipements réseau. Depuis quelques années des centres de calcul décentralisés sont exploités par les services IT des Facultés.
L’EPFL profite de la proximité du lac pour pomper l’eau et obtenir du Free Cooling. Le PUE n’a pas encore été calculé, mais on peut raisonnablement l’imaginer être entre 1.3 et 1.5, ce qui est un chiffre assez Green.
Tous les types de racks sont en évaluation ou en production dans les centres de calcul de l’école.
L’eau sortant des machines pourrait être utilisée en appoint pour le chauffage du bâtiment. Elle ne peut pas être transportée sur de longues distances, car elle n’est pas assez chaude.

Classes de densité de puissance

Tous les matériels n’ont pas les mêmes besoins électriques - nous les avons triés en trois classes selon leur consommation électrique par rack.

Basse densité - Inférieur à 5 kW : on trouve les équipements réseau, les lecteurs de bandes.
Moyenne densité - Inférieur à 8 kW : on trouve les baies de disques et des petits serveurs.
Haute densité - Supérieur à 8 kW : les regroupements de machines pour la virtualisation et le calcul à haute performance.

Etat des centres de calcul

Un rapport concernant les centres de calcul a été rédigé au début de l’été par le directeur du DIT. La situation est encore gérable mais pour pas plus de deux à trois ans dans les conditions d’évolution actuelles. Sachant que la durée d’un projet de construction varie entre 4 à 6 ans, il faut se pencher sérieusement et rapidement sur l’avenir des centres de calcul à l’EPFL, si on souhaite avoir une solution avant que la situation devienne insoutenable.

Conclusions

Les moyens de calcul scientifique en Suisse sont répartis sur deux niveaux. Au premier le centre national (CSCS), qui met en chantier un nouveau centre de calcul (2008-2012, budget 50MFr, PUE 1.25), un de ses objectifs étant d’accueillir une machine pétaflopique. Au deuxième niveau, on trouve des centres de calcul régionaux, par exemple l’Arc lémanique qui avec le projet CADMOS héberge sa première machine à l’EPFL (un Blue Gene/P), mais ne dispose pas encore de centre de calcul.
Les centres de calcul sont construits pour durer plusieurs dizaines d’années alors que les machines informatiques fonctionnent entre 3 à 5 ans  ! Aucun consultant sérieux ne pourra donc s’engager sur les plans de détails d’un centre de calcul moderne qui durera 20 ou 30 ans sans modifications. La souplesse d’évolution est la clef, il faut être capable de faire évoluer la configuration du centre de calcul pour supporter dans 5 ans des machines à 150 kW par rack. Si le centre de calcul n’est pas dédié au HPC il faudra aussi qu’il dispose de zones basse, moyenne et haute densité.

Photos : Courtoisie de la société Knürr.



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.