FLASH INFORMATIQUE FI



Un nouveau centre de calcul à l’EPFL


Nouveau centre de calcul à l’EPFL, une solution innovante de refroidissement passif a été mise en place.



New datacenter at EPFL, an innovative passive water cooling solution has been set up.


Aristide BOISSEAU


Introduction

Un nouveau centre de calcul (datacenter ) est entré en fonction en mai 2012 à l’EPFL. La puissance disponible pour les serveurs sera de 1MW, une grande partie de celle-ci sera dédiée aux clusters HPC (High Performance Computing) les plus gros consommateurs en terme de puissance. De l’espace et de la puissance sont également prévus pour les besoins d’hébergement IT des facultés ainsi que ceux des services centraux (DIT).
Cet article présente les différentes étapes du projet et les technologies utilisées pour l’exploitation de ce nouvel outil IT à disposition de l’École.

Pourquoi un nouveau datacenter ?

Les principales infrastructures IT actuelles de l’École - la zone souple du DIT (500kW) et la salle IT de SB (150kW environ) - ne suffisant plus à répondre à la demande d’hébergement, la Direction de l’École a décidé d’investir dans un nouveau local IT en 2011. Cette nouvelle infrastructure, si les prévisions se confirment, devrait être totalement occupée d’ici 2014.

Historique

Le projet a démarré au début 2011, la méthode de gestion de projet retenue fut celle développée par l’Administration fédérale suisse : HERMES.
Ce projet avait un objectif double :

  • mise en place d’un datacenter de 1MW,
  • rénovation de la centrale technique du bâtiment IN.

Le datacenter est situé dans le bâtiment INJ (salles INJ012 et INJ019), il occupe une surface de 250m2 environ et un volume d’environ 1000m3. Les locaux [INJ011, INJ012, INJ016] et INJ019 ont été regroupés pour obtenir ces deux nouvelles salles.
Le nouveau datacenter a pris la place d’anciennes salles serveurs (INJ011, INJ016 et INJ019), d’où des contraintes supplémentaires pendant les travaux : faire le moins de poussière possible et perturber le moins possible le service IT déjà en place (pas de coupure de courant dans la mesure du possible, limiter la poussière).
Les infrastructures (centrale technique) pour le datacenter occupent environ la même surface, soit 250m2.
Les choix technologiques, les différentes analyses (risques, budgets, planning des travaux, etc.) se sont déroulés de janvier à septembre 2011. Ces choix ont été validés par le comité de pilotage du projet : Domaine IT,  Vice-Présidence pour la Planification et la Logistique (VPPL),  faculté Informatique & Communications (IC), Domaine Immobilier et Infrastuctures (DII). Les travaux de rénovation et d’infrastructures ont été supervisés par le DII.
Les travaux ont débuté en août 2011 et se terminent (je l’espère - :), à la date de l’écriture de cet article) tout début mai 2012 ; le datacenter sera alors opérationnel. Nous devrons affiner notre maîtrise de l’infrastructure encore quelques mois pour clore le projet cet été ou cet automne. Ensuite nous serons dans un mode standard d’exploitation de l’infrastructure.

Spécifications

Tiering- redondance

Les infrastructures pour ce datacenter sont de type Tier 2. Cela veut dire que tous les composants de l’infrastructure sont à double, et permettent de faire face à une défaillance d’un composant (sur les chaînes de distribution de courant, d’eau et de ventilation) sans impact sur l’exploitation. Par exemple, l’eau du lac utilisée pour le refroidissement du datacenter est remplacée en cas de panne par l’eau potable. Les transformateurs du bâtiment sont doublés, un seul suffit à assurer la charge totale du datacenter ainsi que celle du bâtiment. Cette redondance permet également des opérations de maintenance sans coupure pour les différents utilisateurs du bâtiment et en particulier pour ceux du datacenter.
Apportons un bémol pour le réseau hydraulique physique (les tuyaux) : un seul chemin pour l’aller, pas deux (idem pour le retour).

Puissance

La puissance à disposition pour les serveurs est de 1MW, le refroidissement est également prévu pour cette puissance. La puissance est fournie par deux transformateurs de 1600kVA. La puissance secourue (UPS /ASI ) est de 300kW pour une durée de 20 minutes. Après ces 20 minutes, c’est la panne car il n’y a pas de génératrice prévue dans l’infrastructure  ! C’est pourquoi une stratégie d’arrêt des serveurs sera mise en place en fonction du temps restant à disposition sur les batteries.
Néanmoins, il est possible de connecter une génératrice portable à l’infrastructure en cas de maintenance programmée.
Des solutions de secours basées sur les technologies de flying wheels + génératrice n’ont pu être étudiées pour des raisons de place, de délais et de coûts.

Froid

La particularité de ce datacenter est la technique de refroidissement utilisée. En règle générale, les datacenters utilisent de l’air frais pulsé (utilisation de CRAC ), mais dans notre infrastructure ce n’est pas le cas.
Nous avons la chance de pouvoir utiliser l’eau du lac pour le refroidissement. Cette eau est récupérée entre 6°C et 8°C par la station de pompage tout au long de l’année. Nous n’avons donc pas besoin de fabriquer de l’eau froide d’où une économie importante sur les infrastructures et leurs consommations. L’eau du lac est utilisée dans des échangeurs de 35kW montés dans les portes arrière des racks de 52U (240cm de haut). Le flux d’air nécessaire pour le passage de l’air chaud dans l’échangeur est fourni tout simplement par les ventilateurs des serveurs. Cette solution est déjà utilisée au DIT pour le dernier cluster mis en place fin 2011 : ARIES (voir fig. 1).


fig. 1 - arrière du cluster ARIES et échangeur

Cette solution nous permet d’équiper au fur et à mesure la salle selon les besoins, rack par rack. L’investissement pour le refroidissement est donc fractionné a contrario d’une solution avec de l’air pulsé où généralement on équipe l’ensemble de la salle dès le départ. Les coûts liés à l’exploitation et à la maintenance des CRAC sont, dans notre solution, évités.
La température de l’air à l’entrée de l’échangeur est d’environ 40°C pour une sortie moyenne de 21°C dans le cas du cluster ARIES.
Le réseau hydraulique dans les salles se trouve dans le faux plancher, les échangeurs s’y raccordent par des flexibles.

Régulation

Nous avons mis en place une régulation du débit de l’eau avec des vannes thermostatiques à la sortie de l’échangeur (voir fig. 2). Ces vannes régulent le débit de l’eau en fonction d’une consigne de température donnée sur celles-ci. La température de l’eau en entrée est de 14°C, le ΔT souhaité dans un premier temps est de 6 degrés.


fig. 2 - échangeur et vanne de régulation

Cette régulation permet d’adapter le débit d’eau en fonction de la puissance utilisée dans le rack ainsi que de changer les consignes (eau en sortie plus ou moins chaude) si l’on souhaite une augmentation ou une diminution du ΔT. Ce système permet d’optimiser la gestion de consommation d’eau.
C’est via cette régulation que nous pourrons aussi adapter notre température dans la salle (température de l’air à la sortie des échangeurs). Cette température de consigne (par exemple 21°C) est importante en cas de panne complète du refroidissement : elle conditionne la marge de temps que nous avons avant d’atteindre une température élevée (40°C) dans le datacenter. Pour une température de consigne de 21°C nous avons environ trois minutes avant d’atteindre le seuil des 40°C dans la salle  ! Bien évidemment, il faudra prendre des mesures d’urgence dans ce cas de figure possible, mais très peu probable (arrêt des machines, dans quel ordre, ...).

Récupération de l’énergie

L’eau réchauffée de six degrés n’est pour l’instant pas valorisée, des projets sont à l’étude pour utiliser ce potentiel énergétique via des PAC(pompe à chaleur) par exemple. La régulation nous permettra de modifier ce ΔT , et nous pourrons fournir aux PAC de l’eau plus chaude entre 20 et 25°C voire plus.

Accès - Sécurité - Détection

Le contrôle d’accès en INJ012 sera géré comme les accès de la salle machine du DIT au MA (même système de contrôle). L’accès en INJ019 sera géré par le système CAMIPRO. Les salles seront équipées d’un système de vidéosurveillance ainsi que d’un système anti-effraction. Elles sont équipées d’un système de détection feu (plafond) et dans chaque rack il y aura une détection précoce du feu. Des détecteurs sont installés dans le faux plancher pour alerter en cas de fuites d’eau. Il n’y a pas de système d’extinction préventif (gaz inerte, brouillard d’eau, autre). Le risque de feu reste très faible et la mise en place d’un système d’extinction n’a pas été retenue pour le moment.

Métriques - PUE

L’ensemble des composants de l’infrastructure (pompes, ventilation, électricité, PDU , UPS, etc.) sera équipé de sondes SNMP (Single Network Management Protocol) pour permettre le suivi de leurs utilisations/statuts.
Nous pourrons donc mesurer les modifications d’un ou plusieurs paramètres appliqués à l’infrastructure afin d’affiner le pilotage du datacenter pour de meilleures performances : l’efficience.
Bien évidemment nous suivrons le PUE  du datacenter (une des métriques, mais pas la seule), qui une fois à pleine charge devrait être autour de 1,2 voire inférieur (on l’espère) pour l’ensemble des zones. Une première estimation d’un PUE de 1,06 est avancée pour des machines n’utilisant pas le courant secouru ou très peu (par exemple le cluster des PS3). Un PUE de 2 exprime que pour 1W dédié aux serveurs IT il faut 1W pour le fonctionnement de l’infrastructure (froid, ventilation, batteries, lumières, etc.). Dans l’hypothèse d’un PUE de 1,2 il faudra donc prévoir une consommation de 200kW pour notre infrastructure. On voit donc l’intérêt d’avoir cette valeur le plus proche de 1 possible pour des raisons évidentes d’efficacités énergétique et économique.
Prenons l’exemple d’une consommation électrique annuelle d’un serveur virtuel de 1MW à 30cts du kWh. La facture virtuelle pour cette consommation sera de : 1000x24x365x0.3 = 2.63 MCHF, montant auquel il faudra ajouter la consommation des infrastructures pour le refroidissement, la ventilation, la lumière... Soit un facteur égal au (PUE-1).
Dans notre exemple : 2.63x(1,2-1) = 525 kCHF.
Si on diminue le PUE de 0,05, l’économie réalisée serait de 130kCHF. Sur dix ans une économie de 1.3MCHF  ! Si on revalorise le ΔT (via des PAC par exemple) alors, les économies s’additionnent et le modèle général devient encore plus équilibré. Sur les anciennes infrastructures de l’EPFL le PUE moyen est sans aucun doute supérieur à 1,5 voire plus. La conclusion s’impose d’elle-même.
emier temps est de 6 degrés.


fig. 3 - les nouveaux échangeurs et les nouvelles pompes

Agencement

Le datacenter INJ est composé de deux salles à l’usage de l’ensemble de l’École (facultés, services centraux). INJ012 (agrégat de INJ011,INJ012 et INJ016) est une zone pour les serveurs de facultés (ZMD1 - Zone Moyenne Densité 1) et les clusters HPC (ZHD - Zone Haute Densité) tandis que INJ019 (ZMD2 - Zone Moyenne Densité 2) est une zone dédiée aux facultés (voir fig. 4).


fig. 4 - agencement du datacenter

La capacité du datacenter en terme de rack sera d’environ 60 racks de 52 RU (Rack Unit), donc un total de 3120 RU : avantage indéniable en terme de densité de RU/m2, on optimise également l’hébergement. Les racks standards actuels offrent entre 40RU et 47RU, soit un gain en terme de place pour les serveurs allant de 10 à 25%  ! Cette optimisation a été possible grâce à la hauteur sous plafond (>4m) disponible dans les locaux. Dans la zone ZHD, la puissance par rack devrait dépasser les 20kW alors que pour les zones ZMD1 et ZMD2 on devrait être à 10kW ou moins. Le premier cluster installé en INJ012 sera un cluster de la faculté SB (26RU soit la moitié d’un rack pour 15kW environ), le second sera BELLATRIX (cluster mutualisé tout comme ARIES) pour l’automne 2012. On attend également le successeur du projet CADMOS sans doute pour début 2013.
La nouvelle installation du cluster de PS3 sera installée dans des racks standardisés de 240 cm de haut. Ces racks pourront être réutilisés pour des serveurs 19 pouces standards.

Infrastructures

Circuit hydraulique

Pour permettre le refroidissement de 1MW il a fallu enlever les installations existantes et construire un circuit hydraulique permettant d’amener jusqu’à 170m3/h d’eau (14°C) dans le datacenter. Pour l’instant, le datacenter a un unique réseau d’eau, un deuxième pourra être mis en place si besoin (température sensiblement différente, 55°C ou 60°C par exemple).


fig. 5 - nouveau réseau hydraulique central technique - © Alain Herzog

Voici quelques étapes du chantier.

Électricité

Toute l’infrastructure électrique du bâtiment a été rénovée, les transformateurs du bâtiment ont été changés (2x1600kVA) pour satisfaire les nouveaux besoins.


fig. 6 - livraison d’un tableau général basse tension dans la centrale technique par le saut de loup

La puissance globale pour les salles INJ012 et INJ019 sera de 1MW dont 300kW secourus ce qui nous permettra d’avoir 20 minutes d’autonomie sur batteries en cas de panne générale de courant. Une stratégie d’arrêt des machines sur le courant secouru sera mise en place pour éviter des arrêts brutaux pour les applications sensibles telles que les serveurs de bases de données ou les serveurs de fichiers.
La puissance non secourue sera principalement utilisée pour les configurations HPC pouvant s’arrêter sur une coupure brutale : en général les noeuds de calcul peuvent être sur le courant non secouru alors que leurs serveurs de fichiers, frontales, switchs sont quant à eux sur le courant secouru.
L’ensemble de la distribution électrique dans les salles se fait par le plafond.

Ventilation

L’air du datacenter est traité spécifiquement. L’humidité est contrôlée (tolérance entre 20% et 80% d’humidité relative, en général 50%), l’air est filtré et le volume de la salle renouvelé trois fois par heure.

Datacenter

Le datacenter a été inauguré le 10 mai 2012. Dans chaque rack du datacenter, les serveurs seront attachés à des PDU  intelligents qui nous permettront de connaître la puissance consommée de chaque machine hébergée.


fig. 7 - travaux dans le datacenter


fig. 8 - datacenter livré ! - © Alain Herzog

La prochaine étape sera de tester et valider tous les scénarios de pannes éventuelles des infrastructures et les actions à prendre dans ces cas de figure. Cela fera l’objet d’un nouvel article en 2013 avec un point également sur le PUE et autres métriques du datacenter  !

Appels à contributions

Nous disposons d’un datacenter qui se rapproche d’une certaine façon d’un laboratoire. Nous souhaitons l’exploiter de manière optimale. Dans cette optique nous sommes demandeurs de compétences ou expertises pour nous aider à améliorer notre exploitation (outil/expertise CFD    applicable au datacenter par exemple)  ! Nous allons également mettre au concours la décoration des racks. Pour l’ensemble du cluster nommé Bellatrix (4 à 6 racks), une Amazone pourrait apparaître sur le flanc des racks... Who knows  !

Conclusions et remerciements

Avec ce nouveau datacenter, l’EPFL double sa capacité d’hébergement IT. Cette infrastructure doit être pilotée et optimisée. Nous allons donc essayer d’en tirer le maximum par un résultat d’un coût d’exploitation minimum  ! Il reste encore beaucoup de marge de manoeuvre pour réaliser des datacenters plus efficaces, je pense notamment à l’arrivée du courant continu directement dans les salles machines. Pour faire court, on simplifie la chaîne de distribution électrique ASI en éliminant des conversions de courant AC->DC et DC->AC comme le montre la figure 9.


fig. 9 - comparaison distribution AC/DC dans un datacenter (source NTT Data Intellilink Corp.)

Le courant continu est alors amené directement vers les serveurs. L’ensemble des composants d’un serveur fonctionne en courant continu (carte mère, carte d’extension, ...) alors pourquoi avoir un transformateur AC/DC sur chaque serveur  ?
En éliminant ces convertisseurs, on diminue les pertes liées aux conversions multiples, on gagne de la place dans les serveurs, on simplifie l’infrastructure ASI (moins de composants, CAPEX  donc moins de maintenance, OPEX  !). Par contre la gestion du courant continu en salle semble poser des problèmes de religions (à l’image des guerres de clochers Mac/Windows ou Linux-Pas Linux) jusqu’à présent. Peu d’intégrateurs de serveurs proposent à ce jour des machines DC. Les économies ne sont pas bonnes pour tout le monde ... pour les vendeurs de convertisseurs peut-être  ?
La piste des datacenters LEGO sous forme de containers est également à retenir. Droit au but : on configure le contenu de la boite avec R racks, avec S serveurs, la définition du type de refroidissement (air/eau), le type de redondance, la couleur... Ensuite il suffit de fournir la surface et les infrastructures nécessaires : la prise de courant et éventuellement les raccords pour l’eau lorsque le container est livré et prêt à l’emploi. Le datacenter se construit et évolue selon la demande sur la base de containers plus ou moins grands. Avant de passer aux remerciements, je vous mets en garde sur le respect des plannings dans le domaine du bâtiment : des promesses, toujours des promesses, et toujours du retard  ! - ;)  Une pensée ironique et amicale pour mes collègues du DII  ! J’ai déjà eu leurs réponses : les spécifications IT changent/évoluent trop vite  ! - ;) Les univers de l’informatique et de la rénovation d’un bâtiment sont antinomiques : poussières et étincelles de meule ne vont pas de pair avec des équipements informatiques habitués aux salles presque blanches, les fibres optiques ne supportent que très mal le passage d’un transpalette... Néanmoins et pour l’objectivité de mes propos, le datacenter est livré avec peu de retard sur le planning prévu (la date initialement prévue était le 1er avril, évidemment c’était un poisson...) sans aucune perturbation non planifiée (sauf pour la poussière  !) sur l’IT pendant les travaux : bravo  !
Je tiens à remercier la VPPL pour nous avoir soutenu et fait confiance, le comité de pilotage SI, le comité de pilotage et le groupe de travail du projet INJ-1MW ainsi que mes collègues du DIT et du DII qui m’ont épaulé et supporté - ;) pendant ces 18 mois.
Un grand merci également aux utilisateurs des salles INJ011(DIT), INJ016(IC) et INJ019 (équipe du Professeur Lenstra pour le cluster des PS3) qui ont dû s’adapter aux travaux et à leurs impacts pendant 8 mois. Des remerciements pour les indigènes du bâtiment INJ qui ont été directement impactés par les travaux et leurs nuisances associées. Sans oublier l’ensemble des entreprises, des bureaux et des fournisseurs qui ont pris part à la rénovation du bâtiment et à la conception du datacenter en INJ. Et pour reprendre les propos de mon collègue Alain Dufour : « Nous sommes prêts pour la prochaine étape : un datacenter de 10MW voire plus  !  » ; avec une bonne récupération énergétique, on pourrait réchauffer beaucoup d’eau ... assez d’énergie pour tout un campus  ?





Glossaire

ASI :
alimentation sans interruption - dispositif de l’électronique de puissance qui permet de fournir à un système électrique ou électronique une alimentation électrique stable et dépourvue de coupure ou de micro-coupure, quoi qu’il se produise sur le réseau électrique. W
CAPEX :
dépenses d’investissement de capital quant aux coûts de développement ou de fourniture des pièces non-consommables pour un produit. W .
CFD (Computational Fluid Dynamics) :
étude de la dynamique des fluides par la résolution numérique des équations la régissant. W
CRAC (Computer Room Air Conditioning) :
climatisation de salle machine.
HPC High Performance Computing :
calcul à haute performance.
HVDC (High Voltage Direct Current) :
le courant continu haute tension est une technologie d’électronique de puissance utilisée pour le transport de l’électricité en courant continu haute tension. W
OPEX :
dépenses d’exploitation, soit les coûts courants pour exploiter un produit, des entreprises, ou un système. W.
PDU (Power Distribution Unit) :
barre de distribution du courant dans les racks.
PUE (Power Usage Effectiveness) :
indicateur d’efficience énergétique utilisé pour qualifier l’efficacité énergétique d’un centre d’exploitation informatique. W
UPS (Uninterruptible Power Supply) :
alimentation sans interruption - voir ASI.

W = tiré de Wikipédia

Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.