FLASH INFORMATIQUE FI



Conférence SOS13 consacrée au calcul haute performance




Jean-Claude BERNEY


SOS est une série de workshops très interactifs sur le calcul haute performance, sponsorisés conjointement par SNL (Sandia National Laboratories), ORNL (Oak Ridge National Laboratory), et les EPF de Lausanne et Zurich.
Après SOS12 qui s’est tenue en Suisse en 2008 (cf article de Francis Lapique : SOS12 et le calcul haute performance), SOS13 s’est déroulée du 9 au 12 mars 2009 à Hilton Head aux USA et était organisée par Sandia. L’objectif était de faire le point sur la situation dans les différents laboratoires réunis et d’identifier les défis pour aller vers des systèmes de taille Exascale (1018).
Les questions abordées touchaient : la fiabilité, les accès mémoire, les interconnections, les algorithmes, la simulation et la modélisation, le benchmarking et l’analyse des résultats. Une grande partie des présentations sont disponibles sur le site du workshop.
Voici un résumé de quelques éléments marquants :

Situation dans les différents laboratoires participants à SOS

SNL (Sandia) et LANL (Los Alamos National Lab) : préparation d’un RFP (Request For Proposal) pour une machine de 2 PF (Petaflops) appelée Zia. La salle serveurs va être adaptée afin de disposer d’une puissance électrique de 14.4 MW. Le coût annuel d’un MW étant de l’ordre de 1 M$, le risque est que, d’ici quelques années, le coût de la consommation électrique pendant la durée de vie de la machine soit supérieur à celui du matériel installé. Les principaux problèmes identifiés sont la fiabilité et le memory wall (la bande passante et la latence ne suivent pas l’évolution des CPU, principalement depuis l’apparition des noeuds multi-coeurs).
ORNL (Oak Ridge) : le superordinateur Jaguar est en production. Actuellement, il s’agit de l’ordinateur le plus puissant au monde, il a une performance de pointe de 1.645 PF avec 181’504 coeurs et 362 TB de mémoire. Thomas Schulthess (ETH/ORNL) a fait tourner un code dans le domaine de la supraconductivité avec une performance de 1.35 PF. Les défis identifiés sont évidemment les mêmes que pour Zia, auxquels peuvent être encore ajoutés : la croissance exponentielle du parallélisme, l’hétérogénéité au niveau des noeuds de calcul, la taille des données à gérer et l’accroissement de la complexité des applications.
En Suisse, il y a l’initiative HPCN (High-Performance Computing and Networking). Une première phase (2009-2012) consiste à développer des compétences et à coordonner les efforts existants dans le domaine des computational sciences. Une deuxième phase consistera en l’acquisition vers 2012 d’une machine de la taille Petascale, dont l’installation exigera probablement la construction d’un nouveau bâtiment pour le CSCS au Tessin.

Quelques aspects plus spécifiques

La fiabilité

L’augmentation du nombre de composants et de la densité de ces derniers induit des problèmes de fiabilité. Le fameux checkpoint and restart n’est plus possible avec les tailles mémoires en jeu et le temps moyen entre deux pannes ou erreurs (de l’ordre de 16 heures sur Jaguar). Une possibilité serait d’introduire une certaine redondance matérielle, mais cela impliquerait de sacrifier une partie du système pour la redondance au détriment de la performance. Une autre voie pourrait être de travailler au niveau logiciel (OS, librairies, applications).

Les accès mémoire

L’augmentation du nombre de coeurs par chip sature le bus mémoire.
La question est de savoir s’il est possible de continuer à construire des supercomputers à partir de composants optimisés pour des laptops.
La mémoire consomme beaucoup d’énergie, jusqu’à 50% sur les grands systèmes. Les DRAM évoluent (bientôt les DDR4), mais il faudrait une révolution : par exemple passer à des CPU 3D (3D Stacking) et à la photonique. Mais qui peut financer ce type de développement  ?

Les interconnexions

À l’intérieur des chips, l’augmentation du nombre de coeurs va augmenter la part de la consommation électrique utilisée par les connexions internes. Par exemple, pour le processeur Cell d’IBM, cela représente entre 30 et 50% de la consommation totale. La photonique pourrait éliminer ce problème et également nettement améliorer les connexions avec des modules DRAM externes (cf figure ci-après).

JPEG - 12.8 ko
Nanophotonic Interconnected Compute/DRAM Node (Keren Bergman, Columbia University)

Quand peut-on espérer voir apparaître la première machine Exaflop et quelles devraient être ses caractéristiques principales  ?
Voici, ci-dessous, les prédictions de Jim Tomkins (SNL).



Le matériel lui-même n’est qu’une partie du problème, comme le montre le transparent suivant de Thomas Schulthess (ETH/ORNL), toutes les couches doivent être optimisées afin d’atteindre le maximum de performances.




Question fondamentale

Est-ce qu’il y a vraiment des applications qui nécessitent une puissance de l’ordre de l’Exaflop  ?
À part les applications militaires, beaucoup citent la modélisation du climat de toute la planète, en espérant que la machine elle-même ne le perturbe pas trop ...
Une nouvelle métrique est en train d’apparaître : Joules to a solution. Google sera peut-être la première compagnie à disposer d’une telle puissance, mais certainement sous une forme beaucoup plus distribuée.



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.