FLASH INFORMATIQUE FI



SOS12 et le calcul haute performance




Francis LAPIQUE


Les workshops SOS rassemblent chaque année, sur invitation, une petite communauté d’intérêts autour du calcul haute performance. Ses membres viennent principalement des centres américains de Sandia National Lab, de Oak Ridge National Lab et de l’EPFL. Le premier workshop SOS1 a eu lieu en 1997 à Santa Fe (NM, USA), le dernier SOS12, organisé par l’EPFL, s’est déroulé à Wildhaus dans le canton de St Gall. Son nom SOS pour Sandia, Oak Ridge, Switzerland rappelle l’origine de ce groupe. Le prochain SOS13 aura lieu au milieu du Pacifique (une tradition  ?).
Le thème de cette année, proposé par Ralf Gruber (EPFL), était « From petascale [1] to exascale : Issues and Hopes » avec une série de questions ouvertes comme :

  • Quels sont les domaines scientifiques qui seront les premiers à profiter des machines peta/exascale  ?
  • Qu’est-ce qui doit être fait pour atteindre de meilleurs efficacité, disponibilité et taux de transfert sur de telles architectures parallèles  ?
    • amélioration du matériel, développement logiciel, meilleurs compilateurs, bibliothèques mieux optimisées  ?
    • ou bien l’expert de l’application doit-il faire le maximum d’efforts pour que son application tourne bien sur des milliers d’unités multi-core  ?
  • Quelles sont les applications qui sont aujourd’hui prêtes pour ces architectures  ?
  • Le GRID est-il une alternative valable aux machines peta/exaflops  ?
  • Quelles sont les réponses des vendeurs, des grands centres de recherche, des universités et des industriels  ?

Pour résumer, l’entrée dans l’ère du Petascale se situe-t-elle dans une continuité ou comme une rupture sur le plan technologique et applicatif  ? En toile de fond, le Green computing avec l’arrivée d’un nouvel indicateur, le nombre de flops par Watt, qui va prendre dans le débat une place de plus en plus importante et le fait qu’une formation plus complète en calcul intensif est indispensable pour préparer les utilisateurs à la programmation des futures machines.
Face à ces interrogations, un ensemble d’approches très diversifiées nous a été présenté par des intervenants venus d’Europe, des USA et du Japon, et lors d’une série de panels de discussions, par exemple celui What new science due to peta/exaflops conduit par I. Sbalzerini (ETHZ) ; chacun a pu ainsi exprimer son sentiment sur cette épineuse question. Il est assez difficile de se faire une opinion tant les positions sont tranchées ; pour simplifier, d’un côté, les partisans qui prônent un gros effort sur les méthodes (algorithme, formation) et ceux qui défendent une action (un gros effort pour passer à des pas de temps ou d’espace plus petits, traiter plus de particules). Les changements qui nous attendent risquent d’être profonds, les habitudes devront évoluer, voire complètement changer.
Je ne mentionnerai ici que quelques interventions qui m’ont marqué. Tous les transparents disponibles sont sur le site du workshop au format pdf.

Professeur Petros Koumoutsakos (Chair of Computational Science - ETHZ)

Première intervention, le point de vue d’un utilisateur HPC, celle du Professeur Petros Koumoutsakos. Sa présentation s’articule autour de trois points : les enjeux, des observations et une liste de voeux :

Les enjeux

Ils sont évidemment scientifiques et économiques :

  • Le calcul numérique (modélisation, simulation, optimisation) est fondamental pour les progrès de la science et des techniques au 21ème siècle.
  • Le calcul numérique est essentiel dans le cadre des études dans les domaines liés à l’énergie, la bioingénierie, la nanotechnologie, les matériaux.
  • Le numérique permet des simulations validées, efficaces et vérifiables des problèmes du monde réel complexe.

Des observations

  • De bons algorithmes peuvent remplacer des milliers de processeurs.
  • Aujourd’hui, certains codes, mal adaptés, consomment inutilement des ressources hardware
  • Comment améliorer  ? nécessité de formation et de support.

Il met en exergue quelques points forts, comme celui d’améliorer la performance d’un code de plusieurs ordres de grandeur en travaillant sur de nouvelles approches algorithmiques ou celui d’offrir des interfaces et une formation aux utilisateurs qui soient à la hauteur des enjeux cités plus haut.

Sa liste de voeux

Elle traduit les préoccupations de quelqu’un qui explore des voies pour réduire le fossé entre simulation et réalité :

Matériel

  • Grand nombre de processeurs multi-core ;
  • Des accès mémoire plus rapides ;
  • Meilleure tolérance aux pannes ;
  • Outils d’optimisation - support - portabilité.

Modèles

  • Problèmes plus complexes, interdisciplinarité ;
  • Processeurs : quantification des incertitudes et reverse-engineering.

Données : un pont entre le numérique et le monde réel

  • un accès rapide aux données
  • un traitement de données sur place.

Al Geist (Oak Ridge National Laboratory)

Al Geist, nous promet une machine Petaflop pour la fin 2008 sur la base de la figure ci-dessous.

Un point à noter, en faisant l’acquisition d’une machine dans le top du classement, vous avez peu de temps pour valoriser votre investissement puisqu’après cinq ans vous allez la retrouver dans le bas du classement. La figure suivante met en évidence le retard de l’Europe et du Japon par rapport aux États-Unis.

Mais les choses sont en train de bouger ; côté européen : plus de 60 représentants de 14 pays européens se sont réunis récemment en Allemagne pour le lancement du projet PRACE (Partnership for Advanced Computing in Europe). Il vise à mettre en place une infrastructure européenne de calcul intensif, qui permettra aux chercheurs d’avoir accès à une puissance de calcul supérieure à celle que leur seul pays pourrait leur fournir et voire supérieure à celle dont disposent les USA ou le Japon. L’objectif est d’installer d’ici fin 2009 un système capable d’atteindre un petaflops ; côté Japon voir plus loin ; côté américain (Oak Ridge), le petaflops est prévu pour la fin 2008 avec une machine dont voici les caractéristiques :

DOE Cray Baker

  • 1 Petaflops system
  • 13,944 dual-socket, 8-core SMP nodes with 16 GB
  • 27,888 quad-core processors Barcelona 2.3 GHz (37 Gflops)
  • 223 TB memory (2GB/core)
  • 200+ GB/s disk bandwidth
  • 10 PB storage
  • 6.5 MW system power
  • 150 cabinets, 3,400 ft2
  • Liquid cooled cabinets
  • Compute Node Linux operating system

Noter la consommation électrique et le retour d’un système de refroidissement à liquide.
Comme le note Al Geist, We shouldn’t forget that big machines are about advancing scientific discovery, en citant quelques grands Challenges qui sont des constantes pour l’ensemble des grands centres de recherche :

  • Fin d’une longue controverse sur la modélisation physique des cuprates supraconducteurs à haute température ;
  • Nouvelles découvertes dans la structure des protéines pour une meilleure compréhension de la conversion cellulose-ethanol ;
  • Addition de modèles liés à la végétation en climatologie (CO2) ;
  • Premières simulations 3D de plasmas qui donnent un nouvel éclairage sur le comportement du gaz ionique à très haute température de ITER 14 (UT-Battelle) ;
  • Instabilité fondamentale des chocs de supernovas découverte directement à partir de simulations ;
  • Premières simulations 3D de combustions qui tiennent compte de la composition chimique, de la température et des flux.

Adolfy Hoisie (Computer, Computational and Statistical Sciences Division-Los Alamos National Laboratory)

Adolfy Hoisie travaille dans un groupe d’analyse de performance de systèmes existants ou futurs et nous a présenté, dans ce contexte, une série de résultats concernant la performance d’un certain nombre de codes (GTC, Milagro, Partisn, S3D, SAGE, SPaSM, Sweep3D, VH1, VPIC) sur des architectures multi-core. Sa présentation débute par un rappel de l’état de l’art (fig. ci-après) concernant la bande passante de ces architectures et des stratégies AMD-Intel pour répondre à cette problématique.

Je renvoie le lecteur au site du workshop pour des résultats complets. Cette présentation se termine par une série de Q&As :

  • Moore’s Law : today 30Tflops, 12K procs. If we want to have the same # of procs, then we need 7.5 years to get to an improvement by a factor of 1,000
  • Pres. Kennedy in the early 60s : « By the end of the decade we will put a man on the moon ». Moore’s « Law » : « by the end of the decade we will have a Petaflop machine on the floor (at Los Alamos) »
  • The problem is the memory wall. Memory bandwidth can be solved (possibly) : The problem is memory latency, for random memory access. Since improvements in latency require pipelining, departure from the current microprocessor design is needed.
  • OSes are now bitten solidly by the compound effect of the « weakest link in the chain effect ». It turns out that the compound effect of the smallest possible OS interruptions (kernel and daemons) is huge at the current scale, let alone at bigger scales. System software in general will undergo a revolution.
  • Latency being the bottleneck there is little hope for geographically distributed high-performance machines.
  • Already in top of the line networks the effect of the speed of light is felt, some 60-80% of the latency is speed of light. Optics would alleviate provided that technologies existed to bridge the gap between silicon and optics. Some technologies were proposed (lasers etc).

Les Robertson (IT Department - CERN)

Les Robertson fait le point sur la grille que la communauté de 1800 physiciens provenant de 150 universités-laboratoires et 34 pays a mise en place pour exploiter les données des expériences du LHC. Le problème est sérieux puisqu’il faut compter sur 15 Petabytes ou 100,000 DVD par année pour les 4 expériences. Comme l’indique Les Robertson, les caractéristiques de cette grille résultent du domaine très particulier de cette physique des hautes énergies :

  • des événements indépendants
    un parallélisme facile
  • les codes ont
    des besoins modestes en mémoire( 2GB)
    des besoins modestes en calcul flottant
    -> tournent bien sur des PC.

mais :

  • des quantités énormes de données
    -> chaque année des Petabytes de données à partager entre de grosses collaborations, de nombreux groupes différents, avec des approches d’analyse indépendantes ;
  • des schémas imprévisibles d’accès aux données.

Une organisation 3-tiers a été choisie : un pour l’acquisition des données sur place, un autre pour la distribution/répartition de ces données, et un troisième pour l’analyse physique. Sur place donc un traitement online (trigger, data acquisition...) des grands détecteurs, puis une diffusion pour des traitements off line plus lourds sur le plan-calcul (reconstruction de traces, Monte-Carlo...) et enfin la recherche d’un événement (signature du boson de Higgs) par les groupes de recherche. La figure montre la part de chacun de ces tiers.

Quelques chiffres-clés de la grille : 50% des cycles de calcul sont répartis sur 14 sites et 90% sur 44 sites.
Les Robertson résume son propos par Some of the challenges of using grids

  • Heterogeneity - Where are the standards  ?
  • Small sites - keeping focus on operational issues - in between other responsibilities
  • Large sites - keeping focus on my VO - when local users are demanding attention
  • The world is round - it’s always prime shift somewhere - but 24 hour call-out is expensive
  • One aim was the democratisation of resource control - it worked - but democracies do not always behave the way you would like
  • Multi-science grid projects (EGEE, OSG) have attracted very useful funding, which in turn has catalysed widely distributed collaboration, and provides essential international grid operations — but they also increase the heterogeneity and diversity which are enemies of reliability.

Mitsuhisa Sato (Director, Center for computational Sciences, University of Tsukuba, Researcher, Next-Generation Supercomputer R&D Center, RIKEN)

Mitsuhisa Sato nous a présenté le Kei(1016) Soku(speed) Keisan-ki(computer) project. À l’origine du projet, une prise de conscience du gouvernement de sa perte de compétitivité dans le domaine HPC.

La décision fut prise de conduire le projet Keisoku Keisan-ki (Key Technologies of National Importance) sur la période 2006-2012 pour un budget $ 1 milliard.
Deux Grands Challenges sont particulièrement ciblés, un dans le domaine de la Nanotechnologie (Material design - Oxygen and catalytic response) et un autre en sciences de la vie ( Multi-level unified simulation, drug design). Pour répondre à ces Grands Challenges, le futur supercalculateur aura les caractéristiques suivantes :

  • un super-ordinateur hybride general-purpose qui fournit un environnement de calcul optimal pour une large palette de simulations ;
  • les calculs doivent être réalisés sur des unités adaptées à chaque cas particulier de simulation ;
  • des calculs parallèles dans une configuration hybride d’unités scalaires et vectorielles doivent rendre possibles des simulations plus importantes et plus complexes.

La figure suivante schématise une vision stratégique du calcul haute performance au Japon sur les 20 prochaines années.

Thomas Sangild Sørensen (Associate Professor, Department of Computer Science University of Aarhus, Denmark

Pour les développeurs HPC travaillant avec des GPU (Graphics processing unit, une présentation très intéressante de Thomas Sangild Sørensen : Towards PETA/EXAFLOP Computing on Graphic Cards.

Un premier constat il faut compter à l’avenir avec les GPU :

Single precision :
>1 teraflops is already available in th epictured multi-GPU solutions
 1 teraflops expected in a next-generation single GPU
Double precision :

  • Unfortunately not yet supported !
  • Announced by Nvidia for next generation for some time
  • Can we hope for teraflops in the next-generation  ?

Un deuxième constat pour accompagner le développeur, Nvidia propose Nvidia CUDA 1.0, qui associe un compilateur C et un kit de développement logiciel (SDK).

Contrairement à un CPU, un GPU dédie une part importante de ses transistors aux unités de calcul et très peu à la logique de contrôle. Autre différence significative, un GPU dispose d’une bande passante mémoire de +/- 100 Go/s contre +/- 10 Go/s pour un CPU.
Pour aller plus loin voir les références en fin d’article.

Bill Feiereisen (Los Alamos)

Le titre de la présentation de Bill Feiereisen est Metagenomics and High Performance Computing (voir également sur YouTube, l’intervention Larry Smarr, Los Alamos National Lab). La métagénomique observe l’ADN de communautés entières de microbes pour mieux comprendre le monde microbien. « Microbes run the world. It’s that simple » (American National Academies 2007).

Los Alamos développe un modèle des océans qui réévalue sa composante bio-physique. La démarche est la suivante :

  • Why : One-half (!) of the CO2 in the atmosphere is processed through microbes in the ocean
  • But : Local biological models are poorly understood
  • And : Spatial variation is very important

However we know

  • Most oceanic microbes are unknown
  • We believe that the genome is the foundation of future models
  • However the genome of which organisms  ?! - do we really know  ? Presumption :
  • DNA holds information that identifies the organism
  • Comparison of DNA among organisms can determine their evolutionary relation and metabolic function.

Et le calcul haute performance dans tout ça  ?

Cette comparaison peut se faire de proche en proche comme pour une phylogénie, ce qui consiste à calculer un critère de similitude et à rassembler les profils les plus similaires ou faire appel à des techniques plus complexes comme l’analyse en composante principale ou les réseaux neuronaux. Mais :

  • The volume of available DNA sequence data has exploded with new lab machinery
    • Example Solexa : One run (2 days) now produces 12 TB of sequence data
  • The challenge for traditional HPC  ?
    • Big Data oriented
    • Not floating point
    • Algorithms are not “solution of Partial Differential Equations”.

Un dernier transparent (fig. 10) pour nous renvoyer à la discussion de la veille What new science due to peta/exaflops.

Bill Camp (CTO and Chief Architect for HPC, Intel)

The Path to Exa-scale : An Architectural perspective par Bill Camp passe en revue les chemins qui pourraient nous conduire vers l’ Exaflop in 2016. Ce qui relève de la Roadmap et de la recherche est montré sur la figure :

Question : What kind of cores and how many cores  ? Dans la limite de Core size (at constant 200 - 300 Watts/die), trois réponses :

  • Many ( 1000) small cores :
    • Think of using low power (Say mobility) IA Processors and putting many of them on a die.
    • In-order, SSE-n 2, 4 or perhaps 8 ops per clock 2-4 GHz clock
    • 4—8 threads per core
  • A lot of big cores ( 250) :
    • Think of mainstream Xeon cores with out-of-order and 8-16 ops/clock 4-6 threads per core
  • A bunch of really big cores (34-128) :
    • Mobility core + very wide (16 - 64 ops) Vector units
    • 4-8 threads per core

Pour le problème de mémoire :
We cannot match memory bandwidth to off-package memories with increase in processing speed. We are hitting a wall in terms of number of pins, signalling area, and signalling power. This may be temporarily alleviated with package to package flex connectors. In the long term optical memory (Si photonics CPU <-> memory) may remove the problem. In the meanwhile stacked DRAM on package is the only solution.
Son dernier transparent : How will you program it  ?

Session Crystal ball

Pour conclure, un exercice traditionnel, la session Crystal ball, menée cette année par Marie-Christine Sawley (ETHZ), qui nous dit : À la fin de ce workshop, relevons cinq points essentiels pour une vison à 5 ans :

  • Les coûts d’infrastructure technique en croissance constante ne risquent-ils pas de menacer les centres de taille intermédiaire pour ne laisser que de très gros centres servant quelques problèmes très pointus et une cyber-infrastructure pour le reste de la communauté   ?
  • Les besoins d’analyser scientifiquement l’avalanche de données, expérimentales ou de simulation, ne va-t-elle pas prendre le dessus à terme pour les critères de sélection des systèmes HPC  ?
  • Les très grands systèmes ne vont-ils pas se concentrer sur 1 ou 2 challenges scientifiques et le cloud computing prendre le relais des systèmes au service de plusieurs communautés  ?
  • Quels efforts devons-nous faire pour affiner le message sur la valeur de la chaîne HPC et justifier ses coûts  ?
  • Comment renforcer le cercle vertueux entre les scientifiques qui repoussent les frontières de la découverte en utilisant le HPC, et les constructeurs  ?

Je profite de cet article pour annoncer qu’un symposium HPC-methods aura lieu les 16 et 17 juin prochains à l’EPFL pour marquer l’apport de Ralf Gruber au calcul numérique. Un site Web, va être mis en place pour l’occasion.

Références

CUDA :

[1] giga = 109 ; tera = 1012 ; peta = 1015, exa = 1018



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.