FLASH INFORMATIQUE FI



public averti GPU Technology Conference 2010


La GPU Technology Conference de NVIDIA est un espace de rencontre pour les développeurs, ingénieurs et chercheurs qui utilisent la puissance des processeurs graphiques (GPU) pour résoudre les défis de calcul les plus critiques. Jen-Hsun Huang CEO et co-fondateur de NVIDIA, Klaus Schulten de l’Université de l’Illinois à Urbana-Champaign, un pionnier dans le domaine de la bio-informatique et Sebastian Thrun, un chercheur en robotique travaillant à l’université de Stanford et ingénieur chez Google ont animé les trois Keynotes de ce cru 2010.



The NVIDIA GPU Technology conference is a meeting point for developers, engineers and researchers using the computing power of graphic cards (GPUs) to be up to the newest challenges in scientific computing. Jen-Hsun Huang, CEO and co-founder of NVIDIA, Klaus Schulten, one of the pioneers of bio-informatics at Illinois University at Urbana-Champaign and Sebastian Thrun, a researcher in robotics Standford University and Google engineer hosted the three keynotes of this 2010 edition.


Francis LAPIQUE


La deuxième GTC (GPU Technology Conference 2010) s’est tenue à San José les 20-23 septembre derniers. GTC est un évènement organisé par NVIDIA pour promouvoir le domaine GPGPU. Pour cette seconde édition, NVIDIA avait résolument ciblé un vaste écosystème du monde académique travaillant dans le domaine du calcul haute performance.
Quelques titres de présentations pour illustrer la tendance 2010 :

  • Modified Smith-Waterman-Gotoh Algorithm for CUDA Implementation (The Johns Hopkins University) ;
  • Towards Peta-Scale Green Computation - Applications of the GPU Supercomputers in the Chinese Academy of Sciences (CAS) ;
  • CUDA for Real-Time Multigrid Finite Element Simulation of Soft Tissue Deformations (Technische Universität München) ;
  • GPU-Based Conjugate Gradient Solvers for Lattice QCD (National Taiwan University).

Les moments-clés de ces GTC sont les keynotes très attendus par les participants et la presse des milieux économiques et techniques. C’est Jen-Hsun Huang, CEO et co-fondateur de NVIDIA qui se présente sur la scène pour lancer GTC-2010. Le keynote commence par une phrase-choc : Desperately Need Approach Based on Parallelism qui s’accompagne d’une équation :

JPEG - 16.5 ko
  • New CW is Power Wall + Memory Wall + ILP Wall = Brick Wall. L’ensemble est tiré d’un article de David A. Patterson (2007) : Computer Architecture is Back - The Berkeley View on the Parallel Computing Landscape (D. Paterson est le co-auteur du célèbre livre Computer Architecture : A Quantitative Approach  [1]). Par CW il faut entendre Conventional Wisdom in Computer Architecture. L’équation est le point 9 d’une liste qui en compte 12. Nous reproduisons dans le tableau ci-contre la version originale de cette liste de 12 points qui garde toute sa pertinence.
  Old Conventional Wisdom New Conventional Wisdom
1 Power is free, but transistors expensive. is the Power wall : Power is expensive, but transistors are free. Can put more transistors on a chip than have the power to turn on.
2 Only concern is dynamic power. For desktops and servers, static power due to leakage is 40% of total power.
3 Monolithic uniprocessors are reliable internally, with errors occurring only at pins. As chips drop below 65 nm feature sizes, they will have high soft and hard error rates.
4 By building upon prior successes, continue raising level of abstraction and size of HW designs. Wire delay, noise, cross coupling, reliability, clock jitter, design validation, ... stretch development time and cost of large designs at ≤ 65 nm.
5 Researchers demonstrate new architectures by building chips. Cost of 65 nm masks, cost of ECAD, and design time for GHz clocks ⇒ Researchers no longer build believable chips.
6 Performance improves latency & bandwidth. Bandwidth improvevements > (latency improvements).
7 Multiplies are slow, but loads and stores are fast. is the Memory wall : loads and stores are slow, but multiplies fast. Memory transferts cost 200 clock cycles while FP multiplies just 4.
8 We can reveal more ILP via compilers and architecture innovation. Branch prediction, OOO execution, speculation, VLIW, ... is the ILP wall : Diminishing returns on finding more ILP.
9 2X CPU Performance every 18 months. is Power Wall + Memory Wall + ILP Wall = Brick Wall.
10 Increasing clock frequency is primary method of performance improvement. Processors Parallelism is primary method of performance improvement.
11 Don’t bother parallelizing app, just wait and run on much faster sequential computer. No one building 1 processor per chip.
End of La-Z-Boy Programming Era.
12 Less than linear scaling for a multiprocessor is failure. Given the switch to parallel hardware, even sublinear speedups are beneficial.

Patterson note un gain de performance de 25% par année pour la période 1978-1986 (VAX) et de 52% par année pour la période 1986-2002 (x86). Depuis 2002, la courbe s’infléchit. Conclusion : si on garde les mêmes approches d’architectures, c’est un écart de 100 en termes de performance qui sera perdu en 2021 avec la projection de la courbe 1986-2002.
Le show se poursuit avec des images 3D de Endless City : 1.3 milliard de polygones par seconde avec un rendu de plus de 1000 sources lumineuses. Puis quelques annonces :

  • CUDA x86 : un nouveau compilateur CUDA développé par PGI qui permettra d’exécuter du code CUDA sur l’architecture Intel moyennant des performances logiquement moindres. Il sera possible d’exécuter sur son processeur, Intel ou AMD, un programme conçu à la base pour le processeur graphique.
  • Matlab bénéficiera de l’accélération matérielle offerte par les cartes graphiques de génération Fermi à travers un nouveau produit Cuda Accelerated Parallel Programming Toolbox. Le gain de performance entre cluster GPU et son homologue CPU peut être de l’ordre de 40x.
  • Le logiciel Amber (Assisted Model Building and Energy Refinement) dans sa version 11, logiciel qui a pour but de comprendre le repliement et l’agrégation des protéines et les maladies qui y sont liées, a été benchmarké. Le JAC (Joint Amber-Charmm) benchmark a montré qu’avec 192 processeurs quadri-coeurs du superordinateur Kraken (Oak Ridge National Laboratory) qui compte 8256 noeuds, on obtient un résultat de 46ns de simulation par jour de calcul quand huit GPU Fermi effectuent la même simulation à 52ns par jour.
  • La feuille de route pour les prochaines cartes graphiques a été dévoilée :
  1. nom de code : Kepler, prochaine architecture graphique prévue pour le second semestre 2011, sur une base 28nm. Kepler offrirait des performances par Watt 3 à 4 fois supérieures à la génération actuelle ;
  2. en 2013, nom de code : Maxwell, une nouvelle architecture sur une technologie 22nm qui offrirait des performances par Watt 16 fois supérieures à l’architecture Tesla qui équipait les GeForce GTX de la série 200, 10 à 12 fois supérieure à l’architecture Fermi.
  • Tegra : depuis quelques années, NVIDIA développe un System-on-a-chip qui regroupe sur un même morceau de silicium un coeur d’exécution ARM, un module de gestion des entrées/sorties et un coeur graphique. Tegra est destiné aux téléphones portables, consoles portables, tablettes. C’est plaisant du point de vue du concept, mais aujourd’hui fort peu de produits utilisent Tegra. Malgré ce contexte difficile, NVIDIA annonce que la troisième génération de produits Tegra était prête et que les ingénieurs de NVIDIA travaillent déjà sur Tegra 4.
    La vision NVIDIA : des super smartphones, tablettes et netbooks se connecteront directement au cloud.
  • Adobe Plenoptic Lens : présentation d’un produit qui pourrait bien révolutionner la photographie à en croire Adobe : transformer n’importe quelle photo floue en une photo nette. En effet, en disposant d’un appareil photo dit  plénoptique et d’un algorithme proposé par Adobe (exécuté sur une carte NVIDIA) vous pouvez changer la mise au point d’une photo, c’est-à-dire de modifier, a posteriori, le focus d’une photo.
JPEG - 14.1 ko
  • Nebulae (CPU Intel X5650 et GPU NVidia Tesla C2050), un cluster pétaflopique chinois (Linpack 1.271 pétaFLOPS) qui a fait une entrée remarquable dans le top 500 des machines les plus rapides de la planète en se classant en deuxième position en juin 2010.
    Dans ce contexte Dale Southard, senior hardware architect chez NVDIA, nous a présenté un exposé intéressant ayant pour titre Lessons Learned Deploying the World’s First GPU-Based PetaFLOP System, destiné à un public qui voudrait se lancer dans ce genre d’aventure. Dale Southard a participé à l’installation (qui a pris 90 jours) de Nebulae. Il nous fait part de quelques événements qui se produisent lors de l’assemblage d’un système qui dépasse le millier de noeuds. Il faut être pro-actif sur les tests avant l’assemblage : niveau du BIOS, vitesse processeurs, tout peut arriver au niveau hardware comme de minuscules capacités qui explosent comme de petites grenades et endommagent les composants alentour.
    Depuis la conférence, en octobre 2010, Tianhe-1A un nouvel ordinateur chinois basé aussi sur des GPU a atteint les 2.566 pétaFLOPS ce qui lui a permis de se positionner en première place des Top 500. Il ne consomme que 4MW, contre 12 MW estimés pour l’équivalent en processeurs classiques. En guise de conclusion Oracle va-t-il s’offrir AMD ou NVIDIA ? Le 27 septembre 2010, les journaux rapportent ces propos d’Ellison lors de la présentation annuelle d’Oracle à San Francisco : « Vous allez nous voir acheter des constructeurs de processeurs ». La société a déjà racheté officiellement cette année Sun Microsystems pour 7,4 milliards de dollars et elle dispose encore d’environ 23 milliards de dollars de trésor de guerre.


Glossaire

ECAD(Electronic Design Automation) :
conception assistée par ordinateur pour l’électronique.
FP (floating point) :
virgule flottante.
GPGPU(General-Purpose computation on Graphics Processing Units) :
calcul générique sur un processeur graphique.
ILP :
(Instruction Level Parallelism)
plénoptique :
c’est-à-dire composé d’une lentille composée elle-même de plusieurs dizaines de mini-lentilles avant le capteur CCD. (Wikipédia)

[1] Computer Architecture : A Quantitative Approach, David A. Patterson et John L. Hennessy



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.