> Place centrale > L'informatique à l'EPFL > DIT > publications > FI 10 du 21 décembre 2010 > Version PDA accueil

Avertissement: cette page est un article d'une publication de l'EPFL. Le contenu et certains liens ne sont peut-être plus d'actualité.

public averti GPU Technology Conference 2010

version pda

 

Francis LAPIQUE

pour la version html complète cliquez ici

La deuxième GTC (GPU Technology Conference 2010) s’est tenue à San José les 20-23 septembre derniers. GTC est un évènement organisé par NVIDIA pour promouvoir le domaine GPGPU. Pour cette seconde édition, NVIDIA avait résolument ciblé un vaste écosystème du monde académique travaillant dans le domaine du calcul haute performance.
Quelques titres de présentations pour illustrer la tendance 2010 :

Les moments-clés de ces GTC sont les keynotes très attendus par les participants et la presse des milieux économiques et techniques. C’est Jen-Hsun Huang, CEO et co-fondateur de NVIDIA qui se présente sur la scène pour lancer GTC-2010. Le keynote commence par une phrase-choc : Desperately Need Approach Based on Parallelism qui s’accompagne d’une équation :

  Old Conventional Wisdom New Conventional Wisdom
1 Power is free, but transistors expensive. is the Power wall : Power is expensive, but transistors are free. Can put more transistors on a chip than have the power to turn on.
2 Only concern is dynamic power. For desktops and servers, static power due to leakage is 40% of total power.
3 Monolithic uniprocessors are reliable internally, with errors occurring only at pins. As chips drop below 65 nm feature sizes, they will have high soft and hard error rates.
4 By building upon prior successes, continue raising level of abstraction and size of HW designs. Wire delay, noise, cross coupling, reliability, clock jitter, design validation, ... stretch development time and cost of large designs at ≤ 65 nm.
5 Researchers demonstrate new architectures by building chips. Cost of 65 nm masks, cost of ECAD, and design time for GHz clocks ⇒ Researchers no longer build believable chips.
6 Performance improves latency & bandwidth. Bandwidth improvevements > (latency improvements).
7 Multiplies are slow, but loads and stores are fast. is the Memory wall : loads and stores are slow, but multiplies fast. Memory transferts cost 200 clock cycles while FP multiplies just 4.
8 We can reveal more ILP via compilers and architecture innovation. Branch prediction, OOO execution, speculation, VLIW, ... is the ILP wall : Diminishing returns on finding more ILP.
9 2X CPU Performance every 18 months. is Power Wall + Memory Wall + ILP Wall = Brick Wall.
10 Increasing clock frequency is primary method of performance improvement. Processors Parallelism is primary method of performance improvement.
11 Don’t bother parallelizing app, just wait and run on much faster sequential computer. No one building 1 processor per chip.
End of La-Z-Boy Programming Era.
12 Less than linear scaling for a multiprocessor is failure. Given the switch to parallel hardware, even sublinear speedups are beneficial.

Patterson note un gain de performance de 25% par année pour la période 1978-1986 (VAX) et de 52% par année pour la période 1986-2002 (x86). Depuis 2002, la courbe s’infléchit. Conclusion : si on garde les mêmes approches d’architectures, c’est un écart de 100 en termes de performance qui sera perdu en 2021 avec la projection de la courbe 1986-2002.
Le show se poursuit avec des images 3D de Endless City : 1.3 milliard de polygones par seconde avec un rendu de plus de 1000 sources lumineuses. Puis quelques annonces :

  1. nom de code : Kepler, prochaine architecture graphique prévue pour le second semestre 2011, sur une base 28nm. Kepler offrirait des performances par Watt 3 à 4 fois supérieures à la génération actuelle ;
  2. en 2013, nom de code : Maxwell, une nouvelle architecture sur une technologie 22nm qui offrirait des performances par Watt 16 fois supérieures à l’architecture Tesla qui équipait les GeForce GTX de la série 200, 10 à 12 fois supérieure à l’architecture Fermi.


Glossaire

ECAD(Electronic Design Automation) :
conception assistée par ordinateur pour l’électronique.
FP (floating point) :
virgule flottante.
GPGPU(General-Purpose computation on Graphics Processing Units) :
calcul générique sur un processeur graphique.
ILP :
(Instruction Level Parallelism)
plénoptique :
c’est-à-dire composé d’une lentille composée elle-même de plusieurs dizaines de mini-lentilles avant le capteur CCD. (Wikipédia)

[1] Computer Architecture : A Quantitative Approach, David A. Patterson et John L. Hennessy