Site WWW de Laurent Bloch
Slogan du site

ISSN 2271-3905
Cliquez ici si vous voulez visiter mon autre site, orienté vers des sujets moins techniques.

Pour recevoir (au plus une fois par semaine) les nouveautés de ce site, indiquez ici votre adresse électronique :

Calcul haute performance, mégadonnées (Big Data & HPC)
Article mis en ligne le 30 août 2017

par Laurent Bloch
logo imprimer
Licence : CC by-nd

 Mégadonnées (Big Data) : deux familles de traitements

L’informatique contemporaine permet le traitement d’importants volumes de données, et en outre les systèmes en ligne en produisent de plus en plus. L’accès à ces données, les droits de propriété qui s’y appliquent, la capacité de les traiter deviennent des enjeux de souveraineté.

Pour le traitement de ces mégadonnées (Big Data), deux cas sont à distinguer :

- Analyse de données : pour prendre un exemple en biologie, les chercheurs doivent, en routine, comparer une séquence biologique avec l’ensemble de toutes les séquences contenues dans une immense base de données. Chaque comparaison est indépendante des autres, elles peuvent être effectuées indépendamment. Si l’on dispose par exemple de 100 serveurs, il est possible de partager la base de données en 100 sous-bases et de répartir le travail entre les serveurs. Il en va de même lorsque Google analyse les recherches de ses utilisateurs, ou Amazon les achats de ses clients. Les banques, les compagnies d’assurance, la grande distribution, les services publics font ce genre d’analyses de données. Ce type de travail est effectué le plus efficacement avec de grandes fermes de serveurs de modèle courant.

- Calcul intensif : à l’inverse de l’analyse de données, les calculs de météorologie, d’océanographie, d’aérodynamique et de façon générale tout ce qui a trait à la mécanique des fluides, ainsi que l’astrophysique et les simulations de toutes sortes, notamment dans le domaine nucléaire ou pour les essais de collision, reposent sur des opérations d’algèbre linéaire pour lesquelles toutes les données doivent être simultanément en mémoire. De tels calculs nécessitent des super-ordinateurs, constitués d’une grande quantité de cœurs de processeur [1] (typiquement plusieurs milliers, jusqu’à 40 460 pour le supercalculateur chinois Sunway TaihuLight qui détient le record actuel (2016) de puissance de calcul) qui partagent une mémoire commune, ce qui nécessitent des dispositifs d’interconnexion et de commutation d’une grande complexité.

Chaque fois que ce sera possible on se ramènera au premier cas de figure, moins onéreux et plus facile à industrialiser. Les super-ordinateurs jouent un rôle important dans plusieurs domaines de recherche et d’applications, notamment militaires, ils ne constituent qu’un marché de niche, mais il ne faut pas en sous-estimer l’importance stratégique. Le français Bull-Atos maintient une activité de constructeur dans ce domaine, avec 22 systèmes parmi ce TOP500 où il est le seul européen.

 Convergence de l’analyse de données et du calcul intensif

Une évolution se dessine, caractérisée par la convergence des deux types de travaux que nous avons décrits [2]. De plus en plus, les adeptes du calcul intensif ont aussi d’énormes volumes de données à manipuler, et les analystes de mégadonnées doivent aussi leur appliquer des algorithmes coûteux en temps de calcul. De surcroît, les calculs des uns et des autres sont de plus en plus souvent distribués sur un grand nombre de processeurs, éventuellement dispersés géographiquement (« en nuage »), pas forcément identiques, ce qui remet au premier plan des problèmes à résoudre les algorithmes de synchronisation de programmes concurrents et la gestion de hiérarchies de mémoire entre la mémoire locale, d’accès rapide mais de capacité limitée, et la mémoire dispersée dans les nuages, de capacité virtuellement illimitée mais d’accès plus lent.

La question reste ouverte de savoir si l’avenir de cette convergence est vers les super-ordinateurs ou vers l’informatique en nuage avec d’immenses fermes de serveurs banals. C’est une question de logiciel. Les tendances récentes penchent plutôt vers la seconde solution (cf. ci-dessous), mais les super-ordinateurs resteront utiles pour certains types de travaux : simulations dans le domaine du nucléaire, mécanique des fluides (aérodynamique, météorologie, climatologie, océanographie), crash tests, sismologie pour la recherche pétrolière, etc...

 Le calcul à haute performance (HPC)

Le sigle HPC désigne usuellement les applications des super-ordinateurs, dont les performances font l’objet d’un palmarès international publié chaque année [3] avec un grand rebondissement médiatique. Nous empruntons à ce site officiel les tableaux et graphiques ci-dessous :

RangNomOrdinateurConstructeurPaysNb. cœursArchitecture
1 Sunway TaihuLight Sunway MPP NRCPC China 10649600 Sunway SW26010 260C 1.45GHz
2 Tianhe-2 (MilkyWay-2) TH-IVB-FEP NUDT China 3120000 Intel IvyBridge
3 Titan Cray XK7 , Opteron 6274 Cray Inc. United States 560640 AMD x86_64
4 Sequoia BlueGene/Q IBM United States 1572864 PowerPC
5 K computer, SPARC64 VIIIfx Fujitsu Japan 705024 Sparc
6 Mira BlueGene/Q, Power BQC 16C IBM United States 786432 PowerPC
7 Trinity Cray XC40, Xeon E5-2698v3 Cray Inc. United States 301056 Intel Haswell
8 Piz Daint Cray XC30, Xeon E5-2670 8C Cray Inc. Switzerland 115984 Intel SandyBridge
9 Hazel Hen Cray XC40, Xeon E5-2680v3 Cray Inc. Germany 185088 Intel Haswell
10 Shaheen II Cray XC40, Xeon E5-2698v3 Cray Inc. Saudi Arabia 196608 Intel Haswell
11 Pangea SGI ICE X, Xeon Xeon E5-2670 SGI France 220800 Intel Haswell
12 Stampede PowerEdge C8220, Xeon E5-2680 Dell United States 462462 Intel SandyBridge
Vendeur Nb. de systèmes installés Part du palmarès (%) Nb. de cœurs installés
HP 127 25,4 3,130,598
Lenovo 84 16,8 3,059,600
Cray Inc. 60 12 4,436,008
Sugon 51 10,2 3,175,636
IBM 38 7,6 4,913,172
SGI 25 5 1,325,808
Bull 22 4,4 943,728
Inspur 20 4 314,616
Dell 10 2 719,912
Fujitsu 10 2 1,231,684
Lenovo/IBM 4 0,8 178,376
IBM/Lenovo 4 0,8 238,844

La totalité de ces 500 super-ordinateurs « tournent » sous une variante ou une autre du système d’exploitation Linux, ce qui confirme la position dominante de ce logiciel libre tant dans le calcul à haute performance que de façon générale dans l’équipement des centres de calcul et de données.

169 de ces machines sont installées en Chine, 18 en France, 25 en Allemagne, 28 au Japon, 165 aux États-Unis, 11 au Royaume-Uni, avec un total de 91 pour l’Union Européenne (en comptant le Royaume-Uni).

Par type d’activité, 95 de ces machines sont dans le monde académique, 111 dans la recherche, 43 dans les services gouvernementaux, 244 dans le monde industriel.

Les processeurs Intel sont omniprésents, mais on compte néanmoins 13 AMD, 23 IBM, 7 SPARC de fabrication Fujitsu et quelques « inconnus », tels que les Sunway du numéro 1. Rappelons que Bull est le seul européen de ce classement, avec des machines à base de processeurs Intel.

Les principales difficultés (liées) auxquelles doivent faire face les ingénieurs de tels systèmes sont la dissipation thermique et la consommation électrique. Parmi les solutions envisageables figure le recours à des processeurs de conception plus sobre, comme ceux conçus par le britannique ARM, récemment racheté par le fonds japonais Softbank.

 Marché du calcul à haute performance

L’examen du classement des 500 supercalculateurs les plus puissants du monde révèle que le haut du classement est occupé en majorité par des acteurs publics (monde académique, agences gouvernementales), cependant que le monde industriel (qui représente la moitié de l’ensemble) a tendance à se tourner vers des matériels moins spectaculaires, moins dispendieux et plus faciles à mettre en œuvre (Hewlett Packard et Lenovo sont aux premiers rangs des fournisseurs de telles solutions). Les matériels qui occupent les premières places ont visiblement un rôle de prestige, pour afficher une excellence technologique supposée.

Nous avons interrogé un éditeur de logiciels destinés à des calculs scientifiques intensifs et à des modélisations coûteuses en temps de calcul. Sa réponse est que ses logiciels sont conçus de façon à pouvoir être utilisés sur des supercalculateurs par les clients qui le souhaitent, mais que pour son propre usage il n’utilise pas de tels matériels ni ne prévoit d’en utiliser. Les solutions qui ont sa préférence repose sur des fermes de serveurs banals, conformément au premier type de solution exposé au début de ce texte. L’usage généralisé de l’informatique en nuage lui semble la voie de l’avenir.

Notes :

[1Les processeurs modernes sont pour la plupart multi-cœurs, c’est-à-dire que plusieurs exemplaires du processeur sont implantés sur le même circuit (le même chip). Les processeurs ordinaires comportent 2, 4, 8 ou 16 cœurs, mais certains constructeurs compensent la puissance intrinsèque relativement faible de leurs processeurs (SPARC de Sun-Oracle, Sunway SW26010 du dernier super-ordinateur chinois) en multipliant les cœurs.

[2Jack Dongarra et Daniel A. Reed, « Exascale Computing and Big Data », Communications of the Association for Computer Machinery, vol. 58 n°7, juillet 2015.


Forum
Répondre à cet article


pucePlan du site puceContact puceEspace rédacteurs puce

RSS

2004-2017 © Site WWW de Laurent Bloch - Tous droits réservés
Site réalisé sous SPIP
avec le squelette ESCAL-V3
Version : 3.87.47