1 Go de données par seconde à l'accélérateur de particules du CERN

le 10/09/2008, par Emmanuelle Delsol, Infrastructure, 1048 mots

Le CERN inaugure le plus puissant accélérateur de particules du monde. Wolfgang von Rüden, chef du département informatique, décrit les détails de l'infrastructure informatique qui aidera les scientifiques à comprendre la naissance du monde.

1 Go de données par seconde à l'accélérateur de particules du CERN

Ce 10 septembre, le CERN (Conseil européen pour la recherche nucléaire) inaugure l'accélérateur de particules le plus puissant du monde, le LHC (grand collisionneur de hadrons). Ce tunnel souterrain de 27 kms, situé sur la frontière franco-suisse près de Genève, sera le lieu d'expériences de physique attendu depuis des années. Les particules seront précipitées à grande vitesse les unes contre les autres. De ces collisions naîtront de nouvelles particules qui devraient aider les scientifiques à mieux comprendre la naissance de l'univers. Pour récupérer les résultats de ces expériences, le LHC héberge de gigantesques détecteurs (45 m de long sur 22 m de haut) enregistrant les traces de ces nouvelles particules et les convertissant en données numériques. « Ces détecteurs correspondent à ce que pourraient être des caméras de 150 millions de pixels, explique Wolfgang von Rüden, chef du département IT du CERN. Lorsque le LHC aura atteint sa vitesse de croisière, sans doute début 2009, les expériences scientifiques seront à l'origine de 1 Po de données chaque seconde. Après plusieurs nettoyages successifs afin de ne conserver que les données utiles, il en restera encore près de 1 Go par seconde. Soit « L'équivalent d'un DVD toutes les cinq secondes, note Wolfgang von Rüden. A raison de 100 jours de fonctionnement par an, cela représente presque 9 Po auxquelles il faut ajouter les informations de simulation. Ce sont donc 15 millions de milliards d'octets qui sortiront chaque année des essais du LHC. Autant dire qu'un centre informatique classique n'y suffirait pas. Aussi, dès les débuts du projet, l'organisation a opté pour un système de grille de données et de calcul (grid). Les informations sont distribuées sur différents systèmes pour être stockées et prétraitées. Photo : Wolfgang von Rüden, chef du département informatique du CERN L'infrastructure des serveurs compte trois niveaux. Le premier, le « tier 0 », est installé au CERN. Il stocke l'ensemble des informations sur disque et sur bande magnétique (5 Po de capacité de stockage sur disque et 16 Po sur bande). Onze autres centres informatiques dans le monde constituent le « tier 1 ». Chacun obtient une copie des données et des métadonnées associées (calibrage, conditions de l'expérience, etc.). Enfin, plus d'une centaine de centres distribués viennent en « tier 2 » (dont un à Orsay, un à Marseille, un à Nantes, un à Clermont-Ferrand, etc.) Toutes ces informations sont synchronisées en temps réel avec l'ensemble des sites distants sur des bases Oracle. « Nous travaillons directement avec Oracle sur la technologie Streams qui permet une telle synchronisation. Nous avons un projet commun avec eux, tout comme avec Intel, HP ou Siemens, par exemple, dans le cadre de l'initiative Openlab,, explique Wolfgang von Rüden. « You make it, we break it, c'est ce que nous disons à nos partenaires technologiques. Nous poussons les technologies dans leurs derniers retranchements. Nous avons souvent les versions bêta, voire alpha, des machines, par exemple , plaisante le responsable IT. « Vous le fabriquez, nous le cassons ». Une boutade qui reflète bien la réalité. Le centre du CERN (« tier 0 ») héberge des grappes de PC ainsi que quelques serveurs. Les plus puissants comptent 4 quadri-coeurs Intel. « En 2009, à Genève, nous devrions avoir une grille de 100 000 coeurs. Et sans doute 150 000 coeurs, dès l'année d'après, détaille Wolfgang von Rüden. Pour choisir les machines qui constituent ces grappes, étonnamment le CERN fait appel au benchmark SpecINT qui mesure les capacités de calcul sur les nombres entiers des PC. Alors que la plupart du temps, les applications scientifiques s'appuient sur la performance en virgule flottante. « « Les performances des entrées/sorties entre machines n'ont pas tellement d'importance. Et finalement, le calcul en nombres entiers correspond davantage à notre charge de travail que le calcul en virgule flottante. Les analyses de données auxquelles les scientifiques procéderont impliquent davantage de comparaisons de données que de calculs en virgule flottante,, justifie ainsi Wolfgan von Rüden. La grille fonctionne sous un Linux appelé Scientific Linux. Il s'agit d'une version compatible au niveau binaire avec la distribution de Red Hat, dont le noyau a été cependant quelque peu modifié par le CERN. Le système de gestion de la grille est un environnement Open Source qui s'appuie entre autres sur les techniques du projet Globus mais aussi sur des développements du CERN dans le cadre du projet européen EGEE (Enabling Grids for E-sciencE) qu'il chapeaute. Le réseau interne s'appuie sur Ethernet et un backbone à 10 Gbit/s. Quant aux liens entre les sites, sans surprise, il s'agit de fibre dédiée. « Nous avons besoin de marge pour nos communications. Si un centre a un problème quelconque de transmission, il transfère ses données avec retard, et donc en quantité plus importante. Ce qui exige davantage de bande passante. Ce sont environ 2 Go de données qui transitent chaque seconde sur les réseaux entre les centres de données. Mais nous avons déjà eu, lors des essais, des pointes à 3 ou 4 Go, raconte Wolfgang von Rüden. Il est à noter qu'avec une telle infrastructure, le CERN surveille sa consommation électrique et donne, lui-aussi, dans le green IT. Dans ses appels d'offre, s'il regarde évidemment le prix des machines, il tient également compte « de la consommation électrique par rapport à la puissance de calcul fourni, ainsi que d'autres paramètres tel que le volume occupé ou la connexion au réseau. Cela nous permet de favoriser les fournisseurs qui offrent des solutions plus écologiques, ajoute Wolfgang von Rüden. Le centre de calcul date des années 70 et consomme environ 4,7 MW avec une charge utile inférieure à 3 MW. « Il a été adapté aux besoins du LHC, mais dans les limites du possible. Et il est loin d'être aussi efficace que des solutions modernes. » Le CERN mène des études pour un nouveau centre plus adapté et plus performant qui verra le jour probablement vers la fin de 2011. Reste que parmi les 6 000 employés du site genevois, 350 informaticiens assisteront avec fierté, mais forcément un peu d'angoisse, à l'inauguration. Ils ont passé des heures et des jours à mettre en place l'infrastructure informatique du LHC. Ils ont réalisé deux tests grandeur nature, en février et en mai, qui ont duré chacun quatre semaines. Alors pour eux, le Graal n'est sans doute pas le Boson de Higgs, la particule chérie des scientifiques, mais tout simplement le bon fonctionnement de la grille.

Kneron vise l'ermbarqué avec sa puce KL730 taillée pour l'IA

Axée sur l'image, la puce d'intelligence artificielle KL730 de Kneron devrait permettre de nombreuses améliorations dans les domaines de l'edge computing, de la sécurité et de l'automobile. Dénommée KL730,...

le 22/08/2023, par Jon Gold / Network World (adaptation Jean Elyan), 533 mots

Volumez repense le stockage cloud en misant sur la performance...

Fondé par des vétérans dans l'industrie du stockage, Volumez promeut un logiciel d'orchestration du stockage qui exploite des ressources Linux pour exécuter des charges de travail exigeantes en utilisant une...

le 23/06/2023, par Serge LEBLAL, 939 mots

Des serveurs Lenovo edge pour l'IA et le traitement des données

Les serveurs Lenovo ThinkEdge offriront une plus grande capacité de traitement là où les données sont générées et permettront aux entreprises d'effectuer de l'inférence en temps réel à la périphérie. Au cours...

le 20/06/2023, par Andy Patrizio, IDG NS (adapté par Jean Elyan), 565 mots

Dernier dossier

Les white-box sont-elles l'avenir de la commutation réseau ?

Et si vous pouviez gérer vos commutateurs de centres de données et vos routeurs de la même façon que vos serveurs et ainsi réduire les coûts des dépenses en capital ? C'est la promesse des white-box qui amènent des systèmes d'exploitation réseau open source fonctionnant sur du matériel courant.Pour en avoir le coeur net, nous avons testé Cumulus...

Dernier entretien

Céline Polo

DRH du groupe iliad

"Nous recrutons dans des métiers en tension, en particulier sur l'infrastructure réseau, pour lesquels il y a...