Hadoop : accélérateur des traitements Big Data chez Crédit Mutuel Arkea

le 22/10/2012, par Jean Pierre Blettner, Bertrand Lemaire, Quentin Renard, Infrastructure, 1048 mots

Mathias Herberts, ingénieur disruptif chez Crédit Mutuel Arkea, présente la plate-forme Hadoop qui exploite la masse de données de la banque. Les applications de gestion des ratios de solvabilité et de détection de blanchiment d'argent améliorent largement l'existant. D'autres applications suivent.

Hadoop : accélérateur des traitements Big Data chez Crédit Mutuel Arkea

Le Crédit Mutuel Arkea est un groupe bancaire qui compte 9 000 collaborateurs, et gère 3,2 millions de sociétaires et de clients dans la bancassurance.

La banque a mis en place une plate-forme Hadoop afin de traiter la masse de données dont elle dispose et gagner en agilité vis-à-vis du Mainframe.

Le projet a été lancé en 2009, avec 1,5 personne avant de former un centre d'expertise. L'architecture est transverse à tous les services et il leur a été proposé de dire tout haut ce dont ils rêvaient.

La plate-forme Hadoop se connecte à toutes les bases de données de la banque, dont le Mainframe, et stocke toutes les données des clients depuis 2001. Le Big Data permet de réaliser des recherches full text depuis mai 2001. On peut par exemple savoir combien on a dépensé à la Fnac depuis mai 2001 en tapant FNAC et on l'intégralité des dépenses.

Applications métier et techniques

Trois applications spécifiques sont en production et améliorent largement ce qui existait. L'application de lutte anti-blanchiment (Tracfin) traite 6 mois d'historique en moins de 20 secondes. Autre application, le calcul des ratios de solvabilité. Le traitement précédant utilisait un progiciel de simulation et il mettait 48 Heures sur un échantillon de clients. La version Hadoop produit un résultat sur la base client toute entière, en moins de 15 minutes.

Il y a également un système de monitoring des infrastructures informatiques qui remonte des métriques très techniques mais aussi des métriques métiers. Ce système remonte 2 millions de métriques par minute et représente environ 500 Go à 1 To de données par jour.

Plusieurs autres applications seront prochainement déployées dont l'analyse des zones de saisie libre dans les formulaires. La donnée n'est plus jetée car elle a de la valeur.

Mathias Herberts a été interviewé à l'occasion de la conférence Décisionnel de CIO.

Mathias Herberts constate l'explosion des volumes de données. La banque a trente ans d'historique sur certains contrats et dix ans d'historique sur les mouvements de compte, et tout un tas de données qui viennent du web. Il relève qu'auparavant ces données étaient collectées, analysées puis les jetées. « Aujourd'hui, le BIG Data pour nous, le changement radical c'est qu'au lieu de les jeter, on les conserve » dit-il. La cellule Hadoop représente aujourd'hui 1 péta-octet de capacité.

Il y a des données issues du mainframe comme des enregistrements conformes à des copies Cobol, des données non structurées, qui proviennent de logs, du mail, des réseaux sociaux et des données intermédiaires produites par des traitements qui sont faits sur ces données de base. Il faut alors accompagner les différents métiers afin qu'ils voient comment tirer de la valeur de ces données stockées.

Les périmètres sur lesquels des applications sont déployées en particulier sont ceux de la lutte anti-blanchiment. Sur la valeur créée dans les mois à venir, le gain viendra dans la capacité à avoir un regard sur des logs web par exemple, qui seront mis en parallèle avec la détention de produits bancaires afin d'assurer la promotion des produits vers les bons prospects.

Mathias Herberts revient également sur la genèse de Hadoop, «  un socle technologique, qui, il faut bien l'admettre, a une courbe d'apprentissage assez raide pour qui s'y immisce ».

Au final, (...)


Au final, Hadoop a été mis en place de façon très transverse, afin qu'elle ne soit pas pour un silo marketing ou un silo assurance mais transverse dans l'entreprise.

La lutte anti-blanchiment et la conformité à Tracfin sont des applications lancées il y a six mois et qui sont aujourd'hui en passage en production. La principale raison de partir sur Hadoop était liée aux volumétries de données qui étaient à analyser et à l'inadéquation des solutions autres en place.

Hadoop a représenté en investissement une personne et demi pendant 24 mois pour mettre en place la solution, architecturer les connecteurs etc... Aujourd'hui un centre d'expertise est en construction afin d'accompagner les projets internes. En termes d'investissement matériel, c'est un cluster qui fait à peu près 800 To, ce qui représente 100 et quelques machines x86 et un investissement matériel inférieur à un million d'euros.

Mathias Herberts est intervenu lors de la table ronde « Un décisionnel haute performance » de CIO.

Chez Arkea, la démarche Big Data a été positionnée dès le départ de façon très transverse. Il n'y a pas eu construction d'une démarche Big Data pour la banque de détail, une autre pour la banque en ligne et une autre pour les filiales. Cela réduit les coûts et on se rend compte à l'usage qu'il existe une diversité de projets qui s'appuient sur cette plateforme qui est assez importante.

Mathias Herberts décrit quelques périmètres. Par exemple, sur la banque de détail, usuellement l'historique des comptes en ligne est de trois mois avec un peu de chance, à cinq semaines. Chez Crédit Mutuel, on retrouve tous ses historiques depuis mai 2001 en faisant des recherches dessus full text. « Si vous voulez savoir combien vous avez dépensé à la Fnac depuis mai 2001 vous tapez FNAC et vous avez l'intégralité de vos dépenses à la Fnac depuis mai 2001 accumulées, vous disant 'à la Fnac, vous avez dépensé tant'. »

Des chiffres vertigineux

Pour Mathias Herberts, c'est typiquement une application du Big Data car l'historique pour l'ensemble des clients depuis mai 2001 représente plusieurs milliards d'enregistrements et il s'agit de faire de la recherche sur ces milliards de données en temps réel.

Mathias Herberts illustre avec d'autres applications telles que les calculs de ratios de solvabilité. De même, il a été mis en place un système générique de collecte de métriques, et ces métriques peuvent être techniques ou métiers. « On a la capacité de les collecter et les analyser de la même façon ».
Selon cet ingénieur, le ROI est quasi immédiat quand quelqu'un dit qu'il veut croiser la donnée A avec la donnée B, une fois que l'on constate que les données A et B sont à disposition dans Hadoop, la mise en oeuvre du traitement peut se faire dans l'après midi du jour où les habilitations ont été données. La rentabilité n'est plus une question étant donné que l'infrastructure est commune à l'ensemble de l'entreprise et que les données mises à disposition ne nécessitent pas d'intervention supplémentaire.

Netflix muscle ses serveurs maison avec les Epyc Rome d'AMD

Le diffuseur Netflix annonce assurer un service de 400 Gbit/s et espère ainsi se faire une place sur le marché du streaming (jeux et vidéo). Depuis 2020, Netflix est capable d'assurer un service de 200 Gbit/s...

le 23/09/2021, par Célia Séramour, 443 mots

Des cartouches LTO-9 18 To sur les librairies IBM

Le lecteur de bande magnétique LTO-9 Ultrium d'IBM promet plus de densité, plus de performances et plus de résilience. IBM a annoncé la disponibilité générale des premières cartouches et lecteurs de...

le 15/09/2021, par Andy Patrizio, IDG NS (adapté par Jean Elyan), 426 mots

IBM relance sa gamme Unix avec les Power E1080

Big blue garde la foi pour Unix comme pour les mainframes. IBM vient en effet d'annoncer un serveur Power E1080, le premier d'une famille basée sur le processeur Power10. Quelques semaines après l'annonce de 

le 09/09/2021, par Serge LEBLAL, 614 mots

Dernier dossier

Les white-box sont-elles l'avenir de la commutation réseau ?

Et si vous pouviez gérer vos commutateurs de centres de données et vos routeurs de la même façon que vos serveurs et ainsi réduire les coûts des dépenses en capital ? C'est la promesse des white-box qui amènent des systèmes d'exploitation réseau open source fonctionnant sur du matériel courant.Pour en avoir le coeur net, nous avons testé Cumulus...

Dernier entretien

Céline Polo

DRH du groupe iliad

"Nous recrutons dans des métiers en tension, en particulier sur l'infrastructure réseau, pour lesquels il y a...