Les pannes dans les datacenters de plus en plus issues de problèmes réseaux

le 04/04/2019, par Ann Bednarz, Network World (adapté par Jean Elyan), Réseaux, 1629 mots

Imprimer

Alors que les environnements informatiques d'entreprise se complexifient, les défaillances des systèmes IT et les problèmes de réseaux sont à l'origine de pannes de plus en plus nombreuses dans les datacenters, provoquant davantage d'interruptions non planifiées de services.

Les pannes dans les datacenters de plus en plus issues de problèmes réseaux

Les coupures d'électricité sont une cause fréquente de pannes dans les datacenters, mais ce ne sont pas les seules. Alors que les environnements informatiques d'entreprise se complexifient, les défaillances des systèmes IT et les erreurs réseaux sont à l'origine de pannes de datacenters de plus en plus nombreuses. L'Institut Uptime, qui propose des services de résilience, des conseils sur la construction et l'exploitation des datacenters, et des services de certification, s'est intéressé aux pannes connues pour savoir qu'elle était l'origine des interruptions de services non planifiées. Pour cela, il a décortiqué 162 interruptions de service signalées dans les médias traditionnels ou dans les médias sociaux au cours des trois dernières années.

Pendant cette période, la quantité d'informations disponibles sur les pannes n'a cessé d'augmenter. En 2016, 27 pannes ont fait l'objet d'articles dans les médias. Mais, en 2017, les chercheurs ont trouvé mention de 57 pannes de service et de 78 en 2018. « Les pannes de service se retrouvent de plus en plus régulièrement à la une des médias », a déclaré Andy Lawrence, directeur exécutif de la recherche à l'Institut Uptime. « Désormais, chaque jour, quelque part dans le monde, il y a des pannes importantes », a ajouté M. Lawrence lors de la présentation des résultats de recherches du groupe. Cela ne signifie pas nécessairement que le nombre de pannes augmente en flèche. Mais les temps d'interruption attirent de plus en plus l'attention. « Il est clair que pour les utilisateurs, l'impact des pannes est certainement plus dommageable aujourd'hui », a-t-il encore déclaré.

Moins de pannes électrique

Cependant, l'étude de l'Institut Uptime a mis en évidence un autre élément clef : on impute moins la responsabilité des pannes globales à des problèmes d'alimentation électrique, alors que celle du réseau et des systèmes IT est davantage mise en cause. L'explication est assez simple : les systèmes d'alimentation électrique sont plus fiables que par le passé, et il y a donc moins de coupures de courant dans les datacenters. « Au cours des 20 dernières années, l'industrie technologique a développé des systèmes d'alimentation permettant aux actifs IT de continuer à fonctionner en cas de défaillance ou de panne dans le système électrique », a déclaré Chris Brown, CTO de l'Institut Uptime. « L'avènement des systèmes de distribution électrique 2N à double redondance permet aux systèmes informatiques de continuer à fonctionner en dépit de divers incidents et événements uniques », a ajouté M. Brown.

Parallèlement, la complexité croissante des environnements IT est à l'origine d'un nombre croissant de problèmes liés à l'IT et aux réseaux. « Désormais, les données sont dispersées dans plusieurs endroits, avec des dépendances critiques par rapport au réseau, par rapport à la façon dont les applications sont architecturées et à la façon dont les bases de données se répliquent. C'est un système très complexe, et il faut aujourd'hui moins d'événements pour en perturber le fonctionnement », a expliqué Todd Traver, vice-président de l'optimisation et de la stratégie IT à l'Institut Uptime.

Gravité des pannes dans les datacenters

L'Institut Uptime a mis au point une grille d'évaluation pour pouvoir distinguer une interruption qui peut menacer l'activité d'une entreprise d'une panne juste gênante. « Les chercheurs de l'Institut Uptime ont créé une échelle à 5 niveaux pour qualifier les pannes et identifier des tendances », a dit M. Lawrence. Le niveau 1 désigne un arrêt négligeable. La panne est enregistrable, mais il y a peu ou pas d'impact évident sur les services et aucune interruption de service. Le niveau 2 qualifie une interruption de service minimale. Les services sont perturbés, mais l'effet sur les utilisateurs, les clients ou la réputation est minime. Le niveau 3 désigne une interruption de service importante pour l'entreprise. Il s'agit d'interruptions du service à la clientèle ou du service aux utilisateurs, le plus souvent de portée, de durée ou d'effet limités. L'impact financier est minime ou nul. Il y a un certain impact sur la réputation ou la conformité.

Le niveau 4 concerne une panne d'exploitation ou de service grave entrainant une perturbation du service et/ou des opérations impliquant des pertes financières, des manquements à la conformité, des atteintes à la réputation et peut-être même des problèmes de sécurité avec éventuellement des pertes de clients. Enfin, le niveau 5 qualifie une panne critique pour l'entreprise ou la mission, entraînant une interruption majeure et dommageable des services et/ou des opérations, impliquant d'importantes pertes financières, des problèmes de sécurité, des manquements à la conformité, des pertes de clients et des atteintes à la réputation.

L'analyse, par l'Institut Uptime, des pannes de datacenters connues (niveaux 1 à 5) ayant eu lieu entre 2016 et 2018 montre que les problèmes de système et de réseau ont dépassé les problèmes d'alimentation électrique (voir graphique).

La tendance est particulièrement marquée quand on compare ces causes d'une année sur l'autre. En 2017, 28 % des pannes étaient liées à des problèmes d'alimentation électrique. L'année suivante, seulement 11 % des pannes étaient imputables à des problèmes d'électricité. Comparativement, les défaillances liées aux systèmes informatiques sont restées relativement constantes. 32 % des pannes en 2017 et 35 % des pannes en 2018 sont liées à des problèmes de système. Quant aux pannes essentiellement imputables à des problèmes de réseau, elles ont augmenté de façon significative, passant de 19 % en 2017 à 32 % en 2018. « La forte interconnectivité explique pourquoi les pannes de réseaux provoquent des interruptions de service de plus en plus nombreuses », a déclaré M. Traver à propos du pic de 2018. « Les choses sont reliées non pas à un ou deux sites, mais à trois ou quatre sites, voire plus. Le réseau joue un rôle de plus en plus important dans la résilience informatique ».

Par ailleurs, étant donné que les ressources IT sont de plus en plus transférées à des fournisseurs de services et ne sont plus sous le contrôle direct de l'entreprise qui les utilise, la complexité de la gestion et des opérations s'est accrue. « En 2018, les deux tiers des pannes sont liés aux réseaux et à l'IT. C'est un grand changement par rapport aux années passées », a encore déclaré Todd Traver.

Une analyse approfondie des interruptions

Les chercheurs de l'Institut Uptime ont voulu identifier encore plus spécifiquement l'origine des pannes de datacenters.

Quand le réseau est en cause, les motifs de pannes les plus courants sont les suivants :

Coupures de fibres en dehors du datacenter, et nombre insuffisant d'alternatives de routage.

Panne intermittente des principaux commutateurs, et absence de routeurs secondaires.

Panne majeure de switch sans sauvegarde.

Configuration incorrecte du trafic pendant la maintenance.

Mauvaise configuration des routeurs et des réseaux définis par logiciel.

Défaut d'alimentation de composants individuels non sauvegardés, comme des commutateurs et des routeurs.

Les routeurs mal configurés et les réseaux définis par logiciel sont des « problèmes de réseau courants. Mais il aurait été possible de les détecter à l'aide de tests », a encore déclaré M. Traver. Dans le cas de fibres sectionnées, les entreprises ignoraient souvent qu'elles n'avaient qu'un point individuel de défaillance », a indiqué Todd Traver. « Même si elles avaient deux fournisseurs distincts, mais inconnus d'elles, la fibre passait par la même tranchée. Et elles n'avaient pas réalisé d'audit de diligence approprié pour s'en rendre compte ».

Quand l'informatique est en cause, les motifs de pannes les plus courants sont les suivants :

Une mise à niveau mal gérée, avec des tests insuffisants au niveau du logiciel.

L'échec et la corruption de données subséquente d'un grand nombre de disques ou de systèmes de stockage SAN. Une défaillance matérielle est probablement à l'origine de ces problèmes, exacerbée par des erreurs de configuration ou de programmation.

Défaillance de synchronisation ou erreurs de programmation dans le système d'équilibrage de charge ou de gestion du trafic.

Systèmes de défaillance/synchronisation ou de reprise après sinistre mal programmés.

Perte de puissance au profit de composants individuels non sauvegardés, comme des serveurs ou de gros disques durs.

En ce qui concerne la question de l'équilibrage de charge et de la gestion du trafic, M. Lawrence a déclaré que des erreurs de programmation et certains problèmes de synchronisation peuvent survenir lorsque les entreprises tentent de distribuer plus largement leurs ressources informatiques. « Cela arrive souvent quand la stratégie est de réduire la dépendance à l'égard d'un seul site. Mais cela revient juste à déplacer le problème », a-t-il ajouté. Les problèmes surviennent quand les entreprises « n'ont pas vraiment planifié toutes les plates-formes que leurs applications et leurs données doivent parcourir ou qu'elles ne les ont pas testées régulièrement », a ajouté M. Traver.

Quand l'alimentation électrique est en cause, les motifs de pannes les plus courants sont les suivants :

La foudre provoque des surtensions et des coupures d'électricité. Le logiciel de sauvegarde/configuration a échoué.

Défaillances intermittentes avec les commutateurs de transfert, et impossibilité de démarrer les générateurs, ou d'effectuer les transferts vers un second datacenter.

Pannes de l'onduleur et absence de transfert vers le système secondaire.

Erreurs de l'opérateur, mise hors tension ou mauvaise configuration de l'alimentation.

Le fournisseur n'arrive pas à délivrer la puissance nécessaire avec défaillance subséquente du générateur ou de l'onduleur.

Dommages causés aux équipements informatiques par des surtensions.

Le matériel IT n'est pas équipé d'une double alimentation pour passer sur une alimentation secondaire.

« Toutes les pannes liées à des problèmes d'alimentation électrique sont bien connues », a déclaré M. Brown. « Les ingénieurs des datacenters y sont confrontés depuis des décennies, et savent comment les contourner ou s'y adapter », a-t-il ajouté. « De façon générale, les entreprises devraient accorder plus d'attention à la résilience des datacenters », a encore déclaré M. Traver. « Elles ont besoin de connaître leurs architectures, de bien comprendre toutes les interdépendances, d'identifier les motifs des défaillances, de prévoir des solutions en cas d'échec. Or, ce dernier aspect est souvent négligé », a-t-il ajouté. « L'équipement s'améliore, la gestion s'améliore, l'expérience s'améliore. L'industrie devient de plus en plus mûre », a résumé M. Lawrence. « Malgré tout, les pannes sont toujours un problème majeur et coûteux ».

Cisco muscle les capacités de Catalyst SD-WAN

Gestion du routage, intégration avec les systèmes Microsoft Sentinel et Skyhigh Security, et commutateur Catalyst edge font partie des mises à jour. La série d'améliorations apportées par Cisco à son offre...

le 28/09/2023, par Michael Conney, IDg NS (adapté par Jean Elyan), 797 mots

Aruba Networks s'intéresse aux PME avec ses routeurs WiFi 6

La gamme Instant On de HPE Aruba vise à simplifier le déploiement et la gestion des réseaux (WIFi et filaire) pour les petites et moyennes entreprises. Le point d'accès et le commutateur annoncés par la...

le 26/09/2023, par Michael Cooney, IDG NS (adapté par Jean Elyan), 445 mots

Les applications d'IA, de sécurité et de mise en réseau poussent à...

Les commutateurs intelligents smartswitchs, comme le switch CX 10000 d'Aruba, stimulent l'utilisation des DPU dans les entreprises. Parce qu'elles exigent des performances système accrues, les applications...

le 12/09/2023, par Michael Conney, IDg NS (adapté par Jean Elyan), 1654 mots

Dernier dossier

Les white-box sont-elles l'avenir de la commutation réseau ?

Et si vous pouviez gérer vos commutateurs de centres de données et vos routeurs de la même façon que vos serveurs et ainsi réduire les coûts des dépenses en capital ? C'est la promesse des white-box qui amènent des systèmes d'exploitation réseau open source fonctionnant sur du matériel courant.Pour en avoir le coeur net, nous avons testé Cumulus...

Dernier entretien

Céline Polo

DRH du groupe iliad

"Nous recrutons dans des métiers en tension, en particulier sur l'infrastructure réseau, pour lesquels il y a...