Written by

Les 14 et 23 décembre 2011, deux incidents ont impacté le bon fonctionnement de nos services pour une majorité de nos clients. Ce billet revient sur ce qui s’est passé et sur les conclusions que nous en tirons.

Ce qui s’est passé

Le 14 décembre

Le 14 décembre vers 18h30, nous avons détecté un packet loss d’environ 3 % entre certains de nos serveurs (http4 et http6). Ce packet loss a eu des répercussions immédiates pour les comptes concernés : la communication entre ces serveurs et nos autres serveurs internes (SQL, SSH, FTP) était fortement ralentie. Concrètement, le temps d’affichage d’une page Web faisant de nombreux accès à la base de données pouvait passer de 0,5 à plus de 5 secondes.

Nous avons immédiatement averti notre fournisseur de ce packet loss afin qu’il y remédie. Moins de 30 minutes après, le problème avait disparu.

Le packet loss est réapparu plus tard dans la soirée, avant de disparaitre à nouveau. À nouveau le lendemain, le problème est réapparu aléatoirement. Devant les difficultés de notre fournisseur à isoler et résoudre la source du problème – le caractère intermittent n’aidant pas – nous avons décidé de déployer en urgence une fonctionnalité qu’il propose : les VLAN. Cela permet à nos serveurs de communiquer entre eux via un chemin privilégié, isolé du réseau public.

Après avoir rapidement effectué quelques tests et nous être assurés que le problème initial de packet loss était résolu en passant par les VLAN, nous avons démarré le déploiement sur nos serveurs impactés. Ce déploiement a nécessité une mise à jour du noyau, et donc un redémarrage de plusieurs serveurs. En fin de soirée, le problème était résolu, à l’exception des accès FTP encore partiellement ralentis.

Précisons que nous avions prévu d’utiliser les VLAN – fonctionnalité lancée depuis plusieurs mois par notre fournisseur – au premier semestre 2012. Pourquoi pas avant ? Parce que pour être déployé correctement, cela demande du temps ; la mise en production effectuée pour résoudre le problème reste relativement bancale et temporaire. Par ailleurs, cette fonctionnalité n’est pas non plus exempte de problèmes, et nous préférons éviter de nous ruer vers les nouveautés pour en essuyer les plâtres.

Le 23 décembre

Le problème initial – le packet loss aléatoire – a toutefois perduré, bien qu’il ne nous impactait plus. Le 23 décembre à 22h05, l’accès à nos deux serveurs http4 et http6 est devenu très fortement perturbé : plus de 50 % de packet loss. Cette fois-ci, le problème ne concernait pas uniquement le trafic interne mais aussi le trafic externe (d’Internet vers nos serveurs). En conséquence, l’accès à l’ensemble des sites est devenu extrêmement difficile (l’ensemble des autres services n’étant pas impacté).

Nous avons immédiatement remonté le problème à notre fournisseur, puis avons décidé parallèlement de le contourner en redirigeant le trafic HTTP vers d’autres serveurs non impactés, ces derniers servant alors de proxy vers les serveurs perturbés (en communiquant via le VLAN). Vers minuit – il a fallu le temps d’attendre la propagation DNS – le problème était donc en très grande partie résolu, du moins dans les faits. Vers 1h30, notre fournisseur a pu identifier et résoudre le problème. Nous avons alors pu rebasculer le trafic sur les serveurs HTTP d’origine.

Conclusions

Plusieurs conclusions peuvent être tirées de ces perturbations :

  • la gestion de cette panne par notre fournisseur a été insuffisante. Nous allons veiller à remonter l’information et à faire en sorte que ce genre de problème aléatoire soit traité plus efficacement. Par ailleurs, nous allons très certainement nous montrer plus insistants si cela se reproduit ;
  • notre contournement des problèmes, notamment via la redirection HTTP vers des serveurs non impactés, a été globalement satisfaisante. Nous avons toutefois noté certains points qui sont améliorables et qui nous permettraient de réagir plus rapidement si la situation devait se reproduire ;
  • notre monitoring s’est avéré insuffisant en cas de packet loss. Ce n’est pas une surprise ; la refonte de notre monitoring est prévue pour le deuxième trimestre 2012 ;
  • la mise en place du VLAN devrait nous permettre d’améliorer la stabilité de nos services. Les pannes 10, 11 et 15 auraient certainement été évitées, par exemple.

Nous présentons toutes nos excuses à l’ensemble des clients impactés, particulièrement en cette période de pré-Noël. À très bientôt pour des nouvelles bien plus réjouissantes :)