Written by

Comme vous le savez peut-être, nous avons déci­dé dès le lan­ce­ment d’al­ways­da­ta de redon­der nos ser­veurs prin­ci­paux dans un second data­cen­ter, en temps réel (via DRBD). Le but était de pou­voir rapi­de­ment pal­lier les pannes graves si besoin, en bas­cu­lant le cas échéant l’ac­ti­vi­té sur le second serveur.

Ce sys­tème « de secours » a très rare­ment ser­vi pour une rai­son simple : nous n’a­vons qua­si­ment jamais eu des pannes maté­rielles impor­tantes. Nous avons déjà subi des pannes assez longues, mais elles furent cau­sées soit par des sou­cis logi­ciels (notam­ment la migra­tion dif­fi­cile vers la nou­velle archi­tec­ture, en février der­nier), soit par des per­tur­ba­tions réseau.

Ce sys­tème de redon­dance pré­sente plu­sieurs défauts qui se sont révé­lés au fil du temps. Le pre­mier, c’est que le sur­coût engen­dré est impor­tant, puisque nous devons qua­si­ment dou­bler le nombre de ser­veurs uti­li­sés. Le deuxième, c’est que notre four­nis­seur de secours ne pro­pose pas tou­jours des confi­gu­ra­tions équi­va­lentes aux ser­veurs pri­maires, ce qui engen­dre­rait des pro­blèmes de per­for­mances en cas de bas­cule. Le troi­sième, c’est que la pro­cé­dure de bas­cule est com­plexe, manuelle, et pas assez testée.

Une migra­tion totale de tous nos ser­veurs en cas de panne du data­cen­ter ou de son réseau serait donc longue et périlleuse. Or ces der­niers jours, notre four­nis­seur prin­ci­pal a connu des pannes répé­tées, dont la plus grosse s’est pro­duite same­di soir avec envi­ron 50 minutes de qua­si-indis­po­ni­bi­li­té. Deux autres pannes de 30 et 25 minutes avaient eu lieu en début de mois, heu­reu­se­ment en pleine nuit.

Cela n’im­pacte pas notre confiance envers notre four­nis­seur, mal­gré cette période dif­fi­cile. Nous avons connu la nôtre en février der­nier. Ces épi­sodes sont accep­tables à nos yeux dès lors qu’ils res­tent rares, que la com­mu­ni­ca­tion est trans­pa­rente, et que des mesures sont prises pour que cela ne se repro­duise plus.

De notre côté, nous avons com­men­cé dès le mois de juin der­nier (avant les indis­po­ni­bi­li­tés récentes, donc) à repen­ser notre sys­tème de redon­dance pour éli­mi­ner les défauts sus-cités. Nous sommes encore en plein déve­lop­pe­ment, mais il nous sem­blait impor­tant, sur­tout en ce moment, de vous en faire part.

Ce nou­veau sys­tème repose sur le ser­vice EC2 d’Amazon plu­tôt que des ser­veurs phy­siques. Cela nous per­met une éco­no­mie finan­cière sub­stan­tielle, n’ayant plus besoin de faire tour­ner des ser­veurs secon­daires 24h/24. Par ailleurs, nous allons tra­vailler sur le pro­ces­sus de bas­cule afin qu’il soit plus simple, plus automatique.

EC2 va nous per­mettre éga­le­ment de dupli­quer nos ser­veurs en pro­duc­tion en toute sim­pli­ci­té. Cela pour­rait ser­vir pour tes­ter des nou­veaux déploie­ments sans risque, simu­ler des pannes, et d’autres choses sym­pa­thiques. Nous aurons l’oc­ca­sion d’en repar­ler d’i­ci là.

Nous espé­rons mettre ce nou­veau sys­tème de redon­dance en pro­duc­tion pour la ren­trée, mais comme tou­jours, les dates sont à prendre avec précaution…

Comme vous le savez peut-être, nous avons déci­dé dès le lan­ce­ment d’al­ways­da­ta de redon­der nos ser­veurs prin­ci­paux dans un second data­cen­ter, en temps réel (via DRBD). Le but était de pou­voir rapi­de­ment pal­lier les pannes graves si besoin, en bas­cu­lant le cas échéant l’ac­ti­vi­té sur le second serveur.

Ce sys­tème « de secours » a très rare­ment ser­vi pour une rai­son simple : nous n’a­vons qua­si­ment jamais eu des pannes maté­rielles impor­tantes. Nous avons déjà subi des pannes assez longues, mais elles furent cau­sées soit par des sou­cis logi­ciels (notam­ment la migra­tion dif­fi­cile vers la nou­velle archi­tec­ture, en février der­nier), soit par des per­tur­ba­tions réseau.

Ce sys­tème de redon­dance pré­sente plu­sieurs défauts qui se sont révé­lés au fil du temps. Le pre­mier, c’est que le sur­coût engen­dré est impor­tant, puisque nous devons qua­si­ment dou­bler le nombre de ser­veurs uti­li­sés. Le deuxième, c’est que notre four­nis­seur de secours ne pro­pose pas tou­jours des confi­gu­ra­tions équi­va­lentes aux ser­veurs pri­maires, ce qui engen­dre­rait des pro­blèmes de per­for­mances en cas de bas­cule. Le troi­sième, c’est que la pro­cé­dure de bas­cule est com­plexe, manuelle, et pas assez testée.

Une migra­tion totale de tous nos ser­veurs en cas de panne du data­cen­ter ou de son réseau serait donc longue et périlleuse. Or ces der­niers jours, notre four­nis­seur prin­ci­pal a connu des pannes répé­tées, dont la plus grosse s’est pro­duite same­di soir avec envi­ron 50 minutes de qua­si-indis­po­ni­bi­li­té. Deux autres pannes de 30 et 25 minutes avaient eu lieu en début de mois, heu­reu­se­ment en pleine nuit.

Cela n’im­pacte pas notre confiance envers notre four­nis­seur, mal­gré cette période dif­fi­cile. Nous avons connu la nôtre en février der­nier. Ces épi­sodes sont accep­tables à nos yeux dès lors qu’ils res­tent rares, que la com­mu­ni­ca­tion est trans­pa­rente, et que des mesures sont prises pour que cela ne se repro­duise plus.

De notre côté, nous avons com­men­cé dès le mois de juin der­nier (avant les indis­po­ni­bi­li­tés récentes, donc) à repen­ser notre sys­tème de redon­dance pour éli­mi­ner les défauts sus-cités. Nous sommes encore en plein déve­lop­pe­ment, mais il nous sem­blait impor­tant, sur­tout en ce moment, de vous en faire part.

Ce nou­veau sys­tème repose sur le ser­vice EC2 d’Amazon plu­tôt que des ser­veurs phy­siques. Cela nous per­met une éco­no­mie finan­cière sub­stan­tielle, n’ayant plus besoin de faire tour­ner des ser­veurs secon­daires 24h/24. Par ailleurs, nous allons tra­vailler sur le pro­ces­sus de bas­cule afin qu’il soit plus simple, plus automatique.

EC2 va nous per­mettre éga­le­ment de dupli­quer nos ser­veurs en pro­duc­tion en toute sim­pli­ci­té. Cela pour­rait ser­vir pour tes­ter des nou­veaux déploie­ments sans risque, simu­ler des pannes, et d’autres choses sym­pa­thiques. Nous aurons l’oc­ca­sion d’en repar­ler d’i­ci là.

Nous espé­rons mettre ce nou­veau sys­tème de redon­dance en pro­duc­tion pour la ren­trée, mais comme tou­jours, les dates sont à prendre avec précaution…