Résumé d’une panne de serveur

Une interruption de service d’un serveur web de Petit Nuage a empêché certains sites web hébergés de fonctionner le week-end dernier. Le service est de nouveau rétabli et les sites et services web pleinement fonctionnels.

Des serveurs Dell PowerEdge vus de près

Serveurs Dell PowerEdge

Le principal serveur web de Petit Nuage a cessé de fonctionner entre le vendredi 12 juin 2009 vers 15 heures et le lundi 15 juin 2009 vers 22 heures. La raison en a été une mise en quarantaine (coupure du service, puis « mode rescue ») par OVH, l’hébergeur auprès duquel le serveur est loué, pour cause d’« usurpation d’adresse IP » sur le réseau interne à OVH. Ce genre de situations exceptionnelles est rare et généralement lié à un acte de piratage du serveur. Aussi, et d’autant que Petit Nuage n’a pas vocation à infogérer les serveurs dans les situations de crise exceptionnelle comme celle-ci, j’ai confié les tâches d’analyse et de résolution du problème à la société belge MyOwn, connue pour son professionnalisme et sa disponibilité, spécialiste de solutions dédiées.

OVH est un hébergeur français, l’un des premiers hébergeurs web en Europe. La société propose des tarifs intéressants et met un point d’honneur à rendre son réseau interne « propre », notamment en coupant le service aux serveurs dont la sécurité a été compromise et s’adonnant à des actes illicites, ou encore en bloquant le trafic extérieur tentant de perturber le fonctionnement normal des serveurs hébergés. Ce sont des gages de sécurité et de confiance importants dont on ne peut que se féliciter.

Cependant, vendredi, OVH a détecté une activité douteuse émanant du serveur loué à Petit Nuage. En effet, le serveur a tenté d’usurper une autre adresse IP du réseau d’OVH. Pour parler simplement, prenons une analogie avec la copropriété d’un immeuble dont les boîtes aux lettres se trouvent dans une zone commune : c’est comme si un voisin avait tenté de maquiller les étiquettes des boîtes aux lettres dans le but de tromper le facteur et ainsi récupérer le courrier et les paquets de ses autres voisins. Autant dire que c’est très mal. La sécurité du réseau d’OVH (la zone commune de l’immeuble) étant en jeu, OVH a coupé le serveur (désactivé le badge d’entrée du voisin indélicat dans l’immeuble), puis rétabli un accès minimum au serveur (le voisin indélicat a été cantonné à son appartement), le temps que le problème soit identifié (comme l’intrusion éventuelle dans les zones communes via l’appartement du voisin supposé indélicat) et solutionné (changement de serrures, barreaux aux fenêtres).

L’analyse minutieuse de la situation n’a cependant dévoilé aucune intrusion sur le serveur (l’appartement). Aucune donnée hébergée n’a donc été compromise en aucune façon. A défaut d’intrusion constatée, l’hypothèse d’un bug d’origine inconnue a été avancée (les étiquettes des boîtes aux lettres se seraient mélangées « seules », sans intervention humaine volontaire et frauduleuse). Cependant, l’analyse n’a malheureusement pas permis l’identification de l’origine du bug. Néanmoins, avant la remise en route du serveur (l’accès à l’appartement), le fonctionnement du serveur a été sécurisé (de nouveaux verrous ont été installés sur la porte).

Ainsi, si le bug se reproduit, il sera bloqué et restera sans conséquence (l’accès aux boîtes aux lettres restera verrouillé). De plus, ce défaut sera tracé et inscrit dans un journal d’activités suspectes (une caméra enregistre l’accès à la porte). En bref, le serveur ne pourra plus — en principe (!) — être coupé pour les mêmes raisons. De plus, de nouveaux travaux ont été planifiés pour améliorer la disponibilité et la fraîcheur des sauvegardes des sites web hébergés afin de permettre leur redéploiement rapide en cas de dysfonctionnement grave du serveur.

Enfin, je tiens à présenter mes plus plates excuses pour cette coupure inattendue à l’ensemble des clients touchés par cette panne.

Crédit photo : John Seb Barber