OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
problème de basculement sur l'alimentation du datacentre p19
Incident Report for Network & Infrastructure
Resolved
Nous avons eu un problème sur l'alimentation du batiment.
EDF a eu un défaut sur la 1ere boucle puis sur la 2ème.
L'alimentation a basculé sur la 3ème arrivée comme prevu.
Par contre l'alimentation du systeme qui gere ces basculements
(sur baterie) a coupé pour des raisons qu'on connait pas
encore.

La coupe a été enregistré à 22H54. Nous avons alimenté
en direct le systeme de basculement à 23h14. Tout revient
tout doucement.

Les équipes sont sur place. D'autres sur la route.

Update(s):

Date: 2005-01-18 09:26:59 UTC
Bonjour,
Nous avons eu hier soir la plus importante panne qu'on ait
connu chez Ovh. Le pire des scenarios s'est produit.

Voici l'explication:

EDF nous alimente sur 3 arrivées independantes. Ces 3 gros
cables arrivent sur notre poste de transformation sur les
grosses armoires où nous avons une serie des dijoncteurs
à 20'000V. En suite, la tention passe par le transformateur
puis arrivent sur les onduleurs puis dans nos salles
d'hébergement.

Le systeme qui detecte les defauts dans les arrivées electrique
d'EDF gere le poste de transformation. C'est à dire qu'il coupe
ou rearme les dijoncteurs avec l'objectif d'alimenter toujours
le transformateur. Ce systeme est, en théorie, toujours alimenté:
il fonctionne en 48v et il y a des bateries de secours. C'est
normal: si ce systeme n'est plus alimenté, les dijoncteurs
ne sont plus maintenus et toutes les arrivées d'EDF sont coupées.

Nous avons demarré il y a 1 semaine des travaux sur la mise en
place d'un nouveau transformateur http://travaux.ovh.net/?do=details&id=191
Le nouveau transformateur (de secours) a été mis en place et
alimenté de sorte que le 1er transformateur ne soit plus alimenté.
En effet, l'entreprise qui nous fournit les transformateurs
doit faire des travaux de reparation sur le 1er transformateur (sic).

Le probleme a été très simple: le systeme qui gere le poste de
transformation a été alimenté uniquement par le 1er transformateur.
Une fois que nous avons basculé sur le transformateur de secours,
il a fonctionné sur la baterie. Plusieurs jours après, c'est à dire
hier soir vers 22h, la baterie a été à plat et tous les dijoncteurs
sur les arrivées d'EDF ont été lachés. Les onduleurs n'étant plus
alimentés, ils ont tenu leur temps puis se sont dechargés. Tout le
datacentre a été privé du courant soit 5000 serveurs.

Pour réarmer le systeme, il nous aura fallu chercher une source
de tension exterieur à Ovh ! Une fois que la baterie a été un peu
rechargée, les dijoncteurs se sont rearmés. Ceci a durée une 20ène
des minutes.

Toute l'équipe a été mobilisée en quelques minutes. 1h après la
panne, 90% des serveurs fonctionnaient à nouveau. 10h après la
panne, toutes les machines ont été à nouveau en fonctionnement.

Conclusion:
Pour construire notre datacentre, nous choisissons les meilleurs
fournisseurs en France (MGE, France Transformateur, ...). Nous travailons
avec une entreprise d'electricité qui a une experiance de plusieurs
dizains d'années et travaile pour les entreprise comme 3Suisse.
Malgré un investissement très important pour securiser tout à
tous les niveaux, il nous arrive encore d'avoir des defauts dû
à la fiabilitée du materiel comme une pompe qui doit tenir 3ans et
lache le 3ème mois, un onduleur MGE neuve explose 2ème semaine après
l'installation, et maintenant un bug dans l'alimentation du systeme
de gestion de poste de transformation (default de conception de
l'entreprise qui nous fait l'electricité).

Nous allons mettre nettement plus des capteurs avec des remontés
d'information plus directe et même dans les systemes qui ne sont
"jamais" en panne. Le mot "jamais" vient d'être effacé de notre
vocabulaire. Nous allons créer un systeme de visualisation
en interne de ces defauts sur paris 19 mais aussi avec des remontés
sur le web. Ceci nous permettra d'avoir toutes les informations
centralisées et avoir toute l'installation en un coup d'oeil.
Nous continuons à faire confiance dans les équipements des
entreprises françaises, malgré une fiabilitée qui laisse à desirer
et malgré le fait que ce materiel coute plusieurs fois plus cher
que l'équivalent dans les pays de l'Est par exemple. Nous voulons
du meilleur pour notre datacentre sur paris 19 et nous pensons
que le choix de fournisseurs n'est pas à remettre en cause.

Le serieux de l'équipe à gerer un incident majeur a été une fois
encore demontrée.

Nous allons appliquer le contrat SLA à tous les clients des serveurs
dédiés en fonction de temps de panne. Vous allez recevoir un email
sous 3-4 semaines (le temps de faire le bilan).

Nous sommes désolés pour cet incident.

Cordialement
Octave Klaba
Directeur Technique d'Ovh.com


Date: 2005-01-18 02:51:34 UTC
43 machines encore en panne.

Date: 2005-01-18 02:41:49 UTC
53 machines.

Date: 2005-01-18 02:06:56 UTC
66 machines.

Date: 2005-01-18 01:45:03 UTC
78 machines encore.

Date: 2005-01-18 01:04:05 UTC
Il reste encore 126 machines en panne en serveurs dédiés.

Date: 2005-01-18 01:03:00 UTC
Hébergement mutualisé et les emails refonctionnent correctement.
Il reste encore environ 200 serveurs dédiés en panne. On check
chaque machine.

Date: 2005-01-17 23:10:06 UTC
La situation evolue. Tous les routeurs sont en marche. Tout
mutualisé est en fonctionnement sauf mediaplan. Les emails
fonctionnent très très doucement (encore 4 machines en panne).
Les sql reviennent tout doucement. Pour le dédiés: 3 switchs
restent en panne et plusieurs dizaines de systemes de reboot.
Environ 600 machines sont être encore en panne.
Posted Jan 17, 2005 - 22:01 UTC