OVHcloud Bare Metal Cloud Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
pcc-000159
Incident Report for Bare Metal Cloud
Resolved
Le filer provisoir utilisé pour les betas test de VPS
et qui n'a pas été retiré de la production (erreur
interne) est tombé en panne. On est en train de migrer
les clients qui ont renouvellé le VPS après la beta.
en tout 258 VPS sont impactés. les données ne sont
pas perdus. Le service devrait revenir dans 1H
environ pour ces clients.

Update(s):

Date: 2011-06-30 14:28:05 UTC
Tous les vps impactés ont été remis en production.

Date: 2011-06-30 09:41:34 UTC
Ca manque un peu de communication. Désolé pour les
infos qui n'arrivent pas en flux tendu même si les
équipes bossent sur le probleme à plein temps.
Voici quelques infos qui ont été posté sur la ml
vps@ml.ovh.net

Date: Thu, 30 Jun 2011 00:39:15 +0200
From: Oles
To: \"\"
Cc: \"vps@ml.ovh.net\"
Subject: Re: [vps] le filer de la beta

quelques explications.

les travaux avancent mais moins vite que prévu.
pour dire simplement les choses, on a perdu l'un
des filers de la 1er génération que nous avons
utilisé pour les bêtas. on aurait dû faire migrer
les clients depuis une longe date mais comme
les clients n'avaient pas tous de 99.99% alors
la migration voulait dire indisponibilité. donc on
a dit qu'on va d'abord migrer tout le monde en
99.99% puis faire les migrations de filers à chaud.
l'offre commerciale a changé hier. et on était en
train de préparer toutes les migrations et modification.
manque de bol l'un des disques a bloqué la moitier
d'un filer et comme c'est la 1er génération il n'y a
pas de 2eme moitier. donc c'est la panne. dans la
version finale le NAS est HA avec 2 shelfs de
disques et pas 1 shelf. le disque a tellement
bien fait planter le NAS que le filesystem zfs
est mort en écriture. on a réussi à monter le
zfs en lecture seul et on copie les datas d'un
filer à un autre. les données sont là donc pas
de perte mais il faut tout basculer sur un autre
nouveau filer. et ça copie. en cas de problème
on aura les backup mais comme les datas sont
là on préfère récupérer les données les plus
reçentes c'est à dire du filer.

on espère finir dans la nuit. en tout cas on bosse
à 100% dessus. on est triste et énervé comme
vous pour cette panne, car à cause de ce problème
tout le travail qu'on a fait au tour de VPS est abimé.
cela prouve une fois encore qu'il ne faut pas qu'on
cherche le prix mais qu'on cherche la fiabilité et
la disponibilité. avec 99.99% par défaut les migrations
auraient été déjà fait. et ce problème n'aurait pas
existé. mais il existe et on va l'assumer sur les
3 ans à venir (c'est le temps qu'on nous dira que
le VPS n'est pas fiable).

bref :(

bon.

des que c'est fixé, on continue de bosser sur les
migrations. on passe tout le monde en 99.99%
puis on fait de migration sur les nouveaux filers.
on était à 30% de préparatif. çe wk les migrations
à chaud devraient commencer.

les perfs seront au rendez vous puisqu'il y a 2
fois plus de disques. puis comme maintenant
c'est 50G c'est 5x moins de clients en plus. donc
ça va faire 10x moins de clients par filer pour
les nouveaux 50G. bref, ça risque d'être bon.


Date: 2011-06-30 07:13:40 UTC
206 vps impactés ont été remis en production.

Date: 2011-06-29 16:10:29 UTC
Il y a eu un problème hardware sur le filer.
Nous sommes en train de remonter les données sur un nouveau filer.
Posted Jun 29, 2011 - 14:26 UTC
This incident affected: Virtual Private Servers || Global Infrastructure (ERI, GRA, SBG, LIM, WAW, BHS, SGP, SYD).