OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
Datacenter Gravelines
Incident Report for Network & Infrastructure
Resolved
Nous rencontrons un défaut sur la distribution électrique, plusieurs salles sont impactées.
Nos équipes sont sur place pour corriger la situation.

Plus de détails à venir.


We are encountering an issue on the electrical distribution in Gravelines, more than one room is impacted.
Our teams are on site to resolve the issue.

More details to come.

Update(s):

Date: 2018-01-24 18:37:08 UTC
Last affected server has just been fixed

Date: 2018-01-24 17:12:52 UTC
9 Servers Left

Date: 2018-01-24 16:45:53 UTC
15 Servers Left

Date: 2018-01-24 15:15:24 UTC
16 Servers Left

Date: 2018-01-24 14:11:45 UTC
20 Servers Left

Date: 2018-01-24 13:14:58 UTC
29 servers left

Date: 2018-01-24 11:59:56 UTC
38 servers left

Date: 2018-01-24 11:02:02 UTC
47 Server left

Date: 2018-01-24 10:21:43 UTC
53 server left

Date: 2018-01-24 09:22:39 UTC
61 Server left

Date: 2018-01-24 08:17:32 UTC
69 Server left

Date: 2018-01-24 07:19:45 UTC
78 Server left

Date: 2018-01-24 06:10:29 UTC
89 Server left

Date: 2018-01-24 05:40:31 UTC
95 Server left

Date: 2018-01-24 04:20:52 UTC
109 server left.

Date: 2018-01-24 04:03:07 UTC
Bonjour,
Dans le datacentre GRA, nous avons plusieurs dizaines
d'onduleurs (UPS). L'un de ces UPS, UPS7, a eu un
défaut important à 23h02. En cas de défaut, l'onduleur
automatiquement prend la décision de s'isoler du réseau
électrique en laissant passer le courant entre le TGBT
et les baies, en direct, en mode \"by-pass\".

A 23h02, l'UPS7 s'est donc isolé en laissant alimenter
les baies par le TGBT en direct, sans l'onduleur. Mais
le défaut sur l'onduleur étant important, l'opération
de l'isolation a provoqué la disjonction du TGBT lui-même.

L'UPS7 alimente plusieurs containers en voie B. Il n'y
a pas eu de conséquence sur tous ces containers puisqu'un
autre onduleur UPS8 continuait à alimenter ces containers
via la voie A. Nous avons eu un impact sur la rangée B dans
3 containers, G117, G125, G126. L'ensemble de serveurs
qui se situent dans la rangée B de ces 3 containers ont
ont été impactés durant la panne.

Nous n'avons pas voulu remettre en route le TGBT sans
avoir fait un diagnostique profond du réseau électrique
derrière le TGBT qui a disjoncté. On peut avoir différents
\"root cause\" de la disjonction et on voulait s'assurer
que la \"root cause\" se situait bien dans l'onduleur.

L'expert est arrivé sur le site 0h40. L'inspection a
durée 1h30, nous avons vérifié l'ensemble du réseau
électrique. Nous avons remis en route progressivement
le TGBT entre 2h17 et 2h38. Les services qui sont en
train d'être remis en route.

Depuis 2 ans, dans l'ensemble de nos datacentres nous
déployons le standard électrique basé sur 2 arrivées
électriques totalement redondés par baie. Lors de cet
incident, 4 containers ont continué à fonctionner sans
souci. Par contre jusqu'au 2015, 50% des infrastructures
ont été déployées suivant un autre standard basé sur une
seule arrivée électrique par baie. Cet autre standard
nous ne utilisons plus depuis 2015. En novembre 2017,
nous avons pris la décision de recenser toutes les baies
dans l'ensemble de nos datacentres qui ont été déployées
suivant cet autre standard. Nous allons upgrader le
réseau électrique dans ces baies pour avoir partout chez
Ovh uniquement le standard basé sur 2 arrivées électrique.
Ce sont des travaux très lourds qui vont commencer bientôt
et vont consister à déployer des nouveaux TGBT/UPS dans
certains anciens datacentres et déployer une 2eme arrivée
électrique dans chaque baie qui n'a qu'une arrivée électrique.
Le réseau électrique de la rangée B de containers G117, G125,
G126 sera upgradé lors de ces travaux qui seront menés
dans quelques mois.

Nous sommes vraiment désolés pour cette panne.

Amicalement
Octave

Date: 2018-01-24 03:26:08 UTC
169 serveur left.

Date: 2018-01-24 02:38:22 UTC
Actually : 367 servers down.

Date: 2018-01-24 02:20:32 UTC
Our experts bypassed the defective UPS in order to power the rooms powered by the UPS.

570 servers still down.

Our teams are working to bring those servers back up as fast as they can.

Date: 2018-01-24 01:53:00 UTC
Nos experts sur place ont ByPass l'onduleur en défaut afin de pouvoir réalimenté les différentes salles géré par cet onduleur.

Actuellement 570 serveurs en pannes.

Nos équipes font le maximum pour remettre en services les serveurs.

Date: 2018-01-24 00:14:36 UTC
Following the event described here: http://travaux.ovh.net/?do=details&id=29534

The following rooms were impacted:
G126A17, 19, 22, 24
G126B09, 14
G127B14, 15, 16, 17, 18, 19
G118A02, 03, 07, 08, 13, 14, 15, 17, 19, 20, 21
G118B03, 14, 20, 21, 22
G133A03, 04, 06, 07, 08, 11, 12, 13, 16, 17, 18, 19
G133B06, 10
G125B06, 08, 19, 20, 21, 22
G125A02 through 22

Including the following network equipments:
gra1-32b-n56
gra1-29b-n56
gra1-111-n56-vrack
gra1-sdagg20a/b-a72

Counting up to 1510 servers.

All our teams are mobilized to resolve the issue as fast as possible.
The network equipments are being brought back up now.

Date: 2018-01-24 00:12:53 UTC
Suite au défaut électrique détaillé dans ce ticket : http://travaux.ovh.net/?do=details&id=29534
Voici ce qui est impacté :
G126A17, 19, 22 ,24
G126B09, 14
G127B14, 15, 16, 17, 18, 19
G118A02, 03, 07, 08, 13, 14, 15, 17, 19, 20, 21
G118B03, 14, 20, 21, 22
G133A03, 04, 06, 07, 08, 11, 12, 13, 16, 17, 18, 19
G133B06, 10
G125B06, 08, 19, 20, 21, 22

Toute la rangée G125A

Dont les équipements réseau suivant :
gra1-32b-n56
gra1-29b-n56
gra1-111-n56-vrack
gra1-sdagg20a/b-a72

Au total 1510 serveurs.

Les équipes sont toutes mobilisées pour intervenir sur les serveurs.
Des équipements réseaux sont d'ores et déjà remis en ligne.
Posted Jan 23, 2018 - 22:17 UTC
This incident affected: Infrastructure || GRA (GRA1, GRA2, GRA3).