rssLink RSS for all categories
 
icon_red
icon_green
icon_red
icon_red
icon_red
icon_green
icon_green
icon_orange
icon_red
icon_blue
icon_green
icon_green
icon_green
icon_blue
icon_orange
icon_green
icon_green
icon_blue
icon_red
icon_green
icon_green
icon_red
icon_orange
icon_blue
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_blue
icon_green
icon_orange
 

FS#1702 — Globalswitch

Attached to Project— Reseau Internet et Baies
Incident
Paris Global Switch
CLOSED
100%
Nous venons de recevoir une alerte de GlobalSwitch:
"Suite à un incident sur site, il y a un risque d'interruption de service".

Nous n'en savons pas plus pour le moment.
Date:  Friday, 12 October 2007, 11:47AM
Reason for closing:  Done
Comment by OVH - Monday, 08 October 2007, 20:22PM

20h11. nous avons enregistré une coupure sur nos installations
dans notre suite. Les 3 routeurs hébergés dans notre suite sont
down. Les installations hébergés dans les autres parties du site
continuent à fonctionner à savoir le routeur gsw-1-6k et les
équipements longe distance Paris/Roubaix.

Ce qui est en panne:
- nos installations dans la suite de Global Switch et donc
probablement tous les clients housing ainsi que nos serveurs
dns secondaires.
- l'un des 4 10G entre Paris/Roubaix, nous continuons à fonctionner
sur 3x10G entre Paris/Roubaix.

Ce qui continue à fonctionner sans probleme:
- tout le reste à savoir, les domaines, l'hébergement mutualisé,
les serveurs dédiés et les clients housing de Redbus.

Nous sommes en route sur le site de Global Switch.


Comment by OVH - Monday, 08 October 2007, 20:31PM

20h29, gsw-2-6k est à nouveau up.


Comment by OVH - Monday, 08 October 2007, 20:35PM

20h32, gsw-3/gsw-4 up.

Les routeurs ont été coupés. La suite a donc subit une coupure electrique
avec l'ensemble de nos clients.

gsw-2-6k uptime is 8 minutes
Time since gsw-2-6k switched to active is 7 minutes


Comment by OVH - Monday, 08 October 2007, 21:04PM

Suite à la coupure le lien rbx-2/gsw-2 ne fonctionne pas correctement.
Nous avons coupé le lien en attandant de trouver l'origine du probleme.


Comment by OVH - Monday, 08 October 2007, 21:10PM

Le lien vient d'être reconfiguré et reverifié. On vient de le remettre
en place. Tout est à nouveau correct sur le lien Paris/Roubaix.

Notre équipe est en place. 2 autres clients aussi. Nos installations
sont en fonctionnement. Apparament l'une des 2 arrivée electrique de
notre suite est down alors que l'autre est up. Grâce au systeme STS
que nous avons mis en place dans notre suite pour chaque client,
tous les clients sont alimentés.

Nous n'avons toujours d'explication sur l'origine du probleme.


Comment by OVH - Monday, 08 October 2007, 21:30PM

2 PDU sur 4 sont alimentés. Heuressement il n'en faut que 2 pour
faire fonctionner toute notre suite. Le courant a été remis dans
les 2 qui ont été down et nous avons eu encore une micro coupure
de 2-3 secondes sur les 2 PDU. Tout continue à fonctionner sur
les 2 PDU déjà alimentés. Nous remettons les clients en route
(si le dijoncteur down). En cas de probleme, merci de nous envoyer
un email sur noc@ovh.net


Comment by OVH - Monday, 08 October 2007, 22:40PM

nous traitons toutes les demandes sur noc@ovh.net au niveau
des clients qui sont encore down. c'est le cas des clients
qui ont trop de serveurs dans la baie pourque ça remonte
tout seul. le dijoncteur saute. il faut qu'on debranche
quelques machines une par une et essayer de redemarrer le
dijoncteur. c'est lent.

nous avons vu les rensponsables du site mais aucun information
n'a été donné. juste: tout est stable vous pouvez redemarrer.


Comment by OVH - Monday, 08 October 2007, 23:08PM

Nous avons eu des informations sur la panne (attention
ceci n'est pas un resumé, ceci est l'informaiton que
nous avons eu dans son ensemble):
- coupure EDF
- Groupes
- un blanc inconnu
- décharge des batteries sur certains level.

Si on essaie de decrypter l'information, ça voudrait
dire que les groupes electrogenes n'ont pas pris
correctement après une coupure EDF. Et donc l'ensemble
du site ne serait plus alimenté. En fonction de la
charge de certains level du datacentre, le temps de
fonctionement a été different.

Ainsi si on regarde les logs des routeurs:
Notre transit Global Crossing est resté UP tout le
temps. Aucun probleme à ce niveau là. MMR1 et MMR2
(meet me room) ont été UP puisque gsw-1 (MMR1) et
les équipements longe distance Paris/Roubaix (MMR2)
sont restés up.

La suite avec nos logs des routeurs.

19h34 down d'un peer sur global switch (on connait pas
le level de ce peer).
19H41 up de ce peer
20h06 down d'un peer sur global switch
20h11 down de notre suite (level 5)
20h13 up du peer
20h29 up de notre suite (level 5)

Dés que nous savons plus, nous vous transmettons
l'information.


Comment by OVH - Tuesday, 09 October 2007, 00:25AM

Tous les emails envoyés par les clients sur noc@ ont été traités.
On verifie l'installation une derniere fois.


Comment by OVH - Tuesday, 09 October 2007, 22:43PM

Voici l'information officielle que nous avons reçu aujourd'hui
à 17h52.

17h 46
Coupure EDF (2-3 mn)

17h 51
Démarrage automatique et synchronisation des générateurs 1, 2 et 3.

18h00
Rondes techniques sur l’ensemble des installations

18h10
Message d’alerte envoyé aux clients par SMS.
Suite à une augmentation de température dans
certaines salles clients, il a été décidé de
fonctionner sur les générateurs le temps du
retour à des températures normales.

18h43
Basculement du GE1 sur le GE4 en raison d’une
fuite sur la culasse du GE1

18h45-18h48
Mise en sécurité de l’ensemble des onduleurs Powerware
lors du basculement entre GE1 et GE4 ayant généré une
perturbation (variation de tension importante du courant).
En conséquence, les onduleurs ont fonctionné sur batteries
malgré la présence de courant électrique en amont.
Après épuisement des batteries, passage des onduleurs sur
by-pass (l’heure précise d’épuisement dépendant de la charge
réelle de chaque onduleur). A ce moment les groupes
électrogènes sont toujours en fonction.

19h10
Après stabilisation des températures dans les salles, bascule
du courant des GE 2, 3 et 4 vers EDF. Coupures EDF dans les
salles pour lesquelles les batteries sont épuisées.

de 19h25 à minuit
Redémarrage (reset) manuel des onduleurs Powerware. Sortie du
mode by-pass lorsque les batteries sont suffisamment chargées.

A l’étage Level 2 : Ce redémarrage provoque plusieurs disjonctions
des TGBT dans les RMU5 et 6, l’appel de courant étant trop brutal,
provoquant l’arrêt électrique des salles clients.
Remise en service progressive des disjoncteurs des TGBT (RMU 5 et 6)
de façon à permettre un démarrage progressif des onduleurs de l’étage.

Jusqu’à 4h00
Surveillance des onduleurs et chargement progressif des batteries
des différents onduleurs


Mesures préventives :
Renforcement des équipes de nuit : 3 personnels sur site à partir
du 09/10.

Réparation GE n°1 avant la fin de la semaine.

Audit technique de la chaine électrique dans son ensemble par bureau
d’étude, constructeur et mainteneur FM à partir du 10/10.