rssLink RSS for all categories
 
icon_blue
icon_green
icon_green
icon_orange
icon_red
icon_green
icon_green
icon_orange
icon_red
icon_red
icon_red
icon_green
icon_green
icon_red
icon_green
icon_red
icon_green
icon_green
icon_red
icon_red
icon_green
icon_red
icon_green
icon_green
icon_orange
icon_blue
icon_orange
icon_blue
icon_green
icon_blue
icon_red
icon_green
 

FS#2798 — Filers

Attached to Project— RPS
Incident
tous les RPS
CLOSED
100%
Le test de groupe electrogène a impacté une partie des filers de stockage de rps.
http://travaux.ovh.net/?do=details&id=2744
Nous intervenons sur les machines pour rétablir le service.
Date:  Friday, 23 January 2009, 12:31PM
Reason for closing:  Done
Comment by OVH - Thursday, 22 January 2009, 13:55PM

Il y a 9 iscsi impactés:
iscsi13.rps iscsi14.rps iscsi18.rps iscsi19.rps iscsi20.rps iscsi21.rps iscsi22.rps iscsi23.rps iscsi24.rps

iscsi23.rps et iscsi24.rps sont déjà revenus et opérationnels.


Comment by OVH - Thursday, 22 January 2009, 14:05PM

Pour les autres serveurs iscsi, c'est la coupure de leur SAN qui est à l'origine du problème.
Ils sont actuellement en train de démarrer, ce qui devrait prendre une peu plus d'une heure.


Comment by OVH - Thursday, 22 January 2009, 15:38PM

iscsi14.rps est maintenant opérationnelle.
Reste iscsi13.rps, iscsi18.rps, iscsi19.rps, iscsi20.rps, iscsi21.rps et iscsi22.rps.


Comment by OVH - Thursday, 22 January 2009, 16:05PM

iscsi19.rps et iscsi20.rps up.
Reste iscsi13.rps, iscsi18.rps, iscsi21.rps et iscsi22.rps.


Comment by OVH - Thursday, 22 January 2009, 17:04PM

iscsi13 et iscsi18.rps up.
Reste iscsi21.rps et iscsi22.rps.


Comment by OVH - Friday, 23 January 2009, 09:37AM

Bonjour,
Hier dans l'après midi et jusqu'à tard dans la nuit, nous avons eu hier un
important incident qui a impacté 20% des clients RPS.

Il s'agit d'un problème d'alimentation électrique sur 8 SAN. Il y a 1 semaine
les équipes électriques ont travaillé dans la salle des SAN sur l'une des deux
arrivées électrique (afin d'ajouter les nouveaux SAN). En tout, nous avons
plus de 40 SAN en production dans cette salle et 120 à terme. Pour ces travaux,
ils ont donc coupé l'une des arrivée mais après la fin des travaux, ils ont fait
une erreur humaine au niveau de rebranchement sur 8 SAN. Hier, pendant les tests
de groupes électrogènes, les 8 SAN mal rebranchés sont tombés en défaut
d'alimantion et sont tombés en panne. Le défaut a été corrigé rapidement mais
il faut plusieurs heures aux SAN pour remonter le service. Le problème de la durée
se situe au niveau d'un bug sous Solaris qui provoque un temps de remise en route
d'un SAN qui varie entre 2h et 12h (suivant le nombre de filesystem à monter avec
ou sans les snapshot). Nous travaillons avec SUN sur l'amélioration de temps de
redémarrage d'un SAN mais pour l'instant, nous avons encore ce bug. En bref, 18%
des RPS ont été en panne pendant 2H et 2% pendant 12H (un SAN a mis énormément de
temps à remonter). Nous regardons aussi de quelle manière on peut éviter ce genre
de problèmes bêtes mais humainement possibles.

L'ensemble des clients impactés par ce problème vont avoir 1 mois gratuit.
Au plus tard Mardi un email leur sera envoyés un URL à remplir.

Désolé pour l'incident.

En savoir plus:
http://travaux.ovh.net/?do=details&id=2798
http://travaux.ovh.net/?do=details&id=2744

Amicalement
Octave