OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
pdc1-1-c1
Incident Report for Network & Infrastructure
Resolved
Nous avons un pb hard sur ce routeur.

Update(s):

Date: 2011-04-02 23:16:28 UTC
Le routeur est maintenant revenu dans son état nominal.

Le chassis lui-même semble donc hors de cause mais nous n'avons pas réussi à reproduire le pb de boot des cartes sups d'origine (et de la 1ere carte de spare) sur le chassis de test.
Il est très probable en tous cas que l'on ait cumulé plusieurs problèmes à la fois.

Nous nous excusons pour le downtime pour les clients connectés sur le pdc1-1 en 1x2. Les clients en 2x2 ou 2x4 n'ont pas été impactés.

Date: 2011-04-02 22:31:08 UTC
La carte #2 neuve a booté sans problème. Nous redescendons la config du module de routage m2.

Date: 2011-04-02 22:09:40 UTC
Nous allons intervenir d'ici qq minutes pour réinsérer une nouvelle carte en slot #2. Il y a une chance que le chassis crash s'il est la cause d'origine des problèmes. Comme on a pu faire booter une carte neuve sans soucis en #1, on a de bonnes raisons d'espérer qu'il n'y aura pas de problèmes cette fois. Néanmoins, a ce stade et vu les problèmes qu'on a déjà rencontrés, on ne peut plus être sûr de rien. S'il s'avère que le chassis est en fait à l'origine des problèmes, nous le remplacerons.


Date: 2011-04-02 17:46:14 UTC
Le chassis est up sur une nouvelle carte #1. La conf est synchronisée. Nous allons tester les cartes précédentes en lab et préparer une nouvelle carte #2 from scratch. On ne touche plus à rien pour l'instant afin de ne pas prendre aucun risque. Nous interviendrons probablement dans la nuit pour réinsérer une nouvelle carte #2.

Date: 2011-04-02 17:33:38 UTC
Après investigations, il s'avère qu'on est plutot sur plusieurs pannes des différentes sups que sur un pb de chassis. Le chassis est booté sur un nouveau spare. Nous sommes en train de redescendre la conf du chassis en manuel.

Date: 2011-04-02 16:57:58 UTC
Impossible de démarrer aucune carte sur ce chassis (!). On se prépare à remplacer le chassis complet en urgence.

Date: 2011-04-02 16:39:57 UTC
Ni la carte #2 d'origine ni la carte de spare ne démarre dans le slot1 ou 2. On réinsère la carte #1 d'origine.

Date: 2011-04-02 16:24:33 UTC
Nous effectuons le reboot pour démarrer à froid sur la carte #2

Date: 2011-04-02 16:05:51 UTC
Nous effectuerons le reboot hard du chassis d'ici 30min environ. Un autre incident étant en cours sur p19 (#5301).
Le chassis fonctionne pour l'instant en mode dégradé mais stable.

Date: 2011-04-02 16:02:08 UTC
résumé des actions entreprises jusqu'ici:
Le routeur tourne actuellement sur la carte #1. Nous avons tenté de remplacer a carte #2 qui était crashée et affichée par le routeur comme était défaut.
Dès l'insertion de la carte de spare dans le slot #2, le chassis s'est bloqué de nouveau. Nous l'avons donc redémarré en hard uniquement sur la carte #1 afin de repartir sur un redémarrage à froid de la carte #1.
Suite à ce redémarrage, nouvel essai d'insertion de la carte de spare en slot #2, l'ensemble des ports du chassis passent en défaut (!). On retire cette fois uniquement la carte #2 et on récupère un fonctionnement normal.
Nous suspectons donc la carte #1 d'être en fait l'origine du problème bien qu'elle fonctionne pour l'instant en standalone.
Un nouveau reboot hard du chassis va être nécessaire pour redémarrer sur la carte #2. Nous remplacerons ensuite la carte #1 par un spare.
Posted Apr 02, 2011 - 15:34 UTC