OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
rbx6-sd1b-n9
Incident Report for Network & Infrastructure
Resolved
Le DHCP relay est impacté sur quelques vlans du routeur ; vlan365 (137.74.204.0) et vlan366 (137.74.205.0 )
Nous investiguons

Update(s):

Date: 2017-04-25 17:29:19 UTC
Nous avons remis le B en production sauf FEX 114. Le vlan est stable. Il reste que le FEX 114 isolé sur le B car il est stable. Nous allons planifier lors d'une maintenance un diagnostique avancé sur le FEX 114. Nous n'avons pas trouvé la source de ce soucis temporaire et complètement aléatoire. Nous allons ouvrir une autre tâche pour le suivi du FEX 114.

Date: 2017-04-22 09:21:55 UTC
En coupant uniquement les uplinks des fex côté B le problème est fixé.
Nous restons dans cette configuration en attendant l'intervention de cisco

Date: 2017-04-22 08:41:32 UTC
La case est ouvert chez Cisco.
Nous allons isoler un des switchs

Date: 2017-04-22 07:53:26 UTC
C'est stable, mais encore le même problème initiale. Nous ouvrons un case P1 avec Cisco.


Date: 2017-04-22 06:11:23 UTC
Les FEX vienne de retomber. Ça remonte à nouveau. La VPC semble revenu à la normale.

Date: 2017-04-22 05:44:23 UTC
Les fex remonte peu à peu. 15 sur 20 up.

Date: 2017-04-22 05:38:13 UTC
Nous avons un probleme VPC, tout les FEX sont passé en offline.

Date: 2017-04-22 05:17:52 UTC
On remplace rbx6-27a par un spare. Nous l'isolons.

Date: 2017-04-22 04:55:39 UTC
Nous voyons des packet drop sur rbx6-27a:
2017-04-22 04:20:01.527512 0c:c4:7a:df:27:a8 -> ff:ff:ff:ff:ff:ff LLC [Malformed Packet]
2017-04-22 04:20:01.582747 00:1e:67:ed:0c:ee -> ff:ff:ff:ff:ff:ff LLC [Malformed Packet]
2017-04-22 04:20:01.652621 00:1e:67:ed:14:76 -> ff:ff:ff:ff:ff:ff LLC [Malformed Packet]

Certaine mac voit leurs paquet broadcast bloqué. ARP, DHCP, etc. Ce qui explique les pertes de connectivité.



Date: 2017-04-22 03:30:54 UTC
Nous voyons encore très peu de cas d'IP down qui semble être très isolé. Nous récoltons l'informations pour remonté à Cisco.

Date: 2017-04-22 02:21:44 UTC
Le switch est remis en prod. Nous continuons les test.

Date: 2017-04-22 02:01:03 UTC
Le switch est reboot. Nous le remettons en production.

Date: 2017-04-22 01:49:46 UTC
B isole, nous le rebootons.

Date: 2017-04-22 01:34:10 UTC
Le A est UP, on refait la meme opération sur le B. donc on isole le B.

Date: 2017-04-22 01:15:19 UTC
On remet en prod le A. les IP sont revenu UP.

Date: 2017-04-22 01:03:03 UTC
Quelque perte d'IP, on reload le A.

Date: 2017-04-22 00:42:12 UTC
Nous allons débuter l'isolation de rbx6-27a-n56.

Date: 2017-04-21 16:31:52 UTC
Nous allons redémarrer rbx6-27a-n56 ce soir 21 Avril 2017 entre 02h00 et 06h00 (GMT +2). Aucun impact prévue.


Date: 2017-04-21 04:21:38 UTC
L'upgrade n'a pas fixé les problèmes dhcp.
Nous investiguons d'autres problèmes entre les machines et les N9.
Nous allons continuer les investigations avec les constructeurs.

Date: 2017-04-20 20:36:55 UTC
Nous avons eu un impact lors du rétablissement de rbx6-sd1a-n9 de 22:16 a 22:30

Date: 2017-04-20 20:04:31 UTC
Le rbx6-sd1a-n9 reboot

Date: 2017-04-20 19:58:07 UTC
Le rbx6-sd1b-n9 a pris tout le trafic

Date: 2017-04-20 19:24:07 UTC
Nous allons isoler le router a ( rbx6-sd1a-n9 ) dans le but de mettre a jour.
Le rbx6-sd1b-n9 prendra ainsi tout le trafic
Posted Apr 20, 2017 - 18:46 UTC
This incident affected: Infrastructure || RBX (RBX6).