OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
rbx1-14a/b-n56
Scheduled Maintenance Report for Network & Infrastructure
Completed
Nous allons mettre a jour ce couple de nexus vers la 7.1.3.n1.4 afin de corriger des bugs ( principalement sur fex 2348 )
Nous upgraderons en ISSU, qui est une maj hitless.

Cependant, l'upgrade charge aussi un nouveau firmware broadcom dans les fex, et il sera necessaire de reloader les fex 2348 ( et uniquement ceux la) afin que la maj soit effective.

La mise a jour débutera vers 22h

Update(s):

Date: 2016-06-23 22:26:11 UTC
Les FEX sont online avec redondance et à jour. Nous n'avons plus d'IP dans le monitoring.

Nous n'expliquons pas encore la boucle qui s'est produit entre les Nexus qui ont crashé et les routeurs au dessus, à part des logs indiquant des flaps de ports qui ne rentrent pas correctement dans les port-channels.

Nous allons investiguer avec Cisco pour comprendre pourquoi nous avons constaté deux crashs de suite (qui n'auraient pas du causer de pannes) ainsi que la loop liée au flap de mac sur des ports dans un même bundle LACP.

Date: 2016-06-23 22:13:59 UTC
l'ISSU sur le b a réussi, mais un crash a eu lieu ensuite, pour une raison unknown

rbx1-14b-n56-hg# sh system reset-reason
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) ---
1) No time
Reason: Unknown
Service:
Version:

2) At 136492 usecs after Thu Jun 23 23:54:57 2016
Reason: Reset due to upgrade
Service:
Version: 7.1(2)N1(1)

ceci engendre des effets de bord car le LACP change son sys-mac-id pour une raison en cours

%LACP-SP-4-MULTIPLE_NEIGHBORS: Multiple neighbors detected on Te9/3: new neighbor(sys-mac-id: 0023.04ee.c05b, port: 0x113), old neighbor(sys-mac-id: 0000.0000.0000, port: 0x0)

Nous pensons que le Nexus a un comportement bizarre sur le LACP après l'ISSU pour une raison que nous devons déterminer avec Cisco.

Le résultat est que cela crée une boucle sur des ports normalement bundle dans un port-channel, qui a des impacts sur rbx-s14-6k et rbx-s15-6k, qui perdre OSPF/HSRP à cause d'une charge CPU trop importante.

Les FEX sont en train de se mettre à jour sur rbx1-14ab-n56.


Date: 2016-06-23 21:50:58 UTC
Do you want to continue with the installation (y/n)? [n] y

Install is in progress, please wait.


Date: 2016-06-23 21:48:26 UTC
Lors de l'ISSU sur le a, nous avons rencontré un crash. Celui-ci a engendré des effets de bord sur des serveurs de RBX1. Nous analysons pour trouver la cause.

En parallèle, nous relancons l'ISSU sur le b pour terminer la mise à jour, le trafic étant forwardé par la vPC.

Date: 2016-06-23 20:12:27 UTC
Nous démarrons la mise à jour de ce couple de switch
Posted Jun 23, 2016 - 13:43 UTC
This scheduled maintenance affected: Infrastructure || RBX (RBX1).