OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
bhs2-15b-n6
Incident Report for Network & Infrastructure
Resolved
le n6 a rebooté à cause du bug sur port-security.

Kernel uptime is 0 day(s), 0 hour(s), 27 minute(s), 33 second(s)

Last reset at 423002 usecs after Mon Dec 22 04:35:09 2014

Reason: Reset triggered due to HA policy of Reset
System version: 6.0(2)N2(4)
Service: eth_port_sec hap reset


Durant le reboot, le forwarding est assuré par le 15a, pas de downtime
Tout les Fex sont de nouveau up à présent


Update(s):

Date: 2014-12-22 08:49:34 UTC
Ce couple de nexus est de nouveau stable! Nous ne constatons pas de problèmes depuis 10minutes.

Date: 2014-12-22 08:13:56 UTC
Nous avons encore des ports en err-disab sur le A. Le n6 B est lui de nouveau dans un stable.

bhs2-15a-n6# sh inter status | i err
Eth102/1/42 server-EG err-disab trunk full auto --
Eth108/1/36 server-EG err-disab trunk full auto --
Eth109/1/14 server-EG err-disab trunk auto auto --
Eth109/1/43 server-EG err-disab trunk auto auto --
Eth110/1/22 server-SP-HOST err-disab trunk auto auto --
Eth113/1/44 server-SP-HOST err-disab trunk auto auto --
Eth115/1/2 server-SP-HOST err-disab trunk auto auto --


On fait un dernier reload sur le n6 A. Tous les fex sont up sur le B, le trafic sera donc forwardé par ce dernier durant le reboot.


Date: 2014-12-22 08:06:51 UTC
le couple est UP, les FEX sont tous UP.
reste 4 serveurs down

Date: 2014-12-22 07:51:58 UTC
Actuellement le A à été mis a jour.
Le B apres le reboot était dans un etat bizarre, il gardait ses port uplink vers bhs-3a/b-a9 en suspended, pourtant la VPC est bien UP.

On le reload pour partir sur une base propre

il reste 16 servers down sur ce couple.

Date: 2014-12-22 07:10:24 UTC
rien ne se passe comme prévu...
le A a crashé aussi

je remonte les fex sur le B, dans la derniere version, les fex se mette a jour.
FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
100 FEX100|T02A40 Image Download N2K-C2248TP-E-1GE SSI16410495
101 FEX101|T02A41 Connected N2K-C2248TP-E-1GE FOX1724G9CL
102 FEX102|T02A42 Connected N2K-C2248TP-E-1GE SSI17160DEA
103 FEX103|T02A43 Connected N2K-C2248TP-E-1GE FOX1724GZ4S
104 FEX104|T02A44 Connected N2K-C2248TP-E-1GE FOX1724GZ5S
105 FEX105|T02A45 Online N2K-C2248TP-E-1GE SSI17160D7R
106 FEX106|T02A46 Online N2K-C2248TP-E-1GE FOX1720GEK6
107 FEX107|T02A47 Connected N2K-C2248TP-1GE SSI1601073V
108 FEX108|T02A48 Online N2K-C2248TP-E-1GE FOX1720GE3G
109 FEX109|T02A49 Connected N2K-C2248TP-E-1GE FOX1720GEMP
110 FEX110|T02D05 Connected N2K-C2248TP-E-1GE SSI173608P6
111 FEX111|T02A61 Connected N2K-C2248TP-E-1GE SSI1641048V
112 FEX112|T02D06 Connected N2K-C2248TP-E-1GE FOX1750GJ2J
113 FEX113|T02D07 Connected N2K-C2248TP-E-1GE SSI173608RT
114 FEX114|T02D08 Connected N2K-C2248TP-E-1GE SSI173606JB
115 FEX115|T02D09 Connected N2K-C2248TP-E-1GE FOX1749GBF5
116 FEX116|T02D10 Online N2K-C2248TP-E-1GE SSI1736062S
117 FEX117|T02D11 Online N2K-C2248TP-E-1GE FOX1748G4U1
118 FEX118|T02D12 Online N2K-C2248TP-E-1GE SSI173606JS
119 FEX119|T02D13 Connected N2K-C2248TP-E-1GE FOX1748G4T6
120 FEX120|T02D14 Connected N2K-C2248TP-E-1GE FOX1750GNV3

Date: 2014-12-22 07:02:58 UTC
le B a recrash durant la manip:
bb [local7.err] === : 2014 Dec 22 07:58:33 CET: %SYSMGR-3-HEARTBEAT_FAILURE: Service \"afm\" sent SIGABRT for not setting heartbeat for last 4 periods. Last heartbeat 175.15 secs ago.
ba [local7.crit] === : 2014 Dec 22 07:58:33 CET: %SYSMGR-2-SERVICE_CRASHED: Service \"afm\" (PID 3986) hasn't caught signal 6 (core will be saved).
ba [local7.crit] === : 2014 Dec 22 07:58:33 CET: %SYSMGR-2-HAP_FAILURE_SUP_RESET: System reset due to service \"afm\" in vdc 1 has had a hap failure

Date: 2014-12-22 06:55:32 UTC
bon on ne peut pas faire sans coupure.
j'ai stoppé l'ISSU sur le b


Remaining action::
\"Module(s) 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120 still need to be upgraded\".

Install has been aborted.

upgrade a planté pendant l'update du fex100, les serv dessus sont down.
le b est bloqué sur Check Upg Seq sur fex 100.

plan d'action:
-Je coupe les FEX sur le B
-je reload B
-J'update le nxos sur le A et bascule les fex sur le B

Il va y avoir du down le temps que les FEX se mettent à jour.

Date: 2014-12-22 06:49:13 UTC
l'ISSU ne fonctionne pas !

le fex 100 est bloqué
FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
100 FEX100|T02A40 Check Upg Seq N2K-C2248TP-E-1GE SSI16410495

bhs2-15a-n6# sh fex
FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
100 FEX100|T02A40 Image Download N2K-C2248TP-E-1GE SSI16410495



Date: 2014-12-22 06:22:19 UTC
allez go pour l'upgrade
otifying services about system upgrade.
[####################] 100% -- SUCCESS



Compatibility check is done:
Module bootable Impact Install-type Reason
------ -------- -------------- ------------ ------
1 yes non-disruptive reset
2 yes non-disruptive rolling
100 yes non-disruptive rolling
101 yes non-disruptive rolling
102 yes non-disruptive rolling
103 yes non-disruptive rolling
104 yes non-disruptive rolling
105 yes non-disruptive rolling
106 yes non-disruptive rolling
107 yes non-disruptive rolling
108 yes non-disruptive rolling
109 yes non-disruptive rolling
110 yes non-disruptive rolling
111 yes non-disruptive rolling
112 yes non-disruptive rolling
113 yes non-disruptive rolling
114 yes non-disruptive rolling
115 yes non-disruptive rolling
116 yes non-disruptive rolling
117 yes non-disruptive rolling
118 yes non-disruptive rolling
119 yes non-disruptive rolling
120 yes non-disruptive rolling


Date: 2014-12-22 06:04:11 UTC
la a vient de reboot alors que les fex n'étaient pas up.

des que c'est UP de chaque, coté, je vire port-secu et fait l'ISSU

Date: 2014-12-22 05:56:39 UTC
les images sont DL

le b vient de rebooter à nouveau



Date: 2014-12-22 05:02:12 UTC
Okay
L'image est cours de download sur les n6.

le couple est stable, je ferais l'upgrade ISSU vers 4/5h am.


Date: 2014-12-22 04:18:53 UTC
J'écris trop vite, le 15a vient de rebooter a l'instant, (forwarding assuré par 15b)

Je prépare l'upgrade ISSU du couple.
Posted Dec 22, 2014 - 04:16 UTC
This incident affected: Infrastructure || BHS (BHS2).