OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
bhs4-10a/b-n56
Scheduled Maintenance Report for Network & Infrastructure
Completed
Nous allons mettre a jour ce couple de nexus en release 7.1.3.N1.2
L'intervention est planifiée le 4 février 2016 a partir de 8h00 am CET ( 2h00 am EST )

Le but est d'ajouter de la feature et du bug fix:
- Pouvoir installer du fex2348 ( 48 ports 10g baseT )
- Bug fix, entre autre le vpc mismatch speed, mais aussi des crash sur pfstat, ptplc


Un sh install al impact montre que se sera hitless en ISSU
bhs4-10a-n56# sh install all impact kickstart n6000-uk9-kickstart.7.1.3.N1.2.bin system n6000-uk9.7.1.3.N1.2.bin

Verifying image bootflash:/n6000-uk9-kickstart.7.1.3.N1.2.bin for boot variable \"kickstart\".
[####################] 100% -- SUCCESS

Verifying image bootflash:/n6000-uk9.7.1.3.N1.2.bin for boot variable \"system\".
[####################] 100% -- SUCCESS

Verifying image type.
[####################] 100% -- SUCCESS

Extracting \"system\" version from image bootflash:/n6000-uk9.7.1.3.N1.2.bin.
[####################] 100% -- SUCCESS

Extracting \"kickstart\" version from image bootflash:/n6000-uk9-kickstart.7.1.3.N1.2.bin.
[####################] 100% -- SUCCESS

Extracting \"bios\" version from image bootflash:/n6000-uk9.7.1.3.N1.2.bin.
[####################] 100% -- SUCCESS

Extracting \"fexth\" version from image bootflash:/n6000-uk9.7.1.3.N1.2.bin.
[####################] 100% -- SUCCESS

Performing module support checks.
[####################] 100% -- SUCCESS

Notifying services about system upgrade.
[####################] 100% -- SUCCESS



Compatibility check is done:
Module bootable Impact Install-type Reason
------ -------- -------------- ------------ ------
1 yes non-disruptive reset
2 yes non-disruptive rolling
100 yes non-disruptive rolling
101 yes non-disruptive rolling
102 yes non-disruptive rolling
103 yes non-disruptive rolling
104 yes non-disruptive rolling
105 yes non-disruptive rolling
106 yes non-disruptive rolling
107 yes non-disruptive rolling
108 yes non-disruptive rolling
109 yes non-disruptive rolling
110 yes non-disruptive rolling
111 yes non-disruptive rolling
112 yes non-disruptive rolling
113 yes non-disruptive rolling
114 yes non-disruptive rolling
115 yes non-disruptive rolling
116 yes non-disruptive rolling
117 yes non-disruptive rolling
118 yes non-disruptive rolling
119 yes non-disruptive rolling
120 yes non-disruptive rolling



Images will be upgraded according to following table:
Module Image Running-Version New-Version Upg-Required
------ ---------------- ---------------------- ---------------------- ------------
1 system 7.0(5)N1(1a) 7.1(3)N1(2) yes
1 kickstart 7.0(5)N1(1a) 7.1(3)N1(2) yes
1 bios v2.1.1(07/10/2014) v2.1.2(07/16/2014) yes
1 power-seq v4.0 v4.0 no
1 fabric-power-seq v4.0 v4.0 no
2 power-seq v4.0 v4.0 no
100 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
101 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
102 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
103 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
104 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
105 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
106 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
107 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
108 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
109 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
110 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
111 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
112 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
113 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
114 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
115 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
116 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
117 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
118 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
119 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
120 fexth 7.0(5)N1(1a) 7.1(3)N1(2) yes
1 microcontroller v0.0.0.15 v0.0.0.15 no






Update(s):

Date: 2016-02-06 07:28:08 UTC
Gscan et le DC confirme que tout est bon

Date: 2016-02-06 07:18:07 UTC
le fex 100 est revenu a la vie cote B

hs4-10a-n56 login: 2016 Feb 6 08:13:56 bhs4-10a-n56 %$ VDC-1 %$ %PFMA-2-FEX_STATUS: Fex 100 is offl
e
2016 Feb 6 08:15:17 bhs4-10a-n56 %$ VDC-1 %$ %SATCTRL-FEX100-2-SATCTRL: FEX-100 Module 1: Cold boot
2016 Feb 6 08:16:11 bhs4-10a-n56 %$ VDC-1 %$ %PFMA-2-FEX_STATUS: Fex 100 is online
2016 Feb 6 08:16:11 bhs4-10a-n56 %$ VDC-1 %$ %NOHMS-2-NOHMS_ENV_FEX_ONLINE: FEX-100 On-line
2016 Feb 6 08:16:13 bhs4-10a-n56 %$ VDC-1 %$ %PFMA-2-FEX_STATUS: Fex 100 is online

bhs4-10b-n56 login: 2016 Feb 6 08:15:17 bhs4-10b-n56 %$ VDC-1 %$ %SATCTRL-FEX100-2-SATCTRL: FEX-100
odule 1: Cold boot
2016 Feb 6 08:16:18 bhs4-10b-n56 %$ VDC-1 %$ %PFMA-2-FEX_STATUS: Fex 100 is online
2016 Feb 6 08:16:18 bhs4-10b-n56 %$ VDC-1 %$ %NOHMS-2-NOHMS_ENV_FEX_ONLINE: FEX-100 On-line
2016 Feb 6 08:16:19 bhs4-10b-n56 %$ VDC-1 %$ %PFMA-2-FEX_STATUS: Fex 100 is online

Date: 2016-02-06 07:14:09 UTC
bhs4-10a-n56# attach fex 100
Attaching to FEX 100 ...
To exit type 'exit', to abort type '$.'

Bad terminal type: \"linux\". Will assume vt100.
fex-100#
fex-100# reload

Date: 2016-02-06 07:00:55 UTC
Nous allons rebooter le fex d'ici 5min

Date: 2016-02-05 16:46:34 UTC
Il n'y pas d'explication sur le problème d'interco down sur le fex100...
Nous avons pris des traces et logs, un case pour a été ouvert au TAC cisco.

On ne peut cependant pas rester sans la redondance sur le fex:
Le 6 février 2016 a partir de 8h00 am CET ( 2h00 am EST ), nous allons rebooter le fex100.
Il y aura donc du downtime, uniquement sur la baie T04D01, durant le reboot.

Si cela ne fixe pas, nous rebooterons le nexus bhs4-10b-n56

Date: 2016-02-05 13:43:19 UTC
ce n'est pas les optiques.

Cisco investigue

Date: 2016-02-05 11:15:46 UTC
2016 Feb 5 12:12:15 bhs4-10b-n56 %$ VDC-1 %$ %VPC-2-VPC_ISSU_END: Peer vPC switch ISSU end, unlocking configuration

Reste juste le fexx100 qui n'est plus connected cote B:

surement l'optique cote FEX, avec un TX a -15db....

SFP Detail Diagnostics Information
----------------------------------------------------------------------------
Alarms Warnings
High Low High Low
----------------------------------------------------------------------------
Temperature 21.53 C 75.00 C 5.00 C 70.00 C 10.00 C
Voltage 3.30 V 3.63 V 2.97 V 3.46 V 3.13 V
Current 0.21 mA -- 11.80 mA 4.00 mA 10.80 mA 5.00 mA
Tx Power -15.85 dBm -- 2.69 dBm -11.30 dBm -1.30 dBm -7.30 dBm
Rx Power -2.98 dBm 2.99 dBm -13.97 dBm -1.00 dBm -9.91 dBm
----------------------------------------------------------------------------

remplacement de l'optique en cours

Date: 2016-02-05 11:04:29 UTC
bhs4-10b-n56# sh fex
FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
101 fex101 Online N2K-C2248TP-E-1GE FOX1842GX6S
102 fex102 Online N2K-C2248TP-E-1GE FOX1902G2SU
103 fex103 Online N2K-C2248TP-E-1GE FOX1902GGML
104 fex104 Online N2K-C2248TP-E-1GE FOX1849GD8H
105 fex105 Online N2K-C2248TP-E-1GE FOX1904G944
106 fex106 Online N2K-C2248TP-E-1GE FOX1905GCNF
107 fex107 Online N2K-C2248TP-E-1GE FOX1901G88S
108 fex108 Online N2K-C2248TP-E-1GE FOX1902G8X8
109 fex109 Online N2K-C2248TP-E-1GE FOX1902G8XC
110 fex110 Online N2K-C2248TP-E-1GE FOX1902G0CG
111 fex111|ASA Online N2K-C2248TP-E-1GE FOX1842GA2Z
112 fex112 Online N2K-C2248TP-E-1GE FOX1902G09N
113 fex113 Online N2K-C2248TP-E-1GE FOX1902G0FW
114 fex114 Online N2K-C2248TP-E-1GE FOX1902G0WR


Date: 2016-02-05 10:55:45 UTC
bhs4-10b-n56# sh fex
FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
101 fex101 Online N2K-C2248TP-E-1GE FOX1842GX6S
102 fex102 Online N2K-C2248TP-E-1GE FOX1902G2SU
103 fex103 Online N2K-C2248TP-E-1GE FOX1902GGML
104 fex104 Online N2K-C2248TP-E-1GE FOX1849GD8H
105 fex105 Online N2K-C2248TP-E-1GE FOX1904G944
106 fex106 Online N2K-C2248TP-E-1GE FOX1905GCNF
107 fex107 Online N2K-C2248TP-E-1GE FOX1901G88S
108 fex108 Online N2K-C2248TP-E-1GE FOX1902G8X8
109 fex109 Online Sequence N2K-C2248TP-E-1GE FOX1902G8XC
111 fex111|ASA AA Version Mismatch N2K-C2248TP-E-1GE FOX1842GA2Z
112 fex112 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902G09N


Date: 2016-02-05 10:47:39 UTC
bhs4-10b-n56# sh fex
FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
101 fex101 Online N2K-C2248TP-E-1GE FOX1842GX6S
102 fex102 Online N2K-C2248TP-E-1GE FOX1902G2SU
103 fex103 Online N2K-C2248TP-E-1GE FOX1902GGML
104 fex104 Online N2K-C2248TP-E-1GE FOX1849GD8H


Date: 2016-02-05 10:45:12 UTC
Il reste un espoir pour le non-disruptif.
Si l'ISSU se fait correctement sur le A, les versions roll sans downtime.

et doivent s'attacher tout seul de nouveau sur le B ( même version partout )

Module 102: Non-disruptive upgrading.
[# ] 0%2016 Feb 5 11:42:41 bhs4-10a-n56 %$ VDC-1 %$ %NOHMS-2-NOHMS_ENV_FEX_ONLINE:
FEX-102 On-line
2016 Feb 5 11:42:41 bhs4-10a-n56 %$ VDC-1 %$ %PFMA-2-FEX_STATUS: Fex 102 is[####################] 100%
-- SUCCESS

Module 103: Non-disruptive upgrading.
[# ] 0%


ici le fex 101 qui est de nouveau dual attach:

bhs4-10b-n56# sh fex
FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
101 fex101 Online N2K-C2248TP-E-1GE FOX1842GX6S
102 fex102 Connected N2K-C2248TP-E-1GE FOX1902G2SU
104 fex104 AA Version Mismatch N2K-C2248TP-E-1GE FOX1849GD8H
105 fex105 AA Version Mismatch N2K-C2248TP-E-1GE FOX1904G944
106 fex106 AA Version Mismatch N2K-C2248TP-E-1GE FOX1905GCNF
107 fex107 AA Version Mismatch N2K-C2248TP-E-1GE FOX1901G88S
108 fex108 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902G8X8
109 fex109 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902G8XC
110 fex110 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902G0CG
111 fex111|ASA AA Version Mismatch N2K-C2248TP-E-1GE FOX1842GA2Z
112 fex112 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902G09N
113 fex113 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902G0FW
114 fex114 Connected N2K-C2248TP-E-1GE FOX1902G0WR
115 fex115 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902G0CK
116 fex116 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902G0YD
117 fex117 Connected N2K-C2248TP-E-1GE FOX1902G91L
118 fex118 AA Version Mismatch N2K-C2248TP-E-1GE FOX1902GGMP
119 fex119 AA Version Mismatch N2K-C2248TP-E-1GE FOX1905GCLB
120 fex120 AA Version Mismatch N2K-C2248TP-E-1GE FOX1912GK5T



Date: 2016-02-05 10:18:35 UTC
Le 10b est a jour.
Cependant les fex ne le sont pas ( ainsi que le 10a)

Les fex sont en mismatch version depuis le B.
Nous ne pouvons pas faire d'upgrade sans downtime, on ne peut que le limiter.

Le plan:
Nous allons effectuer un ISSU sur le A, le but est de pre-loader les images sur les fexs

Lorsque le A va reloader, les fexs vont rebooter et s'accrocher sur le B.
Il faut compter 2-3min pour le reboot du fex.

Ensuite, nous allons nous retrouver avec le même pb de port-manager trop lent a appliquer les conf (cf plus haut lors du reload initial du A)


Date: 2016-02-05 10:01:59 UTC
L'ISSU a crashe sur le 10b.

Le trafic est toujours forwarde par le 10a, pas de panne.

Date: 2016-02-05 09:33:17 UTC
La PSS ne donne toujours pas d'info après le reload.
Apres check avec Cisco, nous allons donc changer la méthode d'ISSU pour ce couple, toujours non-disruptif normalement:

- non-disruptive ISSU sur le 10b => cela va mettre a jour le 10b et les fex en 7.1.3.n1.2
- Isolation du 10a: Coupure des port-channels du 10a vers les FEX => le trafic sera forwardé par le 10b
- Upgrade du 10a en Disruptive upgrade => aucun impact sur le trafic qui sera sur 10b


Date: 2016-02-05 08:00:51 UTC
On avait encore 200ips dans le Gscan qui ne pinguaient pas
Analyse a chaud:
Le port-manager est super lent a re-appliquer la conf sur les ports cote A
L'utilisation des buffer interne est trop élevée.

Meme si le fex est online, depuis le A, la mac du serveur est connu sur sur peerlink.
le trafic passe donc du A => B => FEX
le retour par contre, fex => nexus, peut passer par le A ou le B.

Le A n'ayant pas la conf appliquée, drop les paquets..

Il faut laisser le temps au port-manager de faire son boulot... les serveurs reviennent doucement.

Date: 2016-02-05 07:29:23 UTC
reload done, la VPC est UP, les fexs remontent

bhs4-10a-n56# sh fex
FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
100 fex100 Online Sequence N2K-C2248TP-E-1GE FOX1842GA2X
101 fex101 Connected N2K-C2248TP-E-1GE FOX1842GX6S
102 fex102 Online N2K-C2248TP-E-1GE FOX1902G2SU
103 fex103 Connected N2K-C2248TP-E-1GE FOX1902GGML
104 fex104 Connected N2K-C2248TP-E-1GE FOX1849GD8H
105 fex105 Connected N2K-C2248TP-E-1GE FOX1904G944
106 fex106 Connected N2K-C2248TP-E-1GE FOX1905GCNF
107 fex107 Connected N2K-C2248TP-E-1GE FOX1901G88S
108 fex108 Connected N2K-C2248TP-E-1GE FOX1902G8X8
109 fex109 Connected N2K-C2248TP-E-1GE FOX1902G8XC
110 fex110 Connected N2K-C2248TP-E-1GE FOX1902G0CG
111 fex111|ASA Connected N2K-C2248TP-E-1GE FOX1842GA2Z
112 fex112 Online N2K-C2248TP-E-1GE FOX1902G09N
113 fex113 Connected N2K-C2248TP-E-1GE FOX1902G0FW
114 fex114 Connected N2K-C2248TP-E-1GE FOX1902G0WR
115 fex115 Connected N2K-C2248TP-E-1GE FOX1902G0CK
116 fex116 Connected N2K-C2248TP-E-1GE FOX1902G0YD
117 fex117 Connected N2K-C2248TP-E-1GE FOX1902G91L
118 fex118 Connected N2K-C2248TP-E-1GE FOX1902GGMP
119 fex119 Connected N2K-C2248TP-E-1GE FOX1905GCLB
120 fex120 Connected N2K-C2248TP-E-1GE FOX1912GK5T


Date: 2016-02-05 07:18:46 UTC
Nous lançons le reload

bhs4-10a-n56# [4964035.754306] Shutdown Ports..
[4964035.790802] writing reset reason 9,
2002 Jan 13 19:36:44 bhs4-10a-n56 %$ VDC-1 %$ %PFMA-2-PFM_SYSTEM_RESET: Manual system restart from Comm
and Line Interface
2002 Jan 13 19:36:45 bhs4-10a-n56 %$ VDC-1 %$ Jan 13 19:36:44 %KERN-0-SYSTEM_MSG: [4964035.754306] Shut
down Ports.. - kernel
2002 Jan 13 19:36:45 bhs4-10a-n56 %$ VDC-1 %$ Jan 13 19:36:44 %KERN-0-SYSTEM_MSG: [4964035.790802] wri
ting reset reason 9, - kernel

Broadcast message from root (pts/0) (Sun Jan 13 19:36:49 2002):

The system is going down for reboot NOW!
INIT: Sending p


Date: 2016-02-05 07:11:08 UTC
Nous allons débuter sous peu le reload du 10a

Date: 2016-02-04 16:35:24 UTC
Nous allons mettre a jour le couple le 5 février 2016 a partir de 8h00 am CET ( 2h00 am EST )
Le check de pre-flight a montre une inconsistance entre les vlans configurés et les vlans présent dans la PSS ( Persistant Storage Service ) sur le switch A
C'est une Db interne au nexus qui stocke les différents état runtime ( en gros un point de restauration ) utilisée lors d'un ISSU pour restaurer l’état système après l'upgrade.

Pour fixer, nous allons rebooter demain matin vers 8h le bhs4-10a-n56.
Il n'y aura pas de downtime, le service sera assuré par le 10b.

Après le reboot et le check de la PSS, on lancera l'ISSU normalement.


Date: 2016-02-04 10:02:02 UTC
Nous avons un doute sur le statut d'un des Nexus du couple. Cisco souhaite faire un debug plus approfondi avant de lancer l'ISSU.

Etant donné que la fenêtre de mise à jour sera trop courte pour garantir une non interruption de jour, nous annulons l'opération.

Date: 2016-02-04 09:17:28 UTC
L'intervention va démarrer d'ici quelques minutes.
Posted Feb 03, 2016 - 11:13 UTC
This scheduled maintenance affected: Infrastructure || BHS (BHS4).