OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
vss-1-6k
Scheduled Maintenance Report for Network & Infrastructure
Completed
Nous allons mettre à jour l'IOS du routeur vss-1-6k. Nous mettons en place
le nouveau IOS SXI dans une configuration vss-1440.

Cette mise à jour comporte 7 etapes et entre l'étape 4 et 5, la mise à jour
va provoquer une coupure totale de tout le routage dans le datacentre roubaix2.
En suite sur la version SXI il n'y aura plus de coupure dans les mises à jour.

L'upgrade va commencer vers 3h00.

Update(s):

Date: 2008-12-15 08:15:29 UTC
Le routeur semble d'être stable.

Date: 2008-12-09 02:29:14 UTC
Le systeme est stable. Tout a correctement booté. On garde
un oeil sur le routeur, car actuellement le trafic est bas
et on ne sait pas comment le systeme va se comporter avec
full trafic de 17h.

Mais ça semble marcher cette fois ci. Aucune idée l'origine
de l'ancien probleme. On va comparer les configurations
pour voir.

Date: 2008-12-09 01:56:35 UTC
On est sur la SXI

64 bytes from 94.23.0.10: icmp_seq=176 ttl=59 time=4.09 ms
64 bytes from 94.23.0.10: icmp_seq=177 ttl=59 time=4.18 ms
64 bytes from 94.23.0.10: icmp_seq=178 ttl=59 time=4.12 ms

64 bytes from 94.23.0.10: icmp_seq=680 ttl=59 time=4.14 ms
64 bytes from 94.23.0.10: icmp_seq=681 ttl=59 time=4.12 ms


Date: 2008-12-09 01:47:46 UTC
C'est fait. On change le master. Le slave devient master et finit de booter
sous le SXI. Downtime.

Date: 2008-12-09 01:43:22 UTC
C'est parti. Le slave redemarre sous SXI.

Date: 2008-12-09 01:34:18 UTC
Nous allons commencer sous quelques minutes.

Date: 2008-12-08 22:28:50 UTC
Nous allons effectuer les travaux de mise à jour de l'IOS avec
les équipes de Cisco. En effet, le bug que nous avons n'a pas
encore été reporté par les clients de Cisco. On est le 1er.
Quelle gloire !

Nous allons effectuer une mise à jour d'IOS afin de reproduire
le probleme. Le voir de ses propres yeux, reprendre les logs,
reprendre l'état du routeur, reprendre sh tech du routeur pour
reproduire le probleme au labo. Le dev de Cisco a été contacté
aussi pour savoir dans quelle boucle if le message d'erreur
est emis. Pas encore de reponse.

Nous commencons la maintenance vers 2h00 du matin. Il faudra
compte 2 petites pannes completes du datacentre Roubaix 2:
lors de la mise à jour de SXI et puis quand on verra que ça
ne fonctionne pas et il faudra downgrader vers la SXH4. Désolé
mais on ne peut pas réellement faire autrement. La materiel
est très jeune et visiblement l'IOS pour ce matos aussi. Ca
sera mieux sous très peu. Il faut que quelqu'un debuge tout
ça. Ovh s'en charge ... :)

Date: 2008-12-04 02:48:13 UTC
Bon en SXI ça ne marche pas. On remonte l'info à tac de cisco pour savoir ce qu'on
peut faire. La version SXI est la seule à gerer 256 port channels. Avec les versions
SXH ça ne marche pas:

vss-1-6k#conf t
Enter configuration commands, one per line. End with CNTL/Z.
vss-1-6k(config)#inter po ?
Port-channel interface number
Virtual switch number
Pos-channel interface number

vss-1-6k(config)#inter po 140
Command rejected (Port-channel140): idb creation failed
^
% Invalid input detected at '^' marker.

Les erreurs de boot sur la SXI

Dec 4 03:07:02 1668: Dec 4 02:06:58.264: %SYS-SW1_SPSTBY-5-RESTART: System restarted --
Dec 4 03:07:02 1669: Cisco IOS Software, s72033_sp Software (s72033_sp-ADVIPSERVICESK9-M), Version 12.2(33)SXI, RELEASE SOFTWARE (fc2)
Dec 4 03:07:02 1670: Technical Support: http://www.cisco.com/techsupport
Dec 4 03:07:02 1671: Copyright (c) 1986-2008 by Cisco Systems, Inc.
Dec 4 03:07:02 1672: Compiled Fri 07-Nov-08 04:29 by prod_rel_team
Dec 4 03:07:03 1673: Dec 4 03:07:00 GMT: %SYS-SW1_SPSTBY-6-BOOTTIME: Time taken to reboot after reload = 375 seconds
Dec 4 03:07:04 1674: Dec 4 03:07:01 GMT: %SYS-SW1_SPSTBY-3-LOGGER_FLUSHED: System was paused for 00:02:43 to ensure console debugging output.
Dec 4 03:07:04 1675:

puis blam:

Dec 4 03:08:41 1775: Dec 4 03:08:40 GMT: %SYS-SW1_SPSTBY-5-RELOAD: Reload requested - From Active Switch (Reload peer unit).
Dec 4 03:08:41 1776: Dec 4 03:08:39 GMT: %RF-SW2_SP-5-RF_RELOAD: Peer reload. Reason: RF Client Cat6k Power(1318) notification timeout
Dec 4 03:08:42 1777: Dec 4 03:08:41 GMT: %VSLP-SW2_SP-3-VSLP_LMP_FAIL_REASON: Te2/5/4: Disabled by Peer Reload Request
Dec 4 03:08:43 1778: Dec 4 03:08:41 GMT: %VSLP-SW2_SP-3-VSLP_LMP_FAIL_REASON: Te2/5/5: Disabled by Peer Reload Request
Dec 4 03:08:43 1779: Dec 4 03:08:41 GMT: %VSLP-SW2_SP-2-VSL_DOWN: Last VSL interface Te2/5/5 went down
Dec 4 03:08:43 1780:
Dec 4 03:08:43 1781: Dec 4 03:08:41 GMT: %VSLP-SW2_SP-2-VSL_DOWN: All VSL links went down while switch is in ACTIVE role
Dec 4 03:08:43 1782:
Dec 4 03:08:43 1783: Dec 4 03:08:42 GMT: %SATVS_IBC-SW2_SP-5-VSL_DOWN_SCP_DROP: VSL inactive - dropping cached SCP packet: (SA/DA:0x4/0xFF, SSAP/DSAP:0x1/0x2, OP/SEQ:0x1E/0x27, SIG/INFO:0x1/0x1504, eSA:0000.0500.0000)
Dec 4 03:08:43 1784:
Dec 4 03:08:44 1785: Dec 4 03:08:42 GMT: %PFREDUN-SW2_SP-6-ACTIVE: Standby processor removed or reloaded, changing to Simplex mode
Dec 4 03:08:45 1786: Dec 4 03:08:43 GMT: %RF-SW2_SP-3-NOTIF_TMO: Notification timer Expired for RF Client: Cat6k Power(1318)
Dec 4 03:08:48 1787: Dec 4 03:08:44 GMT: %RF-SW2_SP-5-RF_RELOAD: Peer reload. Reason: RF failure to send prog message
Dec 4 03:08:48 1788: Dec 4 03:08:44 GMT: %RF-SW2_SP-5-SEND_FAIL: RF client progression send failure for reason (RF_TRANSMIT_ERROR)

et le slave reboot à nouveau.

Quelques url de docs:
http://www.cisco.com/en/US/docs/ios/12_2sx/12_2sxi/12_2_33_sxi_newfeatlist.html
http://www.cisco.com/en/US/prod/collateral/iosswrel/ps8802/ps6970/ps6017/ps9673/product_bulletin_c25-503086.html
http://www.cisco.com/en/US/docs/switches/lan/catalyst6500/ios/12.2SX/release/notes/ol_14271.html
http://www.cisco.com/en/US/prod/collateral/switches/ps5718/ps9336/white_paper_c11_429338.pdf


Date: 2008-12-04 02:36:27 UTC
Le routeur finit de booter le slave. Cette fois ci tout va bien.

On termine les boots et on regarde si tout va bien.



Date: 2008-12-04 02:25:23 UTC
Le slave est en SXH4.

On bascule le slave en master.

Date: 2008-12-04 02:19:32 UTC
Les serveurs sont à nouveau up. Mais le systeme n'est pas stable.

Nous allons redemarrer le vss sous la version SXH4

Date: 2008-12-04 02:01:45 UTC
Le slave a booté et attend que le master lui donne la main.

On met à jour le master. Le slave finit de booter et reprend la
main. Il y a une coupure actuellement.

Date: 2008-12-04 01:57:14 UTC
C'est parti.

On met à jour le routeur slave. Tout fonctionne sur le master.
Posted Dec 04, 2008 - 01:47 UTC