OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
188.165.13/24 188.165.14/24 188.165.15/24 178.33.122/24
Scheduled Maintenance Report for Network & Infrastructure
Completed
Suite à la mise à jour de switch N5 nous avons
trouvé un BUG dans la version la plus recente
qui fait que parfois les ARP dans le reseau
disparaissent.

On downgrande en urgence vers la version moins
recente.

Update(s):

Date: 2012-10-13 02:54:32 UTC
L'intervention est terminée. tous les ports sont UP
et tous les HG sont up dans le monitoring.

L'origine du problème:
il y a 2J nous avons mis à jour le software sur
certains switchs de HG. cette nuit d'un coup le
switch a dit \"les ports de serveurs sont down\".
nous avons d'abord downgrander la version du
software de 5.2.1b vers 5.2.1 car on avait hier
de premiers signaux que la b comporte les problèmes.
finalement nous avons été obligés de downgrader
vers 5.1.3 et là seulement tout est repartie.

c'est un problème inhabituel dû à de bugs software
dans les équipements réseau qu'on utilise. c'est
rare, très rare, mais ça arrive.

Désolé pour la panne.

Les clients concernés ont droit à 1 mois gratuit
puisque le SLA est largement explosé.

Date: 2012-10-13 02:48:34 UTC
10/13/2012 04:47:14.816521: Module register received
10/13/2012 04:47:14.818478: Registration response sent
10/13/2012 04:47:15.401136: Module Online Sequence
10/13/2012 04:47:19.281549: Module Online


le FEX est up. les ports sont UP.

Date: 2012-10-13 02:46:56 UTC

10/13/2012 04:45:59.702382: Image preload successful.
10/13/2012 04:46:00.822397: Deleting route to FEX
10/13/2012 04:46:00.831361: Module disconnected
10/13/2012 04:46:00.833211: Module Offline
10/13/2012 04:46:00.839272: Deleting route to FEX
10/13/2012 04:46:00.847072: Module disconnected
10/13/2012 04:46:00.890047: Offlining Module
10/13/2012 04:46:00.892061: Deleting route to FEX
10/13/2012 04:46:00.899818: Module disconnected
10/13/2012 04:46:00.963837: Offlining Module


Date: 2012-10-13 02:44:27 UTC
FEX met à jour l'image 5.1.3
Logs:
10/13/2012 04:41:46.636029: Module register received
10/13/2012 04:41:46.637450: Image Version Mismatch
10/13/2012 04:41:46.638126: Registration response sent
10/13/2012 04:41:46.638647: Requesting satellite to download image


Date: 2012-10-13 02:41:36 UTC
la conf est appliqué. tout est up.

on met au propre le FEX 105 qui a été remplacé par le spare.
10 min de panne encore sur ces serveurs.

Date: 2012-10-13 02:19:55 UTC
la conf de ports s'est perdu. on a la reapplique.

Date: 2012-10-13 02:13:22 UTC
tout est UP.

CONCLUSION:
la version 5.2.1X est RACTIOACTIVE !!!!!!

Date: 2012-10-13 02:11:10 UTC
les FEX bootent. les ports sont ENFIN UP !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

Date: 2012-10-13 02:06:28 UTC
mise à jour des FEX

Logs:
10/13/2012 04:05:19.324425: Module register received
10/13/2012 04:05:19.325823: Image Version Mismatch
10/13/2012 04:05:19.326266: Registration response sent
10/13/2012 04:05:19.326737: Requesting satellite to download image


Date: 2012-10-13 02:04:30 UTC
les N5 ont booté. l'initiation de la configuration.

en suite les FEX vont commencer à booter et vont
devoir se mettre à jour. ça prend généralement 10min
par FEX. ça se fait en parallèle.

Date: 2012-10-13 01:59:47 UTC
les images sont sur les N5.

on reboot tout.

Date: 2012-10-13 01:51:59 UTC
on upload une version de software encore plus ancienne.

on a passé de 5.2.1.N1.1b.bin à 5.2.1.N1.1.bin
et là on va passer à 5.1.3.N2.1.bin

5 minutes pour mettre les images sur les 2 N5
puis on va le mettre à jour à chaud puis une fois
mis on va tout rebooter en hard avec une coupure
electrique de switch ainsi que des fex

Date: 2012-10-13 01:49:45 UTC
le fex spare a demarre. pareil.

donc là ..

Date: 2012-10-13 01:40:46 UTC
le FEX électriquement coupé est up. pareil.

on attend le démarrage du spare.

Date: 2012-10-13 01:37:26 UTC
on remplace physiquement un FEX par un nouveau
et
on coupe électriquement un FEX.

Date: 2012-10-13 01:33:15 UTC
remplacement d'un cable. pareil



Date: 2012-10-13 01:16:34 UTC
pareil. les ports sont down.

Date: 2012-10-13 00:58:20 UTC
sw-n5-13.248# reload
WARNING: This command will reboot the system
Do you want to continue? (y/n) [n] y


Date: 2012-10-13 00:57:42 UTC
on redemarre le fex

pareil.

on reboot le systeme.

Date: 2012-10-13 00:57:26 UTC
certains ports sont en etat inactive

Eth100/1/1 server inactive 589 full 10G --
Eth100/1/2 server inactive 589 full 10G --
Eth100/1/3 server inactive 589 full 10G --
Eth100/1/4 server notconnec 589 full 10G --
Eth100/1/5 server notconnec 589 full 10G --
Eth100/1/6 server inactive 589 full 10G --
Eth100/1/7 server inactive 589 full 10G --
Eth100/1/8 server inactive 589 full 10G --
Eth100/1/9 server inactive 589 full 10G --
Eth100/1/10 server inactive 589 full 10G --
Eth100/1/11 server sfpAbsent 588 full 10G --
Eth100/1/12 server inactive 589 full 10G --
Eth100/1/13 server inactive 589 full 10G --
Eth100/1/14 server inactive 589 full 10G --
Eth100/1/15 server inactive 589 full 10G --
Eth100/1/16 server inactive 589 full 10G --
Eth100/1/17 server inactive 589 full 10G --
Eth100/1/18 server inactive 589 full 10G --
Eth100/1/19 server connected trunk full 10G --
Eth100/1/20 server sfpAbsent trunk full 10G --
Eth100/1/21 server notconnec 588 full 10G --
Eth100/1/22 server connected 588 full 10G --
Eth100/1/23 server inactive 589 full 10G --
Eth100/1/24 server connected trunk full 10G --
Eth100/1/25 server inactive 589 full 10G --
Eth100/1/26 server inactive 589 full 10G --
Eth100/1/27 server inactive 589 full 10G --
Eth100/1/28 server inactive 589 full 10G --
Eth100/1/29 server sfpAbsent 588 full 10G --
Eth100/1/30 server inactive 589 full 10G --
Eth100/1/31 server sfpAbsent 588

Date: 2012-10-13 00:46:04 UTC
le probleme n'apparait que sur 188.165.13/24
mais on va downgrander tout ce qu'on a upgradé
il y a 2J.
Posted Oct 13, 2012 - 00:04 UTC