Get webhook notifications whenever Network & Infrastructure creates an incident, updates an incident, resolves an incident or changes a component status.
Suite à la mise à jour de switch N5 nous avons
trouvé un BUG dans la version la plus recente
qui fait que parfois les ARP dans le reseau
disparaissent.
On downgrande en urgence vers la version moins
recente.
Update(s):
Date: 2012-10-13 02:54:32 UTC L'intervention est terminée. tous les ports sont UP
et tous les HG sont up dans le monitoring.
L'origine du problème:
il y a 2J nous avons mis à jour le software sur
certains switchs de HG. cette nuit d'un coup le
switch a dit \"les ports de serveurs sont down\".
nous avons d'abord downgrander la version du
software de 5.2.1b vers 5.2.1 car on avait hier
de premiers signaux que la b comporte les problèmes.
finalement nous avons été obligés de downgrader
vers 5.1.3 et là seulement tout est repartie.
c'est un problème inhabituel dû à de bugs software
dans les équipements réseau qu'on utilise. c'est
rare, très rare, mais ça arrive.
Désolé pour la panne.
Les clients concernés ont droit à 1 mois gratuit
puisque le SLA est largement explosé.
Date: 2012-10-13 02:48:34 UTC 10/13/2012 04:47:14.816521: Module register received
10/13/2012 04:47:14.818478: Registration response sent
10/13/2012 04:47:15.401136: Module Online Sequence
10/13/2012 04:47:19.281549: Module Online
Date: 2012-10-13 02:44:27 UTC FEX met à jour l'image 5.1.3
Logs:
10/13/2012 04:41:46.636029: Module register received
10/13/2012 04:41:46.637450: Image Version Mismatch
10/13/2012 04:41:46.638126: Registration response sent
10/13/2012 04:41:46.638647: Requesting satellite to download image
Date: 2012-10-13 02:41:36 UTC la conf est appliqué. tout est up.
on met au propre le FEX 105 qui a été remplacé par le spare.
10 min de panne encore sur ces serveurs.
Date: 2012-10-13 02:19:55 UTC la conf de ports s'est perdu. on a la reapplique.
Date: 2012-10-13 02:13:22 UTC tout est UP.
CONCLUSION:
la version 5.2.1X est RACTIOACTIVE !!!!!!
Date: 2012-10-13 02:11:10 UTC les FEX bootent. les ports sont ENFIN UP !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Date: 2012-10-13 02:06:28 UTC mise à jour des FEX
Logs:
10/13/2012 04:05:19.324425: Module register received
10/13/2012 04:05:19.325823: Image Version Mismatch
10/13/2012 04:05:19.326266: Registration response sent
10/13/2012 04:05:19.326737: Requesting satellite to download image
Date: 2012-10-13 02:04:30 UTC les N5 ont booté. l'initiation de la configuration.
en suite les FEX vont commencer à booter et vont
devoir se mettre à jour. ça prend généralement 10min
par FEX. ça se fait en parallèle.
Date: 2012-10-13 01:59:47 UTC les images sont sur les N5.
on reboot tout.
Date: 2012-10-13 01:51:59 UTC on upload une version de software encore plus ancienne.
on a passé de 5.2.1.N1.1b.bin à 5.2.1.N1.1.bin
et là on va passer à 5.1.3.N2.1.bin
5 minutes pour mettre les images sur les 2 N5
puis on va le mettre à jour à chaud puis une fois
mis on va tout rebooter en hard avec une coupure
electrique de switch ainsi que des fex
Date: 2012-10-13 01:49:45 UTC le fex spare a demarre. pareil.
donc là ..
Date: 2012-10-13 01:40:46 UTC le FEX électriquement coupé est up. pareil.
on attend le démarrage du spare.
Date: 2012-10-13 01:37:26 UTC on remplace physiquement un FEX par un nouveau
et
on coupe électriquement un FEX.
Date: 2012-10-13 01:33:15 UTC remplacement d'un cable. pareil
Date: 2012-10-13 01:16:34 UTC pareil. les ports sont down.
Date: 2012-10-13 00:58:20 UTC sw-n5-13.248# reload
WARNING: This command will reboot the system
Do you want to continue? (y/n) [n] y
Date: 2012-10-13 00:57:42 UTC on redemarre le fex
pareil.
on reboot le systeme.
Date: 2012-10-13 00:57:26 UTC certains ports sont en etat inactive
Eth100/1/1 server inactive 589 full 10G --
Eth100/1/2 server inactive 589 full 10G --
Eth100/1/3 server inactive 589 full 10G --
Eth100/1/4 server notconnec 589 full 10G --
Eth100/1/5 server notconnec 589 full 10G --
Eth100/1/6 server inactive 589 full 10G --
Eth100/1/7 server inactive 589 full 10G --
Eth100/1/8 server inactive 589 full 10G --
Eth100/1/9 server inactive 589 full 10G --
Eth100/1/10 server inactive 589 full 10G --
Eth100/1/11 server sfpAbsent 588 full 10G --
Eth100/1/12 server inactive 589 full 10G --
Eth100/1/13 server inactive 589 full 10G --
Eth100/1/14 server inactive 589 full 10G --
Eth100/1/15 server inactive 589 full 10G --
Eth100/1/16 server inactive 589 full 10G --
Eth100/1/17 server inactive 589 full 10G --
Eth100/1/18 server inactive 589 full 10G --
Eth100/1/19 server connected trunk full 10G --
Eth100/1/20 server sfpAbsent trunk full 10G --
Eth100/1/21 server notconnec 588 full 10G --
Eth100/1/22 server connected 588 full 10G --
Eth100/1/23 server inactive 589 full 10G --
Eth100/1/24 server connected trunk full 10G --
Eth100/1/25 server inactive 589 full 10G --
Eth100/1/26 server inactive 589 full 10G --
Eth100/1/27 server inactive 589 full 10G --
Eth100/1/28 server inactive 589 full 10G --
Eth100/1/29 server sfpAbsent 588 full 10G --
Eth100/1/30 server inactive 589 full 10G --
Eth100/1/31 server sfpAbsent 588
Date: 2012-10-13 00:46:04 UTC le probleme n'apparait que sur 188.165.13/24
mais on va downgrander tout ce qu'on a upgradé
il y a 2J.