Nous avons quelques HG, apparament sous windows, qui ne ping plus
depuis 6h36. On continue à chercher l'origine du probleme.
Update(s):
Date: 2010-11-18 09:31:45 UTC L'origine du probleme a été trouvé. Cette nuit les équipes qui
s'occupent de mise en place de nouveaux serveurs ont mis en
place les nouveaux serveurs HG. ils ont pris par erreur les IP
de serveurs DHCP. ce qui a mis en panne tous les serveurs HG
qui utilisent DHCP.
manque de communication entre les équipes interne dans le même
datacentre est l'origine de ce probleme. nous allons corriger
ce probleme de communication. nous allons mettre en place DHCP
exterieur au reseau. puis rembourser les clients impactés par
la panne.
Date: 2010-11-18 09:17:48 UTC nous 53 windows dans les baies 27XXX sur le reseau en question,
il n'y en a que 18 qui ne fonctionnent pas. ils utilisent dhcp
pour booter.
on change les cartes reseaux d'un de serveur pour voir si ça
fixe le probleme.
Date: 2010-11-18 09:07:17 UTC les serveurs push bien la MAC sur le reseau, mais ne fonctionnent pas.
Date: 2010-11-18 08:36:19 UTC Le switch est à jour. Ca ne marche pas.
Il reste les problemes hardware. On interviens pour changer
le hardware.
Date: 2010-11-18 08:28:27 UTC sw-n5-14.242# install all kickstart bootflash:n5000-uk9-kickstart.4.2.1.N1.1.bin system bootflash:n5000-uk9.4.2.1.N1.1.bin
Extracting \"system\" version from image bootflash:/n5000-uk9.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS
Extracting \"kickstart\" version from image bootflash:/n5000-uk9-kickstart.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS
Extracting \"bios\" version from image bootflash:/n5000-uk9.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS
Notifying services about system upgrade.
[####################] 100% -- SUCCESS
Compatibility check is done:
Module bootable Impact Install-type Reason
------ -------- -------------- ------------ ------
1 yes disruptive reset Reset due to single supervisor
Images will be upgraded according to following table:
Module Image Running-Version New-Version Upg-Required
------ ---------- ---------------------- ---------------------- ------------
1 system 4.1(3)N2(1) 4.2(1)N1(1) yes
1 kickstart 4.1(3)N2(1) 4.2(1)N1(1) yes
1 bios v1.3.0(09/08/09) v1.3.0(09/08/09) no
1 power-seq v1.2 v1.2 no
Switch will be reloaded for disruptive upgrade.
Do you want to continue with the installation (y/n)? [n] y
Module 1: Refreshing compact flash and upgrading bios/loader/bootrom/power-seq.
Warning: please do not remove or power off the module at this time.
Note: Power-seq upgrade needs a power-cycle to take into effect.
On success of power-seq upgrade, SWITCH OFF THE POWER to the system and then, power it up.
[####################] 100% -- SUCCESS
Finishing the upgrade, switch will reboot in 10 seconds.
sw-n5-14.242#
Broadcast message from root (Thu Nov 18 10:26:57 2010):
The system is going down for reboot NOW!
2010 Nov 18 10:26:57 sw-n5-14.242 %KERN-0-SYSTEM_MSG: writing reset reason 31, - kernel
Date: 2010-11-18 08:27:58 UTC on va redemarrer le switch.
en parallele, on a cherché en interne les problemes similaires
et apparament on avait de problemes sur les linux en 10G. nous
avons dû mettre en place de procedure spécifiques pour faire
marcher les linux avec le choix de cables SFP+ et les cartes
reseaux à cause des incompatibilites. on n'avait pas ce probleme
là sous windows.
on regarde donc en parallele si ce probleme n'est pas le même
que sous linux mais il nous arrive plusieurs mois après la
mise en production de windows et sous un reseau. très bizarre.
le boot du switch a commencé.
Date: 2010-11-18 08:06:35 UTC Ca ne marche pas.
On met à jour le switch pour voir si ça va fixer le probleme.
Date: 2010-11-18 07:49:29 UTC Pareil.
On va changer donc les ports pour les 7 serveurs HG sous windows
qui ne veulent plus marcher.
Date: 2010-11-18 07:42:51 UTC Nous avons tenté differentes reconfiguration du port. ça ne
marche pas. Nous avons recuperé un serveur en changeant le
port du switch. Il semble donc que c'est un bug dans le
systeme du switch. On regarde si on recupere les serveurs en
redemarrant le switch.
Posted Nov 18, 2010 - 07:15 UTC
This incident affected: Dedicated Servers || Global Infrastructure (RBX).