rssLink RSS for all categories
 
icon_red
icon_red
icon_green
icon_blue
icon_orange
icon_green
icon_green
icon_red
icon_red
icon_blue
icon_green
icon_green
icon_green
icon_green
icon_red
icon_orange
icon_green
icon_green
icon_red
icon_red
icon_red
icon_green
icon_orange
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_orange
 

FS#3924 — filerz: mise à patch

Attached to Project— RPS
Incident
tous les RPS
CLOSED
100%
Suite à la maintenance
http://travaux.ovh.com/?do=details&id=3902
nous avons de problemes de communication entre
les iscsi proxy et les filerz. Les packets
arrivent sur le proxy et le proxy reroute
le packet vers filerz. Mais le filerz repond
parfois bizarrement ce qui fait que le proxy
pense que le filerz est en panne. Ce qui fait
que le proxy se protege en se faisant un harakiri.

Nous avons d'abord pensé à des problems reseaux
http://travaux.ovh.com/?do=details&id=3917
mais ça ne semble pas être ce probleme là
puis que sur 2 routeurs c'est le même chose.

Lors de mise à jour de filerZ nous avon mis
à jour ce qui était necessaire pour upgrader
le kernel et mettre à jour le patch ZFS. Mais
nous n'avons pas tout mis à jour.

Nous avons donc decidé de mettre en urgence
tous les patchs sur 4 filerz qui semblent
poser de problemes avec les iSCSI. Il s'agit
de
filerz48
filerz47
filerz59
filerz72

Nous allons les mettre à jour toutalement et
dans la globalité. Ceci va prendre environ
1h-1h30. En suite on reboot et on remet la
chaine iSCSI en marche.

Suite à ces mises à jour, on verra sous
quelques heures si ces filerz refonctionnent
correctement avec les proxy ou toujours pas.

Si oui, alors dans la nuit on patchera tous
les filerz (90 infra).

Si non, on va continuer à chercher l'origine
du probleme et la solution.
Date:  Tuesday, 02 March 2010, 10:03AM
Reason for closing:  Done
Comment by OVH - Friday, 26 February 2010, 18:15PM

filerz48
filerz47
filerz59
filerz72
fait

on fait maintenant les filers qui ont planté depuis 2 jours:
filerz53
filerz58
filerz30
filerz68
filerz40


Comment by OVH - Friday, 26 February 2010, 18:47PM

+
filerz63


Comment by OVH - Friday, 26 February 2010, 20:21PM

+ filerz59


Comment by OVH - Friday, 26 February 2010, 20:35PM

filerz53
filerz58
filerz30
filerz68
filerz40
filerz63
fait

il reste filerz59


Comment by OVH - Friday, 26 February 2010, 23:34PM

+ filerz69


Comment by OVH - Saturday, 27 February 2010, 00:15AM

+filerz38


Comment by OVH - Saturday, 27 February 2010, 00:22AM

sur une piste ... !


Comment by OVH - Saturday, 27 February 2010, 08:18AM

On est sur la bonne piste.


Comment by OVH - Saturday, 27 February 2010, 15:01PM

Nous upgradons le san de iscsi30.


Comment by OVH - Saturday, 27 February 2010, 15:20PM

+ le san de iscsi39


Comment by OVH - Sunday, 28 February 2010, 23:10PM

Le probleme est plus ou moins stabilisé sur les iSCSI qui ont
été migré sur des cartes Cisco plus puissantes. Ceci prouve
aussi la théorie du probleme reseau:
http://travaux.ovh.com/?do=details&id=3917


Comment by OVH - Sunday, 28 February 2010, 23:13PM

Le probleme n'est toujours pas stable.

Par contre on est sûr que ça vient du reseau. Depuis l'ajout des
disques cache en SSD, les filerz repondent de maniere nettement
plus rapide et ceci provoque des saturations au niveau des buffers
sur le reseau. Ces petites saturations provoquent des erreurs
puis de coupures sur l'iSCSI puis au final le crash du proxy.

Solutions à 3 temps:
- ce soir on enleve les disques cache en SSD (et on essaie de recuperer
en dormant cette nuit)
- demain on bascule tous les iSCSI + les filerz sur une infra Nexus 5000
qui sait gerer beaucoup de packets par seconde dans le cadre de stockage
sur le reseau
- une fois que tout est basculé, on reactivera les disques cache en SSD

En suite, on va patcher le kernel des iSCSI puis augmenter le MTU du
reseau pour limiter le nombre de packets /donnnées.


Comment by OVH - Monday, 01 March 2010, 11:36AM

On est en train de mettre en place le nouveau reseau. On
commencera les basculements dans la foulée.


Comment by OVH - Tuesday, 02 March 2010, 10:03AM

Repris dans http://travaux.ovh.net/?do=details&id=3940