rssLink RSS for all categories
 
icon_red
icon_green
icon_green
icon_red
icon_red
icon_green
icon_green
icon_red
icon_red
icon_red
icon_red
icon_green
icon_green
icon_orange
icon_green
icon_red
icon_green
icon_blue
icon_red
icon_orange
icon_green
icon_blue
icon_green
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_green
icon_blue
icon_green
icon_red
 

FS#12193 — tete-3036

Attached to Project— Dedicated Cloud
Incident
Rbx2b
CLOSED
100%
Les tetes master et slave ne répondent plus.
Une intervention est en cours.
Date:  Friday, 19 December 2014, 17:09PM
Reason for closing:  Done
Comment by OVH - Wednesday, 10 December 2014, 06:19AM

Les datastores suivant sont impactés :

pcc-000594
pcc-000595
pcc-000596
pcc-000597
pcc-000598
pcc-000599
pcc-000600
pcc-000604
pcc-000605
pcc-000670
pcc-000677


Comment by OVH - Wednesday, 10 December 2014, 06:32AM

Le service est rétabli.


Comment by OVH - Wednesday, 10 December 2014, 06:32AM

Nous investigons sur les causes de la panne.


Comment by OVH - Wednesday, 10 December 2014, 15:48PM

Les logs ont été remontés et mettent en évidence une bascule master -> slave à 4h37 suite à un défaut hardware côté master.

Le slave a freezé lors de l'import des pools et le cluster s'est retrouvé dans une situation inédite ou master et slave étaient injoignables et le basculement commencé mais pas terminé.

Il a fallu analyser la situation datastore par datastore et également vérifier l'état de chaque lien SAS, tout ceci a pris du temps, au prix de l'intégrité des données.

Les datastores ont été indisponibles de 4h37 à 6h32.

Il n'y a pas eu d'impacts sur l’intégrité des données.

Nous renforçons les checks qui sont effectués lors du process de basculement. Egalement nous renforçons les tests de simulation d'import sur les têtes slave pour prévenir les cas ou le slave n'est pas apte à 100% à prendre le relais en cas de défaut côté master.