OVHcloud Public Cloud Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
Cloud GRA & SBG
Incident Report for Public Cloud
Resolved
Plusieurs hôtes concernant Public Cloud et VPS sont en difficultés. Nous investiguons pour restaurer le service au plus vite.

Update(s):

Date: 2016-02-07 17:11:09 UTC
L'ensemble des clients impactés vont avoir le mois de février gratuit.

Date: 2016-02-07 17:10:28 UTC
Nous allons chercher pourquoi ce simple script de check
a eu l'impact sur la stabilité du système.

En parallèle, nous allons simuler cette panne sur un
host avec de VPS/PCI et faire de sort que si ceci nous
arrive encore (pour cette raison ou pour une autre),
le host se reboot tout seul et toutes les VM redémarrent
toutes seules. Nous avons été très très mauvais sur la
gestion de l'incident avec parfois 12H de pannes pour
certaines VM à cause de cycle de démarrage, les surcharges
diverses et les problèmes de déploiements du réseau.

Date: 2016-02-07 17:08:12 UTC
Tous les hosts sont UP.

Nous avons trouvé l'origine du probleme. Un script de crontab
a pris trop de resources sur certains hosts et les a fait planté.
Ce qui explique que nous avons eu un probleme à SBG et GRA à
0h59 et à 6h59 sur les serveurs à BHS.

#
# cron.d/mdadm -- schedules periodic redundancy checks of MD devices
#
# Copyright © martin f. krafft
# distributed under the terms of the Artistic Licence 2.0
#

# By default, run at 00:57 on every Sunday, but do nothing unless the day of
# the month is less than or equal to 7. Thus, only run on the first Sunday of
# each month. crontab(5) sucks, unfortunately, in this regard; therefore this
# hack (see #380425).
57 0 * * 0 root if [ -x /usr/share/mdadm/checkarray ] && [ $(date +\\%d) -le 7 ]; then /usr/share/mdadm/checkarray --cron --all --idle --quiet; fi


Date: 2016-02-07 08:27:20 UTC
Les hotes impactés cette nuit sont de nouveau opérationnels,
nous avons également rencontrer des problemes sur d'autre serveur entre 7h30 9H, principalement sur GRA1
nous procedons à une verification pour s'assurer que toutes les instances sont operationnelles.

Date: 2016-02-07 02:17:57 UTC
Pour le moment l'impact semble n'avoir eu lieu que sur les VPS-SSD (Public Cloud et VPS)
Posted Feb 07, 2016 - 00:31 UTC