OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
Saturation th2-1-6k
Incident Report for Network & Infrastructure
Resolved
Le routeur th2-1-6k sature actuellement provoquant un dégradation des performances réseau vers certains FAI

Update(s):

Date: 2006-09-13 19:00:00 UTC
Le probleme est resolu.

Nous avons trouvé l'origine du probleme grâce aux nombreux
redemarrage des sessions BGP. Grâce à ces redemarrages le
routage a (enfin) envoyé un message d'erreur lequel nous
a mis sur la piste.

Le probleme était dû au nombre des routes que le routeur
peut gerer. Dans la configuration standard de la carte
c'est 192'000. Pour toutes les routes en plus, le routage
s'effectuait en software (au lieu de hardware) mais sans
aucun message d'erreur. Grâce au message d'erreur, nous
avons augmenté le nombre des routes (pour utiliser au
maximum la carte) et nous avons dû rebooter le routeur
à nouveau pour prendre en compte les nouvelles valeurs.

La situation est désormais stable.

Désolé pour les problemes.

Date: 2006-09-13 14:08:59 UTC
Suite aux redemarrages de toutes les sessions
BGP, tous les autres routeurs ont retrouvé la
forme (le CPU chargé à moins de 10%) sauf
th2-1-6k qui persiste avec le CPU chargé à
100%.

Nous sommes en train de preparer un autre
routeur de même type (C6/Sup720BXL) que nous
allons connecter sur th2-1-6k via un lien
à 10Gbps. Puis nous allons basculer physiquement
les liens de th2-1-6k vers ce nouveau routeur
pour separer la charge et trouver l'origine de
surcharges. Sous 3h on devrait être sur
Telehouse 2 et on devrait debuter les opérations
sous avant 22H.


Date: 2006-09-13 13:09:38 UTC
Nous avons redemarré toutes les sessions BGP sur tous
les routeurs de la backbone pour prendre en compte
quelques modifications dans le parametrage BGP.

Date: 2006-09-13 11:09:18 UTC
La situation est désormais stable. Nous attendons
24h avant de le confirmer définitivement.

Date: 2006-09-13 10:09:53 UTC
La mise à jour d'IOS n'a pas resolu le probleme.

Nous avons mis de protections sur th2-1-6k par rapport
à l'ensemble de nos clients et le routeur refonctionne
à nouveau correctement. Ces protections nous utilisions
uniquement par rapport à l'internet et pas par rapport
à nos clients transit.

Nous allons essayer de trouver qui est l'origine du
probleme.

Puis nous allons mettre progressivement ces protections
sur l'ensemble des peers et les clients sur notre
reseau.

Date: 2006-09-13 00:30:19 UTC
La mise à jour du IOS s'est bien passée.

Nous allons attendre 24h avant de se prononcer
sur le bon ou mauvais fonctionnement du routeur
avec la nouvelle version d'IOS.

Date: 2006-09-12 23:18:56 UTC
Nous rencontrons quelques problèmes sur l'un des routeurs
(th2-1-6k) depuis 2 jours environ. Ce routeur gère les
peers vers pas mal des fournisseurs d'accès (Neuf Telecom,
Tiscali, Belgacom, Alice etc). Vous avez pu donc rencontrer
des problèmes de connexions sur vos sites en passant par
ce routeur lorsque le routeur est surchargé.

Nous avons cherché depuis 2 jours l'origine du problème
et nous n'avons pas trouvé directement une. Le routeur
est surchargé à cause d'une grande activité BGP avec
l'ensemble des peers (nos routeurs, les routeurs de
fournisseurs d'accès et les routeurs de nos clients),
mais cette grande activité n'est pas normale.

Nous allons mettre à jour le système sur ce routeur
cette nuit (mise à jour IOS sur le switch/routeur Cisco
6509 avec Sup720BXL). En suite, nous allons prendre la
décision de la mise à jour complète du réseau avec cette
nouvelle version d'IOS (sauf th1-1-6k qui fonctionne
déjà avec).

Le début des opérations: cette nuit à 1h30 (dans 15 minutes).


Date: 2006-09-12 19:06:41 UTC
Apres une journée de recherche, nous n'avons pas encore trouvé
l'origine du probleme. Le probleme est que le routeur recoit
anormalement beaucoup de mises à jour BGP de l'ensemble des
routeurs avec lesquels ils a les sessions BGP. Ceci provoque
de surcharge CPU sur le routeur.

Nous avons effectué plusieurs coupures sur les sessions BGP
notament tous les peers Sfinx, FreeIX mais aussi les peers
privés comme Neuf Telecom. Vous avez pu resentir ces 10ène
de coupures durant toute l'apres midi.

Nous avons coupé le lien entre th2-1-6k et rdb-1-c1. Nous allons
le remettre en place avant le reboot.

Nous allons mettre à jour IOS sur th2-1-6k cette nuit à partir
de minuit. L'opération devrait prendre 10 minutes environ.
Le routage sera assuré par les autres routeurs de la backbone.




Date: 2006-09-12 11:39:22 UTC
Le routeur est à 100% de CPU depuis midi. Nous allons
couper les sessions l'une par une sur Sfinx.

Date: 2006-09-11 19:50:22 UTC
Nous avons tout reactivé. Le routeur est calme (!?). Nous surveillons
le routeur et en cas de surcharge on va faire le chemin inverse: couper
les peering un par un pour savoir qui est à l'origine du probleme.

Date: 2006-09-11 19:43:51 UTC
Nous avons coupé tous les peers sur Sfinx (et remis tous les
clients en place, ils prennent du CPU anormalement beaucoup
mais nous allons regarder ce probleme apres).

Nous allons activer les peering un par un pour trouver de
quel peer probleme vient.

Le routeur est calme.

Date: 2006-09-11 18:26:42 UTC
Nous avons pu retablir une qualité de service acceptables
vers nos peers gerés par th2-1-6k (2 clients de p11 ont
été isolés pour l'instant), mais la situation n'est pas
fixée.

Nous allons basculer les peering sur d'autres routeurs pour
trouver l'origine du probleme.
Posted Sep 11, 2006 - 15:26 UTC