rssLink RSS for all categories
 
icon_red
icon_green
icon_red
icon_red
icon_red
icon_green
icon_green
icon_red
icon_orange
icon_orange
icon_orange
icon_green
icon_green
icon_blue
icon_green
icon_green
icon_green
icon_green
icon_red
icon_green
icon_orange
icon_green
icon_green
icon_orange
 

FS#1086 — Saturation th2-1-6k

Attached to Project— Reseau Internet et Baies
Incident
tout le reseau
CLOSED
100%
Le routeur th2-1-6k sature actuellement provoquant un dégradation des performances réseau vers certains FAI
Date:  Wednesday, 13 September 2006, 21:01PM
Reason for closing:  Done
Comment by OVH - Monday, 11 September 2006, 20:26PM

Nous avons pu retablir une qualité de service acceptables
vers nos peers gerés par th2-1-6k (2 clients de p11 ont
été isolés pour l'instant), mais la situation n'est pas
fixée.

Nous allons basculer les peering sur d'autres routeurs pour
trouver l'origine du probleme.


Comment by OVH - Monday, 11 September 2006, 21:43PM

Nous avons coupé tous les peers sur Sfinx (et remis tous les
clients en place, ils prennent du CPU anormalement beaucoup
mais nous allons regarder ce probleme apres).

Nous allons activer les peering un par un pour trouver de
quel peer probleme vient.

Le routeur est calme.


Comment by OVH - Monday, 11 September 2006, 21:50PM

Nous avons tout reactivé. Le routeur est calme (!?). Nous surveillons
le routeur et en cas de surcharge on va faire le chemin inverse: couper
les peering un par un pour savoir qui est à l'origine du probleme.


Comment by OVH - Tuesday, 12 September 2006, 13:39PM

Le routeur est à 100% de CPU depuis midi. Nous allons
couper les sessions l'une par une sur Sfinx.


Comment by OVH - Tuesday, 12 September 2006, 21:06PM

Apres une journée de recherche, nous n'avons pas encore trouvé
l'origine du probleme. Le probleme est que le routeur recoit
anormalement beaucoup de mises à jour BGP de l'ensemble des
routeurs avec lesquels ils a les sessions BGP. Ceci provoque
de surcharge CPU sur le routeur.

Nous avons effectué plusieurs coupures sur les sessions BGP
notament tous les peers Sfinx, FreeIX mais aussi les peers
privés comme Neuf Telecom. Vous avez pu resentir ces 10ène
de coupures durant toute l'apres midi.

Nous avons coupé le lien entre th2-1-6k et rdb-1-c1. Nous allons
le remettre en place avant le reboot.

Nous allons mettre à jour IOS sur th2-1-6k cette nuit à partir
de minuit. L'opération devrait prendre 10 minutes environ.
Le routage sera assuré par les autres routeurs de la backbone.



Comment by OVH - Wednesday, 13 September 2006, 01:18AM

Nous rencontrons quelques problèmes sur l'un des routeurs
(th2-1-6k) depuis 2 jours environ. Ce routeur gère les
peers vers pas mal des fournisseurs d'accès (Neuf Telecom,
Tiscali, Belgacom, Alice etc). Vous avez pu donc rencontrer
des problèmes de connexions sur vos sites en passant par
ce routeur lorsque le routeur est surchargé.

Nous avons cherché depuis 2 jours l'origine du problème
et nous n'avons pas trouvé directement une. Le routeur
est surchargé à cause d'une grande activité BGP avec
l'ensemble des peers (nos routeurs, les routeurs de
fournisseurs d'accès et les routeurs de nos clients),
mais cette grande activité n'est pas normale.

Nous allons mettre à jour le système sur ce routeur
cette nuit (mise à jour IOS sur le switch/routeur Cisco
6509 avec Sup720BXL). En suite, nous allons prendre la
décision de la mise à jour complète du réseau avec cette
nouvelle version d'IOS (sauf th1-1-6k qui fonctionne
déjà avec).

Le début des opérations: cette nuit à 1h30 (dans 15 minutes).


Comment by OVH - Wednesday, 13 September 2006, 02:30AM

La mise à jour du IOS s'est bien passée.

Nous allons attendre 24h avant de se prononcer
sur le bon ou mauvais fonctionnement du routeur
avec la nouvelle version d'IOS.


Comment by OVH - Wednesday, 13 September 2006, 12:09PM

La mise à jour d'IOS n'a pas resolu le probleme.

Nous avons mis de protections sur th2-1-6k par rapport
à l'ensemble de nos clients et le routeur refonctionne
à nouveau correctement. Ces protections nous utilisions
uniquement par rapport à l'internet et pas par rapport
à nos clients transit.

Nous allons essayer de trouver qui est l'origine du
probleme.

Puis nous allons mettre progressivement ces protections
sur l'ensemble des peers et les clients sur notre
reseau.


Comment by OVH - Wednesday, 13 September 2006, 13:09PM

La situation est désormais stable. Nous attendons
24h avant de le confirmer définitivement.


Comment by OVH - Wednesday, 13 September 2006, 15:09PM

Nous avons redemarré toutes les sessions BGP sur tous
les routeurs de la backbone pour prendre en compte
quelques modifications dans le parametrage BGP.


Comment by OVH - Wednesday, 13 September 2006, 16:08PM

Suite aux redemarrages de toutes les sessions
BGP, tous les autres routeurs ont retrouvé la
forme (le CPU chargé à moins de 10%) sauf
th2-1-6k qui persiste avec le CPU chargé à
100%.

Nous sommes en train de preparer un autre
routeur de même type (C6/Sup720BXL) que nous
allons connecter sur th2-1-6k via un lien
à 10Gbps. Puis nous allons basculer physiquement
les liens de th2-1-6k vers ce nouveau routeur
pour separer la charge et trouver l'origine de
surcharges. Sous 3h on devrait être sur
Telehouse 2 et on devrait debuter les opérations
sous avant 22H.


Comment by OVH - Wednesday, 13 September 2006, 21:00PM

Le probleme est resolu.

Nous avons trouvé l'origine du probleme grâce aux nombreux
redemarrage des sessions BGP. Grâce à ces redemarrages le
routage a (enfin) envoyé un message d'erreur lequel nous
a mis sur la piste.

Le probleme était dû au nombre des routes que le routeur
peut gerer. Dans la configuration standard de la carte
c'est 192'000. Pour toutes les routes en plus, le routage
s'effectuait en software (au lieu de hardware) mais sans
aucun message d'erreur. Grâce au message d'erreur, nous
avons augmenté le nombre des routes (pour utiliser au
maximum la carte) et nous avons dû rebooter le routeur
à nouveau pour prendre en compte les nouvelles valeurs.

La situation est désormais stable.

Désolé pour les problemes.