OVHcloud Web Hosting Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
Enregistrement sur sip, sip2, sip3, sip5
Incident Report for Web Cloud
Resolved
Nous avons une congestion au niveau des enregistrements sur le domaine sip5, nous investiguons.

Update(s):

Date: 2021-07-30 15:55:13 UTC
Please see the last comment for the post-mortem and action plan
--------------------------
Merci de consulter le dernier commentaire pour le post-mortem et le plan d'action

Date: 2021-07-30 15:49:07 UTC
Post mortem et plan d'action

-----------
Post mortem
-----------
+ 07:13 29/07/21 UTC+2
Trafic anormalement élevé en provenance d'une dizaine d'IP qui sature les capacités d'une instance d'un cluster SBC (Proxy de connexion client) OVH.
Intervention de l'astreinte, évaluation de la sévérité du problème et déclenchement de la crise.
A ce moment le domaine de panne est limité à sip5.ovh.fr

+ 08:30 29/07/21 UTC+2
L'incident se propage aux autres instances du cluster SBC (nota nous avons 2 autres clusters SBC) sip.ovh.fr, sip2.ovh.fr, sip3.ovh.fret sip5.ovh.fr

+ 08:40 29/07/21 UTC+2
Pour regagner le contrôle du cluster SBC, l'équipe a procédé à plusieurs bascules entre les nœuds actifs et passifs pour pouvoir ajouter des filtres et limiter la quantité de connexion sur l'équipement.

+ 09:40 29/07/21 UTC+2
L'équipementier est contacté pour nous aider à approfondir l'analyse.
Filtrage des IPs impliquées dans l'incident pour éliminer le trafic anormal.

+ 10:40 29/07/21 UTC+2
L'équipementier sort l'équipement de son état de congestion, Nous avons récupéré les 2/3 des enregistrements mais avec des perturbations aléatoires dans le maintien de ces sessions.

+ 14:00 29/07/21 UTC+2
Identification que le process CLF (Connectivity session Location qui s'occupe de l'authentification) limite la montée à pleine charge.

+ 15:00 29/07/21 UTC+2
Parcours des journaux de changement de l'infrastructure et on identifie que les procédures d'identification ont été renforcées dans le CLF le 04/07/2021 (http://travaux.ovh.net/?do=details&id=51652).

+ 16:34 29/07/21 UTC+2
Ce changement est retiré de la configuration, le trafic reprend normalement.

+ 16:35 29/07/21 UTC+2
Fin de l'incident

-----------------------
Post Incident (de nuit)
-----------------------
- Analyse des journaux d'incident
- Affinage du filtrage des IPs impliquées dans l'incident
- Tuning du SBC dans la gestion des sessions

-------------
Plan d'actions
-------------
+ 1 août 2021
Première phase d'équilibrage des clusters SBC
* Pour:
- Optimiser la taille des différents domaines
- Réduire le domaine de panne

+ 20 août 2021
Ajout d'une nouvelle zone de SBC (en cours de déploiement avant l'incident), 2ème phase d'équilibrage des cluster SBC
* Pour:
- Réduire la charge
- Optimiser la taille des différents domaines
- Réduire le domaine de panne

+ 31 août 2021
Mise en service d'un nouveau cluster SBC
* Pour:
- Réduire la charge
- Optimiser la taille des différents domaines
- Réduire le domaine de panne

+ Premier trimestre 2022
Virtualisation de l'architecture VoIP C5 + aSBC, les iSBC sont déjà virtualisés.
Création de 6 zones avec 2 clusters aSBC par zone.
* Pour :
- Réduire la charge x 5
- Optimiser la taille des différents domaines x 5
- Flexibilité pour la croissance de l’infrastructure (ajout de nouvelle zone facilité)

---------------

-----------
Post mortem
-----------
+ 07:13 29/07/21 UTC+2
Abnormally high traffic from a dozen or so IPs which saturates the capacities of an instance of an OVH SBC cluster (client connection proxy).
Intervention of the on-call team, evaluation of the severity of the problem and triggering of the crisis.
At this time the failure domain is limited to sip5.ovh.fr

+ 08:30 29/07/21 UTC+2
The incident spreads to the other instances of the SBC cluster (note we have 2 other SBC clusters) sip.ovh.fr, sip2.ovh.fr, sip3.ovh.fret sip5.ovh.fr

+ 08:40 29/07/21 UTC+2
To regain control of the SBC cluster, the team performed several toggles between active and passive nodes to add filters and limit the amount of connection on the equipment.

+ 09:40 29/07/21 UTC+2
L'équipementier est contacté pour nous aider à approfondir l'analyse.
Filtrage des IPs impliquées dans l'incident pour éliminer le trafic anormal.

+ 10:40 29/07/21 UTC+2
The equipment manufacturer is contacted to help us with further analysis.
Filtering of IPs involved in the incident to eliminate anomalous traffic.

+ 14:00 29/07/21 UTC+2
Identification that the CLF process (Connectivity session Location , which handles authentication) limits scalability at full load.

+ 15:00 29/07/21 UTC+2
Browse the infrastructure change logs and identify that the identification procedures have been strengthened in the CLF on 04/07/2021 (http://travaux.ovh.net/?do=details&id=51652).

+ 16:34 29/07/21 UTC+2
This change is removed from the configuration, traffic resumes normally.

+ 16:35 29/07/21 UTC+2
End of the incident

-----------------------
Post Incident (overnight)
-----------------------
- Analysis of incident logs
- Refining the filtering of the IPs involved in the incident
- Tuning of the SBC in session management

-------------
Action plans
-------------
+ August 1 2021
First phase of SBC cluster balancing
* To:
- Optimise the size of the different domains
- Reduce the failure domain

+ August 20 2021
Addition of a new SBC area (being deployed before the incident), 2nd phase of SBC cluster balancing
* To:
- Reduce load
- Optimise the size of the different domains
- Reduce the failure domain

+ August 31 2021
Commissioning of a new SBC cluster
* To:
- Reduce load
- Optimise the size of the different domains
- Reduce the failure domain

+ First quarter 2022
Virtualisation of the VoIP C5 + aSBC architecture, the iSBCs are already virtualised.
Creation of 6 zones with 2 aSBC clusters per zone.
* For :
- Reduce the load x 5
- Optimise the size of individual domains x 5
- Flexibility for infrastructure growth (adding new areas made easy)

Date: 2021-07-30 09:04:48 UTC
Start time : 29/07/2021 06:29UTC
End time : 29/07/2021 14:35 UTC
Service impact : routing call from sip, sip2, sip3, sip5
Ongoing actions : Monitoring
Root cause : Investigating with our equipment supplier
Next update max : 30/07/2021 16:00 UTC
Comment : If you have any problems registering on the trunks, please contact the support teams. We are continuing to work with the equipment manufacturer to determine the root cause
-------------------------------------
Heure de début : 29/07/2021 06:29 UTC
Heure de fin : 29/07/2021 14:35 UTC
Impact sur le service : Acheminement des appels depuis sip, sip2, sip3, sip5.
Action en cours : Monitoring
Origine de l'incident : Investigation en cours avec l'aide de notre fournisseur
Prochaine mise à jour max : 30/07/2021 16:00 UTC
Commentaire : En cas de difficulté d'enregistrement sur les trunks, nous vous invitons à contacter les équipes supports. Nous continuons de travailler en collaboration avec l'équipementier pour déterminer la root cause

Date: 2021-07-29 15:51:24 UTC
Start time : 29/07/2021 06:29UTC
End time : 29/07/2021 14:35 UTC
Service impact : routing call from sip, sip2, sip3, sip5
Ongoing actions : Monitoring
Root cause : Investigating with our equipment supplier
Next update max : 30/07/2021 09:00 UTC
Comment : SIP account registration and calling capabilities are back on line. We proceeded to a rollback of a maintenance operation on the CLF in order to stabilise the situation (http://travaux.ovh.net/?do=details&id=49966). We are continuing to work with our equipement supplier to determine and publish the cause of the incident. We apologise for any inconvenience caused
-------------------------------------
Heure de début : 29/07/2021 06:29 UTC
Heure de fin : 29/07/2021 14:35 UTC
Impact sur le service : Acheminement des appels depuis sip, sip2, sip3, sip5.
Action en cours : Monitoring
Origine de l'incident : Investigation en cours avec l'aide de notre fournisseur
Prochaine mise à jour max : 30/07/2021 09:00 UTC
Commentaire : L'enregistrement des comptes SIP et les capacités d'appels sont de nouveau fonctionnels. Nous avons procédé à un rollback d'une operation de maintenance sur le CLF afin de stabiliser la situation (http://travaux.ovh.net/?do=details&id=49966). Nous continuons de travailler avec notre équipementier pour déterminer et publier l'origine de l'incident. Nous nous excusons pour la gêne occasionnée.

Date: 2021-07-29 12:57:32 UTC
Service impact : routing call from sip, sip2, sip3, sip5
Ongoing actions : Investigating
Next update max : 29/07/2021 15:30 UTC
Comment : The registration of SIP accounts is more than 90% operational. Calls are functional between 2/5 and 3/5 of normal capacity. We continue to work with our equipment supplier
-------------------------------------
Heure de début : 29/07/2021 06:29UTC
Impact sur le service : Acheminement des appels depuis sip, sip2, sip3, sip5.
Actions en cours : En cours d'investigation.
Prochaine mise à jour max : 29/07/2021 15:30 UTC
Commentaire : L'enregistrement des comptes SIP est operationel à plus de 90%. Les appels sont fonctionnel entre 2/5 et 3/5 des capacités normal. Nous continuons de travailler avec notre equipementier.

Date: 2021-07-29 10:51:41 UTC
Start time : 29/07/2021 06:29UTC
Service impact : routing call from sip, sip2, sip3, sip5
Ongoing actions : Investigating
Next update max : 29/07/2021 13:00 UTC
Comment : We still have an unusual volume of traffic. SIP sessions may still be unstable (UP session for 30 minutes) and/or unable to make or receive calls. We are still investigating with the manufacturer
-------------------------------------
Heure de début : 29/07/2021 06:29UTC
Impact sur le service : Acheminement des l'appels depuis sip, sip2, sip3, sip5.
Actions en cours : En cours d'investigation.
Prochaine mise à jour max : 29/07/2021 13:00 UTC
Commentaire : Nous avons encore à ce jour un volume anormal de traffic. Les session SIP peuvent encore se montrer instables (session UP pour 30 minutes) et/ou dans l'impossibilité d’émettre ou recevoir des appels. Nous continuons à investiguer avec le constructeur



Date: 2021-07-29 09:50:17 UTC
Start time : 29/07/2021 06:29UTC
Service impact : routing call from sip, sip2, sip3, sip5
Ongoing actions : Investigating
Next update max : 29/07/2021 11:00 UTC
Comment :We are confronted with a congestion situation at the level of SIP records. We have observed an anusual volume of traffic. We are working to understand the origine.We apologise for the inconvenience caused.
-------------------------------------
Heure de début : 29/07/2021 06:29UTC
Impact sur le service : acheminement de l'appel depuis sip, sip2, sip3, sip5.
Actions en cours : En cours d'investigation.
Prochaine mise à jour max : 29/07/2021 11:00 UTC
Commentaire : Nous sommes confrontés à une situation de congestion au niveau des enregistrements SIP. Nous avons observé un volume anormal de trafic. Nous cherchons à en comprendre l'origine. Nous nous excusons pour la gêne occasionnée

Date: 2021-07-29 09:00:42 UTC
Start time : 29/07/2021 06:29UTC
Service impact : routing call from sip, sip2, sip3, sip5
Ongoing actions : Investigating
Next update max : 29/07/2021 10:00 UTC
Comment :We are confronted with a congestion situation at the level of SIP records. We observe a strong improvement in the return of services. We continue to work on a full resolution of the incident. We apologise for the inconvenience caused
-------------------------------------
Heure de début : 29/07/2021 06:29UTC
Impact sur le service : acheminement de l'appel depuis sip, sip2, sip3, sip5.
Actions en cours : En cours d'investigation.
Prochaine mise à jour max : 29/07/2021 10:00 UTC
Commentaire : Nous sommes confrontés à une situation de congestion au niveau des enregistrements SIP. Nous observons une forte amélioration dans le retour des services. Nous continuons à travailler à une résolution complète de l'incident. Nous nous excusons pour la gêne occasionnée

Date: 2021-07-29 08:32:32 UTC
Heure de début : 29/07/2021 06:29UTC
Impact sur le service : acheminement de l'appel depuis sip, sip2, sip3, sip5.
Actions en cours : En cours d'investigation.
Prochaine mise à jour max : 29/07/2021 09:00 UTC
Commentaire : Nous sommes confrontés à une situation de congestion au niveau des enregistrements SIP. Le routage des appels est indisponible. Nous travaillons avec le fabricant du matériel pour résoudre la situation. Nous nous excusons pour les désagréments causés
______________________________________________________________________________________________________________
Start time : 29/07/2021 06:29UTC
Service impact : routing call from sip, sip2, sip3, sip5
Ongoing actions : Investigating
Next update max : 29/07/2021 11:00UTC
Comment :We are confronted with a congestion situation at the level of SIP records. Call routing is unavailable. We are working with the hardware manufacturer to resolve the situation. We apologise for the inconvenience caused

Date: 2021-07-29 07:57:53 UTC
Nous travaillons avec l'équipementier pour rétablir la situation.
Nous vous tenons au courant dés que possible.

Date: 2021-07-29 07:13:36 UTC
D'autres domaines sont également impactés, nous continuons l'investigation
Posted Jul 29, 2021 - 06:29 UTC
This incident affected: VoIP || Core Network.