Network & Infrastructure Status

OVHcloud Network Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

Network backbone

Incident Report for Network & Infrastructure

Resolved

We have an issue on our network connectivity.
Our teams are on it.

--------

Nous avons des perturbations sur la connectivité réseau.
Nos équipes investiguent.

Update(s):

Date: 2020-04-07 18:12:04 UTC
Nous souhaitons apporter des précisions quant à la nature de l’incident et sa résolution.

1. L’architecture du nœud de RBX et ses redondances

Le Datacenter de Roubaix est connecté au réseau backbone OVHcloud à travers 2 paires de routeurs sur 2 étages, le tout fonctionnant en Haute Disponibilité et basé sur des protocoles de routage dynamique. Le réseau backbone OVHcloud est mutualisé pour les réseaux public et privé.

Un mécanisme de « hashing » permet de répartir la charge entre les deux paires de routeurs ci-dessous, chaque paire pouvant assurer le traitement du trafic en cas de défaillance de l’autre paire. Ces deux paires de routeurs sont hébergées dans deux racks distincts avec une alimentation électrique redondée afin d’assurer une résilience du réseau backbone du site de Roubaix. Il s’agit de la paire RBX-G1-NC5 / RBX-D1-A75 et de la paire RBX-G2-NC5 / RBX-D2-A75.

Aussi, la redondance au sein de chaque étage du nœud se fait également par paire, chaque routeur pouvant assurer le traitement du trafic en cas de défaillance de l’autre routeur, à savoir : la paire RBX-G1-NC5 / RBX-G2-NC5 et la paire RBX-D1-A75 / RBX-D2-A75.

Ces routeurs possèdent également une redondance interne avec la présence de plusieurs cartes mère (supervisor) et plusieurs cartes fille (linecards) autorisant ainsi des défaillances Hardware avec un mécanisme de haute disponibilité piloté par le logiciel des routeurs.

2. L’incident et sa résolution

La cause racine de l’incident est une défaillance Hardware d’une carte fille (linecard) du routeur RBX-D1-A75 au niveau de la parité de la RAM. Les premières alertes remontées par la carte datent du 25/03/20. Ces alertes ont été communiquées au constructeur qui a indiqué le 27/03/20 que celles-ci n’étant pas critiques et qu’il fallait planifier un redémarrage de la carte lors de la prochaine maintenance planifiée sur l’équipement.

De nouvelles erreurs similaires sont apparues lundi 30 Mars sur cette même carte, entrainant une corruption des données du logiciel de la carte et empêchant les mécanismes de protection (isolation et redémarrage de la carte) de s’exécuter. Cette carte fille défaillante a alors propagé cette corruption au sein du routeur RBX-D1-A75 engendrant une instabilité de celui-ci le 30 Mars à partir de 17h01 CEST. Les mécanismes d’autoprotection du routeur (isolation et redémarrage du routeur) ne se sont pas activés, entrainant la perte de paquets transitant par cet équipement.

Durant l’incident, le routeur RBX-D1-A75 n’étant pas identifié comme défaillant au niveau réseau dû au trafic résiduel, le mécanisme de « hashing » a donc continué de distribuer le trafic sur les 2 paires de routeur, mais seule la paire RBX-D2-A75/RBX-G2-NC5 a pu assurer correctement le traitement du trafic. Par conséquent, 50% du trafic transitant par le nœud du réseau backbone OVHcloud de Roubaix était correctement traité.

Le routage étant dynamique, il est toutefois impossible de déterminer quel trafic réseau transitait par quelle paire de routeur lors de l’incident et donc de discerner les accès qui ont été impactés de ceux qui ne l’ont pas été.

Afin de résoudre l’incident, le routeur RBX-D1-A75 a d’abord été isolé du réseau pour diriger l’ensemble du trafic IPv4 et IPv6 sur RBX-D2-A75. Cette étape a permis de rétablir l’accès aux services (17h40). Le trafic IPv4 a été complètement retabli à 18h16, et le trafic IPv6 à 18h48.
Ensuite, la carte défaillante a été isolée au sein du routeur RBX-D1-A75. Cela a permis de réintégrer ce routeur dans le nœud du réseau backbone de Roubaix permettant un retour à la normale des services. L’intégralité de la redondance a été effective suite au déplacement des liens de la carte défaillante vers les autres cartes du routeur.

Le remplacement de la carte défaillante du routeur RBX-D1-A75 a été réalisé le 01/04/20.

3. Axes d’améliorations

L’incident a mis en évidence que nous étions insuffisamment préparés à fonctionner avec une très grande majorité de nos équipes travaillant à distance.
Quand bien même notre réseau VPN n’est plus opérationnel, nous devons être en mesure de savoir utiliser notre réseau de secours permettant d’accéder à nos équipements réseaux. Ce réseau d’accès Out Of Band existe.
Une formation et des exercices réguliers seront faits à l’ensemble des équipes.
Par ailleurs, la modernisation du réseau d’accès hors bande est en cours pour un déploiement fin Q2 2020.

Vous avez pu également noter que notre communication a fortement été impactée, car le site web « travaux » (hébergé chez OVHcloud) n’était plus accessible.
Sur ce sujet, nous avons déjà initié un projet de refonte de ce site qui ne sera plus hébergé sur nos infrastructures. Nous prévoyons sa mise en place pour Q3 2020.

Enfin, nous prévoyons de créer 2 AZ de services, une située en Europe et une située au Canada afin d’assurer une continuité de service pour les activités liées au support.

Par ailleurs, au vu de cet incident, nous démarrons un plan d’amélioration de la topologie du réseau qui s’articule autour des thématiques suivantes :
- La création d’AZ isolées afin de réduire la portée d’un incident
- L’évolution du niveau de résilience de certains services « historiques »
- Mise en place de tests réguliers de la redondance réseau

---------------

We would like to clarify the nature of the incident and its resolution.

1. The architecture of the RBX node and its redundancies

The Roubaix datacenter is connected to the OVHcloud backbone network through 2 pairs of routers on 2 layers, all operating in High Availability and based on dynamic routing protocols. The OVHcloud backbone network is shared for both public and private networks.

A \"hashing\" mechanism allows the load to be shared between the two pairs of routers below, each pair being able to handle the traffic in case of failure of the other pair. These two pairs of routers are hosted in two separate racks with a redundant power supply to ensure the resilience of the Roubaix site's backbone network. These are the pair RBX-G1-NC5 / RBX-D1-A75 and the pair RBX-G2-NC5 / RBX-D2-A75.

Also, the redundancy within each layer of the network node is also done by pair, each router being able to ensure the maangement of the traffic in case of failure of the other router, namely: the pair RBX-G1-NC5 / RBX-G2-NC5 and the pair RBX-D1-A75 / RBX-D2-A75.

These routers also have internal redundancy with the presence of several mother boards (supervisor) and several daughter boards (linecards) thus allowing hardware failures with a high availability mechanism driven by the routers' software.

2. The incident and its resolution

The root cause of the incident is a hardware failure of a daughter card (linecard) of the RBX-D1-A75 at the RAM parity level. The first alerts raised by the card date back to 03/25/20. These alerts have been communicated to the manufacturer who indicated on 03/27/20 that these alerts were not critical and that a reboot of the card should be planned during the next scheduled maintenance.

New similar errors appeared on Monday 30 March on the same card, leading to corruption of the card software data and preventing the protection mechanisms (isolation and restart of the card) from executing. This failed daughterboard then propagated this corruption within the RBX-D1-A75 router, causing it to become unstable on 30 March from 17:01 CEST. The router's self-protection mechanisms (router isolation and reboot) did not activate, resulting in the loss of packets transiting through this equipment.

During the incident, as the RBX-D1-A75 router was not identified as a network failure due to residual traffic, the hashing mechanism continued to distribute the traffic over the 2 router pairs, but only the RBX-D2-A75/RBX-G2-NC5 pair was able to correctly handle the traffic. As a result, 50% of the traffic passing through the Roubaix OVHcloud backbone network node was correctly processed.

However, since routing is dynamic, it is impossible to determine which network traffic was transiting through which router pair at the time of the incident and therefore to distinguish between accesses that were impacted and those that were not.
In order to resolve the incident, the router RBX-D1-A75 was first isolated from the network to redirect all IPv4 and IPv6 traffic on RBX-D2-A75. This step restored access to services (17:40 CEST). IPv4 traffic was fully operational at 18:16 CEST and IPv6 traffic at 18:48 CEST.
Then, the failed card was isolated within the RBX-D1-A75 router. This enabled this router to be reintegrated into the Roubaix backbone network node, allowing a return to normal services. Full redundancy was achieved by moving the links of the faulty card to the other cards of the router.

The replacement of the faulty card of the router RBX-D1-A75 was carried out on 04/01/20.

3. Areas for improvement

The incident highlighted that we were insufficiently prepared to operate with the huge majority of our teams working remotely.
Even if our VPN network is no longer operational, we have to be able to use our back-up network to access our network equipment. This Out Of Band access network exists.
Regular training and exercises will be done to all teams.
In addition, the modernization of the out-of-band access network is underway for deployment at the end of Q2 2020.

You may also have noticed that our communication has been strongly impacted, as the “travaux” website (hosted by OVHcloud) was no longer accessible.
On this subject, we have already initiated a project to overhaul this site, which will no longer be hosted on our infrastructure. We plan to implement it for Q3 2020.

Finally, we plan to create 2 availbility service zones, one located in Europe and one located in Canada to ensure continuity of service for support activities.

In addition, in light of this incident, we will improve our network topology by starting a plan based on the following themes:
- The creation of isolated AZs in order to reduce the scope of an incident
- Changes in the level of resilience of certain \"legacy\" services
- Implementation of regular network redundancy tests

Date: 2020-04-03 12:53:38 UTC
Le composant en défaut a été remplacé mercredi 1er Avril à 23h CEST. Cette dernière sera mise en service la semaine prochaine dans le cadre d'une maintenance afin de normaliser la situation.

--

The defective component was replaced Wednesday, April 1st at 11pm CEST. This will be put into service next week during a maintenance to normalize the situation.

Date: 2020-03-30 20:56:50 UTC
Nous venons de finaliser le déplacement des liens qui restaient sur le composant isolé.
La situation est donc normalisée et l'ensemble de la capacité est de nouveau complètement disponible.
Nous allons prévoir le remplacement du composant isolé sous 72h afin de nous permettre de continuer le diagnostique de l'incident de ce jour.
Nous vous tiendrons informés des actions à venir.

---

We have just finalized to move the remaining links on the isolated component.
The situation is therefore normalized and the entire capacity is again fully available.
We will plan to replace the isolated component within 72 hours to allow us to continue to troubleshoot.
We will keep you informed of any further actions.

Date: 2020-03-30 19:15:42 UTC
Nous avons fini de remonter les liens afin d'assurer la sécurisation du trafic qui traverse cette infrastructure.
Le composant en défaut reste isolé jusqu'à nouvel ordre et sera remplacé ultérieurement.

---

We've finished to reactivate links to ensure the security of traffic through this infrastructure.
The default component remains isolated until further notice and will be replaced later.

Date: 2020-03-30 17:48:21 UTC
Suite à la confirmation du diagnostic par le support constructeur, nous réactivons graduellement les liens de l'infrastructure que nous avions totalement isolé.
Cette operation permettra de revenir en situation nominale a l'exception de la partie de matérielle de cet équipement mis en cause qui restera isolé jusqu'à nouvel ordre.

--

Following the diagnostic confirmation by the vendor support, we are re-activating gradually the infrastructure links that we had to totally isolate.
This operation will allow to return to a normal situation with the exception of the faulty part of the equipment involved , which will remain isolated until further notice.

Date: 2020-03-30 17:22:41 UTC
Cet incident de réseau a affecté les services de nos Datacenters de Roubaix de 17h01 à 17h40 CEST, ainsi que le trafic de la backbone qui y transit.
Tous les services semblent maintenant être restaurés et nos équipes travaillent maintenant à assurer la récupération complète.
Nous diagnostiquons l'origine de cet incident qui sera communiquée ultérieurement. D'ici là nous continuons de vous tenir informé de nos avancées.

--

This network incident affected the services of our Roubaix data centers from 5:01 p.m. to 5:40 p.m. CEST, as well as the backbone trafic that flows there.
All services now seem to be restored and our teams are now working to ensure full recovery.
We are troubleshooting the cause of this incident which will be reported later. Until then, we continue to keep you informed of our progress.

Date: 2020-03-30 16:59:43 UTC
L'infrastructure défectueuse que nous avons isolée est localisée à RBX, impactant principalement les services de ce DC.
Nous avons escaladé cet incident auprès du constructeur avec la plus haute sévérité afin de diagnostiquer et de normaliser la redondance.
Actuellement le fonctionnement de notre réseau est revenu à la normal.

---

The defective infrastructure that we isolated is located at RBX, primarily impacting the services of this DC.
We escalated this incident with the manufacturer with a critical severity to diagnose and normalize the redundancy of the service.
Currently the operation of our network is back to normal.

Date: 2020-03-30 16:25:01 UTC
Les services se rétablissent graduellement suite à l'isolation d'une infrastructure réseau défectueuse.
Nous continuons de nous assurer du rétablissement des services.

--

Services are gradually recovering from the isolation of a faulty network infrastructure.
We continue to ensure that services are restored.

Date: 2020-03-30 16:15:04 UTC
Un incident de l'infrastructure est avéré. Cet incident n'a pas de lien avec des éléments externes.

---

An infrastructure incident is confirmed. This incident is not related to external events.

Date: 2020-03-30 16:08:07 UTC
Nous focalisons actuellement nos recherches et nos actions sur une partie de l'infrastructure de la backbone.

---

We are currently focusing our research and actions on some of the backbone infrastructure.

Date: 2020-03-30 16:05:33 UTC
We are currently checking our backbone and core network infrastructure.
Services are coming back smoothly. We are still invertigating

--

Nous continuons de vérifier notre backbone et nos infrastructures réseaux.
Les services reviennent graduellement. Nous continuons nos investigations.

Posted Mar 30, 2020 - 15:40 UTC