OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
backbone
Incident Report for Network & Infrastructure
Resolved
Nous avons eu un incident au niveau BGP sur le backbone qui a concerné plusieurs des routeurs principaux du backbone d'OVH entre 5:30 et 6:00. Tout est actuellement revenu à la normale. Nous recherchons l'origine du problème.

Update(s):

Date: 2010-07-12 05:49:55 UTC
En tout Ovh a été isolé d'Internet 2 fois ce matin
30 minutes (Jul 12 05:31:54 / Jul 12 06:01:31)
et
25 minutes (Jul 12 06:45:13 / Jul 12 07:10:40)

Date: 2010-07-12 05:48:29 UTC
Le serveur qui gere le regroupement des alertes de scans
a saturé l'espace disque sur l'une des partitions.
/dev/md0 71679728 71679728 0 100% /home.2
On regarde pourquoi il y a eu d'un coup autant d'informations
enregistrées.

Les scripts qui font la mise en place des access-list
sur les routeurs ont été prevu pour gerer ce cas de
figure
7380 + Jul 12 05:02:11 root ( 1) antiscan /home/antiscan/check2router.pl
7381 N + Jul 12 05:02:18 root ( 1) antiscan /home/antiscan/check2router.pl
7382 N + Jul 12 05:02:25 root ( 1) antiscan /home/antiscan/check2router.pl
7383 N + Jul 12 05:02:32 root ( 1) antiscan /home/antiscan/check2router.pl
7384 N + Jul 12 05:02:39 root ( 1) antiscan /home/antiscan/check2router.pl

probleme d ecriture /home/antiscan//access-list/access-list-ovh.1278903731
probleme d ecriture /home/antiscan//access-list/access-list-route.1278903738
probleme d ecriture /home/antiscan//access-list/access-list-route.1278903745

Le probleme est qu'une autre script a repris les informations qui ont été
partiellement écrites et a fait les \"diff\" et a modifié les access-list
sur les routeurs. Nous avons en plus de protection avec de \"permit ip any any\"
qui n'ont visiblement pas été ajoutés automatiquement dans les output
sur les routeurs.

La consequence est qu'Ovh s'est isolé du reseau Internet à
Jul 12 05:31:54

Le systeme a corrigé les access-list à
Jul 12 06:01:31
de sort qu'Ovh était à nouveau accessible de l'Internet.

Là nous avons regardé l'origine du probleme mais nous n'avons
pas eu assez de temps pour le fixer ... car

A
Jul 12 06:45:13
le systeme a isolé Ovh à nouveau d'Internet.

Nous avons dû venir au bureau pour se connecter au reseau
d'interieur pour enlever les access-list de 4 principaux
routeurs à Paris.

A
Jul 12 07:10:40
la situation a été fixé.

Puis
Jul 12 07:15:43
les access-list ont été completés sur les autres routeurs
de sort que ça refonctionne sur toute la backbone.

La situation est stabilisée. On est en train de regarder
les logs pour comprendre l'ordre de choses puis corriger
les scripts avec ce type de problemes.

Date: 2010-07-12 05:20:33 UTC
Le systeme antiscan est à l'origine du probleme.
Posted Jul 12, 2010 - 04:16 UTC