État du nuage EGroupware

Rapports de dysfonctionnement

Les services Cloud et Mail d’EGroupware sont opérationnels

Favicon-EGroupware
navbar-email_64

Incidents passés

Services cloud EGroupware FRA & KA : 2021 20 octobre 8.45h (CEST) :

Les services EGroupware Cloud, Rocket.Chat et Mail sont à nouveau pleinement disponibles.
Les autres nœuds de la base de données seront synchronisés après le travail aujourd’hui.

Services cloud EGroupware FRA & KA : 2021 20 octobre 8.30h (CEST) :

Deux nœuds de base de données sont disponibles et le troisième est en cours de synchronisation. EGroupware Mail et Rocket.Chat sont à nouveau en ligne. EGroupware Cloud prendra environ 15 minutes pour être opérationnel.

Services cloud EGroupware FRA & KA : 2021 20 octobre :

Panne des services cloud d’EGroupware aux premières heures du matin. Problème dans le cluster de la base de données : plus aucun accès en écriture ne peut être exécuté. Les bases de données sont en train d’être arrêtées, puis redémarrées. La deuxième et la troisième base de données doivent se joindre à la première, ce qui peut prendre jusqu’à 30 minutes chacune.

Les services d’EGroupware Cloud et de messagerie devraient être à nouveau disponibles à 9 heures (CEST).

 

Services cloud EGroupware FRA & KA : 2021 29 septembre 11.30 (CEST) :

Cluster EGroupware : nouvelle défaillance d’un nœud de base de données. Nous devons arrêter temporairement les systèmes pour revenir à un fonctionnement normal avec au moins 3 nœuds de base de données. Les services sont à nouveau entièrement disponibles à partir de 12 h 10 (CEST).

Services cloud EGroupware FRA & KA : 2021 29 septembre 08.30 (CEST) :

EGroupware Cloud est opérationnel sur deux notes de cluster de base de données, le reste sera synchronisé dans la soirée.

Services cloud EGroupware FRA & KA : 2021 29 septembre :

Panne des services EGroupware Cloud pendant la nuit. Problème dans le cluster de la base de données : plus aucun accès en écriture ne peut être exécuté. Les bases de données sont en train d’être arrêtées, puis redémarrées. La deuxième base de données doit se joindre à la première, ce qui peut prendre jusqu’à 20 minutes. EGroupware Cloud sera donc hors ligne jusqu’à 08:00h (CEST).

La panne peut également affecter les services de courrier.

Services de messagerie électronique EGroupware : 2021 6 juillet :

Scrub (vérification du système de fichiers) est en cours d’exécution pour vérifier tout en détail. Cela prendra quand même quelques jours. Jusqu’à ce qu’il soit terminé, nous avons déplacé la moitié des instances à Karlsruhe pour ne pas ralentir la vérification du système de fichiers.

Les boîtes aux lettres concernées ont été restaurées depuis KA et fonctionnent à nouveau correctement dans FRA.

Services de messagerie électronique EGroupware : 2021 5 juillet 10.30 (CEST)

Le système de stockage du centre de données de Francfort présente des erreurs de somme de contrôle et les boîtes aux lettres ne sont pas disponibles.

  • Ouverture d’un ticket auprès du fournisseur de services du centre de données IONOS et attente de la réponse.
  • Le backend de la messagerie à Francfort a été temporairement désactivé, afin que la redondance puisse prendre le relais. Les services de messagerie fonctionnent désormais tous dans le centre de données de Karlsruhe.

Vos données sont sauvegardées, mais les performances seront un peu plus lentes jusqu’à ce que Francfort puisse être remis en service.

Nous vous informerons ici dès que nous aurons des nouvelles à ce sujet.

Fenêtre de maintenance d’EGroupware Cloud : 2021 2 juin de 20h à 21h30 (CEST)

Notre hypothèse sur le problème d’hier est qu’une « demande cassée » d’un client sur un seul domaine, fait que « Traefik » répond à plus que ce client pendant un certain temps avec une « 500 Internal Server Error ».

Nous allons réactiver « Traefik » ce soir et essayer de trouver quelle requête, quel domaine et quelle IP sont à l’origine du problème.

Le problème a été identifié avec une forte probabilité et tout a été remis en état de fonctionnement normal.

Erreur de serveur interne à Francfort : 01.06.2021 21:00 – 23.59 hrs

Il y a eu un problème dans la zone de disponibilité d’EGroupware Cloud à Francfort à partir de 21 heures environ, de sorte que le message « 500 Internal Server Error » est apparu à plusieurs reprises. La zone de disponibilité de Karlsruhe n’a pas été affectée par le problème ou seulement pendant une courte période après que nous ayons tout basculé sur Karlsruhe comme solution de contournement. Des investigations plus poussées suggèrent qu’il n’y a AUCUN lien direct avec la mise à jour vers 21.1, mais plutôt un problème avec « Traefik » en tant que proxy / contrôleur Ingress de Kubenetes, qui n’entre en jeu que dans des conditions très spécifiques.

Dans un premier temps, nous avons mis à jour la version de « Traefik », ce qui a permis de réduire le problème mais pas de l’éliminer. Une recherche dans les « Github Forums of Traefik » a donné une description d’erreur similaire dans le post suivant. Afin d’être en mesure de fournir un nuage EGroupware utilisable de manière significative aujourd’hui, nous avons supprimé « Traefik » et nous parlons directement à Nginx, de sorte qu’il n’y avait plus de « Internal Server Errors ».

Défaillance de tous les services d’EGroupware et de courrier : 06.04.2021 : 17.45 – 19.20 CEST

IONOS a causé un problème de réseau, d’où l’interruption des services EGroupware et Mail.
Les collègues travaillent aussi rapidement que possible pour nettoyer et rétablir les connexions.

06.04.2021 : 18.30h Le réseau IONOS est de nouveau opérationnel, mais il faudra un certain temps avant que EGroupware et Mail ne soient à nouveau disponibles.

06.04.2021 : 19.20h Les nœuds de Karlsruhe et ensuite de Francfort sont à nouveau disponibles, donc tous les services EGroupware et Mail fonctionnent.

PANNE DE SERVICE EGROUPWARE NODE KARLSRUHE & FRANKFURT 24.08.2020 15.40 (CEST)

Panne de service du nœud EGroupware de Karlsruhe et Francfort 24.08.2020 15.40 (CEST)

Nous sommes en train de déterminer où se situe le problème.
Actuellement, les deux nœuds semblent être affectés.
Seule l’analyse montre un problème de connexion sur les loadbalancers,
donc il n’y a pas de connexion de l’extérieur.

18 heures (CEST) : Tous les systèmes (y compris le cluster de base de données). ont été fermées.
Le premier nœud de la base de données a été redémarré avec succès.
Actuellement, le deuxième nœud de base de données démarre et se synchronise avec le premier.
Dès que cela sera terminé, nous redémarrerons également les systèmes restants.

18.30h (CEST) : EGroupware et les services de messagerie sont à nouveau opérationnels.