====== Incident du 3 aout 2020 ====== * Lundi 3 aout à 20h00 : Le volume `sysdisk02` est mis en mode 'read-only' {{:admin:20200804_incident_sysdisk02.png?400|}} * Mardi 4 aout : premier signalement d'une erreur sur la plateforme via twitter https://twitter.com/clemDBA_Qc/status/1290712848155521024 * Vendredi 7 aout à à 8h09 : Reboot de celeste2 et activation la console d'urgence pour forcer le redémarrage manuel. * Vendredi 7 aout à à 8h09 : erreurs dans /var/log/syslog Aug 7 08:09:43 celeste2 kernel: kjournald starting. Commit interval 5 seconds Aug 7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: ext3_clear_journal_err: Filesystem error recorded from previous mount: IO failure Aug 7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: ext3_clear_journal_err: Marking fs in need of filesystem check. Aug 7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: mounting fs with errors, running e2fsck is recommended Aug 7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): using internal journal * Le service PostgreSQL ne redémarre pas. Aug 7 08:10:45 celeste2 postgresql@11-main[1120]: 2020-08-07 08:10:33.526 CEST [2478] fluxbb@fluxbb FATAL: the database system is starting up * Vendredi 7 aout à à 8h22 : Redémarrage à nouveau di serveur PostgreSQL. Les mêmes erreurs persistent. Aug 7 08:22:02 celeste2 postgresql@11-main[16878]: 2020-08-07 08:21:57.600 CEST [16952] repli@dolibarr FATAL: the database system is starting up Aug 7 08:22:02 celeste2 postgresql@11-main[16878]: pg_ctl: server did not start in time * Vendredi 7 aout à 8h39 : 3eme tentative de redémarrage de PostgreSQL. Cette fois le service est rétabli * Vendredi 7 aout à 9h37 : rétablissement de la repli logique vers Tantor2 (ansible-playbook rebuild_logical_replication.yml) * Vendredi 7 aout à 10h30 : activation de fsck.mode=force dans /etc/default/grub