PostgreSQL La base de donnees la plus sophistiquee au monde.

Incident du 3 aout 2020

  • Lundi 3 aout à 20h00 : Le volume `sysdisk02` est mis en mode 'read-only'

  • Mardi 4 aout : premier signalement d'une erreur sur la plateforme via twitter

https://twitter.com/clemDBA_Qc/status/1290712848155521024

  • Vendredi 7 aout à à 8h09 : Reboot de celeste2 et activation la console d'urgence pour forcer le redémarrage manuel.
  • Vendredi 7 aout à à 8h09 : erreurs dans /var/log/syslog
Aug  7 08:09:43 celeste2 kernel: kjournald starting.  Commit interval 5 seconds                                        
Aug  7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: ext3_clear_journal_err: Filesystem error recorded from previous mount: IO failure                                                                                                  
Aug  7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: ext3_clear_journal_err: Marking fs in need of filesystem check.
Aug  7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: mounting fs with errors, running e2fsck is recommended      
Aug  7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): using internal journal                   
  • Le service PostgreSQL ne redémarre pas.
Aug  7 08:10:45 celeste2 postgresql@11-main[1120]: 2020-08-07 08:10:33.526 CEST [2478] fluxbb@fluxbb FATAL:  the database system is starting up         
  • Vendredi 7 aout à à 8h22 : Redémarrage à nouveau di serveur PostgreSQL. Les mêmes erreurs persistent.
Aug  7 08:22:02 celeste2 postgresql@11-main[16878]: 2020-08-07 08:21:57.600 CEST [16952] repli@dolibarr FATAL:  the database system is starting up                                                                                            
Aug  7 08:22:02 celeste2 postgresql@11-main[16878]: pg_ctl: server did not start in time
  • Vendredi 7 aout à 8h39 : 3eme tentative de redémarrage de PostgreSQL. Cette fois le service est rétabli
  • Vendredi 7 aout à 9h37 : rétablissement de la repli logique vers Tantor2 (ansible-playbook rebuild_logical_replication.yml)
  • Vendredi 7 aout à 10h30 : activation de fsck.mode=force dans /etc/default/grub
 
admin/post-mortem-incident-2020803.txt · Dernière modification: 2020/08/07 10:25 de daamien