====== Incident du 3 aout 2020 ======

  * Lundi 3 aout à 20h00 : Le volume `sysdisk02` est mis en mode 'read-only'

{{:admin:20200804_incident_sysdisk02.png?400|}}

  * Mardi 4 aout : premier signalement d'une erreur sur la plateforme via twitter
    https://twitter.com/clemDBA_Qc/status/1290712848155521024

  * Vendredi 7 aout à à 8h09 : Reboot de celeste2 et activation la console d'urgence pour forcer le redémarrage manuel. 

  * Vendredi 7 aout à à 8h09 : erreurs dans /var/log/syslog

<code>
Aug  7 08:09:43 celeste2 kernel: kjournald starting.  Commit interval 5 seconds                                        
Aug  7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: ext3_clear_journal_err: Filesystem error recorded from previous mount: IO failure                                                                                                  
Aug  7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: ext3_clear_journal_err: Marking fs in need of filesystem check.
Aug  7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: mounting fs with errors, running e2fsck is recommended      
Aug  7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): using internal journal                   
</code>

  *    Le service PostgreSQL ne redémarre pas.

<code>
Aug  7 08:10:45 celeste2 postgresql@11-main[1120]: 2020-08-07 08:10:33.526 CEST [2478] fluxbb@fluxbb FATAL:  the database system is starting up         
</code>

   * Vendredi 7 aout à à 8h22 : Redémarrage à nouveau di serveur PostgreSQL. Les mêmes erreurs persistent.

<code>
Aug  7 08:22:02 celeste2 postgresql@11-main[16878]: 2020-08-07 08:21:57.600 CEST [16952] repli@dolibarr FATAL:  the database system is starting up                                                                                            
Aug  7 08:22:02 celeste2 postgresql@11-main[16878]: pg_ctl: server did not start in time
</code>

  * Vendredi 7 aout à 8h39 : 3eme tentative de redémarrage de PostgreSQL. Cette fois le service est rétabli
   
  * Vendredi 7 aout à 9h37 : rétablissement de la repli logique vers Tantor2 (ansible-playbook rebuild_logical_replication.yml)   

  * Vendredi 7 aout à 10h30 : activation de fsck.mode=force dans /etc/default/grub