Cloudflare spiega che cosa è successo. Tutta colpa di una configurazione
Lo scorso 18 novembre (intorno a mezzogiorno secondo l'ora italiana) la rete di
Cloudflare ha registrato un'interruzione significativa che ha impedito la
corretta consegna del traffico verso numerosi siti e servizi che utilizzano la
sua infrastruttura. L'incidente è durato complessivamente circa tre ore per il
ripristino principale e fino a sera per la risoluzione definitiva di alcuni
effetti residui. Ha generato errori HTTP 5xx su scala globale e ha reso
inaccessibili piattaforme come X, ChatGPT, Spotify, Zoom, Shopify, League of
Legends e molte altre, inclusi dashboard e API di Cloudflare stessa.
Cloudflare ora ha spiegato quale sia stata la causa di tutto: essa è da
ricondurre a un file di configurazione utilizzato dal modulo Bot Management per
identificare e bloccare traffico malevolo o automatizzato. Questo file viene
generato automaticamente ogni cinque minuti tramite una query su un cluster di
database ClickHouse. Una modifica alle autorizzazioni implementata
progressivamente sul cluster per migliorare la gestione dei permessi ha portato
a un raddoppio improvviso delle dimensioni del file, che ha superato i limiti
gestibili dal software presente sulle macchine responsabili dell'instradamento
del traffico.
Articolo completo qui