S-a aflat de ce a picat Cloudflare pe 18 noiembrie; O eroare banală din sistemul anti-bot a creat haos

497 ori
<b>S-a aflat de ce a picat Cloudflare pe 18 noiembrie; O eroare banală din sistemul anti-bot a creat haos</b>După ce o bună parte din internet a fost dată peste cap marți, 18 noiembrie, Cloudflare a venit cu lămuriri oficiale despre ce s-a întâmplat. Probabil ați auzit sau chiar ați observat că ieri multe site-uri și servicii nu au fost disponibile o bună

După ce o bună parte din internet a fost dată peste cap marți, 18 noiembrie, Cloudflare a venit cu lămuriri oficiale despre ce s-a întâmplat. Probabil ați auzit sau chiar ați observat că ieri multe site-uri și servicii nu au fost disponibile o bună perioadă de timp, printre care ChatGPT, YouTube, Uber, dar și X (fostul Twitter) sau chiar site-uri românești precum PC Garage. CEO-ul Cloudflare, Matthew Prince, a recunoscut că acesta a fost cel mai grav incident din 2019 încoace și a venit cu scuze publice + explicații.

Ce s-a întâmplat?

Problema a pornit din sistemul de „Bot Management”, componenta care filtrează automat traficul. Această componentă decide rapid ce e trafic legitim și ce sunt boții cu intenții rele. Sistemul folosește un model AI ce acordă un scor fiecărei cereri de acces, pe baza unei opțiuni care se actualizează la fiecare 5 minute. Acest fișier conține parametrii tehnici extrași din trafic pentru a evalua probabilitatea ca un request să fie generat de un bot.

Totul a început cu o modificare de rutină în query-ul care generează acest fișier. Din cauza acestei schimbări, sistemul a început să dubleze informația, rezultând un fișier mult mai mare decât de obicei. Asta a declanșat un bug în sistemul Bot Management, care a început să respingă cererile legitime pentru a accesa site-urile. 

Iată ce s-a întâmplat pe 18 noiembrie:

  • Bot Management folosește AI pentru a nota traficul web;
  • AI-ul analizează un „feature file” ce se regenerează la fiecare 5 minute;
  • O schimbare de cod a dus la multiplicarea excesivă a datelor în fișier;
  • Fișierul supradimensionat a provocat crash-uri în sistemul anti-bot;
  • Traficul spre site-urile protejate de Cloudflare a început să fie respins masiv.

Downtime-ul serios a început la aproximativ 15 minute după ce modificarea a fost implementată.

Un fail tehnic intern

Inițial, cei de la Cloudflare au suspectat un atac DDoS uriaș, mai ales că până și pagina lor de status (găzduită separat) a căzut. Dar, după ce au analizat în detaliu logurile, s-a dovedit că nu era niciun hacker rău intenționat implicat.

Matthew Prince a explicat: „Problema nu a fost cauzată, nici direct, nici indirect, de un atac cibernetic sau activitate malițioasă. A fost o eroare internă”.Compania a reușit să oprească propagarea fișierului problematic și să-l înlocuiască cu o versiune anterioară, moment din care rețeaua a început să-și revină.

Serviciile Cloudflare au fost restaurate parțial în aproximativ 3 ore, iar după 5 ore, totul funcționa din nou normal. Se lucrează deja la metode de prevenire a unor incidente similare, inclusiv la sisteme care să filtreze mai eficient rapoartele de eroare ca să nu suprasolicite infrastructura.

Ce învățăm din toată treaba asta?

Incidentul arată cât de fragilă poate fi infrastructura internetului modern atunci când se bazează pe un număr mic de furnizori majori. Cloudflare protejează milioane de site-uri, deci o problemă la ei se traduce în blocaje la nivel global. Va fi interesant să urmărim, în perioada următoare, ce măsuri va implementa Cloudflare ca să nu mai repete greșeala. 

Matthew Prince promite deja schimbări serioase în felul în care sunt gestionate update-urile interne și verificarea fișierelor AI.

Acest site folosește cookies. Prin navigarea pe acest site, vă exprimați acordul asupra folosirii cookie-urilor. Citește mai mult×