coinbse

Incident Post Mortem CoinBase

100 Views

Incident Post Mortem: 1 iunie 2020

Pe 1 iunie, Coinbase a înregistrat o întrerupere care a afectat coinbase și aplicațiile noastre mobile. Tranzacționarea prin API, care reprezintă majoritatea volumului de tranzacționare, a rămas funcțională în tot acest timp. Am descoperit rapid cauza principală și am remediat problema. Acest post oferă câteva detalii despre cele întâmplate.

În jurul orei 16:05 PDT, prețul BTC a ajuns la 10.000 USD. În legătură cu creșterea prețului, am experimentat un vârf de trafic de 5x peste 4 minute. Autoscalarea noastră nu a reușit să țină pasul cu această creștere dramatică a traficului.
Acest vârf de trafic a afectat o serie de servicii interne noastre, crescând latența între servicii. Acest lucru a dus la saturarea proceselor serverelor web responsabile pentru API-ul nostru, unde numărul de solicitări primite a fost mai mare decât numărul de procese de ascultare, ceea ce a făcut ca cererile să fie fie puse în coadă, fie să eșueze imediat, sau să eșueze imediat. Rata de eroare a cererii a crescut până la 50%, ceea ce a determinat clienții să întâmpine erori atunci când interacționează cu coinbase.com și aplicațiile noastre mobile.
Verificarea stării de sănătate este asigurată și de aceste procese saturate, care au determinat ca anumite cazuri să fie marcate ca nesănătoase și scoase din echilibrul de sarcină, agravând și mai mult această problemă.

Numărul sănătos al instanțelor (vârfurile afișează dislocări, picăturile arată instanțe marcate ca nesănătoase).
Numărul sănătos al instanțelor (vârfurile afișează dislocări, picăturile arată instanțe marcate ca nesănătoase).

În efortul de a atenua saturația, am redistribuit API-ul la 16:20 PDT pentru a crește mașinile care servesc traficului. Odată ce această implementare a fost finalizată, instanțele de implementare anterioare au fost scoase din rotație, ceea ce a dus la o întrerupere de 2 minute, din cauza unor situații care saturau și sunt marcate nesănătoase. Aceasta a fost gestionată automat de autoscalarea noastră.

Privind înainte

Ca răspuns la aceste evenimente, lucrăm la o serie de îmbunătățiri. De atunci am stabilit obiectivul de sănătate pentru a ne asigura că instanțele saturate nu vor fi scoase din rotație. Lucrăm la reducerea impactului vârfurilor de trafic legate de preț, deși pre-scalare și cache. Pe termen lung intenționăm să îmbunătățim procesul de desfășurare pentru a atenua unele dintre problemele de autoscalare pe care le-am întâmpinat.
Ne-am angajat să facem din Coinbase cel mai simplu și mai de încredere loc pentru a cumpăra, vinde și gestiona criptomoneda. Dacă sunteți interesat să lucrați la probleme provocatoare de disponibilitate și să construiți viitorul criptomonedelor.

Mai multe Articole CryptoMonede

Lasă un răspuns