Ngày 18 tháng 11 năm 2021 là một ngày bình thường như bao ngày khác tại Dropbox. Tuy nhiên một điều đặc biệt đã xảy ra vào ngày hôm đó. Vào khoảng 5h chiều, một nhóm kỹ sư đã rút phích cắm vật lý tại Data Center San Jose, qua đó ngắt kết nối Data center với phần còn lại của Dropbox network.
Trong một thế giới mà thiên tai ngày càng phổ biến, điều quan trọng là chúng ta cần phải xem xét các tác động tiềm tàng của những sự kiện như vậy đối với Data center. Từ quan điểm sẵn sàng với thiên tai, điều này có nghĩa là đảm bảo Dropbox không chỉ đo lường rủi ro, mà còn thực hiện các chiến lược để giảm thiểu rủi ro đó.
Sau khi thực hiện migrate từ AWS vào 2015, Dropbox đã tập trung nhiều data tại San Jose. Mặc dù metadata được replicate qua nhiều datacenter tại các vùng khác nhau, nhưng thực tế San Jose vẫn là nơi mà hầu hết các dịch vụ bắt nguồn và trưởng thành. Do San Jose nằm gần đứt gãy San Andreas, điều quan trọng là cần đảm bảo được ngay cả khi một trận động đất xảy ra cũng sẽ không làm cho Dropbox “offline”.
Một thông số quan trọng để đảm bảo với khách hàng sự chuẩn bị sẵn sàng với các sự cố, là Recovery Time Objective (RTO). RTO đo lường khoảng thời gian mà hệ thống cần để phục hồi sau một sự kiện thảm khốc. Trong nhiều năm, Dropbox đã làm việc liên tục để giảm RTO để chuẩn bị cho các thảm họa tiềm ẩn, bao gồm cả động đất.
Với nhóm Disaster Readiness (DR) dẫn đầu, đỉnh điểm chính là việc rút phích cắm theo đúng nghĩa đen tại Data center San Jose, Dropbox đã có thể giảm RTO của mình hơn một bậc.
Và đây là câu chuyện về cách họ đã làm điều đó như thế nào, mời các bạn cùng đọc.
(by lpv)