Trong bài viết này tác giả chia sẻ quá trình 6 năm làm việc tại Netflix ở 2 team là Real-time Data Infrastructure và sau đó là Stream Processing Engines.
Trong khoảng thời gian này, tác giả đã cùng với các đồng nghiệp của mình đạt được những kết quả nhất định như sau:
- Phát triển số streaming data use case từ 0 lên hơn 2000.
- Xây dựng các sản phẩm như Keystone, Mantis, quản lý Kafka platform. Các sản phẩm này cung cấp các giải pháp trong nhiều khía cạnh liên quan tới data ecosystem: Bao gồm truy vết dữ liệu, phân tích, vận hành và các bài toán về ML.
- Họ cũng thành công trở thành công ty đầu tiên scale Kafka và Flink để handle 1 ngàn tỉ event mỗi ngày vào 2017 và tăng con số này lên gấp 20 lần trong năm 2021.
Tác giả chia quá trình làm việc ra thành 4 giai đoạn:
Phase 1: Rescue Netflix Logs From the Failing Batch Pipelines (2015)
Trong quá trình tăng tốc phát triển của Netflix, các quyết định kinh doanh và hoạt động phụ thuộc nhiều vào tốc độ logging dữ liệu. Vào năm 2015, các pipeline với Chukwa/Hadoop/Hive đã phải vật lộn để mở rộng quy mô.
Trong giai đoạn này, họ đã xây dựng một nền tảng streaming-first để thay thế các pipeline bị lỗi.
Vào thời điểm này Netflix có 60 triệu subscribers và đang mở rộng nhanh chóng. Netflix có khoảng 500 microservice và generating hơn 10PB data mỗi ngày trong ecosystem.
Thu thập các dữ liệu này phục vụ 2 mục đích chính cho Netflix như sau:
- Thông tin chi tiết để phân tích kinh doanh: Ví dụ tỉ lệ giữ chân người dùng, thời lượng trung bình, xu hướng, v.v…
- Thông tin chi tiết về hoạt động: Ví dụ số đo lượt xem trực tuyến mỗi giây, tình trạng của hệ thống v.v…
Giả sử chúng ta muốn biết thời gian trung bình mỗi session trên tổng số hàng trăm triệu user. Nếu lưu trữ dữ liệu trên một hệ thống row-oriented OLTP, sẽ dẫn tới việc cần phải scan qua toàn bộ table cũng như lock up database, do đó nhiều ứng dụng sẽ bị hoãn lại qua đó ảnh hưởng tới trải nghiệm người dùng.
Do đó các công việc phân tích này cần được xử lý tốt hơn qua một hệ thống OLAP, nên họ đã cần move log từ edge server đến data warehouse sử dụng OLAP system.
Chi tiết hơn về phase 1 cũng như 3 phase còn lại mời các bạn cùng đọc bài viết sau để tìm hiểu rõ hơn nhé.
(by lpv)