Với dữ liệu được tổng hợp từ nhiều cơ sở dữ liệu, hệ thống phân tán khác nhau như Hadoop, Kafka, Twitter Eventbus, GCS, BigQuery,… Ở Twitter, mỗi ngày, các kỹ sư trong nhóm Data Platform tại đây phải vận hành hệ thống xử lý lượng dữ liệu khổng lồ lên tới 400 tỷ events, với quy mô petabyte (PB) mỗi ngày.
Để xử lý các loại dữ liệu đa dạng như vậy thì các kỹ sư tại Twitter đã xây dựng các công cụ nội bộ để có thể xử lý, tổng hợp và truy xuất dữ liệu. Tuy nhiên, với việc dữ liệu phát triển nhanh chóng, quy mô ngày càng lớn thì các kỹ sư tại đây đang phải đối mặt với những thử thách về cơ sở hạ tầng dữ liệu, độ trễ và độ chính xác khi xử lý dữ liệu.
Với cách thiết kế hệ thống xử lý dữ liệu cũ theo Lambda Architecture, nhóm Data Platform đã nhận ra được những hạn chế còn tồn đọng như là độ trễ khi xử lý dữ liệu còn cao, tính toán dữ liệu còn có sai sót, chi phí vận hành hệ thống còn cao v.v… Nhằm thay đổi điều này, hệ thống mới được thiết kế theo Kappa Architecture với việc kết hợp dùng các dịch vụ trên Google Cloud như là PubSub, Dataflow, BigTable để giải quyết các vấn đề còn tồn động. Việc này đã giúp hệ thống của nhóm Data Platform có thể xử lý hàng tỷ events trong thời gian thực, đạt được độ trễ thấp, độ chính xác cao, ổn định, đơn giản về kiến trúc và giảm chi phí vận hành cho các kỹ sư.
Bên cạnh việc nêu rõ quá trình chuyển đổi kiến trúc hệ thống, bài viết còn đem ra số liệu để chứng minh sự vượt trội của hệ thống mới so với hệ thống cũ thông qua việc đánh giá hiệu suất hệ thống và xác thực số liệu đã tính toán qua các từng giai đoạn xử lý trong hệ thống.