1. Giới thiệu chung về Apache SAMOA
Big Data hay dữ liệu lớn được xác định là tập dữ liệu có kích thước vượt quá khả năng thu thập, lưu trữ, quản lý và phân tích của các công cụ phần mềm thông thường do sự phức tạp về thời gian và bộ nhớ. Vận tốc là một trong những thuộc tính chính của dữ liệu lớn. Apache Samoa cung cấp một bộ sưu tập các thuật toán dòng dữ liệu phân tán cho các tác vụ khai phá dữ liệu và học máy phổ biến nhất như phân loại, phân cụm và hồi quy để phát triển các thuật toán mới.
Download Apache SAMOA - Nền tảng mã nguồn mở để khai thác các luồng dữ liệu
Nó cung cấp một kiến trúc Pluggable Database, cho phép nó chạy trên nhiều công cụ xử lý phân tán các tập dữ liệu lớn như Apache Flink, Apache Storm, Apache Samza và Apache Apex. Về mặt tinh thần, SAMOA tương tự như Apache Mahout, nhưng được thiết kế cụ thể để khai phá dòng dữ liệu. Là một người dùng, bạn có thể chạy các thuật toán trên nhiều công cụ xử lý luồng dữ liệu. Là một nhà phát triển, bạn có thể tạo ra các thuật toán mới một lần và kiểm tra chúng trong tất cả các công cụ xử lý luồng dữ liệu phân tán đó.
2. Apache SAMOA dành cho những đối tượng nào?
- Người dùng Platform, những người sử dụng các thuật toán ML có sẵn mà không cần triển khai các thuật toán mới.
- Nhà phát triển ML, những người phát triển thuật toán ML mới trên Apache Samoa và muốn tách biệt khỏi những thay đổi trong SPE cơ bản.
- Nhà phát triển Platform, những người mở rộng Apache Samoa để tích hợp nhiều DSPE hơn vào Apache Samoa.
3. Phần mềm liên quan
Apache Spark khung xử lý Big Data mã nguồn mở được xây dựng dựa trên tốc độ, sự đơn giản và khả năng xử lý không giới hạn, bên cạnh đó Apache Spark còn có thực hiện các hoạt động phân tích dựa trên thời gian thực, cho kết quả ngay tức thì.