1. Giới thiệu về Hadoop
Hadoop bao gồm MapReduce job chia các task tổng hợp chúng và các trình nền daemon quản lý bộ nhớ, quản lý đọc ghi file, giám sát trạng thái HDFS, trong đó các daemon bao gồm: NameNode, DataNode, SecondaryNameNode, JobTracker, TaskTracker. Hadoop được thiết kế để mở rộng quy mô từ các máy chủ đơn lẻ lên hàng nghìn máy, mỗi máy đều cung cấp khả năng tính toán và lưu trữ cục bộ. Một hệ thống phân tán với các máy cài Hadoop được gọi là một Hadoop cluster và nó được ví như một hệ sinh thái có các thành phần cung cấp giải pháp cho big data.
Download Hadoop, Xử lý dữ liệu phân tán trên máy tính
Các máy trong hệ phân tán được đặt Hadoop sẽ được gọi là các node. Các node trong Hadoop chia làm 2 loại: Name node - một số tài liệu khác gọi là master node, là node tiếp nhận job và phân chia job cho các data node; Data node: một số tài liệu khác gọi là slave node, là các node nhận yêu cầu và xử lý yêu cầu từ data node. Thuật toán hiện đại được gọi là MapReduce của Google sẽ chia nhỏ các công việc (job) thành các phần nhỏ và chia cho các máy trong hệ phân tán.
2. Các đặc điểm chính của Hadoop:
- Lưu trữ và xử lý dữ liệu phân tán.
- Quản lý bộ nhớ, quản lý đọc ghi file, giám sát trạng thái HDFS.
- Có thể hoạt động trên một máy và mở rộng trên hàng ngàn máy.
- Hoạt động dựa trên một thuật toán được gọi là MapReduce.
3. App liên quan
SAS cũng là nền tảng phân tích số liệu thống kê, mang đến môi trường lập trình và ngôn ngữ thao tác dữ liệu, hoạt động với nhiều nguồn dữ liệu khác nhau, bên cạnh đó SAS còn trực quan hóa dữ liệu qua các biểu đồ và khám phá các xu hướng phát triển ẩn đằng sau các con số.