1. Giới thiệu về Hive
Hệ sinh thái Hadoop chứa các sub-project (tool) khác nhau như Sqoop, Pig và Hive trong đó: Sqoop được sử dụng để nhập và xuất dữ liệu đến và đi giữa HDFS và RDBMS; Pig là một nền tảng ngôn ngữ thủ tục được sử dụng để phát triển tập lệnh cho các hoạt động của MapReduce; Hive là nền tảng được sử dụng để phát triển các tập lệnh loại SQL để thực hiện các hoạt động MapReduce. Có nhiều cách khác nhau để thực hiện các hoạt động MapReduce: tiếp cận truyền thống sử dụng chương trình Java, tiếp cận dùng câu lệnh và tiếp cận bằng ngôn ngữ truy vấn.
Download Hive, Quản lý và phân tích các nguồn Big Data
Hive là một công cụ cơ sở hạ tầng kho dữ liệu để xử lý dữ liệu có cấu trúc trong Hadoop, đặc trưng của Hive là lưu trữ lược đồ trong cơ sở dữ liệu và xử lý dữ liệu vào HDFS. Hive được thiết kế cho OLAP, cung cấp ngôn ngữ kiểu SQL để truy vấn được gọi là HiveQL hoặc HQL. Các giao diện người dùng mà Hive hỗ trợ là Hive Web UI, Hive command line và Hive HD Insight, chọn các máy chủ cơ sở dữ liệu tương ứng để lưu trữ lược đồ hoặc metadata của các bảng.
2. Các đặc điểm chính của Hive:
- Xử lý dữ liệu có cấu trúc trong Hadoop.
- Lưu trữ lược đồ trong cơ sở dữ liệu và xử lý dữ liệu vào HDFS.
- Cung cấp ngôn ngữ kiểu SQL để truy vấn được gọi là HiveQL hoặc HQL.
- Dạng framework open-source tương tác với các nguồn Bid Data.
3. App liên quan
Tableau Public cũng là hệ thống phân tích dữ liệu trực quan, tương ứng với nhiều nguồn dữ liệu khác nhau, cho phép kéo thả, hiển thị dữ liệu đa dạng, đặc biệt Tableau Public hoạt động ở dạng dịch vụ Web, khả năng phân tích nhiều nguồn dữ liệu khác nhau như CSDL, File, Cloud service...