Mapreduce la gi

Big Data đang trở thành một phần thế mạnh và là tài sản to lớn của mỗi công ty, và Hadoop là công nghệ cốt lõi cho việc lưu trữ và truy cập dữ liệu lớn.

Nội dung chính Show

Hadoop là gì?
Hadoop giải quyết vấn đề gì?
Kiến trúc Hadoop là gì?
1.Hadoop Distributed File System (HDFS)
2. Hadoop MapReduce
3. Hadoop Common
4. Hadoop YARN
Hadoop hoạt động như thế nào?
Giai đoạn 1
Giai đoạn 2
Giai đoạn 3

Hadoop là gì?

Hadoop là một Apache framework mã nguồn mở cho phép phát triển các ứng dụng phân tán (distributed processing) để lưu trữ và quản lý các tập dữ liệu lớn. Hadoop hiện thực mô hình MapReduce, mô hình mà ứng dụng sẽ được chia nhỏ ra thành nhiều phân đoạn khác nhau được chạy song song trên nhiều node khác nhau. Hadoop được viết bằng Java tuy nhiên vẫn hỗ trợ C++, Python, Perl bằng cơ chế streaming.

Hadoop giải quyết vấn đề gì?

Xử lý và làm việc khối lượng dữ liệu khổng lồ tính bằng Petabyte.
Xử lý trong môi trường phân tán, dữ liệu lưu trữ ở nhiều phần cứng khác nhau, yêu cầu xử lý đồng bộ
Các lỗi xuất hiện thường xuyên.
Băng thông giữa các phần cứng vật lý chứa dữ liệu phân tán có giới hạn.

Kiến trúc Hadoop là gì?

Một cụm Hadoop nhỏ gồm 1 master node và nhiều worker/slave node. Toàn bộ cụm chứa 2 lớp, một lớp MapReduce Layer và lớp kia là HDFS Layer. Mỗi lớp có các thành phần liên quan riêng. Master node gồm JobTracker, TaskTracker, NameNode, và DataNode. Slave/worker node gồm DataNode, và TaskTracker. Cũng có thể slave/worker node chỉ là dữ liệu hoặc node để tính toán.

Hadoop framework gồm 4 module:

1.Hadoop Distributed File System (HDFS)

Đây là hệ thống file phân tán cung cấp truy cập thông lượng cao cho ứng dụng khai thác dữ liệu. Hadoop Distributed File System (HDFS) là hệ thống tập tin ảo. Khi chúng ta di chuyển 1 tập tin trên HDFS, nó tự động chia thành nhiều mảnh nhỏ. Các đoạn nhỏ của tập tin sẽ được nhân rộng và lưu trữ trên nhiều máy chủ khác để tăng sức chịu lỗi và tính sẵn sàng cao.

HDFS sử dụng kiến trúc master/slave, trong đó master gồm một NameNode để quản lý hệ thống file metadata và một hay nhiều slave DataNodes để lưu trữ dữ liệu thực tại.

Một tập tin với định dạng HDFS được chia thành nhiều khối và những khối này được lưu trữ trong một tập các DataNodes. NameNode định nghĩa ánh xạ từ các khối đến các DataNode. Các DataNode điều hành các tác vụ đọc và ghi dữ liệu lên hệ thống file. Chúng cũng quản lý việc tạo, huỷ, và nhân rộng các khối thông qua các chỉ thị từ NameNode.

26 công cụ và kỹ thuật trong Big Data có thể bạn chưa biết

Tổng hợp Cheat Sheets cho AI, Neural Networks, Machine Learning, Deep Learning và Big Data

2. Hadoop MapReduce

Đây là hệ thống dựa trên YARN dùng để xử lý song song các tập dữ liệu lớn. Là cách chia một vấn đề dữ liệu lớn hơn thành các đoạn nhỏ hơn và phân tán nó trên nhiều máy chủ. Mỗi máy chủ có 1 tập tài nguyên riêng và máy chủ xử lý dữ liệu trên cục bộ. Khi máy chủ xử lý xong dữ liệu, chúng sẽ gởi trở về máy chủ chính.

MapReduce gồm một single master (máy chủ) JobTracker và các slave (máy trạm) TaskTracker trên mỗi cluster-node. Master có nhiệm vụ quản lý tài nguyên, theo dõi quá trình tiêu thụ tài nguyên và lập lịch quản lý các tác vụ trên các máy trạm, theo dõi chúng và thực thi lại các tác vụ bị lỗi. Những máy slave TaskTracker thực thi các tác vụ được master chỉ định và cung cấp thông tin trạng thái tác vụ (task-status) để master theo dõi.

JobTracker là một điểm yếu của Hadoop Mapreduce. Nếu JobTracker bị lỗi thì mọi công việc liên quan sẽ bị ngắt quãng.

3. Hadoop Common

Đây là các thư viện và tiện ích cần thiết của Java để các module khác sử dụng. Những thư viện này cung cấp hệ thống file và lớp OS trừu tượng, đồng thời chứa các mã lệnh Java để khởi động Hadoop.

4. Hadoop YARN

Quản lý tài nguyên của các hệ thống lưu trữ dữ liệu và chạy phân tích.

Hadoop hoạt động như thế nào?

Giai đoạn 1

Một user hay một ứng dụng có thể submit một job lên Hadoop (hadoop job client) với yêu cầu xử lý cùng các thông tin cơ bản:

Nơi lưu (location) dữ liệu input, output trên hệ thống dữ liệu phân tán.
Các java class ở định dạng jar chứa các dòng lệnh thực thi các hàm map và reduce.
Các thiết lập cụ thể liên quan đến job thông qua các thông số truyền vào.

Giai đoạn 2

Hadoop job client submit job (file jar, file thực thi) và các thiết lập cho JobTracker. Sau đó, master sẽ phân phối tác vụ đến các máy slave để theo dõi và quản lý tiến trình các máy này, đồng thời cung cấp thông tin về tình trạng và chẩn đoán liên quan đến job-client.

Giai đoạn 3

TaskTrackers trên các node khác nhau thực thi tác vụ MapReduce và trả về kết quả output được lưu trong hệ thống file.

Khi “chạy Hadoop” có nghĩa là chạy một tập các trình nền – daemon, hoặc các chương trình thường trú, trên các máy chủ khác nhau trên mạng của bạn. Những trình nền có vai trò cụ thể, một số chỉ tồn tại trên một máy chủ, một số có thể tồn tại trên nhiều máy chủ.

Mapreduce la gi

Hadoop là gì?

Hadoop giải quyết vấn đề gì?

Kiến trúc Hadoop là gì?

1.Hadoop Distributed File System (HDFS)

2. Hadoop MapReduce

3. Hadoop Common

4. Hadoop YARN

Hadoop hoạt động như thế nào?

Giai đoạn 1

Giai đoạn 2

Giai đoạn 3

Bài Viết Liên Quan

MỚI CẬP NHẬP

Văn tế nghĩa sĩ cần giuộc phần 1 năm 2024

Lỗi máy in canon ip2770 in ra bi duong soc năm 2024

Hay bị tê chân là dấu hiệu của bệnh gì năm 2024

Các từ nối dùng trong văn viết tiếng anh năm 2024

Khu đô thị du lịch 3.3 là gì năm 2024

Bài tập trắc nghiệm passive voice có đáp án violet năm 2024

Đề thi đại học môn văn các năm gần đây năm 2024

Bi dau ngang chấn thủy là bị gì năm 2024

Bệnh nhân kém vận động chăm sóc như thế nào năm 2024

Lập dàn ý văn nghị luận lớp 10 năm 2024

Xem Nhiều

Thời gian trung bình quét vân tay năm 2024

Bi dau ngang chấn thủy là bị gì năm 2024

Thực chất quan hệ cung cầu là gì năm 2024

Bài văn miêu tả con mèo hay nhất năm 2024

Bệnh nhân kém vận động chăm sóc như thế nào năm 2024

Tiếng trung trong tiếng anh là gì năm 2024

Kiến thức toán lớp 4 học kỳ 1 năm 2024

Bác sĩ lợi nhi khoa lê văn thọ năm 2024

Chủ tịch clb từ thiện quốc gia phạm văn tới năm 2024

Bố bác hồ đỗ phó bảng kì thi nào năm 2024

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội