Chương 54 hadoop
Hadoop là một cái khai nguyên phân bố thức tính toán hệ thống, từkhai phát.Hadoop hạch tâm bộ phận bao quátcùngchủ yếu giải quyết đại lượng số liệu tồn trữ cùng xử lý vấn đề, vì đại quy mô xử lý dữ liệu cung cấp một bộ đáng tin, hiệu suất cao, có thể mở rộng phương án giải quyết.
Hadoop chủ yếu bộ phận cùng công năng như sau:
1.
HDFS là một cái phân bố thức văn kiện hệ thống, dùng tồn trữ đại quy mô tập dữ liệu.HDFS đem số liệu chia cắt thành nhiều cái khối ( Ngầm thừa nhận 128MB), đồng thời đem những thứ này khối phân bố đến trên nhiều cái tính toán tiết điểm.HDFS có dung sai năng lực, thông qua số liệu phó bản ( Ngầm thừa nhận 3 cái phó bản ) tới bảo đảm số liệu độ tin cậy cùng có thể dùng tính chất.
1.
MapReduce là một cái lập trình mô hình, dùng tại HDFS bên trên thi hành phân bố thức tính toán nhiệm vụđem tính toán nhiệm vụ chia làm hai cái giai đoạn: Map giai đoạn cùng Reduce giai đoạn.Map giai đoạn phụ trách xử lý đưa vào số liệu, đem số liệu chia cắt thành nhiều cái khóa giá trị đối với;Reduce giai đoạn phụ trách xử lý Map giai đoạn sinh thành khóa giá trị đúng, tạo ra kết quả cuối cùngmô hình dễ dàng mở rộng, có thể tại đại quy mô tính toán tiết điểm lên điểm bố tính toán nhiệm vụ.
1.
YARN là Hadoop tài nguyên quản lý cùng điều hành hệ thống, dùng cân đối tính toán tài nguyên cùng nhiệm vụ phân phối.YARN cho phép nhiều cái xử lý dữ liệu hệ thống ( Nhưđẳng ) cùng hưởng tính toán tài nguyên, đề cao tài nguyên tỉ lệ lợi dụng cùng tụ quần mở rộng tính chất.
1.
Khác Hadoop sinh thái công cụ:
Hadoop sinh thái đã bao hàm rất nhiều khác công cụ, nhưđẳng.
Những công cụ này dùng số liệu khai quật, số liệu thương khố, số liệu dẫn vào, nhật ký thu thập và số liệu phân tích các loại nhiệm vụ, phong phú Hadoop công năng cùng ứng dụng tràng cảnh.
Hadoop thích hợp với phê xử lý nhiệm vụ, tức xử lý đại lượng trạng thái tĩnh số liệu.Hadoop bình thường cách tuyến tràng cảnh phía dưới sử dụng, lấy hoàn thành số liệu khai quật, máy móc học tập cùng thống kê phân tích các loại nhiệm vụ.
Giả thiết chúng ta có một cái cỡ lớn tập dữ liệu, bao hàm mấy trăm vạn làm được người sử dụng nhật ký số liệu.
Chúng ta hy vọng phân tích những số liệu này, để rút ra có liên quan người sử dụng hành vi cùng yêu thích kiến giải.
Tại trong cái này ví dụ, chúng ta sẽ sử dụng Hadoop tiến hành phân bố thức tính toán.
Đầu tiên, bảo đảm cài đặt Hadoop hệ thống sinh thái ( Bao quát HDFS cùngTiếp đó đem người sử dụng nhật ký trên số liệu truyền đến HDFS.
Kế tiếp, sáng tạo một cái đơn giảnnhiệm vụ đến phân tích nhật ký số liệu.
Phía dưới là một cái sử dụng Python biên soạn đơn giảnnhiệm vụ thí dụ mẫu:
"""python
import sys
# Định nghĩa Mapper loại
# Định nghĩa Reducer loại
# Chương trình xử lý chính
"""
Tại trong cái này ví dụ, chúng ta định nghĩa một cái đơn giảnnhiệm vụ, dùng tính toán mỗi cái người sử dụng thao tác số lần.Map giai đoạn đem nhật ký số liệu bên trong mỗi cái người sử dụng ID cùng thao tác loại hình chia cắt thành khóa giá trị đúng, đồng thời đưa chúng nó nhậpgiai đoạn đem tất cả vốn sẵn có tương đồng người sử dụng ID giá trị cầu hoà, lấy thu được mỗi cái người sử dụng thao tác số lần.
Kế tiếp, chúng ta đem nhiệm vụ đưa ra đến Hadoop tụ quần:
"""bash
"""
Tại trong cái này ví dụ, chúng ta sử dụngMệnh lệnh đemnhiệm vụ đưa ra đến Hadoop tụ quần.
Chúng ta chỉ định đưa vào cùng thu phát mục lục ( Phân biệt làCùngcũng sử dụngKho tới bao hàm chúng tadấu hiệu.Hadoop đem tự động phân phối tính toán nhiệm vụ đồng thời xử lý số liệu.
Cuối cùng, chúng ta có thể tại thu phát trong mục lục kết quả kiểm tra, để nghiệm chứngnhiệm vụ phải chăng theo mong muốn vận hành.
Những kết quả này có thể dùng tại tiến một bước số liệu phân tích, đáng nhìn hóa hoặc máy móc học tập nhiệm vụ.