Chương 42 số liệu thanh tẩy cùng dự xử lý

Số liệu thanh tẩy cùng dự xử lý là số liệu khoa học và số liệu quá trình phân tích bên trong vô cùng trọng yếu một bước.
Nó bao quát phân biệt cùng xử lý tập dữ liệu bên trong sai lầm, thiếu hụt giá trị, dị thường giá trị cùng lặp lại số liệu các loại.


Phía dưới là một chút thường gặp số liệu thanh tẩy cùng dự xử lý trình tự:
1.


Số liệu thẩm tra: Số liệu thẩm tr.a là số liệu dự xử lý bước đầu tiên, nó đề cập tới đối số liệu tụ tập tiến hành toàn diện, tỉ mỉ kiểm tra, lấy hiểu rõ số liệu kết cấu, thiếu hụt giá trị, dị thường giá trị cùng lặp lại số liệu các loại tình huống.


Số liệu thẩm tr.a mục đích là bảo đảm tập dữ liệu chất lượng, từ đó đề cao số liệu phân tích cùng thiết lập mô hình độ chuẩn xác cùng độ tin cậy.
Phía dưới là tiến hành số liệu thẩm tr.a lúc cần chú ý một chút điểm mấu chốt:
1.


Số liệu chiều không gian: Xem xét tập dữ liệu hình dạng ( Đi đếm cùng liệt đếm ), lấy hiểu rõ tập dữ liệu quy mô cùng phức tạp độ.
2.


Số liệu loại hình: Phân biệt tập dữ liệu bên trong tất cả liệt số liệu loại hình, đủ số giá trị, phân loại, ngày chờ, để ở phía sau tục xử lý dữ liệu cùng thiết lập mô hình.
3.


available on google playdownload on app store


Thiếu hụt giá trị: Kiểm tr.a tập dữ liệu bên trong thiếu hụt giá trị, bao quát hoàn toàn thiếu hụt (NA hoặc NaN) cùng khoảng không giá trị ( Như "" Hoặc khoảng trắng ). Hiểu rõ thiếu hụt giá trị phân bố tình huống, để xác định xử lý như thế nào thiếu hụt giá trị.
4.


Dị thường giá trị: Phân biệt tập dữ liệu bên trong dị thường giá trị, bao quát cách nhóm giá trị cùng tiếng ồn.
Có thể thông qua vẽ rương tuyến đồ, tán điểm đồ chờ đáng nhìn hóa phương pháp phụ trợ phân biệt dị thường giá trị.
5.


Lặp lại số liệu: Kiểm tr.a tập dữ liệu bên trong có tồn tại hay không lặp lại ghi chép, có thể sử dụng chủ khóa hoặc khác duy nhất tiêu chí phù tiến hành sàng lọc cùng đi trọng.
6.
Số liệu cách thức: Kiểm tr.a ngày, thời gian chờ số liệu cách thức phải chăng thống nhất, để ở phía sau tục xử lý.
7.


Số liệu Phạm Vi: Xem xét số liệu giá trị nhỏ nhất, cực đại nhất cùng phân bố Phạm Vi, lấy hiểu rõ số liệu lượng cấp cùng ba động tình huống.
8.


Số liệu nhất trí tính chất: Kiểm tr.a tập dữ liệu bên trong số liệu lôgic nhất trí tính chất, tỷ như kiểm tr.a phân loại lượng biến đổi bên trong giá trị phải chăng hợp lý, phải chăng phù hợp nghiệp vụ quy tắc.
9.


Số liệu liên quan tính chất: Phân tích tập dữ liệu bên trong tất cả lượng biến đổi ở giữa liên quan tính chất, lấy hiểu rõ lượng biến đổi quan hệ trong đó. Có thể sử dụng liên quan hệ số, hiệp Phương Soa ma trận mấy người phương pháp đánh giá lượng biến đổi ở giữa liên quan tính chất.
10.


Số liệu phân thùng: Đem liên tục lượng biến đổi chia làm ly tán khu gian, để tại tiến hành sau này phân tích cùng thiết lập mô hình.
Tỷ như, đem niên linh chia làm khác biệt tuổi tác đoạn.
2.


Thiếu hụt giá trị xử lý: Thiếu hụt giá trị là chỉ tập dữ liệu bên trong một ít chữ đoạn giá trị vì khoảng không hoặc thiếu hụt tình huống.


Xử lý thiếu hụt giá trị là số liệu thanh tẩy cùng dự xử lý trọng yếu trình tự một trong, nó mục đích là bảo đảm số liệu hoàn chỉnh tính chất cùng độ chuẩn xác.
Phía dưới là một chút xử lý thiếu hụt giá trị thường dùng Phương Pháp:
1.


Xóa bỏ bao hàm thiếu hụt giá trị đi hoặc liệt:
Xóa bỏ bao hàm thiếu hụt giá trị cả đi hoặc cả liệt số liệu.
Loại phương pháp này đơn giản Dịch Hành, nhưng cũng có thể sẽ dẫn đến tin tức mất đi cùng hàng mẫu lượng giảm bớt.
2.
Cắm giá trị pháp:


Lợi dụng số liệu đã biết đoán chừng thiếu hụt giá trị. Tỷ như, đối với trị số hình số liệu, có thể sử dụng giá trị bình quân, trung vị đếm hoặc chúng đếm tiến hành cắm bổ; Đối với thời gian danh sách số liệu, có thể sử dụng tuyến tính chất cắm giá trị, dạng đầu cắm giá trị chờ Phương Pháp tiến hành cắm bổ.


3.
Căn cứ vào thống kê mô hình dự đoán:


Lợi dụng quay về, quyết sách cây, Tùy Cơ sâm lâm mấy người thống kê mô hình dự đoán thiếu hụt giá trị. Tỷ như, trở về về mô hình bên trong, có thể sử dụng khác lượng biến đổi tới dự đoán thiếu hụt giá trị. Loại phương pháp này so cắm giá trị pháp chuẩn xác hơn, nhưng cần đầy đủ huấn luyện số liệu cùng tính toán tài nguyên.


4.
Sử dụng Đặc Định lĩnh vực tri thức bổ khuyết thiếu hụt giá trị:


Dưới một ít tình huống, có thể căn cứ vào đặc biệt lĩnh vực tri thức hoặc nghiệp vụ quy tắc tới bổ khuyết thiếu hụt giá trị. Tỷ như, tại khách hàng trong kho số liệu, nếu như đã biết khách hàng tuổi tác phân bố, có thể căn cứ vào niên linh phân bố tới đoán chừng thiếu hụt tuổi tác giá trị.
5.


Thông qua số liệu dung hợp bổ khuyết thiếu hụt giá trị:


Đem nhiều cái số liệu nguyên tiến hành dung hợp, lợi dụng những số liệu khác nguyên tin tức bổ khuyết thiếu hụt giá trị. Tỷ như, tại khách hàng trong kho số liệu, có thể đem nội bộ khách hàng số liệu cùng bên ngoài số liệu ( Như xã giao truyền thông số liệu ) tiến hành dung hợp, lấy bổ khuyết thiếu hụt giá trị.
6.


Không xử lý thiếu hụt giá trị:


Tại dưới một ít tình huống, có thể giữ lại thiếu hụt giá trị, đồng thời đang xây mô hình quá trình bên trong cân nhắc thiếu hụt giá trị. Tỷ như, có thể sử dụng Tùy Cơ sâm lâm mấy người có thể xử lý thiếu hụt trị toán pháp tiến hành thiết lập mô hình.
3.


Dị thường giá trị xử lý: Dị thường giá trị là chỉ tại trong tập dữ liệu cùng với những cái khác số liệu giá trị rõ ràng khác biệt số liệu điểm.
Dị thường giá trị có thể là bởi vì số liệu đưa vào sai lầm, đo đạc sai sót hoặc khác phi điển hình tình huống đưa tới.


Xử lý dị thường giá trị là số liệu thanh tẩy cùng dự xử lý trọng yếu trình tự một trong, nó mục đích là bảo đảm số liệu độ chuẩn xác cùng độ tin cậy.
Phía dưới là một chút xử lý dị thường giá trị thường dùng Phương Pháp:
1.
Xóa bỏ dị thường giá trị:


Xóa bỏ bao hàm dị thường giá trị số liệu điểm.
Loại phương pháp này đơn giản Dịch Hành, nhưng cũng có thể sẽ dẫn đến tin tức mất đi cùng hàng mẫu lượng giảm bớt.
2.
Sửa đổi dị thường giá trị:


Căn cứ vào đặc biệt lĩnh vực tri thức hoặc nghiệp vụ quy tắc tới sửa đang dị thường giá trị. Tỷ như, tại khách hàng trong kho số liệu, nếu như phát hiện cái nào đó khách hàng tuổi tác giá trị rõ ràng dị thường, có thể căn cứ vào niên linh phân bố tiến hành sửa đổi.
3.


Sử dụng thống kê Phương Pháp phân biệt cùng sửa đổi dị thường giá trị:


Lợi dụng thống kê Phương Pháp ( NhưPhương Pháp mấy người ) tới phân biệt cùng sửa đổi dị thường giá trị. Tỷ như, có thể sử dụng Z-score Phương Pháp tính toán ra số liệu tiêu chuẩn điểm số, tiếp đó đem tiêu chuẩn điểm số lớn hơn cái nào đó quắc giá trị ( Như 3 hoặc 4) số liệu điểm coi là dị thường giá trị, cũng tiến hành sửa đổi.


4.
Sử dụng số liệu trơn nhẵn bộ kỹ thuật lý dị thường giá trị:


Lợi dụng số liệu trơn nhẵn kỹ thuật ( Như di động bình quân, chỉ số trơn nhẵn chờ ) tới trơn nhẵn dị thường giá trị. Tỷ như, có thể sử dụng di động bình quân pháp đối với thời gian danh sách số liệu tiến hành trơn nhẵn, lấy giảm bớt dị thường giá trị ảnh hưởng.
5.


Sử dụng máy móc phương pháp học tập phân biệt cùng sửa đổi dị thường giá trị:


Lợi dụng máy móc phương pháp học tập ( Như tụ loại, phân loại, quay về chờ ) tới phân biệt cùng sửa đổi dị thường giá trị. Tỷ như, có thể sử dụng tụ loại toán pháp đem số liệu chia làm nhiều cái đám, tiếp đó căn cứ vào đám bên trong số liệu giá trị trung bình, trung vị mấy cấp độ thống kê lượng tới sửa đang dị thường giá trị.


4.
Lặp lại xử lý dữ liệu: Lặp lại xử lý dữ liệu là chỉ tại trong tập dữ liệu phân biệt cùng xóa bỏ tái diễn số liệu ghi chép.
Phía dưới là một cái xử lý lặp lại số liệu thí dụ mẫu:


Giả thiết ngươi có một cái bao hàm tin tức khách hàng tập dữ liệu, trong đó bao hàm phía dưới chữ đoạn: Khách hàng ID, tính danh, địa chỉ, điện thoại cùng hòm thư. Đang tiến hành xử lý dữ liệu lúc, ngươi chú ý tới trong tập dữ liệu có thể tồn tại lặp lại ghi chép.


Xử lý lặp lại số liệu trình tự như sau:
1.
Phân biệt lặp lại ghi chép: Đầu tiên, ngươi cần xác định cái nào chữ đoạn có thể duy nhất tiêu chí mỗi cái khách hàng.


Tại trong cái này ví dụ, khách hàng ID( Giả thiết nó là một cái duy nhất tiêu chí phù ) cùng email địa chỉ ( Giả thiết mỗi cái khách hàng chỉ có một cái email địa chỉ ) có thể duy nhất tiêu chí mỗi cái khách hàng.
2.
Xóa bỏ lặp lại ghi chép: Kế tiếp, ngươi cần xóa bỏ tái diễn ghi chép.


Ngươi có thể thông qua phía dưới trình tự tới thực hiện:
a.
Đem tập dữ liệu dựa theo khách hàng ID cùng email địa chỉ tiến hành sắp xếp.
b.
Kiểm tr.a liền nhau giữa các hàng khách hàng ID cùng email địa chỉ phải chăng giống nhau.
Nếu như giống nhau, sẽ có thể cho rằng cái này hai hàng là tái diễn ghi chép.
c.


Xóa bỏ lặp lại ghi chép.
Tại số đông xử lý dữ liệu công cụ cùng kho ( Như Python Pandas kho ) bên trong, đều có nội trí công năng tới xóa bỏ lặp lại ghi chép.
Tỷ như, tại Pandas bên trong, có thể sử dụngHàm số tới xóa bỏ lặp lại ghi chép.
Thí dụ mẫu dấu hiệukho ):
"""python
# Đọc đến tập dữ liệu


# Xóa bỏ lặp lại ghi chép, theo khách hàng ID cùng email địa chỉ tiến hành sắp xếp, giữ lại thứ nhất xuất hiện ghi chép
# Bảo tồn xử lý sau tập dữ liệu
"""
Cái này thí dụ mẫu phô bày như thế nào phân biệt cùng xử lý lặp lại số liệu.


Lúc xử lý lặp lại số liệu, cần căn cứ vào vấn đề cụ thể và số liệu loại hình tới chọn thích hợp chữ đoạn tiến hành đi trọng, đồng thời, ứng cân nhắc tin tức thiệt hại cùng tính toán chi phí các loại nhân tố.
5.


Số liệu chuyển đổi: Số liệu chuyển đổi là chỉ đem số liệu từ một loại form hiển thị chuyển đổi thành một loại khác form hiển thị, để tại thêm một bước phân tích cùng thiết lập mô hình.
Phía dưới là một con số chuyển đổi thí dụ mẫu:


Giả thiết ngươi có một cái bao hàm sản phẩm tiêu thụ ghi chép tập dữ liệu, trong đó bao hàm phía dưới chữ đoạn: Đơn đặt hàng ID, sản phẩm ID, mua sắm ngày, mua sắm số lượng cùng mua sắm kim ngạch.


Đang tiến hành xử lý dữ liệu lúc, ngươi chú ý tới mua sắm ngày chữ đoạn là một cái ký tự xuyên, bao hàm ngày cùng thời gian tin tức, ngươi như muốn chuyển đổi thành ngày loại hình, để ở phía sau tục số liệu phân tích.
Xử lý số liệu chuyển đổi trình tự như sau:
1.


Dẫn vào ngày xử lý kho: Đầu tiên, ngươi cần dẫn vào một ngày xử lý kho, tỷ như Python bên trongKho.
2.
Đem ký tự xuyên chuyển đổi thành ngày loại hình: Sử dụng ngày xử lý trong kho hàm số đem mua sắm ngày chữ đoạn trung ký tự xuyên chuyển đổi thành ngày loại hình.


Tại trong cái này ví dụ, ngươi có thể sử dụngHàm số đem mua sắm ngày từ ký tự xuyên chuyển đổi thành ngày loại hình.
Thí dụ mẫu dấu hiệu
"""python
# Đọc đến tập dữ liệu
# Đem mua sắm ngày từ ký tự xuyên chuyển đổi thành ngày loại hình
# Bảo tồn xử lý sau tập dữ liệu
"""


Cái này thí dụ mẫu phô bày như thế nào đem ký tự xuyên loại hình mua sắm ngày chuyển đổi thành ngày loại hình.
6.


Số liệu chuẩn hoá cùng quy phạm hoá: Số liệu chuẩn hoá cùng quy phạm hoá là đem số liệu chuyển đổi thành vốn sẵn có tương đồng lượng cương hoặc Phạm Vi form hiển thị, để tại thêm một bước phân tích cùng thiết lập mô hình.
Phía dưới là một con số chuẩn hoá cùng quy phạm hoá thí dụ mẫu:


Giả thiết ngươi có một cái bao hàm khách hàng tín dụng chấm điểm tập dữ liệu, cho điểm Phạm Vi vì 0-1000.
Đang tiến hành xử lý dữ liệu lúc, ngươi chú ý tới cho điểm số liệu phân bố Phạm Vi rộng hơn, dẫn đến một ít phép tính tại xử lý số liệu lúc có thể chịu ảnh hưởng.


Vì giải quyết vấn đề này, ngươi có thể đối với số liệu tiến hành chuẩn hoá hoặc quy phạm hoá xử lý.
Số liệu chuẩn hoá trình tự như sau:
1.


Tính toán mỗi cái hàng mẫu z-score: Đầu tiên, ngươi cần tính toán mỗi cái hàng mẫu z-score, biểu thị hàng mẫu khoảng cách giá trị bình quân tiêu chuẩn hiệu số. Công thức vìtrong đó x vì hàng mẫu giá trị, μ Vì giá trị bình quân, o Làm tiêu chuẩn kém.
2.


Đối số liệu tiến hành chuẩn hoá: Sử dụng tính được đến z-score thay thế nguyên thủy số liệu, nhận được chuẩn hoá sau số liệu.
Số liệu quy phạm hoá trình tự như sau:
1.


Tính toán số liệu cực đại nhất cùng giá trị nhỏ nhất: Đầu tiên, ngươi cần tính toán số liệu cực đại nhất (max) cùng giá trị nhỏ nhất (min).
2.
Đối số liệu tiến hành quy phạm hoá: Sử dụng quy phạm hoá công thứcđem nguyên thủy số liệu chuyển đổi thành 0-1 phạm vi bên trong trị số.


Thí dụ mẫu dấu hiệukho ):
"""python
# Đọc đến tập dữ liệu
# Số liệu chuẩn hoá
# Số liệu quy phạm hoá
# Bảo tồn xử lý sau tập dữ liệu
"""
Cái này thí dụ mẫu phô bày như thế nào đối với tín dụng cho điểm số liệu tiến hành chuẩn hoá cùng quy phạm hoá xử lý.
7.


Tập dữ liệu thành: Tập dữ liệu thành là đem đến từ không cùng đi nguyên, cách thức cùng kết cấu số liệu chỉnh hợp đến một cái nhất trí, thống nhất số liệu kết cấu bên trong quá trình.


Tập dữ liệu thành là số liệu dự xử lý một cái trọng yếu trình tự, nó có thể giúp đề cao số liệu chất lượng, giảm bớt số liệu dư thừa rườm rà, tiêu trừ số liệu không nhất trí tính chất, từ đó vì sau này số liệu phân tích cùng thiết lập mô hình đặt vững cơ sở. Phía dưới là một con số tổng thể thí dụ mẫu:


Giả thiết ngươi có hai cái tập dữ liệu:
Tập dữ liệu A:
Khách hàng ID tính danh Niên linh Thành thị
1 Trương Tam 25 Bắc Kinh
2 Lý Tứ 30 Thượng Hải
3 Vương Ngũ 28 Quảng Châu
Tập dữ liệu B:
Khách hàng ID tính danh Giới tính Trình độ
1 Trương Tam Nam Bản khoa
2 Lý Tứ Nữ Thạc sĩ
4 triệu sáu Nam Bản khoa


Tại cái này ví dụ bên trong, hai cái tập dữ liệu đều bao hàm tin tức khách hàng, nhưng kết cấu cùng nội dung có chỗ khác biệt.
Vì tiến hành số liệu phân tích cùng thiết lập mô hình, ngươi cần đem hai cái này tập dữ liệu sát nhập làm một cái thống nhất số liệu kết cấu.


Tập dữ liệu thành trình tự như sau:
1.
Xác định sát nhập khóa: Đầu tiên, ngươi cần xác định dùng sát nhập hai cái tập dữ liệu khóa, liền có thể lấy duy nhất tiêu chí mỗi cái khách hàng chữ đoạn.
Tại cái này ví dụ bên trong, có thể sử dụng“Khách hàng ID” Xem như sát nhập khóa.
2.


Sát nhập tập dữ liệu: Sử dụng Pandas khoHàm số đem hai cái tập dữ liệu dựa theo sát nhập khóa sát nhập.
Tại cái này ví dụ bên trong, có thể sử dụng phía dưới dấu hiệu đem hai cái tập dữ liệu sát nhập làm một cái tập dữ liệu:
Thí dụ mẫu dấu hiệukho ):
"""python
# Đọc đến tập dữ liệu A


# Đọc đến tập dữ liệu B
# Sử dụng merge() hàm số sát nhập hai cái tập dữ liệu
Khách hàng ID")
# Bảo tồn sát nhập sau tập dữ liệu
"""
Cái này thí dụ mẫu phô bày như thế nào đem hai cái có khác biệt kết cấu cùng nội dung tập dữ liệu sát nhập làm một cái thống nhất số liệu kết cấu.
8.


Số liệu giảm chiều không gian: Số liệu giảm chiều không gian là đem cao duy số liệu chuyển đổi thành thấp duy số liệu quá trình, mục đích là giảm bớt số liệu chiều không gian, giảm xuống tính toán chi phí, đồng thời giữ lại số liệu mấu chốt tin tức.


Số liệu giảm chiều không gian tại máy móc học tập, số liệu khai quật các lĩnh vực có rộng rãi ứng dụng.
Phía dưới là một con số giảm chiều không gian thí dụ mẫu:


Giả thiết ngươi có một cái bao hàm khách hàng đặc thù tập dữ liệu, trong đó bao quát 100 cái đặc thù. Đang tiến hành số liệu phân tích cùng thiết lập mô hình lúc, ngươi chú ý tới số liệu chiều không gian tương đối cao, có thể dẫn đến tính toán chi phí tăng thêm cùng qua mô phỏng hợp vấn đề. Vì giải quyết vấn đề này, ngươi có thể đối với số liệu tiến hành giảm chiều không gian xử lý.


Số liệu giảm chiều không gian trình tự như sau:
1.
Lựa chọn giảm chiều không gian phương pháp: Căn cứ vào vấn đề cụ thể và số liệu loại hình, lựa chọn thích hợp giảm chiều không gian phương pháp.


Thường dùng giảm chiều không gian phương pháp bao quát chủ thành phần phân tích (PCA), tuyến tính chất phân biệt phân tích (LDA) cùng t- Phân bố lân cận vực khảm vào phép tính (t-SNE) chờ.
2.


Đối số liệu tiến hành giảm chiều không gian: Sử dụng lựa chọn giảm chiều không gian phương pháp đem cao duy số liệu chuyển đổi thành thấp duy số liệu.
Tại cái này ví dụ bên trong, chúng ta sử dụng PCA phương pháp đem 100 duy số liệu xuống tới 10 duy.
Thí dụ mẫu dấu hiệukho ):
"""python
# Đọc đến tập dữ liệu


# Đối số liệu tiến hành chuẩn hoá
# Sử dụng PCA tiến hành giảm chiều không gian
# Đem giảm chiều không gian sau số liệu cùng nguyên thủy số liệu sát nhập
# Bảo tồn giảm chiều không gian sau tập dữ liệu
"""


Cái này thí dụ mẫu phô bày như thế nào sử dụng PCA phương pháp đối với cao duy số liệu tiến hành giảm chiều không gian xử lý.
9.
Số liệu phân chia: Số liệu phân chia là chỉ đem tập dữ liệu chia làm huấn luyện tụ tập, nghiệm chứng tụ tập cùng khảo thí tụ tập 3 cái tử tụ tập quá trình.


Số liệu phân thành trợ giúp tại mô hình trong quá trình huấn luyện tiến hành hữu hiệu mô hình ước định cùng điều ưu, đề cao mô hình hiện hóa năng lực.
Phía dưới là một con số phân chia thí dụ mẫu:


Giả thiết ngươi có một cái bao hàm 1000 cái hàng mẫu tập dữ liệu, dùng huấn luyện một cái máy móc học tập mô hình.
Đang tiến hành mô hình huấn luyện cùng ước định lúc, ngươi chú ý tới cần đem tập dữ liệu chia làm huấn luyện tụ tập, nghiệm chứng tụ tập cùng khảo thí tụ tập.


Số liệu phân chia trình tự như sau:
1.


Xác định phân chia tỉ lệ: Đầu tiên, ngươi cần xác định huấn luyện tụ tập, nghiệm chứng tụ tập cùng khảo thí tụ tập phân chia tỉ lệ. Nói như vậy, huấn luyện tụ tập chiếm khá lớn tỉ lệ ( Như 70%-80%), nghiệm chứng tụ tập dùng điều chỉnh mô hình tham số ( Như 15%-20%), khảo thí tụ tập dùng ước định mô hình tính năng ( Như 10%-15%). Tại cái này ví dụ bên trong, chúng ta sử dụng 70% huấn luyện tụ tập, 15% nghiệm chứng tụ tập cùng 15% khảo thí tụ tập.


2.
Phân chia tập dữ liệu: Đem tập dữ liệu ngẫu nhiên chia làm vóc dáng tụ tập.
Tại cái này ví dụ bên trong, chúng ta sử dụng Python Hàm số tiến hành phân chia.
Thí dụ mẫu dấu hiệukho ):
"""python
# Đọc đến tập dữ liệu


# Đem tập dữ liệu chia làm huấn luyện tụ tập, nghiệm chứng tụ tập cùng khảo thí tụ tập
# Thu phát phân chia sau tập dữ liệu lớn nhỏ
"""
Cái này thí dụ mẫu phô bày như thế nào sử dụngHàm số đem tập dữ liệu chia làm huấn luyện tụ tập, nghiệm chứng tụ tập cùng khảo thí tụ tập.


Tại hoàn thành số liệu dự xử lý sau, có thể tiến hành phía dưới trình tự tới tiến hành số liệu phân tích cùng thiết lập mô hình:
1.


Đặc thù công trình: Đặc thù công trình là chỉ từ nguyên thủy số liệu bên trong rút ra, tạo dựng cùng lựa chọn hữu dụng đặc thù quá trình, để tại đề cao mô hình tính năng cùng hiện hóa năng lực.


Đặc thù công trình là máy móc học tập cùng chiều sâu học tập hạng mục bên trong mấu chốt trình tự một trong.
Phía dưới là một cái đặc thù công trình thí dụ mẫu:
Giả thiết ngươi có một cái bao hàm phòng ốc tin tức tập dữ liệu, dùng dự đoán giá phòng.


Đang tiến hành mô hình huấn luyện cùng ước định lúc, ngươi chú ý tới nguyên thủy số liệu bên trong đặc thù có thể không đủ để cung cấp đầy đủ tin tức tới tạo dựng một cái cao tính năng mô hình.
Đặc thù công trình trình tự như sau:
1.


Đặc thù rút ra: Từ nguyên thủy số liệu bên trong rút ra hữu dụng đặc thù. Tại cái này ví dụ bên trong, chúng ta rút ra nhà diện tích, phòng ngủ số lượng, phòng tắm số lượng, tầng lầu, kiến trúc niên đại các đặc thù.
2.


Đặc thù tạo dựng: Căn cứ vào nguyên thủy đặc thù tạo dựng mới đặc thù. Tại cái này ví dụ bên trong, chúng ta có thể tạo dựng một cái mới đặc thù“Mỗi m² giá cả”, biểu thị phòng ốc đơn giá.
3.


Đặc thù lựa chọn: Từ tất cả đặc thù bên trong tuyển chọn đối với mô hình dự đoán hiệu quả tốt nhất đặc thù tử tụ tập.
Tại cái này ví dụ bên trong, chúng ta có thể sử dụng liên quan tính chất phân tích, tin tức tăng thêm chờ phương pháp sàng lọc đặc thù.
Thí dụ mẫu dấu hiệukho ):


"""python
# Đọc đến tập dữ liệu
# Đặc thù rút ra
# Đặc thù lựa chọn
# Lựa chọn liên quan tính chất khá cao đặc thù
# Bảo tồn đặc thù công trình sau tập dữ liệu
"""


Cái này thí dụ mẫu phô bày như thế nào tiến hành đặc thù công trình, bao quát đặc thù rút ra, đặc thù tạo dựng cùng đặc thù lựa chọn.
3.


Số liệu phân tích: Đối với dự xử lý sau số liệu tiến hành miêu tả tính chất thống kê phân tích, lấy thu hoạch số liệu cơ bản tình hình chung cùng đặc thù. Cái này có trợ giúp hiểu rõ số liệu phân bố, dị thường điểm, liên quan tính chất chờ tin tức.
4.


Thiết lập mô hình: Căn cứ vào vấn đề loại hình và số liệu đặc điểm, lựa chọn thích hợp máy móc học tập phép tính hoặc thống kê mô hình, như tuyến tính chất quay về, quyết sách cây, ủng hộ vectơ cơ, mạng lưới thần kinh chờ.
5.


Mô hình huấn luyện: Sử dụng dự xử lý sau số liệu đối với mô hình tiến hành huấn luyện, điều chỉnh mô hình tham số lấy ưu hóa tính năng.
6.
Mô hình ước định: Sử dụng nghiệm chứng tụ tập đối với mô hình tiến hành ước định, lấy hiểu rõ mô hình tại mới trên số liệu biểu hiện.


Có thể sử dụng đủ loại ước định chỉ tiêu, như xác suất trúng, độ chính xác, triệu hồi tỷ lệ, F1 điểm số chờ.
7.
Mô hình ưu hóa: Căn cứ vào mô hình ước định kết quả, đối với mô hình tiến hành ưu hóa, như điều chỉnh tham số, tăng thêm đặc thù, giảm bớt đặc thù chờ.
8.


Mô hình ứng dụng: Đem huấn luyện tốt mô hình ứng dụng tại vấn đề thực tế, như dự đoán, phân loại, tụ các loại.
9.
Kết quả giảng giải cùng lộ ra: Đối với mô hình dự đoán kết quả tiến hành giảng giải cùng đáng nhìn hóa, để tại hướng nhân viên tương quan bày ra cùng phân tích.


Xin chú ý, những bước này cũng không phải cố định, căn cứ vào vấn đề cụ thể cùng nhu cầu, có thể thích hợp điều chỉnh.


Đang tiến hành số liệu phân tích cùng thiết lập mô hình lúc, ứng từ đầu tới cuối duy trì đối số liệu mẫn cảm tính chất, chú ý số liệu chất lượng và kết quả phân tích độ tin cậy.






Truyện liên quan