Sự kỳ diệu của việc học tập theo nhóm

Này Habr! Chúng tôi mời các Kỹ sư dữ liệu và chuyên gia Máy học tham gia bài học Demo miễn phí “Đầu ra của mô hình ML vào môi trường công nghiệp bằng cách sử dụng ví dụ về đề xuất trực tuyến”. Chúng tôi cũng đăng bài viết Luca Monno - Trưởng phòng Phân tích Tài chính tại CDP SpA.

Một trong những phương pháp học máy đơn giản và hữu ích nhất là Ensemble Learning. Ensemble Learning là phương pháp đằng sau XGBoost, Bagging, Random Forest và nhiều thuật toán khác.

Có rất nhiều bài viết hay về Hướng tới Khoa học Dữ liệu nhưng tôi chọn hai câu chuyện (1 и 2) mà tôi thích nhất. Vậy tại sao lại viết một bài khác về EL? Bởi vì tôi muốn cho bạn thấy cách nó hoạt động với một ví dụ đơn giản, điều đó khiến tôi hiểu rằng không có phép thuật nào ở đây cả.

Khi lần đầu tiên nhìn thấy EL hoạt động (làm việc với một số mô hình hồi quy rất đơn giản), tôi đã không thể tin vào mắt mình và tôi vẫn nhớ vị giáo sư đã dạy tôi phương pháp này.

Tôi có hai mô hình khác nhau (hai thuật toán đào tạo yếu) với các số liệu ngoài mẫu R² lần lượt bằng 0,90 và 0,93. Trước khi xem kết quả, tôi nghĩ mình sẽ nhận được R² ở đâu đó giữa hai giá trị ban đầu. Nói cách khác, tôi tin rằng EL có thể được sử dụng để làm cho một mô hình hoạt động không kém bằng mô hình tệ nhất, nhưng không tốt bằng mô hình tốt nhất có thể hoạt động.

Trước sự ngạc nhiên lớn của tôi, chỉ cần lấy trung bình các dự đoán sẽ mang lại R² là 0,95. 

Lúc đầu tôi bắt đầu tìm kiếm lỗi, nhưng sau đó tôi nghĩ rằng có thể có phép thuật nào đó ẩn giấu ở đây!

Học tập theo nhóm là gì

Với EL, bạn có thể kết hợp dự đoán của hai hoặc nhiều mô hình để tạo ra một mô hình mạnh mẽ và hiệu quả hơn. Có nhiều phương pháp để làm việc với các nhóm mô hình. Ở đây tôi sẽ đề cập đến hai cái hữu ích nhất để đưa ra cái nhìn tổng quan.

Với hồi quy có thể tính trung bình hiệu suất của các mô hình có sẵn.

Với sự phân loại Bạn có thể cho người mẫu cơ hội chọn nhãn. Nhãn được chọn thường xuyên nhất là nhãn sẽ được mẫu mới chọn.

Tại sao EL hoạt động tốt hơn

Lý do chính khiến EL hoạt động tốt hơn là mọi dự đoán đều có lỗi (chúng tôi biết điều này từ lý thuyết xác suất), việc kết hợp hai dự đoán có thể giúp giảm lỗi và do đó cải thiện các chỉ số hiệu suất (RMSE, R², v.v. d.).

Sơ đồ sau đây cho thấy hai thuật toán yếu hoạt động như thế nào trên một tập dữ liệu. Thuật toán đầu tiên có độ dốc lớn hơn mức cần thiết, trong khi thuật toán thứ hai gần như bằng 0 (có thể do chính quy hóa quá mức). Nhưng toàn thể cho thấy kết quả tốt hơn nhiều. 

Nếu bạn nhìn vào chỉ báo R², thì đối với thuật toán huấn luyện thứ nhất và thứ hai, nó sẽ lần lượt bằng -0.01¹, 0.22, trong khi đối với thuật toán tổng hợp, nó sẽ bằng 0.73.

Sự kỳ diệu của việc học tập theo nhóm

Có nhiều lý do tại sao một thuật toán có thể là một mô hình tồi ngay cả trên một ví dụ cơ bản như thế này: có thể bạn đã quyết định sử dụng chính quy hóa để tránh trang bị quá mức hoặc bạn quyết định không loại trừ một số điểm bất thường hoặc có thể bạn đã sử dụng hồi quy đa thức và đã hiểu sai độ (ví dụ: chúng tôi đã sử dụng đa thức bậc hai và dữ liệu thử nghiệm cho thấy sự bất đối xứng rõ ràng mà bậc thứ ba sẽ phù hợp hơn).

Khi EL hoạt động tốt hơn

Hãy xem xét hai thuật toán học tập làm việc với cùng một dữ liệu.

Sự kỳ diệu của việc học tập theo nhóm

Ở đây bạn có thể thấy rằng việc kết hợp hai mô hình không cải thiện hiệu suất nhiều. Ban đầu, đối với hai thuật toán huấn luyện, các chỉ số R² lần lượt bằng -0,37 và 0,22, và đối với toàn bộ thuật toán, nó hóa ra là -0,04. Tức là mô hình EL nhận được giá trị trung bình của các chỉ số.

Tuy nhiên, có sự khác biệt lớn giữa hai ví dụ này: trong ví dụ đầu tiên, các sai số của mô hình có tương quan nghịch và trong ví dụ thứ hai, chúng có tương quan dương (các hệ số của ba mô hình không được ước tính mà chỉ đơn giản được chọn bởi tác giả làm ví dụ.)

Do đó, Ensemble Learning có thể được sử dụng để cải thiện sự cân bằng sai lệch/phương sai trong mọi trường hợp, nhưng khi Lỗi mô hình không có mối tương quan thuận chiều, sử dụng EL có thể cải thiện hiệu suất.

Mô hình đồng nhất và không đồng nhất

EL thường được sử dụng trên các mô hình đồng nhất (như trong ví dụ này hoặc rừng ngẫu nhiên), nhưng trên thực tế, bạn có thể kết hợp các mô hình khác nhau (hồi quy tuyến tính + mạng nơ-ron + XGBoost) với các bộ biến giải thích khác nhau. Điều này có thể sẽ dẫn đến các lỗi không tương quan và hiệu suất được cải thiện.

So sánh với đa dạng hóa danh mục đầu tư

EL hoạt động tương tự như đa dạng hóa trong lý thuyết danh mục đầu tư, nhưng càng tốt cho chúng ta. 

Khi đa dạng hóa, bạn cố gắng giảm sự khác biệt trong kết quả hoạt động của mình bằng cách đầu tư vào các cổ phiếu không tương quan. Một danh mục cổ phiếu được đa dạng hóa tốt sẽ hoạt động tốt hơn cổ phiếu tồi tệ nhất, nhưng không bao giờ tốt hơn cổ phiếu tốt nhất.

Trích lời Warren Buffett: 

“Đa dạng hóa là biện pháp bảo vệ chống lại sự thiếu hiểu biết; đối với những người không biết mình đang làm gì thì điều đó [đa dạng hóa] chẳng có ý nghĩa gì cả.”

Trong học máy, EL giúp giảm sự khác biệt trong mô hình của bạn nhưng nó có thể tạo ra một mô hình có hiệu suất tổng thể tốt hơn mô hình ban đầu tốt nhất.

Tổng hợp

Kết hợp nhiều mô hình thành một là một kỹ thuật tương đối đơn giản có thể giải quyết vấn đề sai lệch phương sai và cải thiện hiệu suất.

Nếu bạn có hai hoặc nhiều mô hình hoạt động tốt, đừng chọn giữa chúng: hãy sử dụng tất cả (nhưng hãy thận trọng)!

Quan tâm đến việc phát triển theo hướng này? Đăng ký học Demo miễn phí “Đầu ra của mô hình ML vào môi trường công nghiệp bằng cách sử dụng ví dụ về đề xuất trực tuyến” và tham gia vào cuộc gặp trực tuyến với Andrey Kuznetsov — Kỹ sư máy học tại Tập đoàn Mail.ru.

Nguồn: www.habr.com

Thêm một lời nhận xét