การเลือกคุณสมบัติในการเรียนรู้ของเครื่อง

เฮ้ ฮับ!

พวกเราที่ Reksoft แปลบทความเป็นภาษารัสเซีย การเลือกคุณสมบัติในการเรียนรู้ของเครื่อง. เราหวังว่าจะเป็นประโยชน์กับทุกคนที่สนใจหัวข้อนี้

ในโลกแห่งความเป็นจริง ข้อมูลไม่ได้สะอาดเท่าที่ลูกค้าธุรกิจคิดเสมอไป นี่คือสาเหตุที่การทำเหมืองข้อมูลและการถกเถียงข้อมูลเป็นที่ต้องการ ช่วยระบุค่าและรูปแบบที่หายไปในข้อมูลที่มีโครงสร้างการสืบค้นที่มนุษย์ไม่สามารถระบุได้ เพื่อที่จะค้นหาและใช้รูปแบบเหล่านี้เพื่อทำนายผลลัพธ์โดยใช้ความสัมพันธ์ที่ค้นพบในข้อมูล การเรียนรู้ของเครื่องจึงมีประโยชน์

เพื่อทำความเข้าใจอัลกอริธึมใดๆ คุณต้องดูตัวแปรทั้งหมดในข้อมูลและหาว่าตัวแปรเหล่านั้นเป็นตัวแทนอะไร นี่เป็นสิ่งสำคัญเนื่องจากเหตุผลที่อยู่เบื้องหลังผลลัพธ์นั้นขึ้นอยู่กับการทำความเข้าใจข้อมูล หากข้อมูลมีตัวแปร 5 หรือ 50 ตัว คุณสามารถตรวจสอบตัวแปรทั้งหมดได้ แล้วถ้ามี 200 อันล่ะ? แล้วจะไม่มีเวลาเพียงพอที่จะศึกษาตัวแปรทุกตัว นอกจากนี้ อัลกอริธึมบางตัวใช้ไม่ได้กับข้อมูลที่เป็นหมวดหมู่ จากนั้นคุณจะต้องแปลงคอลัมน์หมวดหมู่ทั้งหมดให้เป็นตัวแปรเชิงปริมาณ (อาจดูเป็นเชิงปริมาณ แต่หน่วยเมตริกจะแสดงว่าเป็นคอลัมน์แบบหมวดหมู่) เพื่อเพิ่มลงในโมเดล ดังนั้นจำนวนตัวแปรจึงเพิ่มขึ้นและมีประมาณ 500 ตัว จะทำอย่างไรตอนนี้? บางคนอาจคิดว่าคำตอบคือการลดมิติลง อัลกอริธึมการลดขนาดจะลดจำนวนพารามิเตอร์ แต่ส่งผลเสียต่อความสามารถในการตีความ จะเกิดอะไรขึ้นถ้ามีเทคนิคอื่น ๆ ที่จะกำจัดฟีเจอร์ต่าง ๆ ในขณะที่ทำให้ส่วนที่เหลือเข้าใจและตีความได้ง่าย?

อัลกอริธึมการเลือกคุณสมบัติอาจแตกต่างกันขึ้นอยู่กับว่าการวิเคราะห์นั้นขึ้นอยู่กับการถดถอยหรือการจำแนกประเภท แต่แนวคิดหลักของการใช้งานยังคงเหมือนเดิม

ตัวแปรที่มีความสัมพันธ์กันสูง

ตัวแปรที่มีความสัมพันธ์กันสูงจะให้ข้อมูลเดียวกันกับโมเดล ดังนั้นจึงไม่จำเป็นต้องใช้ตัวแปรทั้งหมดเพื่อการวิเคราะห์ ตัวอย่างเช่น หากชุดข้อมูลมีคุณลักษณะ "เวลาออนไลน์" และ "ปริมาณการใช้ข้อมูล" เราสามารถสรุปได้ว่าคุณลักษณะเหล่านี้จะมีความสัมพันธ์กันบ้าง และเราจะเห็นความสัมพันธ์ที่แข็งแกร่งแม้ว่าเราจะเลือกตัวอย่างข้อมูลที่เป็นกลางก็ตาม ในกรณีนี้ จำเป็นต้องมีตัวแปรเพียงตัวเดียวในโมเดล หากคุณใช้ทั้งสองอย่าง โมเดลจะถูกติดตั้งมากเกินไปและมีอคติต่อคุณลักษณะเฉพาะอย่างใดอย่างหนึ่ง

ค่า P

ในอัลกอริทึม เช่น การถดถอยเชิงเส้น แบบจำลองทางสถิติเริ่มต้นถือเป็นความคิดที่ดีเสมอ ช่วยแสดงความสำคัญของฟีเจอร์ต่างๆ ผ่านค่า p ที่ได้รับจากโมเดลนี้ หลังจากตั้งค่าระดับนัยสำคัญแล้ว เราจะตรวจสอบค่า p ที่เป็นผลลัพธ์ และหากค่าใด ๆ ต่ำกว่าระดับนัยสำคัญที่ระบุ คุณลักษณะนี้จะได้รับการประกาศว่ามีนัยสำคัญ กล่าวคือ การเปลี่ยนแปลงในค่าของมันมีแนวโน้มที่จะนำไปสู่การเปลี่ยนแปลงในค่าของ เป้าหมาย.

การคัดเลือกโดยตรง

การเลือกไปข้างหน้าเป็นเทคนิคที่เกี่ยวข้องกับการใช้การถดถอยแบบขั้นตอน การสร้างโมเดลเริ่มต้นด้วยศูนย์ที่สมบูรณ์ นั่นคือ โมเดลว่าง จากนั้นการวนซ้ำแต่ละครั้งจะเพิ่มตัวแปรที่ทำให้เกิดการปรับปรุงโมเดลที่กำลังสร้าง ตัวแปรใดที่ถูกเพิ่มเข้าไปในโมเดลจะถูกกำหนดตามความสำคัญของตัวแปรนั้น ซึ่งสามารถคำนวณได้โดยใช้เมตริกต่างๆ วิธีที่พบบ่อยที่สุดคือการใช้ค่า p ที่ได้รับในแบบจำลองทางสถิติดั้งเดิมโดยใช้ตัวแปรทั้งหมด บางครั้งการเลือกไปข้างหน้าอาจนำไปสู่การโอเวอร์ฟิตโมเดลได้ เนื่องจากอาจมีตัวแปรที่มีความสัมพันธ์กันสูงในโมเดล แม้ว่าตัวแปรจะให้ข้อมูลเดียวกันกับโมเดลก็ตาม (แต่โมเดลยังคงแสดงการปรับปรุง)

การเลือกแบบย้อนกลับ

การเลือกแบบย้อนกลับยังเกี่ยวข้องกับการกำจัดคุณลักษณะทีละขั้นตอน แต่ไปในทิศทางตรงกันข้ามเมื่อเปรียบเทียบกับการเลือกแบบไปข้างหน้า ในกรณีนี้ โมเดลเริ่มต้นจะรวมตัวแปรอิสระทั้งหมดไว้ด้วย จากนั้นตัวแปรจะถูกตัดออก (หนึ่งรายการต่อการวนซ้ำ) หากตัวแปรเหล่านั้นไม่สนับสนุนค่าให้กับโมเดลการถดถอยใหม่ในการวนซ้ำแต่ละครั้ง การยกเว้นคุณสมบัติจะขึ้นอยู่กับค่า p ของโมเดลเริ่มต้น วิธีนี้ยังมีความไม่แน่นอนเมื่อลบตัวแปรที่มีความสัมพันธ์สูงออก

การกำจัดคุณสมบัติแบบเรียกซ้ำ

RFE เป็นเทคนิค/อัลกอริธึมที่ใช้กันอย่างแพร่หลายในการเลือกคุณสมบัติที่สำคัญจำนวนที่แน่นอน บางครั้งวิธีการนี้ใช้เพื่ออธิบายคุณลักษณะ "ที่สำคัญที่สุด" หลายประการที่มีอิทธิพลต่อผลลัพธ์ และบางครั้งเพื่อลดตัวแปรจำนวนมาก (ประมาณ 200-400) และมีเพียงตัวแปรที่สนับสนุนโมเดลอย่างน้อยบางส่วนเท่านั้นที่จะยังคงอยู่ และตัวแปรอื่นๆ ทั้งหมดจะถูกแยกออก RFE ใช้ระบบการจัดอันดับ คุณลักษณะในชุดข้อมูลได้รับการกำหนดอันดับ อันดับเหล่านี้จะถูกใช้เพื่อกำจัดคุณสมบัติแบบวนซ้ำโดยพิจารณาจากความสอดคล้องระหว่างคุณสมบัติเหล่านั้นและความสำคัญของคุณสมบัติเหล่านั้นในแบบจำลอง นอกเหนือจากการจัดอันดับคุณสมบัติแล้ว RFE ยังสามารถแสดงว่าคุณสมบัติเหล่านี้มีความสำคัญหรือไม่แม้แต่สำหรับคุณสมบัติจำนวนหนึ่งที่กำหนด (เนื่องจากมีความเป็นไปได้มากที่จำนวนคุณสมบัติที่เลือกอาจไม่เหมาะสมที่สุด และจำนวนคุณสมบัติที่เหมาะสมที่สุดอาจมีมากกว่านั้น หรือน้อยกว่าจำนวนที่เลือก)

แผนภาพความสำคัญของคุณลักษณะ

เมื่อพูดถึงความสามารถในการตีความของอัลกอริธึมการเรียนรู้ของเครื่อง เรามักจะพูดถึงการถดถอยเชิงเส้น (ซึ่งช่วยให้คุณวิเคราะห์ความสำคัญของคุณลักษณะโดยใช้ค่า p) และแผนผังการตัดสินใจ (แสดงความสำคัญของคุณลักษณะในรูปแบบของแผนผังตามตัวอักษร และที่ ในเวลาเดียวกันกับลำดับชั้นของพวกเขา) ในทางกลับกัน อัลกอริธึมเช่น Random Forest, LightGBM และ XG Boost มักจะใช้แผนภาพความสำคัญของคุณลักษณะ ซึ่งก็คือ แผนภาพของตัวแปรและ "หมายเลขความสำคัญ" ที่ถูกพล็อต สิ่งนี้มีประโยชน์อย่างยิ่งเมื่อคุณต้องการระบุเหตุผลที่มีโครงสร้างสำหรับความสำคัญของคุณลักษณะในแง่ของผลกระทบต่อธุรกิจ

การทำให้เป็นมาตรฐาน

การทำให้เป็นมาตรฐานเสร็จสิ้นเพื่อควบคุมความสมดุลระหว่างอคติและความแปรปรวน อคติแสดงให้เห็นว่าโมเดลมีการติดตั้งมากเกินไปกับชุดข้อมูลการฝึก ค่าเบี่ยงเบนแสดงให้เห็นว่าการคาดการณ์ระหว่างชุดข้อมูลการฝึกและชุดทดสอบแตกต่างกันอย่างไร ตามหลักการแล้ว ทั้งอคติและความแปรปรวนควรมีขนาดเล็ก นี่คือจุดที่การทำให้เป็นมาตรฐานมาช่วยเหลือ! มีสองเทคนิคหลัก:

การทำให้เป็นมาตรฐาน L1 - Lasso: Lasso จะลงโทษน้ำหนักของโมเดลเพื่อเปลี่ยนความสำคัญของโมเดลและอาจทำให้น้ำหนักเป็นโมฆะได้ (เช่น ลบตัวแปรเหล่านั้นออกจากโมเดลสุดท้าย) โดยทั่วไป Lasso จะใช้เมื่อชุดข้อมูลมีตัวแปรจำนวนมาก และคุณต้องการแยกตัวแปรบางส่วนออกเพื่อให้เข้าใจได้ดีขึ้นว่าคุณลักษณะที่สำคัญส่งผลต่อโมเดลอย่างไร (นั่นคือ คุณลักษณะเหล่านั้นที่ Lasso เลือกและได้รับการกำหนดความสำคัญ)

การทำให้เป็นมาตรฐาน L2 - วิธี Ridge: งานของ Ridge คือการจัดเก็บตัวแปรทั้งหมดและในขณะเดียวกันก็ให้ความสำคัญกับตัวแปรเหล่านั้นตามการมีส่วนร่วมในประสิทธิภาพของแบบจำลอง Ridge จะเป็นตัวเลือกที่ดีหากชุดข้อมูลมีตัวแปรจำนวนน้อย และตัวแปรทั้งหมดจำเป็นในการตีความผลการวิจัยและผลลัพธ์ที่ได้รับ

เนื่องจาก Ridge เก็บตัวแปรทั้งหมดไว้ และ Lasso ก็ทำงานได้ดีขึ้นในการกำหนดความสำคัญของตัวแปรเหล่านั้น อัลกอริธึมจึงได้รับการพัฒนาที่รวมเอาคุณสมบัติที่ดีที่สุดของการปรับมาตรฐานทั้งสองแบบที่เรียกว่า Elastic-Net

มีหลายวิธีในการเลือกคุณลักษณะสำหรับการเรียนรู้ของเครื่อง แต่แนวคิดหลักจะเหมือนกันเสมอ นั่นคือแสดงให้เห็นถึงความสำคัญของตัวแปร จากนั้นจึงกำจัดบางส่วนออกตามความสำคัญที่เกิดขึ้น ความสำคัญเป็นคำที่เป็นอัตวิสัย เนื่องจากไม่ได้เป็นเพียงคำเดียว แต่เป็นชุดเมตริกและแผนภูมิทั้งชุดที่สามารถใช้เพื่อค้นหาคุณลักษณะที่สำคัญได้

ขอบคุณสำหรับการอ่าน! มีความสุขในการเรียนรู้!

ที่มา: will.com

เพิ่มความคิดเห็น