ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

เพิ่งเปิดตัว บทความซึ่งแสดงให้เห็นแนวโน้มที่ดีของการเรียนรู้ของเครื่องในช่วงไม่กี่ปีที่ผ่านมา กล่าวโดยสรุป: จำนวนสตาร์ทอัพด้าน Machine Learning ลดลงในช่วงสองปีที่ผ่านมา

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?
ดี. มาดูกันว่า "ฟองสบู่จะแตกหรือไม่" "จะมีชีวิตอยู่ต่อไปได้อย่างไร" และพูดคุยเกี่ยวกับที่มาของปัญหานี้ตั้งแต่แรก

ก่อนอื่น เรามาพูดถึงสิ่งที่เป็นผู้สนับสนุนของเส้นโค้งนี้ เธอมาจากไหน? พวกเขาคงจะจำทุกอย่างได้ ชัยชนะ การเรียนรู้ของเครื่องในปี 2012 ในการแข่งขัน ImageNet ท้ายที่สุดแล้ว นี่คืองานระดับโลกครั้งแรก! แต่ในความเป็นจริงแล้วไม่เป็นเช่นนั้น และการเติบโตของเส้นโค้งจะเริ่มเร็วขึ้นเล็กน้อย ผมจะแบ่งเป็นหลายจุดครับ

  1. ปี 2008 คำว่า “ข้อมูลขนาดใหญ่” เกิดขึ้น สินค้าจริงเริ่มแล้ว ปรากฏ ตั้งแต่ปี 2010 ข้อมูลขนาดใหญ่เกี่ยวข้องโดยตรงกับการเรียนรู้ของเครื่อง หากไม่มีข้อมูลขนาดใหญ่ การดำเนินการที่เสถียรของอัลกอริธึมที่มีอยู่ในขณะนั้นก็เป็นไปไม่ได้ และสิ่งเหล่านี้ไม่ใช่โครงข่ายประสาทเทียม จนถึงปี 2012 โครงข่ายประสาทเทียมได้รับการอนุรักษ์ไว้สำหรับชนกลุ่มน้อย แต่แล้วอัลกอริธึมที่แตกต่างไปจากเดิมอย่างสิ้นเชิงก็เริ่มทำงานซึ่งมีมานานหลายปีหรือหลายสิบปี: เอส.วี.เอ็ม(พ.ศ. 1963,1993) ป่าสุ่ม (1995) เอด้าบูสต์ (2003),... สตาร์ทอัพในช่วงหลายปีที่ผ่านมาเกี่ยวข้องกับการประมวลผลข้อมูลที่มีโครงสร้างโดยอัตโนมัติ: เครื่องบันทึกเงินสด ผู้ใช้ การโฆษณา และอื่นๆ อีกมากมาย

    อนุพันธ์ของคลื่นลูกแรกนี้คือชุดของเฟรมเวิร์ก เช่น XGBoost, CatBoost, LightGBM เป็นต้น

  2. ในปี 2011-2012 โครงข่ายประสาทเทียมแบบหมุนวน ชนะการแข่งขันการรู้จำภาพหลายครั้ง การใช้งานจริงของพวกเขาค่อนข้างล่าช้า ฉันจะบอกว่าสตาร์ทอัพและโซลูชั่นที่มีความหมายอย่างมหาศาลเริ่มปรากฏในปี 2014 ต้องใช้เวลาสองปีในการแยกแยะว่าเซลล์ประสาทยังคงทำงานอยู่ เพื่อสร้างเฟรมเวิร์กที่สะดวกซึ่งสามารถติดตั้งและเปิดใช้งานได้ในเวลาที่เหมาะสม เพื่อพัฒนาวิธีการที่จะทำให้เสถียรและเร่งเวลาการบรรจบกัน

    เครือข่ายแบบ Convolutional ทำให้สามารถแก้ไขปัญหาการมองเห็นของคอมพิวเตอร์ได้: การจำแนกภาพและวัตถุในภาพ การตรวจจับวัตถุ การจดจำวัตถุและบุคคล การปรับปรุงภาพ ฯลฯ

  3. 2015-2017. ความเจริญของอัลกอริธึมและโปรเจ็กต์บนเครือข่ายที่เกิดซ้ำหรือแอนะล็อก (LSTM, GRU, TransformerNet ฯลฯ) อัลกอริธึมคำพูดเป็นข้อความและระบบการแปลด้วยเครื่องที่ใช้งานได้ดีได้ปรากฏขึ้นแล้ว ส่วนหนึ่งขึ้นอยู่กับเครือข่ายแบบหมุนวนเพื่อแยกคุณสมบัติพื้นฐาน ส่วนหนึ่งเนื่องมาจากการที่เราเรียนรู้ที่จะรวบรวมชุดข้อมูลขนาดใหญ่และดีจริงๆ

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

“ฟองสบู่แตกแล้วเหรอ? กระแสเกินกระแสหรือเปล่า? พวกเขาตายเหมือนบล็อคเชนหรือเปล่า?”
มิฉะนั้น! พรุ่งนี้ Siri จะหยุดทำงานบนโทรศัพท์ของคุณ และวันมะรืนนี้ Tesla จะไม่ทราบความแตกต่างระหว่างเทิร์นกับจิงโจ้

โครงข่ายประสาทเทียมกำลังทำงานอยู่แล้ว พวกมันอยู่ในอุปกรณ์หลายสิบเครื่อง พวกเขาช่วยให้คุณสร้างรายได้ เปลี่ยนแปลงตลาดและโลกรอบตัวคุณได้จริงๆ Hype ดูแตกต่างออกไปเล็กน้อย:

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

เพียงแต่โครงข่ายประสาทเทียมไม่ใช่สิ่งใหม่อีกต่อไป ใช่ หลายคนคาดหวังไว้สูง แต่บริษัทจำนวนมากได้เรียนรู้ที่จะใช้เซลล์ประสาทและสร้างผลิตภัณฑ์จากเซลล์ประสาทเหล่านี้ Neurons มีฟังก์ชันการทำงานใหม่ ช่วยให้คุณสามารถลดงาน และลดราคาบริการ:

  • บริษัทผู้ผลิตกำลังบูรณาการอัลกอริทึมเพื่อวิเคราะห์ข้อบกพร่องในสายการผลิต
  • ฟาร์มปศุสัตว์ซื้อระบบควบคุมวัว
  • รวมอัตโนมัติ
  • ศูนย์บริการอัตโนมัติ
  • ตัวกรองใน SnapChat (อย่างน้อยก็มีประโยชน์!)

แต่สิ่งสำคัญและไม่ชัดเจนที่สุด: “ไม่มีแนวคิดใหม่อีกต่อไป ไม่เช่นนั้นจะไม่นำเงินทุนมาทันที” โครงข่ายประสาทเทียมได้แก้ไขปัญหามากมาย และพวกเขาจะตัดสินใจมากยิ่งขึ้น ความคิดที่ชัดเจนทั้งหมดที่มีอยู่ทำให้เกิดสตาร์ทอัพมากมาย แต่ทุกสิ่งที่อยู่บนพื้นผิวได้ถูกรวบรวมไปแล้ว ในช่วงสองปีที่ผ่านมา ฉันไม่พบแนวคิดใหม่เกี่ยวกับการใช้โครงข่ายประสาทเทียมเลย ไม่ใช่แนวทางใหม่เดียว (เอาล่ะ มีปัญหาเล็กน้อยกับ GAN)

และการเริ่มต้นครั้งต่อไปแต่ละครั้งก็มีความซับซ้อนมากขึ้นเรื่อยๆ ไม่จำเป็นต้องมีผู้ชายสองคนที่ฝึกเซลล์ประสาทโดยใช้ข้อมูลแบบเปิดอีกต่อไป มันต้องการโปรแกรมเมอร์ เซิร์ฟเวอร์ ทีมมาร์กเกอร์ การสนับสนุนที่ซับซ้อน ฯลฯ

ส่งผลให้มีสตาร์ทอัพน้อยลง แต่มีการผลิตเพิ่มมากขึ้น ต้องเพิ่มการจดจำป้ายทะเบียนหรือไม่? มีผู้เชี่ยวชาญหลายร้อยคนที่มีประสบการณ์ที่เกี่ยวข้องในตลาด คุณสามารถจ้างใครสักคนได้ และภายในสองสามเดือน พนักงานของคุณจะสร้างระบบขึ้นมา หรือซื้อแบบสำเร็จรูป แต่จะทำสตาร์ทอัพใหม่เหรอ.. บ้าไปแล้ว!

คุณต้องสร้างระบบติดตามผู้เยี่ยมชม - ทำไมต้องจ่ายค่าลิขสิทธิ์จำนวนมาก ในเมื่อคุณสามารถสร้างเองได้ภายใน 3-4 เดือน เพิ่มความคมชัดให้กับธุรกิจของคุณ

ขณะนี้โครงข่ายประสาทเทียมกำลังดำเนินไปในเส้นทางเดียวกันกับที่เทคโนโลยีอื่น ๆ มากมายเคยประสบมา

คุณจำได้ไหมว่าแนวคิดของ “นักพัฒนาเว็บไซต์” เปลี่ยนไปอย่างไรตั้งแต่ปี 1995 ตลาดยังไม่อิ่มตัวกับผู้เชี่ยวชาญ มีผู้เชี่ยวชาญน้อยมาก แต่ฉันเดิมพันได้ว่าภายใน 5-10 ปีจะไม่มีความแตกต่างกันมากนักระหว่างโปรแกรมเมอร์ Java และนักพัฒนาโครงข่ายประสาทเทียม ผู้เชี่ยวชาญทั้งสองคนในตลาดจะมีเพียงพอ

จะมีปัญหาประเภทหนึ่งที่เซลล์ประสาทสามารถแก้ไขได้ มีงานเกิดขึ้น - จ้างผู้เชี่ยวชาญ

"อะไรต่อไป? ปัญญาประดิษฐ์ที่สัญญาไว้อยู่ที่ไหน”

แต่ที่นี่มีความเข้าใจผิดเล็กน้อยแต่น่าสนใจ :)

เห็นได้ชัดว่ากลุ่มเทคโนโลยีที่มีอยู่ในปัจจุบันจะไม่นำเราไปสู่ปัญญาประดิษฐ์ ความคิดและความแปลกใหม่ทำให้ตัวเองหมดแรงไปมาก เรามาพูดถึงสิ่งที่ถือเป็นระดับการพัฒนาในปัจจุบัน

ข้อ จำกัด

เริ่มต้นด้วยรถยนต์ที่ขับเคลื่อนด้วยตนเอง ดูเหมือนชัดเจนว่าเป็นไปได้ที่จะสร้างรถยนต์ไร้คนขับด้วยเทคโนโลยีในปัจจุบัน แต่สิ่งนี้จะเกิดขึ้นในอีกกี่ปีก็ไม่ชัดเจน Tesla เชื่อว่าสิ่งนี้จะเกิดขึ้นในอีกไม่กี่ปีข้างหน้า -


มีอีกหลายคน ผู้เชี่ยวชาญซึ่งก็ประมาณว่าน่าจะสัก 5-10 ปี

ในความคิดของฉัน เป็นไปได้มากว่าในอีก 15 ปีข้างหน้าโครงสร้างพื้นฐานของเมืองจะเปลี่ยนไปในลักษณะที่การเกิดขึ้นของรถยนต์ไร้คนขับจะหลีกเลี่ยงไม่ได้และจะกลายเป็นความต่อเนื่องของมัน แต่นี่ไม่สามารถถือเป็นความฉลาดได้ Modern Tesla เป็นขั้นตอนที่ซับซ้อนมากสำหรับการกรองข้อมูล การค้นหา และการฝึกอบรมใหม่ สิ่งเหล่านี้คือกฎ-กฎ-กฎ การรวบรวมข้อมูลและตัวกรอง (ที่นี่ ที่นี่ ฉันเขียนเพิ่มเติมเล็กน้อยเกี่ยวกับเรื่องนี้หรือดูจาก นี้ เครื่องหมาย)

ปัญหาแรก

และนี่คือจุดที่เราเห็น ปัญหาพื้นฐานประการแรก. ข้อมูลใหญ่. นี่คือสิ่งที่ทำให้เกิดคลื่นลูกปัจจุบันของโครงข่ายประสาทเทียมและการเรียนรู้ของเครื่อง ทุกวันนี้ การทำสิ่งที่ซับซ้อนและเป็นอัตโนมัติ คุณต้องมีข้อมูลจำนวนมาก ไม่ใช่แค่มากแต่มากมาก เราต้องการอัลกอริธึมอัตโนมัติสำหรับการรวบรวม การทำเครื่องหมาย และการใช้งาน เราต้องการทำให้รถมองเห็นรถบรรทุกหันหน้าไปทางดวงอาทิตย์ - เราต้องรวบรวมให้ได้จำนวนที่เพียงพอก่อน เราต้องการให้รถไม่บ้าไปกับจักรยานที่ยึดไว้กับท้ายรถ - ตัวอย่างเพิ่มเติม

ยิ่งกว่านั้นตัวอย่างเดียวยังไม่เพียงพอ หลายร้อย? หลายพัน?

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

ปัญหาที่สอง

ปัญหาที่สอง — การแสดงภาพสิ่งที่โครงข่ายประสาทเทียมของเราเข้าใจ นี่เป็นงานที่ไม่สำคัญมาก จนถึงขณะนี้ มีเพียงไม่กี่คนที่เข้าใจวิธีแสดงภาพสิ่งนี้ บทความเหล่านี้เป็นบทความล่าสุด นี่เป็นเพียงตัวอย่างเล็กๆ น้อยๆ แม้ว่าจะอยู่ห่างไกลก็ตาม:
การแสดง ความหลงใหลในพื้นผิว มันแสดงให้เห็นได้ดีว่าเซลล์ประสาทมีแนวโน้มที่จะจับจ้องไปที่อะไร + สิ่งที่รับรู้ว่าเป็นข้อมูลเริ่มต้น

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?
การแสดง ความสนใจที่ การแปล. ในความเป็นจริง การดึงดูดมักจะถูกนำมาใช้อย่างแม่นยำเพื่อแสดงสิ่งที่ทำให้เกิดปฏิกิริยาของเครือข่ายดังกล่าว ฉันเคยเห็นสิ่งเหล่านี้ทั้งในการดีบักและโซลูชันผลิตภัณฑ์ มีบทความมากมายในหัวข้อนี้ แต่ยิ่งข้อมูลซับซ้อนมากเท่าไร การทำความเข้าใจวิธีสร้างภาพข้อมูลที่มีประสิทธิภาพก็จะยิ่งยากขึ้นเท่านั้น

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

ใช่แล้ว ชุดเก่าที่ดีของ "ดูสิว่ามีอะไรอยู่ข้างในตาข่าย" ตัวกรอง" ภาพเหล่านี้ดังเมื่อ 3-4 ปีที่แล้ว แต่ทุกคนก็ตระหนักได้อย่างรวดเร็วว่าภาพเหล่านี้สวยงาม แต่ก็ไม่ได้มีความหมายมากนัก

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

ฉันไม่ได้พูดถึงอุปกรณ์ วิธีการ แฮ็ก การวิจัยเกี่ยวกับวิธีการแสดงภายในเครือข่ายอื่นๆ อีกมากมาย เครื่องมือเหล่านี้ใช้งานได้หรือไม่? พวกเขาช่วยให้คุณเข้าใจได้อย่างรวดเร็วว่าปัญหาคืออะไรและแก้ไขข้อบกพร่องของเครือข่ายหรือไม่.. รับเปอร์เซ็นต์สุดท้ายหรือไม่ มันก็ประมาณเดียวกัน:

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

คุณสามารถรับชมการแข่งขันใด ๆ บน Kaggle และคำอธิบายว่าผู้คนตัดสินใจขั้นสุดท้ายอย่างไร เราซ้อนโมเดลได้ 100-500-800 หน่วยและมันก็ได้ผล!

แน่นอนว่าฉันพูดเกินจริง แต่แนวทางเหล่านี้ไม่ได้ให้คำตอบที่รวดเร็วและตรงไปตรงมา

การมีประสบการณ์เพียงพอ การพิจารณาตัวเลือกต่างๆ ทำให้คุณตัดสินได้ว่าเหตุใดระบบของคุณจึงตัดสินใจเช่นนั้น แต่จะแก้ไขพฤติกรรมของระบบได้ยาก ติดตั้งไม้ยันรักแร้ ย้ายเกณฑ์ เพิ่มชุดข้อมูล ยึดเครือข่ายแบ็กเอนด์อื่น

ปัญหาที่สาม

ปัญหาพื้นฐานที่สาม — กริดสอนสถิติ ไม่ใช่ตรรกะ ตามสถิตินี้. คน:

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

ในทางตรรกะมันไม่คล้ายกันมาก โครงข่ายประสาทเทียมไม่ได้เรียนรู้อะไรที่ซับซ้อนเว้นแต่จะถูกบังคับให้ทำ พวกเขาสอนสัญญาณที่ง่ายที่สุดเท่าที่จะเป็นไปได้เสมอ คุณมีตา จมูก มีหัวไหม? นี่แหละหน้าตา! หรือยกตัวอย่างที่ดวงตาไม่ได้หมายถึงใบหน้า และอีกครั้ง - ตัวอย่างนับล้าน

มีห้องมากมายที่ด้านล่าง

ฉันจะบอกว่าปัญหาระดับโลกทั้งสามนี้เองที่จำกัดการพัฒนาโครงข่ายประสาทเทียมและการเรียนรู้ของเครื่อง และในกรณีที่ปัญหาเหล่านี้ไม่ได้จำกัดอยู่ ก็มีการใช้งานอยู่แล้ว

นี่คือจุดจบ? โครงข่ายประสาทเทียมขึ้นหรือไม่?

ไม่ทราบ แต่แน่นอนว่าทุกคนไม่หวัง

มีแนวทางและแนวทางมากมายในการแก้ไขปัญหาพื้นฐานที่ผมได้เน้นไว้ข้างต้น แต่จนถึงขณะนี้ ยังไม่มีแนวทางใดที่ทำให้สามารถทำสิ่งใหม่โดยพื้นฐานได้ เพื่อแก้ไขสิ่งที่ยังไม่ได้รับการแก้ไข จนถึงตอนนี้ โครงการพื้นฐานทั้งหมดกำลังดำเนินการบนพื้นฐานของแนวทางที่มั่นคง (Tesla) หรือยังคงเป็นโครงการทดสอบของสถาบันหรือองค์กร (Google Brain, OpenAI)

โดยคร่าวแล้ว ทิศทางหลักคือการสร้างการแสดงข้อมูลอินพุตในระดับสูง ในความหมายหนึ่งคือ “ความทรงจำ” ตัวอย่างหน่วยความจำที่ง่ายที่สุดคือ "การฝัง" ต่างๆ - การแสดงรูปภาพ ยกตัวอย่างระบบจดจำใบหน้าทั้งหมด เครือข่ายเรียนรู้ที่จะได้รับการนำเสนอที่มั่นคงจากใบหน้าซึ่งไม่ได้ขึ้นอยู่กับการหมุน แสง หรือความละเอียด โดยพื้นฐานแล้ว เครือข่ายจะลดการวัด "ใบหน้าที่ต่างกันอยู่ไกล" และ "ใบหน้าที่เหมือนกันอยู่ใกล้"

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

สำหรับการฝึกอบรมดังกล่าว จำเป็นต้องมีตัวอย่างนับหมื่นตัวอย่าง แต่ผลลัพธ์ที่ได้นั้นมีพื้นฐานบางประการของ "การเรียนรู้แบบครั้งเดียว" ตอนนี้เราไม่ต้องการใบหน้านับร้อยเพื่อจดจำบุคคล แค่หน้าเดียวก็จบแล้วเรา มาหาคำตอบกันดีกว่า!
มีปัญหาอยู่ข้อหนึ่ง... ตารางสามารถเรียนรู้ได้เฉพาะวัตถุที่ค่อนข้างง่ายเท่านั้น เมื่อพยายามแยกแยะไม่ใช่ใบหน้า แต่ยกตัวอย่าง "ผู้คนตามเสื้อผ้า" (ภารกิจ การระบุตัวตนอีกครั้ง) - คุณภาพลดลงหลายขนาด และเครือข่ายไม่สามารถเรียนรู้การเปลี่ยนแปลงมุมที่ค่อนข้างชัดเจนได้อีกต่อไป

และการเรียนรู้จากตัวอย่างนับล้านก็เป็นเรื่องสนุกเช่นกัน

มีงานลดการเลือกตั้งอย่างมีนัยสำคัญ ตัวอย่างเช่น เราสามารถจำผลงานชิ้นแรกๆ ได้ทันที การเรียนรู้แบบ OneShot จาก Google:

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

มีงานดังกล่าวมากมายเช่น 1 หรือ 2 หรือ 3.

มีข้อเสียเพียงข้อเดียว - โดยปกติแล้วการฝึกอบรมจะใช้ได้ดีกับตัวอย่างง่ายๆ “MNIST” และเมื่อก้าวไปสู่งานที่ซับซ้อน คุณต้องมีฐานข้อมูลขนาดใหญ่ แบบจำลองของวัตถุ หรือเวทมนตร์บางอย่าง
โดยทั่วไปแล้ว การทำงานเกี่ยวกับการฝึกอบรม One-Shot ถือเป็นหัวข้อที่น่าสนใจมาก คุณพบความคิดมากมาย แต่โดยส่วนใหญ่แล้ว ปัญหาทั้งสองที่ฉันระบุไว้ (การฝึกล่วงหน้ากับชุดข้อมูลขนาดใหญ่ / ความไม่เสถียรของข้อมูลที่ซับซ้อน) จะรบกวนการเรียนรู้อย่างมาก

ในทางกลับกัน GANs—เครือข่ายปฏิปักษ์ทั่วไป—เข้าใกล้หัวข้อของการฝัง คุณอาจเคยอ่านบทความเกี่ยวกับHabréในหัวข้อนี้มาบ้างแล้ว (1, 2,3)
คุณลักษณะของ GAN คือการก่อตัวของพื้นที่สถานะภายในบางส่วน (โดยพื้นฐานแล้วคือการฝังแบบเดียวกัน) ซึ่งช่วยให้คุณสามารถวาดภาพได้ มันสามารถเป็นได้ ใบหน้า, เป็นไปได้ กิจกรรม.

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

ปัญหาของ GAN ก็คือ ยิ่งวัตถุที่สร้างขึ้นมีความซับซ้อนมากเท่าไร การอธิบายวัตถุนั้นในตรรกะ "เครื่องกำเนิดไฟฟ้า-แยกแยะ" ก็ยิ่งยากขึ้นเท่านั้น เป็นผลให้แอปพลิเคชันจริงของ GAN เพียงอย่างเดียวที่ได้ยินคือ DeepFake ซึ่งจัดการการแสดงใบหน้าอีกครั้ง (ซึ่งมีฐานขนาดใหญ่)

ฉันได้เห็นการใช้งานที่มีประโยชน์อื่น ๆ น้อยมาก โดยปกติแล้วกลอุบายบางอย่างที่เกี่ยวข้องกับการวาดภาพให้เสร็จ

และอีกครั้ง. ไม่มีใครรู้ว่าสิ่งนี้จะทำให้เราก้าวไปสู่อนาคตที่สดใสได้อย่างไร การแสดงตรรกะ/พื้นที่ในโครงข่ายประสาทเทียมเป็นสิ่งที่ดี แต่เราต้องการตัวอย่างจำนวนมาก เราไม่เข้าใจว่าเซลล์ประสาทเป็นตัวแทนสิ่งนี้ในตัวเองได้อย่างไร เราไม่เข้าใจว่าจะทำให้เซลล์ประสาทจดจำแนวคิดที่ซับซ้อนจริงๆ ได้อย่างไร

เสริมการเรียนรู้ - นี่เป็นแนวทางจากทิศทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิง คุณคงจำได้ว่า Google เอาชนะทุกคนใน Go ได้อย่างไร ชัยชนะล่าสุดใน Starcraft และ Dota แต่ที่นี่ทุกอย่างยังห่างไกลจากความสดใสและมีแนวโน้ม เขาพูดได้ดีที่สุดเกี่ยวกับ RL และความซับซ้อนของมัน บทความนี้.

สรุปสิ่งที่ผู้เขียนเขียนโดยย่อ:

  • โมเดลที่แกะกล่องไม่พอดี/ทำงานได้ไม่ดีในกรณีส่วนใหญ่
  • ปัญหาเชิงปฏิบัติจะแก้ไขได้ง่ายกว่าด้วยวิธีอื่น Boston Dynamics ไม่ได้ใช้ RL เนื่องจากมีความซับซ้อน/คาดเดาไม่ได้/ซับซ้อนในการคำนวณ
  • เพื่อให้ RL ทำงานได้ คุณต้องมีฟังก์ชันที่ซับซ้อน มักจะเป็นเรื่องยากที่จะสร้าง/เขียน
  • ยากที่จะฝึกโมเดล คุณต้องใช้เวลามากในการเพิ่มประสิทธิภาพและออกจาก Optima ในพื้นที่
  • เป็นผลให้เป็นการยากที่จะทำซ้ำโมเดล โมเดลไม่เสถียรโดยมีการเปลี่ยนแปลงเพียงเล็กน้อย
  • มักจะเหมาะกับรูปแบบปีกซ้ายบางประเภท ไปจนถึงเครื่องกำเนิดตัวเลขสุ่ม

ประเด็นสำคัญคือ RL ยังใช้งานไม่ได้ในการผลิต Google มีการทดลองบางอย่าง ( 1, 2 ). แต่ฉันไม่เห็นระบบผลิตภัณฑ์เดียว

หน่วยความจำ. ข้อเสียของทุกสิ่งที่อธิบายไว้ข้างต้นคือการขาดโครงสร้าง หนึ่งในแนวทางในการพยายามจัดระเบียบทั้งหมดนี้ก็คือการให้โครงข่ายประสาทเทียมสามารถเข้าถึงหน่วยความจำที่แยกจากกัน เพื่อที่เธอจะได้บันทึกและเขียนผลลัพธ์ของขั้นตอนของเธอที่นั่นใหม่ จากนั้นโครงข่ายประสาทเทียมสามารถกำหนดได้จากสถานะหน่วยความจำปัจจุบัน สิ่งนี้คล้ายกับโปรเซสเซอร์และคอมพิวเตอร์แบบคลาสสิกมาก

ที่มีชื่อเสียงและโด่งดังที่สุด บทความ — จาก DeepMind:

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

ดูเหมือนว่านี่คือกุญแจสำคัญในการทำความเข้าใจสติปัญญา? แต่อาจจะไม่ ระบบยังต้องการข้อมูลจำนวนมากสำหรับการฝึกอบรม และใช้งานได้กับข้อมูลตารางที่มีโครงสร้างเป็นหลัก ยิ่งไปกว่านั้น เมื่อเฟซบุ๊ก ตัดสินใจแล้ว ปัญหาที่คล้ายกัน พวกเขาจึงใช้เส้นทาง "ความจำเสื่อม แค่ทำให้เซลล์ประสาทซับซ้อนขึ้น และมีตัวอย่างมากขึ้น - แล้วมันจะเรียนรู้ด้วยตัวเอง"

ความหลุดพ้น. อีกวิธีหนึ่งในการสร้างความทรงจำที่มีความหมายคือการฝังสิ่งเดียวกัน แต่ในระหว่างการฝึกอบรม ให้แนะนำเกณฑ์เพิ่มเติมที่จะช่วยให้คุณสามารถเน้น "ความหมาย" ในสิ่งเหล่านั้นได้ ตัวอย่างเช่น เราต้องการฝึกอบรมโครงข่ายประสาทเทียมเพื่อแยกแยะพฤติกรรมของมนุษย์ในร้านค้า หากเราปฏิบัติตามเส้นทางมาตรฐาน เราจะต้องสร้างเครือข่ายหลายสิบเครือข่าย คนหนึ่งกำลังมองหาบุคคล ประการที่สองคือการกำหนดว่าเขากำลังทำอะไร ประการที่สามคืออายุของเขา ประการที่สี่คือเพศของเขา ตรรกะที่แยกจากกันจะดูที่ส่วนของร้านค้าที่ทำ/ได้รับการฝึกอบรมให้ทำเช่นนี้ ที่สามกำหนดวิถีของมัน ฯลฯ

หรือหากมีข้อมูลจำนวนไม่สิ้นสุด ก็เป็นไปได้ที่จะฝึกอบรมเครือข่ายเดียวสำหรับผลลัพธ์ที่เป็นไปได้ทั้งหมด (เห็นได้ชัดว่าอาร์เรย์ของข้อมูลดังกล่าวไม่สามารถรวบรวมได้)

แนวทางการแยกส่วนบอกเราว่า มาฝึกเครือข่ายเพื่อให้สามารถแยกแยะระหว่างแนวคิดต่างๆ กันดีกว่า เพื่อให้เกิดการฝังตามวิดีโอ โดยที่พื้นที่หนึ่งจะเป็นตัวกำหนดการกระทำ จะกำหนดตำแหน่งบนพื้นได้ทันเวลา จะกำหนดความสูงของบุคคล และจะกำหนดเพศของบุคคล ในเวลาเดียวกัน เมื่อฝึกอบรม ฉันแทบจะไม่อยากจะแจ้งให้เครือข่ายทราบด้วยแนวคิดหลักดังกล่าว แต่ต้องการให้เครือข่ายเน้นและจัดกลุ่มพื้นที่ มีบทความดังกล่าวค่อนข้างน้อย (บางบทความ 1, 2, 3) และโดยทั่วไปแล้วพวกมันค่อนข้างเป็นทฤษฎี

แต่แนวทางนี้อย่างน้อยในทางทฤษฎีควรครอบคลุมปัญหาที่ระบุไว้ในตอนต้น

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

การสลายตัวของภาพตามพารามิเตอร์ “สีผนัง/สีพื้น/รูปร่างของวัตถุ/สีของวัตถุ/ฯลฯ”

ฟองสบู่แมชชีนเลิร์นนิงแตกแล้วหรือเป็นจุดเริ่มต้นของรุ่งอรุณใหม่?

การสลายตัวของใบหน้าตามพารามิเตอร์ “ขนาด คิ้ว การวางแนว สีผิว ฯลฯ”

อื่น ๆ

มีพื้นที่อื่นๆ ที่ไม่ใช่ระดับโลกอีกมากมายที่ช่วยให้คุณสามารถลดฐานข้อมูล ทำงานกับข้อมูลที่ต่างกันมากขึ้น เป็นต้น

ความสนใจ. อาจไม่สมเหตุสมผลที่จะแยกสิ่งนี้ออกเป็นวิธีการแยกต่างหาก เพียงแนวทางที่ส่งเสริมผู้อื่น มีบทความมากมายที่อุทิศให้กับเขา (1,2,3). ประเด็นที่ต้องให้ความสนใจคือการปรับปรุงการตอบสนองของเครือข่ายโดยเฉพาะต่อวัตถุสำคัญในระหว่างการฝึกอบรม บ่อยครั้งโดยการกำหนดเป้าหมายภายนอกบางประเภท หรือเครือข่ายภายนอกขนาดเล็ก

การจำลอง 3 มิติ. หากคุณสร้างเอ็นจิ้น 3D ที่ดี คุณมักจะสามารถครอบคลุมข้อมูลการฝึกได้ 90% ด้วย (ฉันเคยเห็นตัวอย่างที่ข้อมูลเกือบ 99% ครอบคลุมโดยเอ็นจิ้นที่ดี) มีแนวคิดและเคล็ดลับมากมายเกี่ยวกับวิธีทำให้เครือข่ายที่ได้รับการฝึกอบรมเกี่ยวกับเอ็นจิ้น 3 มิติทำงานโดยใช้ข้อมูลจริง (การปรับแต่งอย่างละเอียด การถ่ายโอนสไตล์ ฯลฯ) แต่บ่อยครั้งที่การสร้างเครื่องยนต์ที่ดีนั้นยากกว่าการรวบรวมข้อมูลหลายประการ ตัวอย่างเมื่อสร้างเครื่องยนต์:
การฝึกหุ่นยนต์ (Google, สวนสมอง)
การอบรม การยอมรับ สินค้าในร้าน (แต่ใน 2 โครงการที่เราทำ เราทำได้ง่ายๆ โดยที่ไม่มีมัน)
การฝึกอบรมที่ Tesla (อีกครั้งในวิดีโอด้านบน)

ผลการวิจัย

บทความทั้งหมดถือเป็นข้อสรุป ข้อความหลักที่ฉันอยากจะเขียนน่าจะเป็น “ของแจกฟรีหมดแล้ว เซลล์ประสาทไม่ได้ให้วิธีแก้ปัญหาง่ายๆ อีกต่อไป” ตอนนี้เราต้องทำงานอย่างหนักเพื่อตัดสินใจที่ซับซ้อน หรือทำงานหนักเพื่อทำการวิจัยทางวิทยาศาสตร์ที่ซับซ้อน

โดยทั่วไปหัวข้อนี้ยังเป็นที่ถกเถียงกันอยู่ บางทีผู้อ่านอาจมีตัวอย่างที่น่าสนใจมากกว่านี้?

ที่มา: will.com

เพิ่มความคิดเห็น