Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Baru-baru ini dikeluarkan artikel, yang menunjukkan trend yang baik dalam pembelajaran mesin dalam beberapa tahun kebelakangan ini. Ringkasnya: bilangan permulaan pembelajaran mesin telah merosot dalam tempoh dua tahun yang lalu.

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?
Nah. Mari kita lihat "sama ada gelembung telah pecah", "bagaimana untuk terus hidup" dan bercakap tentang dari mana coretan ini berasal dari tempat pertama.

Mula-mula, mari kita bercakap tentang apa yang menjadi penggalak lengkung ini. Dari mana dia datang? Mereka mungkin akan mengingati segala-galanya kemenangan pembelajaran mesin pada tahun 2012 di pertandingan ImageNet. Lagipun, ini adalah acara global pertama! Tetapi pada hakikatnya ini tidak berlaku. Dan pertumbuhan lengkung bermula sedikit lebih awal. Saya akan memecahkannya kepada beberapa perkara.

  1. 2008 menyaksikan kemunculan istilah "data besar". Produk sebenar bermula muncul sejak 2010. Data besar berkaitan secara langsung dengan pembelajaran mesin. Tanpa data besar, operasi stabil algoritma yang wujud pada masa itu adalah mustahil. Dan ini bukan rangkaian saraf. Sehingga 2012, rangkaian neural adalah pemeliharaan minoriti kecil. Tetapi kemudian algoritma yang sama sekali berbeza mula berfungsi, yang telah wujud selama bertahun-tahun, atau bahkan beberapa dekad: SVM(1963,1993), Hutan Rawak (1995), AdaBoost (2003),... Permulaan tahun-tahun tersebut terutamanya dikaitkan dengan pemprosesan automatik data berstruktur: daftar tunai, pengguna, pengiklanan, banyak lagi.

    Derivatif gelombang pertama ini ialah satu set rangka kerja seperti XGBoost, CatBoost, LightGBM, dll.

  2. Pada tahun 2011-2012 rangkaian saraf konvolusi memenangi beberapa pertandingan pengiktirafan imej. Penggunaan sebenar mereka agak tertangguh. Saya akan mengatakan bahawa permulaan dan penyelesaian yang sangat bermakna mula muncul pada tahun 2014. Ia mengambil masa dua tahun untuk mencerna bahawa neuron masih berfungsi, untuk mencipta rangka kerja yang mudah yang boleh dipasang dan dilancarkan dalam masa yang munasabah, untuk membangunkan kaedah yang akan menstabilkan dan mempercepatkan masa penumpuan.

    Rangkaian konvolusi memungkinkan untuk menyelesaikan masalah penglihatan komputer: klasifikasi imej dan objek dalam imej, pengesanan objek, pengecaman objek dan orang, penambahbaikan imej, dsb., dsb.

  3. 2015-2017. Ledakan algoritma dan projek berdasarkan rangkaian berulang atau analognya (LSTM, GRU, TransformerNet, dll.). Algoritma pertuturan ke teks yang berfungsi dengan baik dan sistem terjemahan mesin telah muncul. Mereka sebahagiannya berdasarkan rangkaian konvolusi untuk mengekstrak ciri asas. Sebahagiannya disebabkan oleh fakta bahawa kami belajar mengumpul set data yang sangat besar dan baik.

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

β€œAdakah gelembung itu pecah? Adakah gembar-gembur terlalu panas? Adakah mereka mati sebagai blockchain?”
Jika tidak! Esok Siri akan berhenti bekerja pada telefon anda, dan lusa Tesla tidak akan mengetahui perbezaan antara pusingan dan kanggaru.

Rangkaian saraf sudah berfungsi. Mereka berada dalam berpuluh-puluh peranti. Mereka benar-benar membolehkan anda memperoleh wang, mengubah pasaran dan dunia di sekeliling anda. Hype kelihatan sedikit berbeza:

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Cuma rangkaian saraf bukan lagi sesuatu yang baharu. Ya, ramai orang mempunyai harapan yang tinggi. Tetapi sebilangan besar syarikat telah belajar menggunakan neuron dan membuat produk berdasarkannya. Neuron menyediakan fungsi baharu, membolehkan anda mengurangkan pekerjaan dan mengurangkan harga perkhidmatan:

  • Syarikat pembuatan sedang menyepadukan algoritma untuk menganalisis kecacatan pada barisan pengeluaran.
  • Ladang ternakan membeli sistem untuk mengawal lembu.
  • Gabungan automatik.
  • Pusat Panggilan Automatik.
  • Penapis dalam SnapChat. (baik, sekurang-kurangnya sesuatu yang berguna!)

Tetapi perkara utama, dan bukan yang paling jelas: "Tiada lagi idea baru, atau mereka tidak akan membawa modal segera." Rangkaian saraf telah menyelesaikan berpuluh-puluh masalah. Dan mereka akan memutuskan lebih banyak lagi. Semua idea jelas yang wujud menimbulkan banyak permulaan. Tetapi semua yang ada di permukaan telah pun dikumpulkan. Sepanjang dua tahun yang lalu, saya tidak menemui satu pun idea baharu untuk penggunaan rangkaian saraf. Tidak ada satu pendekatan baru (baik, ok, terdapat sedikit masalah dengan GAN).

Dan setiap permulaan berikutnya adalah lebih dan lebih kompleks. Ia tidak lagi memerlukan dua lelaki yang melatih neuron menggunakan data terbuka. Ia memerlukan pengaturcara, pelayan, pasukan penanda, sokongan kompleks, dll.

Akibatnya, terdapat lebih sedikit syarikat permulaan. Tetapi terdapat lebih banyak pengeluaran. Perlu menambah pengecaman plat lesen? Terdapat beratus-ratus pakar dengan pengalaman yang relevan di pasaran. Anda boleh mengupah seseorang dan dalam beberapa bulan pekerja anda akan membuat sistem. Atau beli yang sudah siap. Tetapi melakukan permulaan baharu?.. Gila!

Anda perlu mencipta sistem penjejakan pelawat - mengapa perlu membayar untuk sekumpulan lesen sedangkan anda boleh membuatnya sendiri dalam 3-4 bulan, mempertajamkannya untuk perniagaan anda.

Kini rangkaian saraf melalui laluan yang sama yang telah dilalui oleh berpuluh-puluh teknologi lain.

Adakah anda masih ingat bagaimana konsep "pembangun laman web" telah berubah sejak tahun 1995? Pasaran belum tepu dengan pakar. Terdapat sangat sedikit profesional. Tetapi saya boleh bertaruh bahawa dalam 5-10 tahun tidak akan ada banyak perbezaan antara pengaturcara Java dan pembangun rangkaian saraf. Kedua-dua pakar akan mencukupi di pasaran.

Hanya akan ada kelas masalah yang boleh diselesaikan oleh neuron. Satu tugas telah timbul - mengupah pakar.

"Apa yang akan datang? Di manakah kecerdasan buatan yang dijanjikan?”

Tetapi di sini terdapat salah faham yang kecil tetapi menarik :)

Timbunan teknologi yang wujud hari ini, nampaknya, tidak akan membawa kita kepada kecerdasan buatan. Idea dan kebaharuannya telah meletihkan diri mereka sendiri. Mari kita bercakap tentang apa yang memegang tahap pembangunan semasa.

Sekatan

Mari kita mulakan dengan kereta pandu sendiri. Nampaknya jelas bahawa adalah mungkin untuk membuat kereta autonomi sepenuhnya dengan teknologi hari ini. Tetapi dalam berapa tahun ini akan berlaku tidak jelas. Tesla percaya ini akan berlaku dalam beberapa tahun -


Ada ramai lagi pakar, yang menganggarkannya 5-10 tahun.

Kemungkinan besar, pada pendapat saya, dalam 15 tahun infrastruktur bandar itu sendiri akan berubah sedemikian rupa sehingga kemunculan kereta autonomi akan menjadi tidak dapat dielakkan dan akan menjadi kesinambungannya. Tetapi ini tidak boleh dianggap sebagai kecerdasan. Tesla moden ialah saluran paip yang sangat kompleks untuk penapisan, pencarian dan latihan semula data. Ini ialah peraturan-peraturan-peraturan, pengumpulan data dan penapis ke atasnya (di sini di sini Saya menulis lebih sedikit tentang ini, atau menonton dari ini markah).

Masalah pertama

Dan di sinilah kita lihat masalah asas pertama. Data besar. Inilah yang melahirkan gelombang rangkaian saraf dan pembelajaran mesin semasa. Pada masa kini, untuk melakukan sesuatu yang kompleks dan automatik, anda memerlukan banyak data. Bukan sahaja banyak, tetapi sangat, sangat banyak. Kami memerlukan algoritma automatik untuk pengumpulan, penandaan dan penggunaannya. Kami mahu membuat kereta melihat trak menghadap matahari - kami mesti terlebih dahulu mengumpul bilangan yang mencukupi. Kami mahu kereta itu tidak menjadi gila dengan basikal dipasang ke bagasi - lebih banyak sampel.

Lebih-lebih lagi, satu contoh tidak mencukupi. Beratus-ratus? beribu-ribu?

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Masalah kedua

Masalah kedua β€” visualisasi perkara yang telah difahami oleh rangkaian saraf kami. Ini adalah tugas yang sangat tidak remeh. Sehingga kini, hanya sedikit orang yang memahami cara menggambarkan ini. Artikel ini sangat terkini, ini hanyalah beberapa contoh, walaupun jauh:
Visualisasi obsesi dengan tekstur. Ia menunjukkan dengan baik perkara yang neuron cenderung untuk menetapkan + perkara yang dilihat sebagai maklumat permulaan.

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?
Visualisasi Perhatian di terjemahan. Malah, tarikan selalunya boleh digunakan dengan tepat untuk menunjukkan apa yang menyebabkan tindak balas rangkaian sedemikian. Saya telah melihat perkara sedemikian untuk kedua-dua penyahpepijatan dan penyelesaian produk. Terdapat banyak artikel mengenai topik ini. Tetapi semakin kompleks data, semakin sukar untuk memahami cara mencapai visualisasi yang mantap.

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Nah, ya, set lama yang bagus "lihat apa yang ada di dalam jaringan penapis" Gambar-gambar ini popular 3-4 tahun yang lalu, tetapi semua orang dengan cepat menyedari bahawa gambar itu cantik, tetapi ia tidak mempunyai banyak makna.

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Saya tidak menyebut berpuluh-puluh alat lain, kaedah, penggodaman, penyelidikan tentang cara memaparkan bahagian dalam rangkaian. Adakah alat ini berfungsi? Adakah mereka membantu anda memahami dengan cepat apa masalahnya dan nyahpepijat rangkaian?.. Dapatkan peratusan terakhir? Nah, ia lebih kurang sama:

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Anda boleh menonton sebarang pertandingan di Kaggle. Dan penerangan tentang cara orang membuat keputusan muktamad. Kami menyusun 100-500-800 unit model dan ia berkesan!

Saya melebih-lebihkan, sudah tentu. Tetapi pendekatan ini tidak memberikan jawapan yang cepat dan langsung.

Mempunyai pengalaman yang mencukupi, setelah meninjau pilihan yang berbeza, anda boleh memberikan keputusan tentang sebab sistem anda membuat keputusan sedemikian. Tetapi sukar untuk membetulkan tingkah laku sistem. Pasang tongkat, alihkan ambang, tambah set data, ambil rangkaian hujung belakang yang lain.

Masalah ketiga

Masalah Asas Ketiga β€” grid mengajar statistik, bukan logik. Secara statistik ini muka:

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Secara logiknya, ia tidak begitu serupa. Rangkaian saraf tidak mempelajari sesuatu yang rumit melainkan mereka terpaksa melakukannya. Mereka sentiasa mengajar tanda-tanda yang paling mudah. Adakah anda mempunyai mata, hidung, kepala? Jadi ini adalah muka! Atau berikan contoh di mana mata tidak bermaksud muka. Dan sekali lagi - berjuta-juta contoh.

Terdapat Banyak Ruang di Bahagian Bawah

Saya akan mengatakan bahawa tiga masalah global inilah yang kini mengehadkan pembangunan rangkaian saraf dan pembelajaran mesin. Dan di mana masalah ini tidak mengehadkannya, ia sudah digunakan secara aktif.

Inilah pengakhirannya? Adakah rangkaian saraf aktif?

Tidak diketahui. Tetapi, sudah tentu, semua orang tidak berharap.

Terdapat banyak pendekatan dan arahan untuk menyelesaikan masalah asas yang saya ketengahkan di atas. Tetapi setakat ini, tiada satu pun daripada pendekatan ini telah memungkinkan untuk melakukan sesuatu yang secara asasnya baru, untuk menyelesaikan sesuatu yang belum diselesaikan. Setakat ini, semua projek asas sedang dilakukan berdasarkan pendekatan yang stabil (Tesla), atau kekal sebagai projek ujian institut atau syarikat (Google Brain, OpenAI).

Secara kasarnya, hala tuju utama adalah untuk mencipta beberapa perwakilan peringkat tinggi bagi data input. Dalam erti kata lain, "ingatan". Contoh ingatan yang paling mudah ialah pelbagai "Pembenaman" - perwakilan imej. Nah, sebagai contoh, semua sistem pengecaman muka. Rangkaian belajar untuk mendapatkan daripada wajah beberapa perwakilan yang stabil yang tidak bergantung pada putaran, pencahayaan atau resolusi. Pada asasnya, rangkaian meminimumkan metrik "muka yang berbeza adalah jauh" dan "muka yang sama adalah dekat."

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Untuk latihan sedemikian, puluhan dan ratusan ribu contoh diperlukan. Tetapi hasilnya menanggung beberapa asas "Pembelajaran Satu pukulan". Sekarang kita tidak memerlukan ratusan muka untuk mengingati seseorang. Hanya satu muka dan itu sahaja kita mari kita ketahui!
Hanya ada satu masalah... Grid hanya boleh mempelajari objek yang agak mudah. Apabila cuba membezakan bukan wajah, tetapi, sebagai contoh, "orang dengan pakaian" (tugas Pengenalan semula) - kualiti jatuh dengan banyak pesanan magnitud. Dan rangkaian tidak lagi dapat mempelajari perubahan sudut yang agak jelas.

Dan belajar daripada berjuta-juta contoh juga agak menyeronokkan.

Terdapat kerja untuk mengurangkan pilihan raya dengan ketara. Sebagai contoh, seseorang boleh segera mengingati salah satu karya pertama Pembelajaran OneShot daripada Google:

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Terdapat banyak karya seperti itu, contohnya 1 atau 2 atau 3.

Terdapat hanya satu tolak - biasanya latihan berfungsi dengan baik pada beberapa contoh mudah, "MNIST". Dan apabila beralih kepada tugas yang rumit, anda memerlukan pangkalan data yang besar, model objek, atau sejenis sihir.
Secara umum, kerja pada latihan One-Shot adalah topik yang sangat menarik. Anda dapati banyak idea. Tetapi untuk sebahagian besar, dua masalah yang saya senaraikan (pralatihan pada set data yang besar / ketidakstabilan pada data yang kompleks) sangat mengganggu pembelajaran.

Sebaliknya, GANβ€”rangkaian musuh generatifβ€”mendekati topik Pembenaman. Anda mungkin telah membaca banyak artikel tentang HabrΓ© mengenai topik ini. (1, 2,3)
Ciri GAN ialah pembentukan beberapa ruang keadaan dalaman (pada asasnya Pembenaman yang sama), yang membolehkan anda melukis imej. Ia boleh menjadi muka, boleh jadi aktiviti.

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Masalah dengan GAN ialah lebih kompleks objek yang dihasilkan, lebih sukar untuk menerangkannya dalam logik "penjana-diskriminator". Akibatnya, satu-satunya aplikasi sebenar GAN yang didengari ialah DeepFake, yang, sekali lagi, memanipulasi representasi wajah (yang mana terdapat asas yang besar).

Saya telah melihat sangat sedikit kegunaan lain yang berguna. Biasanya sejenis muslihat yang melibatkan kemasan lukisan gambar.

Dan lagi. Tiada siapa yang tahu bagaimana ini akan membolehkan kita bergerak ke masa depan yang lebih cerah. Mewakili logik/ruang dalam rangkaian saraf adalah baik. Tetapi kita memerlukan sejumlah besar contoh, kita tidak faham bagaimana neuron mewakili ini dengan sendirinya, kita tidak faham bagaimana untuk membuat neuron mengingati beberapa idea yang sangat kompleks.

Pembelajaran pengukuhan - ini adalah pendekatan dari arah yang sama sekali berbeza. Pasti anda masih ingat bagaimana Google mengalahkan semua orang dalam Go. Kemenangan terbaru dalam Starcraft dan Dota. Tetapi di sini semuanya jauh dari begitu cerah dan menjanjikan. Dia bercakap terbaik tentang RL dan kerumitannya artikel ini.

Untuk meringkaskan secara ringkas apa yang penulis tulis:

  • Model di luar kotak tidak sesuai / berfungsi dengan baik dalam kebanyakan kes
  • Masalah praktikal lebih mudah diselesaikan dengan cara lain. Boston Dynamics tidak menggunakan RL kerana kerumitan/ketidakpastian/kerumitan pengiraannya
  • Untuk RL berfungsi, anda memerlukan fungsi yang kompleks. Selalunya sukar untuk mencipta/menulis
  • Sukar untuk melatih model. Anda perlu meluangkan banyak masa untuk mengepam dan keluar dari optima tempatan
  • Akibatnya, sukar untuk mengulang model, model tidak stabil dengan sedikit perubahan
  • Selalunya mengatasi beberapa corak rawak, malah penjana nombor rawak

Perkara utama ialah RL belum lagi berfungsi dalam pengeluaran. Google mempunyai beberapa percubaan ( 1, 2 ). Tetapi saya tidak melihat satu sistem produk.

Memori. Kelemahan semua yang diterangkan di atas ialah kekurangan struktur. Salah satu pendekatan untuk cuba mengemas semua ini adalah dengan menyediakan rangkaian saraf dengan akses kepada memori yang berasingan. Supaya dia boleh merakam dan menulis semula hasil langkahnya di sana. Kemudian rangkaian saraf boleh ditentukan oleh keadaan ingatan semasa. Ini sangat serupa dengan pemproses dan komputer klasik.

Yang paling terkenal dan popular artikel β€” daripada DeepMind:

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Nampaknya ini adalah kunci untuk memahami kecerdasan? Tetapi mungkin tidak. Sistem ini masih memerlukan sejumlah besar data untuk latihan. Dan ia berfungsi terutamanya dengan data jadual berstruktur. Lebih-lebih lagi apabila Facebook memutuskan masalah yang sama, kemudian mereka mengambil jalan "memori skru, hanya membuat neuron lebih rumit, dan mempunyai lebih banyak contoh - dan ia akan belajar sendiri."

Perpecahan. Satu lagi cara untuk mencipta ingatan yang bermakna adalah dengan mengambil benam yang sama, tetapi semasa latihan, perkenalkan kriteria tambahan yang membolehkan anda menyerlahkan "makna" di dalamnya. Sebagai contoh, kami ingin melatih rangkaian saraf untuk membezakan antara tingkah laku manusia di kedai. Jika kita mengikuti laluan standard, kita perlu membuat sedozen rangkaian. Satu mencari seseorang, kedua menentukan apa yang dia lakukan, ketiga umurnya, keempat jantinanya. Logik berasingan melihat bahagian kedai di mana ia melakukan/dilatih untuk melakukan ini. Yang ketiga menentukan trajektorinya, dsb.

Atau, jika terdapat jumlah data yang tidak terhingga, maka adalah mungkin untuk melatih satu rangkaian untuk semua hasil yang mungkin (jelas, susunan data sedemikian tidak boleh dikumpul).

Pendekatan penguraian memberitahu kita - mari kita latih rangkaian supaya ia sendiri boleh membezakan antara konsep. Supaya ia akan membentuk pembenaman berdasarkan video, di mana satu kawasan akan menentukan tindakan, seseorang akan menentukan kedudukan di atas lantai dalam masa, seseorang akan menentukan ketinggian orang itu, dan satu akan menentukan jantina orang itu. Pada masa yang sama, semasa latihan, saya ingin hampir tidak menggesa rangkaian dengan konsep utama sedemikian, tetapi sebaliknya untuk menyerlahkan dan mengelompokkan kawasan. Terdapat beberapa artikel sedemikian (sesetengahnya 1, 2, 3) dan secara amnya ia agak teori.

Tetapi arahan ini, sekurang-kurangnya secara teori, harus merangkumi masalah yang disenaraikan pada mulanya.

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Penguraian imej mengikut parameter "warna dinding/warna lantai/bentuk objek/warna objek/dll."

Adakah Gelembung Pembelajaran Mesin Meletup, atau Permulaan Subuh Baru?

Penguraian muka mengikut parameter "saiz, kening, orientasi, warna kulit, dll."

Lain-lain

Terdapat banyak lagi, tidak begitu global, kawasan yang membolehkan anda entah bagaimana mengurangkan pangkalan data, bekerja dengan data yang lebih heterogen, dsb.

perhatian. Ia mungkin tidak masuk akal untuk memisahkan ini sebagai kaedah yang berasingan. Hanya pendekatan yang meningkatkan orang lain. Banyak artikel didedikasikan untuknya (1,2,3). Titik Perhatian adalah untuk meningkatkan tindak balas rangkaian secara khusus kepada objek penting semasa latihan. Selalunya dengan beberapa jenis penetapan sasaran luaran, atau rangkaian luaran yang kecil.

simulasi 3D. Jika anda membuat enjin 3D yang baik, anda selalunya boleh menampung 90% daripada data latihan dengannya (saya juga melihat contoh di mana hampir 99% data diliputi oleh enjin yang baik). Terdapat banyak idea dan penggodaman tentang cara membuat rangkaian terlatih pada enjin 3D berfungsi menggunakan data sebenar (Penalaan halus, pemindahan gaya, dll.). Tetapi selalunya membuat enjin yang baik adalah beberapa urutan magnitud lebih sukar daripada mengumpul data. Contoh apabila enjin dibuat:
Latihan robot (google, taman otak)
latihan pengiktirafan barang di kedai (tetapi dalam dua projek yang kami lakukan, kami dengan mudah melakukannya tanpanya).
Latihan di Tesla (sekali lagi, video di atas).

Penemuan

Keseluruhan artikel adalah, dalam erti kata lain, kesimpulan. Mungkin mesej utama yang saya ingin sampaikan ialah "percuma sudah berakhir, neuron tidak lagi menyediakan penyelesaian mudah." Sekarang kita perlu bekerja keras untuk membuat keputusan yang rumit. Atau bekerja keras melakukan penyelidikan saintifik yang kompleks.

Secara umum, topik ini boleh dibahaskan. Mungkin pembaca mempunyai contoh yang lebih menarik?

Sumber: www.habr.com

Tambah komen