Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Baru-baru ini dirilis artikel, yang menunjukkan tren yang baik dalam pembelajaran mesin dalam beberapa tahun terakhir. Singkatnya: jumlah startup pembelajaran mesin telah anjlok dalam dua tahun terakhir.

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?
Dengan baik. Mari kita lihat “apakah gelembungnya sudah pecah”, “bagaimana kita bisa terus hidup” dan membicarakan dari mana coretan ini berasal.

Pertama, mari kita bicara tentang apa yang mendorong kurva ini. Dari mana asalnya? Mereka mungkin akan mengingat semuanya Kemenangan pembelajaran mesin pada tahun 2012 di kompetisi ImageNet. Bagaimanapun, ini adalah acara global pertama! Namun kenyataannya tidak demikian. Dan pertumbuhan kurva dimulai sedikit lebih awal. Saya akan membaginya menjadi beberapa poin.

  1. Pada tahun 2008 muncul istilah “big data”. Produk nyata dimulai muncul sejak 2010. Big data berhubungan langsung dengan pembelajaran mesin. Tanpa data besar, operasi stabil dari algoritma yang ada pada saat itu tidak mungkin dilakukan. Dan ini bukanlah jaringan saraf. Hingga tahun 2012, jaringan saraf hanya dimiliki oleh kelompok minoritas marginal. Namun kemudian algoritma yang sama sekali berbeda mulai bekerja, yang telah ada selama bertahun-tahun, atau bahkan puluhan tahun: svm(1963,1993), Hutan Acak (1995) AdaBoost (2003),... Startup pada tahun-tahun tersebut terutama dikaitkan dengan pemrosesan otomatis data terstruktur: mesin kasir, pengguna, periklanan, dan banyak lagi.

    Turunan dari gelombang pertama ini adalah seperangkat kerangka kerja seperti XGBoost, CatBoost, LightGBM, dll.

  2. Pada tahun 2011-2012 jaringan saraf konvolusional memenangkan sejumlah kompetisi pengenalan gambar. Penggunaan sebenarnya agak tertunda. Menurut saya, startup dan solusi yang sangat berarti mulai bermunculan pada tahun 2014. Butuh waktu dua tahun untuk memahami bahwa neuron masih berfungsi, untuk menciptakan kerangka kerja yang mudah dipasang dan diluncurkan dalam waktu yang wajar, untuk mengembangkan metode yang dapat menstabilkan dan mempercepat waktu konvergensi.

    Jaringan konvolusional memungkinkan pemecahan masalah visi komputer: klasifikasi gambar dan objek dalam gambar, deteksi objek, pengenalan objek dan orang, peningkatan gambar, dll., dll.

  3. 2015-2017. Booming algoritma dan proyek berdasarkan jaringan berulang atau analognya (LSTM, GRU, TransformerNet, dll.). Algoritme ucapan-ke-teks yang berfungsi dengan baik dan sistem terjemahan mesin telah muncul. Mereka sebagian didasarkan pada jaringan konvolusional untuk mengekstrak fitur-fitur dasar. Sebagian karena fakta bahwa kami belajar mengumpulkan kumpulan data yang sangat besar dan bagus.

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

“Apakah gelembungnya sudah pecah? Apakah hype-nya terlalu panas? Apakah mereka mati sebagai blockchain?”
Jika tidak! Besok Siri akan berhenti bekerja di ponsel Anda, dan lusa Tesla tidak akan mengetahui perbedaan antara belokan dan kanguru.

Jaringan saraf sudah berfungsi. Mereka ada di lusinan perangkat. Mereka benar-benar memungkinkan Anda menghasilkan uang, mengubah pasar dan dunia di sekitar Anda. Hype terlihat sedikit berbeda:

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Hanya saja jaringan saraf bukan lagi sesuatu yang baru. Ya, banyak orang mempunyai ekspektasi yang tinggi. Namun sejumlah besar perusahaan telah belajar menggunakan neuron dan membuat produk berdasarkan neuron tersebut. Neuron menyediakan fungsionalitas baru, memungkinkan Anda mengurangi pekerjaan, dan mengurangi harga layanan:

  • Perusahaan manufaktur mengintegrasikan algoritma untuk menganalisis cacat lini produksi.
  • Peternakan membeli sistem untuk mengendalikan sapi.
  • Penggabungan otomatis.
  • Pusat Panggilan Otomatis.
  • Filter di SnapChat. (yah, setidaknya sesuatu yang berguna!)

Namun yang utama, dan bukan yang paling jelas: “Tidak ada lagi ide-ide baru, atau ide-ide tersebut tidak akan mendatangkan modal instan.” Jaringan saraf telah memecahkan banyak masalah. Dan mereka akan memutuskan lebih banyak lagi. Semua ide nyata yang ada memunculkan banyak startup. Tapi semua yang ada di permukaan sudah terkumpul. Selama dua tahun terakhir, saya belum menemukan satu pun ide baru tentang penggunaan jaringan saraf. Tidak ada satu pun pendekatan baru (baiklah, ada beberapa masalah dengan GAN).

Dan setiap startup berikutnya menjadi semakin kompleks. Tidak lagi diperlukan dua orang yang melatih neuron menggunakan data terbuka. Ini membutuhkan pemrogram, server, tim penanda, dukungan kompleks, dll.

Akibatnya, jumlah startup yang ada semakin sedikit. Tapi produksinya lebih banyak. Perlu menambahkan pengenalan plat nomor? Ada ratusan spesialis dengan pengalaman yang relevan di pasar. Anda dapat mempekerjakan seseorang dan dalam beberapa bulan karyawan Anda akan membuat sistemnya. Atau beli yang sudah jadi. Tapi melakukan startup baru?.. Gila!

Anda perlu membuat sistem pelacakan pengunjung - mengapa harus membayar banyak lisensi ketika Anda bisa membuatnya sendiri dalam 3-4 bulan, pertajam itu untuk bisnis Anda.

Kini jaringan saraf menempuh jalur yang sama dengan yang dilalui puluhan teknologi lainnya.

Ingatkah Anda bagaimana konsep “pengembang situs web” berubah sejak tahun 1995? Pasar belum jenuh dengan spesialis. Hanya ada sedikit profesional. Tapi saya yakin dalam 5-10 tahun tidak akan ada banyak perbedaan antara programmer Java dan pengembang jaringan saraf. Jumlah kedua spesialis di pasar akan cukup.

Hanya akan ada sekelompok masalah yang bisa diselesaikan oleh neuron. Sebuah tugas telah muncul - pekerjakan seorang spesialis.

"Apa berikutnya? Di manakah kecerdasan buatan yang dijanjikan?”

Tapi di sini ada kesalahpahaman kecil tapi menarik :)

Tumpukan teknologi yang ada saat ini rupanya tidak akan membawa kita pada kecerdasan buatan. Ide-ide dan kebaruannya sebagian besar sudah habis. Mari kita bicara tentang apa yang menjaga tingkat perkembangan saat ini.

Pembatasan

Mari kita mulai dengan mobil self-driving. Tampak jelas bahwa membuat mobil yang sepenuhnya otonom dengan teknologi masa kini adalah mungkin. Namun dalam berapa tahun hal ini akan terjadi masih belum jelas. Tesla yakin ini akan terjadi dalam beberapa tahun -


Ada banyak lainnya ahli, yang memperkirakan 5-10 tahun.

Kemungkinan besar, menurut saya, dalam 15 tahun infrastruktur perkotaan akan berubah sedemikian rupa sehingga kemunculan mobil otonom menjadi tak terelakkan dan menjadi kelanjutannya. Tapi ini tidak bisa dianggap sebagai kecerdasan. Tesla modern adalah saluran yang sangat kompleks untuk pemfilteran, pencarian, dan pelatihan ulang data. Ini adalah aturan-aturan-aturan, pengumpulan data, dan filter di atasnya (di sini di sini Saya menulis lebih banyak tentang ini, atau menonton dari ini tanda).

Masalah pertama

Dan di sinilah kita melihat masalah mendasar pertama. Data besar. Hal inilah yang melahirkan gelombang jaringan saraf dan pembelajaran mesin saat ini. Saat ini, untuk melakukan sesuatu yang kompleks dan otomatis, Anda memerlukan banyak data. Bukan hanya banyak, tapi sangat, sangat banyak. Kita memerlukan algoritme otomatis untuk pengumpulan, penandaan, dan penggunaannya. Kami ingin membuat mobil melihat truk menghadap matahari - pertama-tama kami harus mengumpulkan jumlah yang cukup. Kami ingin mobil tidak menjadi gila dengan sepeda yang terpasang di bagasi - lebih banyak sampel.

Terlebih lagi, satu contoh saja tidak cukup. Ratusan? Ribuan?

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Masalah kedua

Masalah kedua — visualisasi dari apa yang telah dipahami oleh jaringan saraf kita. Ini adalah tugas yang sangat tidak sepele. Hingga saat ini, hanya sedikit orang yang memahami cara memvisualisasikannya. Artikel-artikel ini masih sangat baru, ini hanyalah beberapa contoh, meskipun jauh:
Visualisasi obsesi dengan tekstur. Ini menunjukkan dengan baik apa yang cenderung difiksasi oleh neuron + apa yang dianggapnya sebagai informasi awal.

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?
Visualisasi Perhatian di terjemahan. Faktanya, ketertarikan sering kali dapat digunakan secara tepat untuk menunjukkan apa yang menyebabkan reaksi jaringan tersebut. Saya telah melihat hal-hal seperti itu untuk debugging dan solusi produk. Ada banyak artikel tentang topik ini. Namun semakin kompleks datanya, semakin sulit memahami cara mencapai visualisasi yang kuat.

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Ya, rangkaian kalimat lama yang bagus “lihat apa yang ada di dalam jaring filter" Gambar-gambar ini populer 3-4 tahun yang lalu, tetapi semua orang segera menyadari bahwa gambar-gambar itu indah, tetapi tidak memiliki banyak makna.

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Saya tidak menyebutkan lusinan gadget, metode, peretasan, penelitian lain tentang cara menampilkan bagian dalam jaringan. Apakah alat-alat ini berfungsi? Apakah mereka membantu Anda dengan cepat memahami apa masalahnya dan men-debug jaringan?.. Dapatkan persentase terakhir? Yah, itu hampir sama:

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Anda dapat menonton kompetisi apa pun di Kaggle. Dan gambaran tentang bagaimana orang membuat keputusan akhir. Kami menumpuk 100-500-800 unit model dan berhasil!

Tentu saja saya melebih-lebihkan. Namun pendekatan-pendekatan ini tidak memberikan jawaban yang cepat dan langsung.

Memiliki pengalaman yang cukup, setelah melihat-lihat berbagai pilihan, Anda dapat memberikan keputusan tentang mengapa sistem Anda membuat keputusan seperti itu. Namun akan sulit untuk memperbaiki perilaku sistem. Pasang kruk, pindahkan ambang batas, tambahkan kumpulan data, ambil jaringan backend lainnya.

Masalah ketiga

Masalah Mendasar Ketiga — grid mengajarkan statistik, bukan logika. Secara statistik ini wajah:

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Logikanya, ini tidak terlalu mirip. Jaringan saraf tidak mempelajari sesuatu yang rumit kecuali jika dipaksa. Mereka selalu mengajarkan tanda-tanda yang paling sederhana. Apakah Anda punya mata, hidung, kepala? Jadi ini wajahnya! Atau berikan contoh dimana mata tidak berarti wajah. Dan lagi - jutaan contoh.

Ada Banyak Ruang di Bagian Bawah

Menurut saya, ketiga masalah global inilah yang saat ini membatasi pengembangan jaringan saraf dan pembelajaran mesin. Dan jika masalah ini tidak membatasinya, maka sudah digunakan secara aktif.

Inilah akhirnya? Apakah jaringan saraf aktif?

Tidak dikenal. Namun tentu saja semua orang tidak berharap demikian.

Ada banyak pendekatan dan arah untuk menyelesaikan masalah mendasar yang saya soroti di atas. Namun sejauh ini, tidak satu pun dari pendekatan ini yang memungkinkan dilakukannya sesuatu yang baru secara fundamental, untuk menyelesaikan sesuatu yang belum terpecahkan. Sejauh ini, semua proyek mendasar dilakukan berdasarkan pendekatan stabil (Tesla), atau tetap menjadi proyek uji coba oleh lembaga atau perusahaan (Google Brain, OpenAI).

Secara kasar, arah utamanya adalah membuat representasi data masukan tingkat tinggi. Dalam arti tertentu, “ingatan”. Contoh paling sederhana dari memori adalah berbagai “Embedding” - representasi gambar. Misalnya, semua sistem pengenalan wajah. Jaringan belajar untuk mendapatkan representasi stabil dari suatu wajah yang tidak bergantung pada rotasi, pencahayaan, atau resolusi. Pada dasarnya, jaringan ini meminimalkan metrik “wajah yang berbeda itu jauh” dan “wajah yang identik itu dekat.”

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Untuk pelatihan seperti itu, dibutuhkan puluhan hingga ratusan ribu contoh. Namun hasilnya mengandung beberapa dasar dari “Pembelajaran Sekali Pakai”. Sekarang kita tidak memerlukan ratusan wajah untuk mengingat seseorang. Hanya satu wajah dan itulah diri kita mari kita cari tahu!
Hanya ada satu masalah... Grid hanya dapat mempelajari objek yang cukup sederhana. Saat mencoba membedakan bukan wajah, tetapi, misalnya, “orang berdasarkan pakaian” (tugas Identifikasi ulang) - kualitas turun berkali-kali lipat. Dan jaringan tidak dapat lagi mempelajari perubahan sudut yang cukup jelas.

Dan belajar dari jutaan contoh juga menyenangkan.

Ada upaya untuk mengurangi pemilu secara signifikan. Misalnya, seseorang dapat langsung mengingat salah satu karya pertama Pembelajaran OneShot dari google:

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Ada banyak karya seperti itu, misalnya 1 или 2 или 3.

Ada satu kelemahan - biasanya pelatihan bekerja dengan baik pada beberapa contoh “MNIST” yang sederhana. Dan saat beralih ke tugas yang kompleks, Anda memerlukan database besar, model objek, atau semacam keajaiban.
Secara umum, mengerjakan pelatihan One-Shot adalah topik yang sangat menarik. Anda menemukan banyak ide. Namun sebagian besar, dua masalah yang saya sebutkan (pelatihan awal pada kumpulan data yang besar/ketidakstabilan pada data yang kompleks) sangat mengganggu pembelajaran.

Di sisi lain, GAN—jaringan permusuhan generatif—mendekati topik Penyematan. Anda mungkin pernah membaca banyak artikel di Habré tentang topik ini. (1, 2,3)
Fitur GAN adalah pembentukan beberapa ruang keadaan internal (pada dasarnya adalah Penyematan yang sama), yang memungkinkan Anda menggambar. Itu bisa saja wajah, dapat kegiatan.

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Masalah dengan GAN adalah semakin kompleks objek yang dihasilkan, semakin sulit untuk mendeskripsikannya dalam logika “generator-diskriminator”. Akibatnya, satu-satunya aplikasi nyata GAN yang diketahui adalah DeepFake, yang, sekali lagi, memanipulasi representasi wajah (yang basisnya sangat besar).

Saya telah melihat sangat sedikit kegunaan berguna lainnya. Biasanya semacam tipu daya yang melibatkan penyelesaian gambar gambar.

Dan lagi. Tidak ada yang tahu bagaimana hal ini akan memungkinkan kita menuju masa depan yang lebih cerah. Mewakili logika/ruang dalam jaringan saraf itu bagus. Namun kita memerlukan banyak sekali contoh, kita tidak mengerti bagaimana neuron merepresentasikan hal ini, kita tidak mengerti bagaimana membuat neuron mengingat suatu ide yang sangat kompleks.

Pembelajaran penguatan - ini adalah pendekatan dari arah yang sama sekali berbeda. Pasti Anda ingat bagaimana Google mengalahkan semua orang di Go. Kemenangan terbaru di Starcraft dan Dota. Tapi di sini semuanya jauh dari cerah dan menjanjikan. Dia berbicara paling baik tentang RL dan kompleksitasnya artikel ini.

Untuk meringkas secara singkat apa yang penulis tulis:

  • Model out-of-the-box tidak pas/berfungsi buruk dalam banyak kasus
  • Masalah praktis lebih mudah diselesaikan dengan cara lain. Boston Dynamics tidak menggunakan RL karena kompleksitas/ketidakpastian/kompleksitas komputasinya
  • Agar RL berfungsi, Anda memerlukan fungsi yang kompleks. Seringkali sulit untuk membuat/menulis
  • Sulit untuk melatih model. Anda harus menghabiskan banyak waktu untuk bersemangat dan keluar dari local optima
  • Akibatnya model sulit diulang, model tidak stabil dengan perubahan sekecil apapun
  • Seringkali menutupi beberapa pola acak, bahkan generator angka acak

Poin kuncinya adalah RL belum berfungsi dalam produksi. Google memiliki beberapa eksperimen ( 1, 2 ). Tapi saya belum melihat satu pun sistem produk.

Memori. Kelemahan dari semua yang dijelaskan di atas adalah kurangnya struktur. Salah satu pendekatan untuk mencoba membereskan semua ini adalah dengan menyediakan jaringan saraf akses ke memori terpisah. Sehingga dia bisa mencatat dan menulis ulang hasil langkahnya di sana. Kemudian jaringan saraf dapat ditentukan berdasarkan status memori saat ini. Ini sangat mirip dengan prosesor dan komputer klasik.

Yang paling terkenal dan populer artikel — dari DeepMind:

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Tampaknya inilah kunci untuk memahami kecerdasan? Tapi mungkin tidak. Sistem masih membutuhkan data dalam jumlah besar untuk pelatihan. Dan ini berfungsi terutama dengan data tabel terstruktur. Apalagi ketika Facebook diputuskan masalah serupa, lalu mereka mengambil jalur “sekrup memori, buat saja neuron lebih rumit, dan dapatkan lebih banyak contoh - dan ia akan belajar dengan sendirinya”.

Penguraian dr kekusutan. Cara lain untuk menciptakan memori yang bermakna adalah dengan mengambil penyematan yang sama, namun selama pelatihan, perkenalkan kriteria tambahan yang memungkinkan Anda menyoroti “makna” di dalamnya. Misalnya, kami ingin melatih jaringan saraf untuk membedakan perilaku manusia di sebuah toko. Jika kita mengikuti jalur standar, kita harus membuat selusin jaringan. Yang satu mencari seseorang, yang kedua menentukan apa yang dilakukannya, yang ketiga umurnya, yang keempat jenis kelaminnya. Logika terpisah melihat bagian toko tempat ia melakukan/dilatih untuk melakukan hal ini. Yang ketiga menentukan lintasannya, dll.

Atau, jika terdapat jumlah data yang tidak terbatas, maka dimungkinkan untuk melatih satu jaringan untuk semua kemungkinan hasil (tentu saja, rangkaian data seperti itu tidak dapat dikumpulkan).

Pendekatan penguraian memberi tahu kita - mari kita latih jaringan agar dapat membedakan konsep-konsep. Sehingga akan terbentuk sebuah embedding berdasarkan video tersebut, dimana satu area akan menentukan tindakan, satu akan menentukan posisi di lantai pada waktunya, satu lagi akan menentukan tinggi badan orang tersebut, dan satu lagi akan menentukan jenis kelamin orang tersebut. Pada saat yang sama, ketika pelatihan, saya hampir tidak ingin memberi tahu jaringan dengan konsep-konsep kunci seperti itu, melainkan untuk menyorot dan mengelompokkan area. Ada beberapa artikel seperti itu (beberapa di antaranya 1, 2, 3) dan secara umum cukup teoretis.

Namun arah ini, setidaknya secara teoritis, harus mencakup permasalahan yang disebutkan di awal.

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Dekomposisi gambar menurut parameter “warna dinding/warna lantai/bentuk objek/warna objek/dll.”

Apakah gelembung pembelajaran mesin telah pecah, atau ini merupakan awal dari sebuah fajar baru?

Penguraian wajah menurut parameter “ukuran, alis, orientasi, warna kulit, dll.”

Lain

Ada banyak area lain, yang tidak terlalu global, yang memungkinkan Anda mengurangi database, bekerja dengan data yang lebih heterogen, dll.

Perhatian. Mungkin tidak masuk akal untuk memisahkan ini sebagai metode terpisah. Hanya sebuah pendekatan yang menyempurnakan orang lain. Banyak artikel yang didedikasikan untuknya (1,2,3). Inti dari Perhatian adalah untuk meningkatkan respons jaringan secara khusus terhadap objek penting selama pelatihan. Seringkali dengan semacam penetapan target eksternal, atau jaringan eksternal kecil.

Simulasi 3D. Jika Anda membuat mesin 3D yang bagus, sering kali Anda dapat mencakup 90% data pelatihan dengannya (saya bahkan melihat contoh di mana hampir 99% data dicakup oleh mesin yang bagus). Ada banyak ide dan peretasan tentang cara membuat jaringan yang dilatih pada mesin 3D berfungsi menggunakan data nyata (Penyetelan halus, transfer gaya, dll.). Namun seringkali membuat mesin yang bagus jauh lebih sulit daripada mengumpulkan data. Contoh saat mesin dibuat:
Pelatihan robot (google, kebun otak)
latihan pengakuan barang di toko (tetapi dalam dua proyek yang kami lakukan, kami dapat dengan mudah melakukannya tanpanya).
Pelatihan di Tesla (sekali lagi, video di atas).

Temuan

Keseluruhan artikel, dalam arti tertentu, merupakan kesimpulan. Mungkin pesan utama yang ingin saya sampaikan adalah “hadiah gratis sudah berakhir, neuron tidak lagi memberikan solusi sederhana.” Sekarang kami perlu bekerja keras untuk membuat keputusan yang rumit. Atau bekerja keras melakukan penelitian ilmiah yang kompleks.

Secara umum, topik ini masih bisa diperdebatkan. Mungkin pembaca punya contoh yang lebih menarik?

Sumber: www.habr.com

Tambah komentar