යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

මෑතකදී නිකුත් කරන ලදී ලිපියක්, මෑත වසරවල යන්ත්‍ර ඉගෙනීමේ හොඳ ප්‍රවණතාවයක් පෙන්නුම් කරයි. කෙටියෙන් කිවහොත්: පසුගිය වසර දෙක තුළ යන්ත්‍ර ඉගෙනීමේ ආරම්භක සංඛ්‍යාව වේගයෙන් පහත වැටී ඇත.

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?
හොඳින්. "බුබුල පුපුරා ගොස් තිබේද", "දිගටම ජීවත් වන්නේ කෙසේද" සහ එවැනි squiggle එකක් මුලින්ම පැමිණෙන්නේ කොහෙන්ද යන්න ගැන අපි බලමු.

පළමුව, මෙම වක්‍රයේ බූස්ටරය කුමක්ද යන්න ගැන කතා කරමු. ඇය පැමිණියේ කොහෙන්ද? ඔවුන්ට බොහෝ විට සියල්ල මතක ඇති ජයග්රහණය 2012 දී ImageNet තරඟයේදී යන්ත්‍ර ඉගෙනීම. සියල්ලට පසු, මෙය පළමු ගෝලීය සිදුවීමයි! නමුත් ඇත්ත වශයෙන්ම මෙය එසේ නොවේ. තවද වක්රයේ වර්ධනය ටිකක් කලින් ආරම්භ වේ. මම එය කරුණු කිහිපයකට කඩා දමමි.

  1. 2008 දී "විශාල දත්ත" යන යෙදුම මතු විය. සැබෑ නිෂ්පාදන ආරම්භ විය දර්ශණය වේ 2010 සිට. විශාල දත්ත යන්ත්‍ර ඉගෙනීමට සෘජුවම සම්බන්ධ වේ. විශාල දත්ත නොමැතිව, එවකට පැවති ඇල්ගොරිතම වල ස්ථාවර ක්‍රියාකාරිත්වය කළ නොහැක. අනික මේවා neural networks නෙවෙයි. 2012 වන තෙක් ස්නායුක ජාල ආන්තික සුළුතරයකගේ සංරක්ෂණය විය. නමුත් පසුව සම්පූර්ණයෙන්ම වෙනස් ඇල්ගොරිතම ක්‍රියා කිරීමට පටන් ගත් අතර එය වසර ගණනාවක් හෝ දශක ගණනාවක් පැවතුනි: එස්.වී.එම්(1963,1993), අහඹු වනාන්තරය (1995) AdaBoost (2003),... එම වසරවල ආරම්භයන් මූලික වශයෙන් ව්‍යුහගත දත්ත ස්වයංක්‍රීයව සැකසීමට සම්බන්ධ වේ: මුදල් රෙජිස්ටර්, පරිශීලකයින්, ප්‍රචාරණය, තවත් බොහෝ දේ.

    මෙම පළමු තරංගයේ ව්‍යුත්පන්නයක් වන්නේ XGBoost, CatBoost, LightGBM වැනි රාමු සමූහයකි.

  2. 2011-2012 දී convolutional ස්නායු ජාල රූප හඳුනාගැනීමේ තරඟ ගණනාවක් දිනා ගත්තා. ඔවුන්ගේ සැබෑ භාවිතය තරමක් ප්රමාද විය. දැවැන්ත අර්ථවත් ආරම්භක සහ විසඳුම් 2014 දී පෙනෙන්නට පටන් ගත් බව මම කියමි. නියුරෝන තවමත් ක්‍රියා කරන බව ජීර්ණය කිරීමට, සාධාරණ වේලාවක ස්ථාපනය කර දියත් කළ හැකි පහසු රාමු නිර්මාණය කිරීමට, අභිසාරී කාලය ස්ථාවර කර වේගවත් කරන ක්‍රම සංවර්ධනය කිරීමට වසර දෙකක් ගත විය.

    පරිඝනක ජාලයන් මඟින් පරිගණක දර්ශන ගැටළු විසඳීමට හැකි විය: රූපයේ රූප සහ වස්තූන් වර්ගීකරණය, වස්තු හඳුනාගැනීම, වස්තූන් සහ පුද්ගලයින් හඳුනා ගැනීම, රූප වැඩිදියුණු කිරීම යනාදිය.

  3. 2015-2017. පුනරාවර්තන ජාල හෝ ඒවායේ ප්‍රතිසම (LSTM, GRU, TransformerNet, ආදිය) මත පදනම් වූ ඇල්ගොරිතම සහ ව්‍යාපෘතිවල උත්පාතය. හොඳින් ක්‍රියාත්මක වන කථනයෙන් පෙළ ඇල්ගොරිතම සහ යන්ත්‍ර පරිවර්තන පද්ධති දර්ශනය වී ඇත. මූලික ලක්ෂණ උකහා ගැනීම සඳහා ඒවා අර්ධ වශයෙන් ‍පරිවර්තන ජාල මත පදනම් වේ. අපි ඇත්තටම විශාල සහ හොඳ දත්ත කට්ටල එකතු කිරීමට ඉගෙන ගත් නිසා අර්ධ වශයෙන්.

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

“බුබුල පුපුරා ගියාද? ප්‍රචාරණය අධිකද? ඔවුන් බ්ලොක්චේන් ලෙස මිය ගියාද? ”
එසේ නොමැති නම්! හෙට Siri ඔබේ දුරකථනයේ වැඩ කිරීම නවත්වනු ඇත, සහ හෙට අනිද්දා Tesla හැරීම සහ කැන්ගරු අතර වෙනස නොදනී.

ස්නායු ජාල දැනටමත් ක්‍රියා කරයි. ඒවා උපාංග දුසිම් ගණනක ඇත. ඔවුන් ඇත්තටම ඔබට මුදල් ඉපයීමට, වෙළෙඳපොළ සහ ඔබ අවට ලෝකය වෙනස් කිරීමට ඉඩ සලසයි. Hype ටිකක් වෙනස් වගේ:

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

ස්නායුක ජාල තවදුරටත් අලුත් දෙයක් නොවන බව පමණි. ඔව්, ගොඩක් අයට ලොකු බලාපොරොත්තු තියෙනවා. නමුත් සමාගම් විශාල සංඛ්යාවක් නියුරෝන භාවිතා කිරීමට සහ ඒවා මත පදනම්ව නිෂ්පාදන කිරීමට ඉගෙන ගෙන ඇත. නියුරෝන නව ක්‍රියාකාරිත්වය සපයයි, ඔබට රැකියා කපා හැරීමට සහ සේවා මිල අඩු කිරීමට ඉඩ සලසයි:

  • නිෂ්පාදන සමාගම් නිෂ්පාදන රේඛා දෝෂ විශ්ලේෂණය කිරීම සඳහා ඇල්ගොරිතම ඒකාබද්ධ කරයි.
  • පශු සම්පත් ගොවිපළ ගවයින් පාලනය කිරීම සඳහා පද්ධති මිලදී ගනී.
  • ස්වයංක්රීය ඒකාබද්ධ.
  • ස්වයංක්‍රීය ඇමතුම් මධ්‍යස්ථාන.
  • SnapChat හි පෙරහන්. (හොඳයි, අවම වශයෙන් ප්රයෝජනවත් දෙයක්!)

නමුත් ප්‍රධාන දෙය, වඩාත්ම පැහැදිලි නොවේ: “තවත් නව අදහස් නොමැත, නැතහොත් ඒවා ක්ෂණික ප්‍රාග්ධනය ගෙන එන්නේ නැත.” ස්නායු ජාලයන් දුසිම් ගනනක් ගැටළු විසඳා ඇත. තවද ඔවුන් ඊටත් වඩා තීරණය කරනු ඇත. පැවති සියලු පැහැදිලි අදහස් බොහෝ ආරම්භකයින් බිහි විය. නමුත් මතුපිට තිබූ සියල්ල ඒ වන විටත් එකතු වී තිබුණි. පසුගිය වසර දෙක තුළ, ස්නායුක ජාල භාවිතය සඳහා මට එකදු නව අදහසක් හමු නොවීය. තනි නව ප්‍රවේශයක් නොවේ (හොඳයි, හරි, GANs සමඟ ගැටලු කිහිපයක් තිබේ).

තවද එක් එක් පසු ආරම්භය වඩ වඩාත් සංකීර්ණ වේ. විවෘත දත්ත භාවිතා කරමින් නියුරෝනයක් පුහුණු කරන පුද්ගලයින් දෙදෙනෙකු එයට තවදුරටත් අවශ්‍ය නොවේ. එයට ක්‍රමලේඛකයින්, සේවාදායකයක්, සලකුණු කණ්ඩායමක්, සංකීර්ණ සහය යනාදිය අවශ්‍ය වේ.

එහි ප්‍රතිඵලයක් වශයෙන්, ආරම්භකයින් අඩුය. නමුත් නිෂ්පාදනය වැඩියි. බලපත්‍ර තහඩු හඳුනාගැනීම් එක් කිරීමට අවශ්‍යද? වෙළඳපොලේ අදාළ අත්දැකීම් ඇති විශේෂඥයින් සිය ගණනක් ඇත. ඔබට යමෙකු බඳවා ගත හැකි අතර මාස කිහිපයකින් ඔබේ සේවකයා පද්ධතිය සාදනු ඇත. නැතහොත් සූදානම් කළ මිලදී ගන්න. ඒත් අලුතින් පටන් ගන්නවද?.. පිස්සුද!

ඔබ අමුත්තන් ලුහුබැඳීමේ පද්ධතියක් නිර්මාණය කළ යුතුය - මාස 3-4 කින් ඔබට ඔබේම දෑ සාදා ගත හැකි විට බලපත්‍ර පොකුරක් සඳහා ගෙවන්නේ ඇයි, එය ඔබේ ව්‍යාපාරය සඳහා තියුණු කරන්න.

දැන් ස්නායුක ජාලයන් වෙනත් තාක්ෂණයන් දුසිම් ගනනක් පසුකර ඇති මාර්ගයේම ගමන් කරයි.

1995 සිට "වෙබ් අඩවි සංවර්ධකයා" යන සංකල්පය වෙනස් වූ ආකාරය ඔබට මතකද? වෙළඳපොළ තවමත් විශේෂඥයින් සමඟ සංතෘප්ත වී නැත. වෘත්තිකයන් සිටින්නේ ඉතා ස්වල්පයකි. නමුත් මට ඔට්ටු අල්ලන්න පුළුවන් තව අවුරුදු 5-10කින් Java programmer කෙනෙක් සහ neural network developer කෙනෙක් අතර වැඩි වෙනසක් නෑ කියලා. වෙළඳපොලේ විශේෂඥයින් දෙදෙනාම ප්රමාණවත් වනු ඇත.

නියුරෝන මගින් විසඳිය හැකි ගැටළු පන්තියක් සරලව පවතිනු ඇත. කාර්යයක් පැන නැගී ඇත - විශේෂඥයෙකු බඳවා ගන්න.

"ඊළඟට මොකද? පොරොන්දු වූ කෘතිම බුද්ධිය කොහෙද? ”

නමුත් මෙහි කුඩා නමුත් සිත්ගන්නා වරදවා වටහාගැනීමක් තිබේ :)

අද පවතින තාක්‍ෂණ තොගය, පෙනෙන විදිහට, අපව කෘතිම බුද්ධියට ගෙන නොයනු ඇත. අදහස් සහ ඒවායේ නව්‍යතාවය බොහෝ දුරට වෙහෙසට පත් වී ඇත. වර්තමාන සංවර්ධන මට්ටමේ පවතින දේ ගැන කතා කරමු.

සීමා කිරීම්

අපි ස්වයං-රියදුරු කාර් වලින් පටන් ගනිමු. වර්තමාන තාක්ෂණය සමඟ පූර්ණ ස්වයංක්‍රීය මෝටර් රථ සෑදිය හැකි බව පැහැදිලිය. නමුත් මෙය වසර කීයකින් සිදුවේදැයි පැහැදිලි නැත. මෙය වසර කිහිපයකින් සිදුවනු ඇතැයි ටෙස්ලා විශ්වාස කරයි.


තවත් බොහෝ අය සිටිති විශේෂඥයින්, එය වසර 5-10 ක් ලෙස ගණන් බලා ඇත.

බොහෝ දුරට, මගේ මතය අනුව, වසර 15 කින් නගරවල යටිතල පහසුකම් ස්වයංක්‍රීය මෝටර් රථ මතුවීම නොවැළැක්විය හැකි ආකාරයෙන් වෙනස් වන අතර එහි අඛණ්ඩ පැවැත්ම බවට පත්වනු ඇත. නමුත් මෙය බුද්ධියක් ලෙස සැලකිය නොහැකිය. නවීන ටෙස්ලා යනු දත්ත පෙරීම, සෙවීම සහ නැවත පුහුණු කිරීම සඳහා ඉතා සංකීර්ණ නල මාර්ගයකි. මේවා නීති-රීති-රීති, දත්ත එකතු කිරීම සහ ඒවාට පෙරහන් (මෙහි මෙහි මම මේ ගැන තව ටිකක් ලිව්වා, නැත්නම් බලන්න මේ ලකුණු).

පළමු ගැටළුව

අනික මේක තමයි අපි දකින්නේ පළමු මූලික ගැටලුව. විශාල දත්ත. වර්තමාන ස්නායු ජාල සහ යන්ත්‍ර ඉගෙනීමේ රැල්ලට උපත ලබා දුන්නේ මෙයයි. වර්තමානයේ, සංකීර්ණ සහ ස්වයංක්රීය යමක් කිරීමට, ඔබට දත්ත ගොඩක් අවශ්ය වේ. ගොඩක් විතරක් නෙවෙයි, ගොඩක්, ගොඩක්. ඒවා එකතු කිරීම, සලකුණු කිරීම සහ භාවිතය සඳහා අපට ස්වයංක්‍රීය ඇල්ගොරිතම අවශ්‍ය වේ. අපට අවශ්‍ය වන්නේ මෝටර් රථයට හිරුට මුහුණ ලා ඇති ට්‍රක් රථ දැකීමට සැලැස්වීමටයි - අපි පළමුව ඒවා ප්‍රමාණවත් සංඛ්‍යාවක් එකතු කළ යුතුය. අපට අවශ්‍ය වන්නේ බයිසිකලයක් කඳට බෝල්ට් කර මෝටර් රථය පිස්සු නොදැමීමයි - තවත් සාම්පල.

එපමණක්ද නොව, එක් උදාහරණයක් ප්රමාණවත් නොවේ. සිය ගණනක්? දහස්?

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

දෙවන ගැටලුව

දෙවන ගැටලුව - අපගේ ස්නායු ජාලය තේරුම් ගෙන ඇති දේ දෘශ්‍යමාන කිරීම. මෙය ඉතා සුළු නොවන කාර්යයකි. මේ වන තුරු, මෙය දෘශ්‍යමාන කරන්නේ කෙසේදැයි ස්වල්ප දෙනෙක් තේරුම් ගෙන ඇත. මෙම ලිපි ඉතා මෑතකාලීන ඒවා වේ, මේවා දුරස්ථ වුවද උදාහරණ කිහිපයක් පමණි:
දෘශ්යකරණය වයනය සමඟ උමතුව. එය නියුරෝනය සවි කිරීමට නැඹුරු වන්නේ කුමක්ද + එය ආරම්භක තොරතුරු ලෙස සලකන දේ හොඳින් පෙන්වයි.

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?
දෘශ්යකරණය කෙරෙහි අවධානය යොමු කෙරේ පරිවර්තන. ඇත්ත වශයෙන්ම, එවැනි ජාල ප්‍රතික්‍රියාවකට හේතුව කුමක්දැයි පෙන්වීමට ආකර්ෂණය බොහෝ විට භාවිතා කළ හැකිය. නිදොස්කරණය සහ නිෂ්පාදන විසඳුම් යන දෙකටම මම එවැනි දේවල් දැක ඇත්තෙමි. මෙම මාතෘකාව පිළිබඳ ලිපි බොහොමයක් තිබේ. නමුත් දත්ත වඩාත් සංකීර්ණ වන තරමට, ශක්තිමත් දෘශ්‍යකරණය ලබා ගන්නේ කෙසේද යන්න තේරුම් ගැනීම වඩාත් අපහසු වේ.

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

හොඳයි, ඔව්, හොඳ පැරණි කට්ටලය “බලන්න දැල ඇතුළේ ඇති දේ පෙරහන්" මෙම පින්තූර වසර 3-4 කට පෙර ජනප්රිය විය, නමුත් පින්තූර ලස්සන බව සෑම දෙනාම ඉක්මනින් වටහා ගත් නමුත්, ඔවුන් බොහෝ අර්ථයක් නොතිබුණි.

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

ජාලයේ අභ්‍යන්තරය ප්‍රදර්ශනය කරන්නේ කෙසේද යන්න පිළිබඳ වෙනත් උපකරණ, ක්‍රම, හැක් කිරීම්, පර්යේෂණ දුසිම් ගණනක් මම සඳහන් කළේ නැත. මෙම මෙවලම් වැඩ කරන්නේද? ගැටලුව කුමක්දැයි ඉක්මනින් තේරුම් ගැනීමට සහ ජාලය නිදොස් කිරීමට ඔවුන් ඔබට උදව් කරයිද?.. අවසාන ප්‍රතිශතය ලබා ගන්න? හොඳයි, එය සමාන වේ:

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

ඔබට Kaggle හි ඕනෑම තරඟයක් නැරඹිය හැකිය. සහ මිනිසුන් අවසාන තීරණ ගන්නා ආකාරය පිළිබඳ විස්තරයක්. අපි ආකෘති ඒකක 100-500-800 ගොඩගසා එය වැඩ කළා!

මම අතිශයෝක්තියක්, ඇත්තෙන්ම. නමුත් මෙම ප්රවේශයන් ඉක්මන් හා සෘජු පිළිතුරු සපයන්නේ නැත.

ප්‍රමාණවත් පළපුරුද්දක් තිබීම, විවිධ විකල්පයන් වට කර බැලීමෙන්, ඔබේ පද්ධතිය එවැනි තීරණයක් ගත්තේ මන්දැයි ඔබට තීන්දුවක් ලබා දිය හැකිය. නමුත් පද්ධතියේ හැසිරීම නිවැරදි කිරීමට අපහසු වනු ඇත. කිහිලිකරු ස්ථාපනය කරන්න, එළිපත්ත චලනය කරන්න, දත්ත කට්ටලයක් එක් කරන්න, වෙනත් පසුපෙළ ජාලයක් ගන්න.

තුන්වන ගැටලුව

තුන්වන මූලික ගැටලුව - ජාල මගින් සංඛ්‍යාලේඛන උගන්වයි, තර්කය නොවේ. සංඛ්‍යානමය වශයෙන් මෙය මුහුණ:

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

තර්කානුකූලව, එය ඉතා සමාන නොවේ. ස්නායුක ජාලයන් ඔවුන්ට බල කරන්නේ නම් මිස සංකීර්ණ කිසිවක් ඉගෙන නොගනී. ඔවුන් සෑම විටම හැකි සරලම සංඥා උගන්වයි. ඔබට ඇස්, නාසය, හිසක් තිබේද? ඉතින් මේ මුහුණයි! එසේත් නැතිනම් ඇස් යනු මුහුණක් නොවන බවට උදාහරණයක් දෙන්න. නැවතත් - උදාහරණ මිලියන ගණනක්.

පතුලේ ඕනෑ තරම් කාමර තිබේ

වර්තමානයේ ස්නායුක ජාල සහ යන්ත්‍ර ඉගෙනීමේ සංවර්ධනය සීමා කරන්නේ මෙම ගෝලීය ගැටලු තුන බව මම කියමි. මෙම ගැටළු එය සීමා නොකළ තැන, එය දැනටමත් ක්රියාකාරීව භාවිතා වේ.

මේ අවසානයද? ස්නායු ජාල වැඩිද?

නොදන්නා. එහෙත්, ඇත්ත වශයෙන්ම, සෑම කෙනෙකුම බලාපොරොත්තු නොවේ.

මා ඉහතින් පෙන්වා දුන් මූලික ගැටලු විසඳීමට බොහෝ ප්‍රවේශයන් සහ උපදෙස් තිබේ. එහෙත් මෙතෙක්, මෙම ප්රවේශයන් කිසිවක් මූලික වශයෙන් අලුත් දෙයක් කිරීමට, තවමත් විසඳා නැති දෙයක් විසඳීමට හැකි වී නැත. මෙතෙක්, සියලුම මූලික ව්‍යාපෘති සිදු කරනු ලබන්නේ ස්ථායී ප්‍රවේශයන් (ටෙස්ලා) මත හෝ ආයතන හෝ සංස්ථා (ගූගල් බ්‍රේන්, ඕපන්ඒඅයි) පරීක්ෂණ ව්‍යාපෘති ලෙස පවතී.

දළ වශයෙන් කිවහොත්, ප්‍රධාන දිශාව වන්නේ ආදාන දත්තවල ඉහළ මට්ටමේ නිරූපණයක් නිර්මාණය කිරීමයි. එක් අර්ථයකින්, "මතකය". මතකයේ සරලම උදාහරණය වන්නේ විවිධ "Embedding" - රූප නිරූපනයයි. හොඳයි, උදාහරණයක් ලෙස, සියලුම මුහුණු හඳුනාගැනීමේ පද්ධති. භ්‍රමණය, ආලෝකය හෝ විභේදනය මත රඳා නොපවතින යම් ස්ථාවර නිරූපණයක් මුහුණකින් ලබා ගැනීමට ජාලය ඉගෙන ගනී. අත්‍යවශ්‍යයෙන්ම, ජාලය “විවිධ මුහුණු දුරින්” සහ “සමාන මුහුණු සමීප” මෙට්‍රික් අවම කරයි.

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

එවැනි පුහුණුවක් සඳහා උදාහරණ දස දහස් ගණනක් අවශ්ය වේ. නමුත් ප්‍රතිඵලය “එක වර ඉගෙනීමේ” මූලික කරුණු කිහිපයක් දරයි. දැන් අපිට කෙනෙක්ව මතක තියාගන්න මුහුණු සිය ගණනක් අවශ්‍ය නැහැ. එක මුහුණක් විතරයි අපි එච්චරයි අපි සොයා බලමු!
ඇත්තේ එක ගැටලුවක් පමණි... ජාලයට ඉගෙන ගත හැක්කේ තරමක් සරල වස්තූන් පමණි. මුහුණු නොව වෙන්කර හඳුනා ගැනීමට උත්සාහ කරන විට, උදාහරණයක් ලෙස, “ඇඳුම් වලින් මිනිසුන්” (කාර්යය නැවත හඳුනා ගැනීම) - ගුණාත්මකභාවය විශාලත්වයේ බොහෝ ඇණවුම් වලින් පහත වැටේ. තවද ජාලයට තවදුරටත් කෝණවල තරමක් පැහැදිලි වෙනස්කම් ඉගෙන ගත නොහැක.

ඒ වගේම මිලියන ගණන් උදාහරණ වලින් ඉගෙන ගැනීමත් එක්තරා ආකාරයක විනෝදයක්.

මැතිවරණ සැලකිය යුතු ලෙස අඩු කිරීමට වැඩ තිබේ. නිදසුනක් වශයෙන්, කෙනෙකුට පළමු කෘතිවලින් එකක් වහාම සිහිපත් කළ හැකිය OneShot ඉගෙනීම Google වෙතින්:

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

උදාහරණයක් ලෙස එවැනි කෘති බොහොමයක් තිබේ 1 හෝ 2 හෝ 3.

ඇත්තේ එක් අඩුපාඩුවක් පමණි - සාමාන්‍යයෙන් පුහුණුව සමහර සරල, “MNIST” උදාහරණ මත හොඳින් ක්‍රියාත්මක වේ. තවද සංකීර්ණ කාර්යයන් වෙත ගමන් කරන විට, ඔබට විශාල දත්ත ගබඩාවක්, වස්තූන්ගේ ආකෘතියක් හෝ යම් ආකාරයක මැජික් අවශ්ය වේ.
පොදුවේ ගත් කල, වන්-ෂොට් පුහුණුව පිළිබඳ වැඩ කිරීම ඉතා සිත්ගන්නා මාතෘකාවකි. ඔබට බොහෝ අදහස් සොයාගත හැකිය. නමුත් බොහෝ දුරට, මා ලැයිස්තුගත කළ ගැටළු දෙක (විශාල දත්ත කට්ටලයක් මත පූර්ව පුහුණුව / සංකීර්ණ දත්ත මත අස්ථාවරත්වය) ඉගෙනීමට බෙහෙවින් බාධා කරයි.

අනෙක් අතට, GANs - උත්පාදක එදිරිවාදි ජාල - Embedding යන මාතෘකාවට පිවිසෙයි. ඔබ බොහෝ විට මෙම මාතෘකාව පිළිබඳ Habré පිළිබඳ ලිපි ගොන්නක් කියවා ඇත. (1, 2,3)
GAN හි ලක්ෂණයක් වන්නේ යම් අභ්‍යන්තර රාජ්‍ය අවකාශයක් (අත්‍යවශ්‍යයෙන්ම එකම Embedding) සෑදීමයි, එමඟින් ඔබට රූපයක් ඇඳීමට ඉඩ සලසයි. එය විය හැක මුහුණු, වෙන්න පුලුවන් ක්රියාවක්.

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

GAN සමඟ ඇති ගැටළුව නම්, උත්පාදනය කරන ලද වස්තුව වඩාත් සංකීර්ණ වන තරමට, එය "උත්පාදක-විභේදක" තර්කයෙන් විස්තර කිරීම වඩාත් අපහසු වේ. එහි ප්‍රතිඵලයක් වශයෙන්, GAN හි එකම සැබෑ යෙදුම් ගැන අසන්නට ලැබෙන්නේ DeepFake වන අතර, එය නැවතත්, මුහුණේ නිරූපණයන් හසුරුවයි (ඒ සඳහා විශාල පදනමක් ඇත).

මම වෙනත් ප්‍රයෝජනවත් භාවිතයන් ඉතා ස්වල්පයක් දැක ඇත. සාමාන්යයෙන් පින්තූර ඇඳීම අවසන් කිරීම සම්බන්ධ යම් ආකාරයක උපක්රමයකි.

නැවතත්. මෙය අපට දීප්තිමත් අනාගතයකට යාමට ඉඩ දෙන්නේ කෙසේදැයි කිසිවෙකුට අදහසක් නැත. neural network එකක logic/space නියෝජනය කිරීම හොඳයි. නමුත් අපට උදාහරණ විශාල ප්‍රමාණයක් අවශ්‍ය වේ, නියුරෝනය මෙය නියෝජනය කරන්නේ කෙසේදැයි අපට නොතේරේ, නියුරෝනයට ඇත්තෙන්ම සංකීර්ණ අදහසක් මතක තබා ගන්නේ කෙසේදැයි අපට තේරෙන්නේ නැත.

ශක්තිමත් කිරීමේ ඉගෙනීම - මෙය සම්පූර්ණයෙන්ම වෙනස් දිශාවකින් ප්රවේශයකි. Google Go හි සියලු දෙනාම පරාජය කළ ආකාරය නිසැකවම ඔබට මතක ඇති. Starcraft සහ Dota හි මෑත ජයග්‍රහණ. නමුත් මෙහි සෑම දෙයක්ම එතරම් රෝස සහ පොරොන්දු නොවේ. ඔහු RL සහ එහි සංකීර්ණතා ගැන හොඳින්ම කතා කරයි මෙම ලිපිය.

කතුවරයා ලියූ දේ කෙටියෙන් සාරාංශ කිරීමට:

  • පෙට්ටියෙන් පිටත ආකෘති බොහෝ අවස්ථාවලදී නොගැලපේ / දුර්වල ලෙස ක්‍රියා කරයි
  • ප්‍රායෝගික ගැටලු වෙනත් ආකාරවලින් විසඳා ගැනීම පහසුය. බොස්ටන් ඩයිනමික්ස් එහි සංකීර්ණත්වය/අනපේක්ෂිත බව/පරිගණක සංකීර්ණතාව හේතුවෙන් RL භාවිතා නොකරයි.
  • RL වැඩ කිරීමට, ඔබට සංකීර්ණ කාර්යයක් අවශ්ය වේ. බොහෝ විට නිර්මාණය කිරීමට/ලිවීමට අපහසු වේ
  • ආකෘති පුහුණු කිරීමට අපහසුය. පොම්ප කිරීමට සහ දේශීය ප්‍රශස්ත තත්ත්වයෙන් මිදීමට ඔබට බොහෝ කාලයක් ගත කළ යුතුය
  • එහි ප්රතිඵලයක් වශයෙන්, ආකෘතිය නැවත නැවත කිරීමට අපහසු වේ, ආකෘතිය සුළු වෙනස්කම් සමඟ අස්ථායී වේ
  • බොහෝ විට සමහර අහඹු රටා, සසම්භාවී සංඛ්‍යා උත්පාදක යන්ත්‍රයක් පවා ඉක්මවා යයි

ප්රධාන කරුණ වන්නේ RL තවමත් නිෂ්පාදනයේ වැඩ නොකරන බවයි. ගූගල් සතුව අත්හදා බැලීම් කිහිපයක් තිබේ ( 1, 2 ) නමුත් මම එක නිෂ්පාදන පද්ධතියක් දැකලා නැහැ.

මතකය. ඉහත විස්තර කර ඇති සෑම දෙයකම අවාසිය නම් ව්යුහය නොමැති වීමයි. මේ සියල්ල පිළිවෙලට තැබීමට උත්සාහ කළ යුතු එක් ප්‍රවේශයක් නම් ස්නායු ජාලයට වෙනම මතකයකට ප්‍රවේශය ලබා දීමයි. එවිට ඇයගේ පියවරවල ප්‍රතිඵල පටිගත කර නැවත ලිවීමට ඇයට හැකි වනු ඇත. එවිට ස්නායු ජාලය වත්මන් මතක තත්ත්වය අනුව තීරණය කළ හැකිය. මෙය සම්භාව්‍ය ප්‍රොසෙසර සහ පරිගණක වලට බෙහෙවින් සමාන ය.

වඩාත්ම ප්රසිද්ධ හා ජනප්රිය ලිපියක් - DeepMind වෙතින්:

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

බුද්ධිය අවබෝධ කර ගැනීමේ යතුර මෙය බව පෙනේ? නමුත් බොහෝ විට එසේ නොවේ. පද්ධතිය තවමත් පුහුණුව සඳහා විශාල දත්ත ප්රමාණයක් අවශ්ය වේ. තවද එය ප්‍රධාන වශයෙන් ව්‍යුහගත වගු දත්ත සමඟ ක්‍රියා කරයි. එපමණක් නොව, ෆේස්බුක් විට තීරණය කළා ඒ හා සමාන ගැටළුවක්, පසුව ඔවුන් "ඉස්කුරුප්පු මතකය, නියුරෝනය වඩාත් සංකීර්ණ කරන්න, සහ තවත් උදාහරණ ඇත - එවිට එය තනිවම ඉගෙන ගනු ඇත."

විසන්ධි කිරීම. අර්ථවත් මතකයක් නිර්මාණය කිරීමට තවත් ක්රමයක් වන්නේ එකම කාවැද්දීම ගැනීමයි, නමුත් පුහුණුව අතරතුර, ඒවායේ "අර්ථ" ඉස්මතු කිරීමට ඔබට ඉඩ සලසන අතිරේක නිර්ණායක හඳුන්වා දෙන්න. උදාහරණයක් ලෙස, ගබඩාවක මිනිස් හැසිරීම් අතර වෙනස හඳුනා ගැනීමට ස්නායු ජාලයක් පුහුණු කිරීමට අපට අවශ්‍යය. අපි සම්මත මාර්ගය අනුගමනය කරන්නේ නම්, අපට ජාල දුසිමක් සෑදිය යුතුය. එක් පුද්ගලයෙකු සොයමින් සිටී, දෙවැන්න ඔහු කරන්නේ කුමක්ද යන්න තීරණය කරයි, තෙවනුව ඔහුගේ වයස, හතරවන පුද්ගලයා ඔහුගේ ලිංගභේදයයි. වෙනම තර්කනය ගබඩාවේ එය කරන/පුහුණු කර ඇති කොටස දෙස බලයි. තෙවැන්න එහි ගමන් පථය ආදිය තීරණය කරයි.

එසේත් නැතිනම්, අසීමිත දත්ත ප්‍රමාණයක් තිබුනේ නම්, හැකි සෑම ප්‍රතිඵලයක් සඳහාම එක් ජාලයක් පුහුණු කිරීමට හැකි වනු ඇත (පැහැදිලිවම, එවැනි දත්ත සමූහයක් රැස් කළ නොහැක).

විසන්ධි කිරීමේ ප්‍රවේශය අපට කියයි - සංකල්ප අතර වෙනස හඳුනා ගැනීමට හැකි වන පරිදි ජාලය පුහුණු කරමු. එය වීඩියෝව මත පදනම්ව කාවැද්දුමක් සාදනු ඇත, එහිදී එක් ප්‍රදේශයක් ක්‍රියාව තීරණය කරනු ඇත, යමෙකු බිමෙහි පිහිටීම නියමිත වේලාවට තීරණය කරයි, යමෙකු පුද්ගලයාගේ උස තීරණය කරයි, සහ පුද්ගලයාගේ ලිංගභේදය තීරණය කරයි. ඒ අතරම, පුහුණුවීම් කරන විට, එවැනි ප්‍රධාන සංකල්ප සමඟ ජාලයට යොමු නොකිරීමට මම කැමතියි, නමුත් එය ඉස්මතු කිරීමට සහ කණ්ඩායම් ප්‍රදේශ සඳහා. එවැනි ලිපි කිහිපයක් තිබේ (ඒවායින් සමහරක් 1, 2, 3) සහ පොදුවේ ඒවා තරමක් න්‍යායික ය.

නමුත් මෙම දිශාව, අවම වශයෙන් න්යායිකව, ආරම්භයේ ලැයිස්තුගත කර ඇති ගැටළු ආවරණය කළ යුතුය.

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

"බිත්ති වර්ණය / බිම වර්ණය / වස්තුවේ හැඩය / වස්තුවේ වර්ණය / යනාදිය" පරාමිතීන් අනුව රූප වියෝජනය

යන්ත්‍ර ඉගෙනීමේ බුබුල පුපුරා ගොස් තිබේද, නැතහොත් එය නව උදාවක ආරම්භයද?

"ප්‍රමාණය, ඇහි බැම, දිශානතිය, සමේ වර්ණය යනාදිය" යන පරාමිතීන් අනුව මුහුණක් දිරාපත් වීම.

Прочее

දත්ත සමුදාය කෙසේ හෝ අඩු කිරීමට, වඩාත් විෂමජාතීය දත්ත සමඟ වැඩ කිරීමට ඔබට ඉඩ සලසන වෙනත් බොහෝ, එතරම් ගෝලීය නොවන ක්ෂේත්‍ර තිබේ.

අවධානය. මේක වෙනම ක්‍රමයක් විදියට වෙන් කරලා තේරුමක් නැති වෙන්න ඇති. අන් අයව වැඩිදියුණු කරන ප්රවේශයක් පමණි. බොහෝ ලිපි ඔහු වෙනුවෙන් කැප කර ඇත (1,2,3) අවධානය යොමු කළ යුතු කරුණ වන්නේ පුහුණුව අතරතුර සැලකිය යුතු වස්තූන් සඳහා ජාලයේ ප්රතිචාරය වැඩි දියුණු කිරීමයි. බොහෝ විට යම් ආකාරයක බාහිර ඉලක්ක නාමයක් හෝ කුඩා බාහිර ජාලයක් මගින්.

3D අනුකරණය. ඔබ හොඳ ත්‍රිමාණ එන්ජිමක් සාදා ගන්නේ නම්, ඔබට බොහෝ විට පුහුණු දත්ත වලින් 3% ක් ආවරණය කළ හැකිය (දත්තවලින් 90% කට ආසන්න ප්‍රමාණයක් හොඳ එන්ජිමකින් ආවරණය වූ උදාහරණයක් මම ද දුටුවෙමි). සැබෑ දත්ත (Fine tuning, style transfer, etc.) භාවිතයෙන් ත්‍රිමාණ එන්ජිමක් මත පුහුණු වූ ජාලයක් ක්‍රියා කරන්නේ කෙසේද යන්න පිළිබඳව බොහෝ අදහස් සහ හැක් ඇත. නමුත් බොහෝ විට හොඳ එන්ජිමක් සෑදීම දත්ත එකතු කිරීමට වඩා විශාල ඇණවුම් කිහිපයක් වඩා දුෂ්කර ය. එන්ජින් සෑදූ විට උදාහරණ:
රොබෝ පුහුණුව (ගූගල්, මොළවත්ත)
පුහුණු සැසි පිළිගැනීම ගබඩාවේ ඇති භාණ්ඩ (නමුත් අපි කළ ව්යාපෘති දෙකේදී, එය නොමැතිව අපට පහසුවෙන් කළ හැකිය).
ටෙස්ලා හි පුහුණුව (නැවතත්, ඉහත වීඩියෝව).

සොයා ගැනීම්

මුළු ලිපියම, එක් අර්ථයකින්, නිගමන වේ. බොහෝ විට මට කිරීමට අවශ්‍ය වූ ප්‍රධාන පණිවිඩය වනුයේ "නොමිලේ දීම අවසන්, නියුරෝන තවදුරටත් සරල විසඳුම් ලබා නොදේ" යන්නයි. දැන් අපි සංකීර්ණ තීරණ ගැනීමට වෙහෙස මහන්සි වී වැඩ කළ යුතුයි. නැතහොත් සංකීර්ණ විද්‍යාත්මක පර්යේෂණ කරමින් වෙහෙස මහන්සි වී වැඩ කරන්න.

පොදුවේ ගත් කල, මාතෘකාව විවාදාත්මක ය. සමහරවිට පාඨකයන්ට වඩා රසවත් උදාහරණ තිබේද?

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න