Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

Highload++ සහ DataFest Minsk 2019 හි මගේ කථා මත පදනම්ව.

අද බොහෝ දෙනෙකුට තැපෑල යනු සබැඳි ජීවිතයේ අනිවාර්ය අංගයකි. එහි සහාය ඇතිව, අපි ව්‍යාපාරික ලිපි හුවමාරු කර ගනිමු, මූල්‍ය, හෝටල් වෙන්කරවා ගැනීම්, ඇණවුම් කිරීම සහ තවත් බොහෝ දේ සම්බන්ධ වැදගත් තොරතුරු ගබඩා කරමු. 2018 මැද භාගයේදී, අපි තැපැල් සංවර්ධනය සඳහා නිෂ්පාදන උපාය මාර්ගයක් සකස් කළෙමු. නවීන තැපෑල කෙබඳු විය යුතුද?

තැපැල් විය යුතුය බුද්ධිමත්, එනම්, වැඩිවන තොරතුරු පරිමාවේ සැරිසැරීමට පරිශීලකයින්ට උපකාර කිරීම: පෙරහන, ව්‍යුහය සහ එය වඩාත් පහසු ආකාරයෙන් ලබා දීම. ඇය විය යුතුය ප්රයෝජනවත්, ඔබගේ තැපැල් පෙට්ටියේ විවිධ කාර්යයන් විසඳීමට ඔබට ඉඩ සලසයි, උදාහරණයක් ලෙස, දඩ මුදල් ගෙවන්න (අවාසනාවකට, මම භාවිතා කරන කාර්යයක්). ඒ අතරම, ඇත්ත වශයෙන්ම, තැපෑලෙන් තොරතුරු ආරක්ෂාව සැපයිය යුතුය, අයාචිත තැපැල් කපා හැරීම සහ අනවසරයෙන් ආරක්ෂා කිරීම, එනම්, විය යුතුය. ආරක්ෂිතයි.

මෙම ක්ෂේත්‍ර ප්‍රධාන ගැටළු ගණනාවක් නිර්වචනය කරයි, ඒවායින් බොහොමයක් යන්ත්‍ර ඉගෙනීම භාවිතයෙන් ඵලදායි ලෙස විසඳිය හැකිය. උපාය මාර්ගයේ කොටසක් ලෙස සංවර්ධනය කර ඇති දැනටමත් පවතින විශේෂාංග සඳහා උදාහරණ මෙන්න - එක් එක් දිශාවට එකක්.

  • ස්මාර්ට් පිළිතුර. තැපෑලට ස්මාර්ට් පිළිතුරු විශේෂාංගයක් ඇත. ස්නායුක ජාලය ලිපියේ පෙළ විශ්ලේෂණය කරයි, එහි තේරුම සහ අරමුණ තේරුම් ගනී, එහි ප්‍රතිඵලයක් ලෙස වඩාත් සුදුසු ප්‍රතිචාර විකල්ප තුන ඉදිරිපත් කරයි: ධනාත්මක, සෘණ සහ මධ්‍යස්ථ. මෙය ලිපි වලට පිළිතුරු දීමේදී කාලය සැලකිය යුතු ලෙස ඉතිරි කර ගැනීමට උපකාරී වන අතර බොහෝ විට සම්මත නොවන හා හාස්‍යජනක ආකාරයෙන් ප්‍රතිචාර දක්වයි.
  • ඊමේල් සමූහගත කිරීමඅන්තර්ජාල වෙළඳසැල් වල ඇණවුම් වලට සම්බන්ධයි. අපි බොහෝ විට අන්තර්ජාලය හරහා සාප්පු යන අතර, රීතියක් ලෙස, ගබඩාවලට එක් එක් ඇණවුම සඳහා ඊමේල් කිහිපයක් යැවිය හැක. උදාහරණයක් ලෙස, විශාලතම සේවාව වන AliExpress වෙතින්, එක් ඇණවුමක් සඳහා ලිපි විශාල ප්‍රමාණයක් පැමිණෙන අතර, ටර්මිනල් නඩුවේදී ඒවායේ අංකය 29 දක්වා ළඟා විය හැකි බව අපි ගණනය කළෙමු. එබැවින්, Named Entity Recognition ආකෘතිය භාවිතයෙන්, අපි ඇණවුම් අංකය උපුටා ගනිමු. සහ පාඨයෙන් වෙනත් තොරතුරු සහ සියලුම අකුරු එක් නූල් එකක සමූහගත කරන්න. අපි ඇණවුම පිළිබඳ මූලික තොරතුරු වෙනම පෙට්ටියක ප්‍රදර්ශනය කරමු, එමඟින් මෙම ආකාරයේ විද්‍යුත් තැපෑල සමඟ වැඩ කිරීම පහසු කරයි.

    Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

  • Anti phishing. තතුබෑම් යනු විශේෂයෙන් භයානක වංචනික විද්‍යුත් තැපෑලකි, ප්‍රහාරකයින් මූල්‍ය තොරතුරු (පරිශීලකයාගේ බැංකු කාඩ්පත් ඇතුළුව) සහ පිවිසුම් ලබා ගැනීමට උත්සාහ කරයි. එවැනි ලිපි දෘශ්‍යමය වශයෙන් ඇතුළුව සේවාව විසින් එවන ලද සැබෑ ලිපි අනුකරණය කරයි. එබැවින්, Computer Vision ආධාරයෙන්, අපි විශාල සමාගම්වල (උදාහරණයක් ලෙස, Mail.ru, Sber, Alfa) ලාංඡන සහ අකුරු සැලසුම් විලාසය හඳුනාගෙන අපගේ අයාචිත තැපැල් සහ තතුබෑම් වර්ගීකරණවල පෙළ සහ අනෙකුත් විශේෂාංග සමඟ මෙය සැලකිල්ලට ගනිමු. .

යන්ත්‍ර ඉගෙනීම

සාමාන්‍යයෙන් විද්‍යුත් තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ගැන ටිකක්. තැපෑල යනු අධික ලෙස පටවන ලද පද්ධතියකි: සාමාන්‍යයෙන් දිනකට අකුරු බිලියන 1,5 ක් අපගේ සේවාදායකයන් හරහා මිලියන 30 DAU පරිශීලකයින් සඳහා ගමන් කරයි. යන්ත්‍ර ඉගෙනුම් පද්ධති 30ක් පමණ අවශ්‍ය සියලුම කාර්යයන් සහ විශේෂාංග සඳහා සහය දක්වයි.

සෑම අකුරක්ම සම්පූර්ණ වර්ගීකරණ නල මාර්ගයක් හරහා ගමන් කරයි. මුලින්ම අපි ස්පෑම් කපා හැර හොඳ ඊමේල් තබමු. අයාචිත තැපැල් වලින් 95-99% ක්ම සුදුසු ෆෝල්ඩරයේ පවා අවසන් නොවන නිසා පරිශීලකයින් බොහෝ විට antispam වල ක්‍රියාකාරිත්වය නොදකිති. අයාචිත තැපැල් හඳුනාගැනීම අපගේ පද්ධතියේ ඉතා වැදගත් අංගයක් වන අතර, වඩාත්ම දුෂ්කර වන්නේ, අයාචිත තැපැල් විරෝධී ක්ෂේත්‍රයේ ආරක්ෂක සහ ප්‍රහාරක පද්ධති අතර නිරන්තර අනුවර්තනයක් ඇති බැවින්, අපගේ කණ්ඩායමට අඛණ්ඩ ඉංජිනේරු අභියෝගයක් සපයයි.

ඊළඟට, අපි මිනිසුන් සහ රොබෝවරුන්ගෙන් ලිපි වෙන් කරමු. පුද්ගලයන්ගෙන් ලැබෙන ඊමේල් වඩාත් වැදගත් වේ, එබැවින් අපි ඔවුන් සඳහා Smart Reply වැනි විශේෂාංග සපයන්නෙමු. රොබෝවරුන්ගේ ලිපි කොටස් දෙකකට බෙදා ඇත: ගනුදෙනු - මේවා සේවා වලින් වැදගත් ලිපි, උදාහරණයක් ලෙස, මිලදී ගැනීම් හෝ හෝටල් වෙන් කිරීම්, මූල්‍ය සහ තොරතුරු තහවුරු කිරීම් - මේවා ව්‍යාපාරික වෙළඳ දැන්වීම්, වට්ටම් වේ.

ගනුදෙනු ඊමේල් පුද්ගලික ලිපි හුවමාරුවට සමාන වැදගත්කමක් ඇති බව අපි විශ්වාස කරමු. ඔවුන් අත ළඟ තිබිය යුතුය, මන්ද අපට බොහෝ විට ඇණවුමක් හෝ ගුවන් ටිකට්පත් වෙන්කරවා ගැනීම පිළිබඳ තොරතුරු ඉක්මනින් සොයා ගැනීමට අවශ්‍ය වන අතර අපි මෙම ලිපි සෙවීමට කාලය ගත කරමු. එබැවින්, පහසුව සඳහා, අපි ඒවා ස්වයංක්‍රීයව ප්‍රධාන කාණ්ඩ හයකට බෙදා දෙමු: ගමන්, ඇණවුම්, මූල්‍ය, ටිකට්පත්, ලියාපදිංචි කිරීම් සහ, අවසාන වශයෙන්, දඩ.

තොරතුරු ලිපි යනු විශාලතම සහ සමහර විට අඩු වැදගත් කණ්ඩායමක් වන අතර, ඒවාට ක්ෂණික ප්‍රතිචාරයක් අවශ්‍ය නොවේ, මන්ද ඔහු එවැනි ලිපියක් කියවා නොමැති නම් පරිශීලකයාගේ ජීවිතයේ සැලකිය යුතු කිසිවක් වෙනස් නොවනු ඇත. අපගේ නව අතුරුමුහුණත තුළ, අපි ඒවා නූල් දෙකකට කඩා දමමු: සමාජ ජාල සහ පුවත් පත්‍රිකා, එමඟින් එන ලිපි දෘශ්‍යමය වශයෙන් ඉවත් කර වැදගත් පණිවිඩ පමණක් දෘශ්‍යමාන කරයි.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

මෙහෙයුම

පද්ධති විශාල සංඛ්යාවක් ක්රියාත්මක කිරීමේදී බොහෝ දුෂ්කරතා ඇති කරයි. සියල්ලට පසු, ඕනෑම මෘදුකාංගයක් මෙන් ආකෘති කාලයත් සමඟ පිරිහී යයි: විශේෂාංග කැඩී යයි, යන්ත්‍ර අසමත් වේ, කේතය වංක වේ. මීට අමතරව, දත්ත නිරන්තරයෙන් වෙනස් වේ: නව ඒවා එකතු කරනු ලැබේ, පරිශීලක හැසිරීම් රටා පරිවර්තනය කිරීම යනාදිය, එබැවින් නිසි සහාය නොමැති ආකෘතියක් කාලයත් සමඟ වඩාත් නරක හා නරක ලෙස ක්රියා කරයි.

ගැඹුරු යන්ත්‍ර ඉගෙනීම පරිශීලකයින්ගේ ජීවිතවලට විනිවිද යන බව අප අමතක නොකළ යුතුය, ඔවුන් පරිසර පද්ධතියට ඇති කරන බලපෑම වැඩි වන අතර, එහි ප්‍රතිඵලයක් වශයෙන්, වෙළඳපල ක්‍රීඩකයින්ට වැඩි මූල්‍ය පාඩු හෝ ලාභ ලැබිය හැකිය. එබැවින්, වැඩිවන ප්‍රදේශ ගණනක, ක්‍රීඩකයින් ML ඇල්ගොරිතමවල ක්‍රියාකාරිත්වයට අනුවර්තනය වෙමින් සිටී (සම්භාව්‍ය උදාහරණ වන්නේ ප්‍රචාරණය, සෙවීම සහ දැනටමත් සඳහන් කර ඇති antispam).

එසේම, යන්ත්‍ර ඉගෙනීමේ කාර්යයන් සඳහා විශේෂත්වයක් ඇත: ඕනෑම, සුළු, පද්ධතියේ වෙනසක් පවා ආකෘතිය සමඟ වැඩ ගොඩක් ජනනය කළ හැකිය: දත්ත සමඟ වැඩ කිරීම, නැවත පුහුණු කිරීම, යෙදවීම, සති හෝ මාස ගත විය හැකිය. එමනිසා, ඔබේ මාදිලි ක්‍රියාත්මක වන පරිසරය වේගයෙන් වෙනස් වන තරමට ඒවා නඩත්තු කිරීමට වැඩි උත්සාහයක් අවශ්‍ය වේ. කණ්ඩායමකට බොහෝ පද්ධති නිර්මාණය කර ඒ ගැන සතුටු විය හැකි නමුත්, අලුත් දෙයක් කිරීමට අවස්ථාවක් නොමැතිව, ඒවා නඩත්තු කිරීම සඳහා එහි සම්පත් සියල්ලම පාහේ වියදම් කළ හැකිය. අපි වරක් antispam කණ්ඩායම තුළ එවැනි තත්ත්වයකට මුහුණ දුන්නා. සහය ස්වයංක්‍රීය විය යුතු බවට ඔවුන් පැහැදිලි නිගමනයක් ගෙන ඇත.

ස්වයංක්‍රීයකරණය

ස්වයංක්‍රීය කළ හැක්කේ කුමක්ද? සෑම දෙයක්ම පාහේ, ඇත්ත වශයෙන්ම. යන්ත්‍ර ඉගෙනුම් යටිතල ව්‍යුහය නිර්වචනය කරන ක්ෂේත්‍ර හතරක් මම හඳුනාගෙන ඇත:

  • දත්ත එකතුව;
  • අතිරේක පුහුණුව;
  • යෙදවීම;
  • පරීක්ෂා කිරීම සහ අධීක්ෂණය.

පරිසරය අස්ථායී සහ නිරන්තරයෙන් වෙනස් වන්නේ නම්, ආකෘතිය වටා ඇති සමස්ත යටිතල පහසුකම් ආකෘතියට වඩා වැදගත් වේ. එය හොඳ පැරණි රේඛීය වර්ගීකරණයක් විය හැක, නමුත් ඔබ එයට නිවැරදි විශේෂාංග පෝෂණය කරන්නේ නම් සහ පරිශීලකයින්ගෙන් හොඳ ප්‍රතිපෝෂණ ලබා ගන්නේ නම්, එය සියලුම සීනු සහ විස්ල් සහිත නවීනතම මාදිලිවලට වඩා හොඳින් ක්‍රියා කරයි.

ප්‍රතිපෝෂණ පුඩුව

මෙම චක්‍රය දත්ත එකතු කිරීම, අමතර පුහුණුව සහ යෙදවීම ඒකාබද්ධ කරයි - ඇත්ත වශයෙන්ම, සම්පූර්ණ මාදිලි යාවත්කාලීන චක්‍රය. එය වැදගත් වන්නේ ඇයි? තැපෑලෙන් ලියාපදිංචි කිරීමේ කාලසටහන බලන්න:

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

යන්ත්‍ර ඉගෙනුම් සංවර්ධකයෙකු විසින් විද්‍යුත් තැපෑලෙහි ලියාපදිංචි වීම වළක්වන ප්‍රති-බොට් ආකෘතියක් ක්‍රියාත්මක කර ඇත. ප්‍රස්ථාරය සැබෑ පරිශීලකයින් පමණක් ඉතිරි වන අගයකට පහත වැටේ. සෑම දෙයක්ම විශිෂ්ටයි! නමුත් පැය හතරක් ගත වේ, බොට්ස් ඔවුන්ගේ ස්ක්‍රිප්ට් වෙනස් කරයි, සහ සියල්ල සාමාන්‍ය තත්වයට පත් වේ. මෙම ක්‍රියාත්මක කිරීමේදී, සංවර්ධකයා විශේෂාංග එකතු කිරීම සහ ආකෘතිය නැවත පුහුණු කිරීම සඳහා මාසයක් ගත කළ නමුත් ස්පෑම්කරුට පැය හතරකින් අනුවර්තනය වීමට හැකි විය.

එතරම් වේදනාකාරී නොවන පරිදි සහ පසුව සියල්ල නැවත කිරීමට සිදු නොවීම සඳහා, ප්‍රතිපෝෂණ ලූපය කෙබඳු වනු ඇත්ද සහ පරිසරය වෙනස් වුවහොත් අප කරන්නේ කුමක්ද යන්න පිළිබඳව අප මුලින් සිතා බැලිය යුතුය. අපි දත්ත එකතු කිරීම ආරම්භ කරමු - මෙය අපගේ ඇල්ගොරිතම සඳහා ඉන්ධන වේ.

දත්ත එකතුව

නවීන ස්නායුක ජාල සඳහා, වැඩි දත්ත, වඩා හොඳ, සහ ඒවා ඇත්ත වශයෙන්ම නිෂ්පාදනයේ භාවිතා කරන්නන් විසින් ජනනය කරන බව පැහැදිලිය. පරිශීලකයින්ට දත්ත සලකුණු කිරීමෙන් අපට උදව් කළ හැකිය, නමුත් අපට මෙය අනිසි ලෙස භාවිතා කළ නොහැක, මන්ද යම් අවස්ථාවක පරිශීලකයින් ඔබේ ආකෘති සම්පූර්ණ කිරීමෙන් වෙහෙසට පත් වන අතර වෙනත් නිෂ්පාදනයකට මාරු වනු ඇත.

වඩාත් පොදු වැරදි වලින් එකක් (මෙහි මම Andrew Ng වෙත යොමු කරමි) පරීක්ෂණ දත්ත කට්ටලයේ ප්‍රමිතික කෙරෙහි වැඩි අවධානයක් යොමු කිරීම මිස පරිශීලකයාගේ ප්‍රතිපෝෂණ මත නොවේ, එය ඇත්ත වශයෙන්ම අපි නිර්මාණය කරන බැවින් කාර්යයේ ගුණාත්මකභාවය පිළිබඳ ප්‍රධාන මිනුම වේ. පරිශීලකයා සඳහා නිෂ්පාදනයක්. පරිශීලකයා ආකෘතියේ කාර්යය තේරුම් නොගන්නේ නම් හෝ අකමැති නම්, සියල්ල විනාශ වේ.

එබැවින්, පරිශීලකයාට සැමවිටම ඡන්දය ප්රකාශ කිරීමට හැකි විය යුතු අතර ප්රතිපෝෂණ සඳහා මෙවලමක් ලබා දිය යුතුය. තැපැල් පෙට්ටියට මූල්‍ය සම්බන්ධ ලිපියක් පැමිණ ඇතැයි අපි සිතන්නේ නම්, එය “මුදල්” ලෙස සලකුණු කර පරිශීලකයාට ක්ලික් කර මෙය මූල්‍ය නොවන බව පැවසිය හැකි බොත්තමක් අඳින්න.

ප්‍රතිපෝෂණ ගුණත්වය

පරිශීලක ප්‍රතිපෝෂණවල ගුණාත්මකභාවය ගැන කතා කරමු. පළමුව, ඔබට සහ පරිශීලකයාට එක් සංකල්පයකට විවිධ අර්ථයන් තැබිය හැකිය. උදාහරණයක් ලෙස, ඔබ සහ ඔබේ නිෂ්පාදන කළමනාකරුවන් සිතන්නේ "මූල්‍ය" යන්නෙන් අදහස් කරන්නේ බැංකුවෙන් ලැබෙන ලිපි වන අතර, පරිශීලකයා සිතන්නේ ආච්චිගේ විශ්‍රාම වැටුප පිළිබඳ ලිපියක් ද මූල්‍යයට යොමු වන බවයි. දෙවනුව, කිසිදු තර්කයකින් තොරව බොත්තම් එබීමට අඥාන ලෙස කැමති පරිශීලකයින් සිටී. තෙවනුව, පරිශීලකයා ඔහුගේ නිගමනවල ගැඹුරින් වරදවා වටහා ගත හැකිය. අපගේ භාවිතයේ කැපී පෙනෙන උදාහරණයක් වන්නේ වර්ගීකරණයක් ක්‍රියාත්මක කිරීමයි නයිජීරියානු ස්පෑම්, අප්‍රිකාවේ හදිසියේ සොයාගත් දුරස්ථ ඥාතියෙකුගෙන් ඩොලර් මිලියන කිහිපයක් ගැනීමට පරිශීලකයාගෙන් ඉල්ලා සිටින ඉතා විහිලු ආකාරයේ ස්පෑම් වර්ගයකි. මෙම වර්ගීකාරකය ක්‍රියාත්මක කිරීමෙන් පසු, අපි මෙම ඊමේල්වල “නොට් ස්පෑම්” ක්ලික් කිරීම් පරීක්‍ෂා කළ අතර, ඒවායින් 80% ක් ඉස්ම සහිත නයිජීරියානු අයාචිත තැපැල් බව පෙනී ගිය අතර, එයින් ඇඟවෙන්නේ පරිශීලකයින් අතිශයින්ම රැවටිලිකාර විය හැකි බවයි.

බොත්තම් මිනිසුන්ට පමණක් නොව, බ්‍රවුසරයක් ලෙස පෙනී සිටින සියලු වර්ගවල බොට් මගින්ද ක්ලික් කළ හැකි බව අමතක නොකළ යුතුය. ඒ නිසා raw feedback ඉගෙනීමට හොඳ නැහැ. මෙම තොරතුරු සමඟ ඔබට කුමක් කළ හැකිද?

අපි ප්රවේශයන් දෙකක් භාවිතා කරමු:

  • සම්බන්ධිත ML වෙතින් ප්‍රතිපෝෂණය. උදාහරණයක් ලෙස, අප සතුව ඔන්ලයින් ප්‍රති-බොට් පද්ධතියක් ඇත, එය මා සඳහන් කළ පරිදි, සීමිත සලකුණු සංඛ්‍යාවක් මත පදනම්ව ඉක්මන් තීරණයක් ගනී. ඇත්තෙන් පසු ක්‍රියා කරන දෙවන, මන්දගාමී පද්ධතියක් ඇත. එහි පරිශීලකයා, ඔහුගේ හැසිරීම යනාදිය පිළිබඳ වැඩි දත්ත තිබේ. එහි ප්රතිඵලයක් වශයෙන්, වඩාත්ම දැනුවත් තීරණය ගනු ලැබේ; ඒ අනුව, එය ඉහළ නිරවද්යතාවක් සහ සම්පූර්ණත්වයක් ඇත. ඔබට මෙම පද්ධතිවල ක්‍රියාකාරිත්වයේ වෙනස පුහුණු දත්ත ලෙස පළමු එකට යොමු කළ හැකිය. මේ අනුව, සරල පද්ධතියක් සෑම විටම වඩාත් සංකීර්ණ එකක කාර්ය සාධනය වෙත ළඟා වීමට උත්සාහ කරයි.
  • වර්ගීකරණය ක්ලික් කරන්න. ඔබට එක් එක් පරිශීලක ක්ලික් කිරීම් වර්ගීකරණය කළ හැකිය, එහි වලංගුභාවය සහ උපයෝගීතාව ඇගයීමට ලක් කරන්න. පරිශීලක ගුණාංග, ඔහුගේ ඉතිහාසය, යවන්නාගේ ගුණාංග, පෙළ සහ වර්ගීකරණයන්ගේ ප්‍රතිඵලය භාවිතා කරමින් අපි මෙය antispam තැපෑලෙන් කරන්නෙමු. එහි ප්‍රතිඵලයක් වශයෙන්, පරිශීලක ප්‍රතිපෝෂණ වලංගු කරන ස්වයංක්‍රීය පද්ධතියක් අපට ලැබේ. එය නැවත පුහුණු කළ යුත්තේ බොහෝ අඩුවෙන් බැවින්, එහි කාර්යය අනෙකුත් සියලුම පද්ධති සඳහා පදනම බවට පත්විය හැකිය. මෙම ආකෘතියේ ප්‍රධාන ප්‍රමුඛතාවය නිරවද්‍යතාවයයි, මන්ද සාවද්‍ය දත්ත මත ආකෘතිය පුහුණු කිරීම ප්‍රතිවිපාකවලින් පිරී ඇත.

අපි දත්ත පිරිසිදු කරමින් සහ අපගේ ML පද්ධති තවදුරටත් පුහුණු කරන අතරතුර, අපි පරිශීලකයින් ගැන අමතක නොකළ යුතුය, මන්ද අපට, ප්‍රස්ථාරයේ දහස් ගණනක්, මිලියන ගණනක් දෝෂ සංඛ්‍යාලේඛන වන අතර පරිශීලකයාට සෑම දෝෂයක්ම ඛේදවාචකයකි. නිෂ්පාදනයේ ඔබේ දෝෂය සමඟ පරිශීලකයා කෙසේ හෝ ජීවත් විය යුතුය යන කාරණයට අමතරව, ප්‍රතිපෝෂණ ලැබීමෙන් පසු, අනාගතයේදී ඒ හා සමාන තත්වයක් ඉවත් කරනු ඇතැයි ඔහු අපේක්ෂා කරයි. එමනිසා, පරිශීලකයින්ට ඡන්දය ප්‍රකාශ කිරීමට පමණක් නොව, එම්එල් පද්ධතිවල හැසිරීම නිවැරදි කිරීමට ද සෑම විටම වටී, උදාහරණයක් ලෙස, එක් එක් ප්‍රතිපෝෂණ ක්ලික් කිරීම සඳහා පුද්ගලික හූරිස්ටික් නිර්මාණය කිරීම; තැපෑල සම්බන්ධයෙන්, මෙය පෙරීමේ හැකියාව විය හැකිය. එවන් ලිපි යවන්නා සහ මෙම පරිශීලකයා සඳහා මාතෘකාව.

අනෙකුත් පරිශීලකයින්ට සමාන ගැටළු වලින් පීඩා විඳීමට නොහැකි වන පරිදි අර්ධ ස්වයංක්‍රීය හෝ අතින් සහය දැක්වීමට සමහර වාර්තා හෝ ඉල්ලීම් මත පදනම්ව ඔබ ආකෘතියක් ගොඩනගා ගත යුතුය.

ඉගෙනීම සඳහා Heuristics

මෙම හූරිස්ටික් සහ අත්වාරු වල ගැටළු දෙකක් තිබේ. පළමුවැන්න නම්, දිනෙන් දින වැඩි වන කිහිලිකරු සංඛ්‍යාව පවත්වා ගැනීම දුෂ්කර වන අතර, දිගු කාලයක් පුරා ඒවායේ ගුණාත්මක භාවය සහ ක්‍රියාකාරීත්වය නොසලකා හැරීමයි. දෙවන ගැටළුව වන්නේ දෝෂය නිතර නිතර නොවිය හැකි අතර, ආකෘතිය තවදුරටත් පුහුණු කිරීම සඳහා ක්ලික් කිරීම් කිහිපයක් ප්රමාණවත් නොවේ. පහත ප්‍රවේශය යෙදුවහොත් මෙම අසම්බන්ධ බලපෑම් දෙක සැලකිය යුතු ලෙස උදාසීන කළ හැකි බව පෙනේ.

  1. අපි තාවකාලික අත්වාරුවක් නිර්මාණය කරමු.
  2. අපි එයින් දත්ත ආකෘතියට යවන්නෙමු, ලැබුණු දත්ත ඇතුළුව එය නිතිපතා යාවත්කාලීන වේ. මෙන්න, ඇත්ත වශයෙන්ම, පුහුණු කට්ටලයේ දත්තවල ගුණාත්මක භාවය අඩු නොකිරීමට හූරිස්ටික්ස් ඉහළ නිරවද්යතාවක් ඇති බව වැදගත් වේ.
  3. ඉන්පසුව අපි කිහිලිකරු අවුලුවාලීම සඳහා අධීක්‍ෂණය සකසා ඇති අතර, ටික වේලාවකට පසු කිහිලිකරු තවදුරටත් ක්‍රියා නොකරන්නේ නම් සහ ආකෘතියෙන් සම්පූර්ණයෙන්ම ආවරණය වී ඇත්නම්, ඔබට එය ආරක්ෂිතව ඉවත් කළ හැකිය. දැන් මේ ප්‍රශ්නය ආයෙත් ඇතිවෙන එකක් නැහැ.

එබැවින් කිහිලිකරු හමුදාවක් ඉතා ප්රයෝජනවත් වේ. ප්රධාන දෙය නම් ඔවුන්ගේ සේවය හදිසි වන අතර ස්ථිර නොවේ.

අමතර පුහුණුව

නැවත පුහුණු කිරීම යනු පරිශීලකයින් හෝ වෙනත් පද්ධතිවල ප්‍රතිපෝෂණවල ප්‍රතිඵලයක් ලෙස ලබාගත් නව දත්ත එකතු කිරීම සහ ඒ පිළිබඳව පවතින ආකෘතියක් පුහුණු කිරීමේ ක්‍රියාවලියයි. අමතර පුහුණුව සමඟ ගැටළු කිහිපයක් තිබිය හැකිය:

  1. ආකෘතිය අතිරේක පුහුණුව සඳහා සහාය නොදක්වයි, නමුත් මුල සිටම ඉගෙන ගන්න.
  2. අතිරේක පුහුණුව නිසැකව ම නිෂ්පාදනයේ කාර්යයේ ගුණාත්මක භාවය වැඩි දියුණු කරන බව ස්වභාවධර්මයේ පොතෙහි කොතැනකවත් ලියා නැත. බොහෝ විට සිදුවන්නේ ප්රතිවිරුද්ධයයි, එනම්, පිරිහීම පමණක් හැකි ය.
  3. වෙනස්කම් අනපේක්ෂිත විය හැකිය. මෙය අප විසින්ම හඳුනාගෙන ඇති තරමක් සියුම් කරුණකි. A/B පරීක්ෂණයක නව මාදිලියක් වත්මන් එකට සාපේක්ෂව සමාන ප්‍රතිඵල පෙන්නුම් කළත්, එය සමානව ක්‍රියා කරන බව මින් අදහස් නොවේ. ඔවුන්ගේ කාර්යය සියයට එකකින් පමණක් වෙනස් විය හැකිය, එමඟින් නව දෝෂ ගෙන ඒමට හෝ දැනටමත් නිවැරදි කර ඇති පැරණි ඒවා ආපසු ලබා දිය හැකිය. වත්මන් දෝෂ සමඟ ජීවත් වන්නේ කෙසේදැයි අපි සහ පරිශීලකයින් යන දෙදෙනාම දැනටමත් දන්නා අතර නව දෝෂ විශාල ප්‍රමාණයක් ඇති වූ විට, පරිශීලකයාට සිදුවන්නේ කුමක්ද යන්න තේරුම් නොගත හැකිය, මන්ද ඔහු අනාවැකි කළ හැකි හැසිරීමක් අපේක්ෂා කරයි.

එමනිසා, අතිරේක පුහුණුවෙහි වැදගත්ම දෙය වන්නේ ආකෘතිය වැඩිදියුණු කිරීම හෝ අවම වශයෙන් නරක අතට හැරීම සහතික කිරීමයි.

අතිරේක පුහුණුව ගැන කතා කරන විට මතකයට එන පළමු දෙය වන්නේ ක්රියාකාරී ඉගෙනුම් ප්රවේශයයි. මෙමගින් කුමක් වෙයිද? උදාහරණයක් ලෙස, විද්‍යුත් තැපෑලක් මූල්‍යයට සම්බන්ධද යන්න වර්ගීකාරකය තීරණය කරයි, සහ එහි තීරණ සීමාව වටා අපි ලේබල් කළ උදාහරණ නියැදියක් එකතු කරමු. මෙය හොඳින් ක්‍රියාත්මක වේ, උදාහරණයක් ලෙස, වෙළඳ ප්‍රචාරණයේදී, ප්‍රතිපෝෂණ රාශියක් ඇති අතර ඔබට අන්තර්ජාලය හරහා ආකෘතිය පුහුණු කළ හැකිය. කුඩා ප්‍රතිපෝෂණ තිබේ නම්, නිෂ්පාදන දත්ත බෙදා හැරීමට සාපේක්ෂව අපට ඉහළ පක්ෂග්‍රාහී නියැදියක් ලැබේ, එහි පදනම මත ක්‍රියාත්මක වන විට ආකෘතියේ හැසිරීම තක්සේරු කළ නොහැක.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

ඇත්ත වශයෙන්ම, අපගේ ඉලක්කය වන්නේ පැරණි රටා, දැනටමත් දන්නා ආකෘති සංරක්ෂණය කිරීම සහ නව ඒවා අත්පත් කර ගැනීමයි. මෙහි අඛණ්ඩ පැවැත්ම වැදගත් වේ. අපි බොහෝ විට පෙරළීමට මහත් වෙහෙසක් ගත් ආකෘතිය දැනටමත් ක්‍රියාත්මක වන බැවින් අපට එහි ක්‍රියාකාරිත්වය කෙරෙහි අවධානය යොමු කළ හැකිය.

තැපෑලෙහි විවිධ මාදිලි භාවිතා වේ: ගස්, රේඛීය, ස්නායු ජාල. එක් එක් සඳහා අපි අපේම අමතර පුහුණු ඇල්ගොරිතමයක් සාදන්නෙමු. අතිරේක පුහුණු කිරීමේ ක්රියාවලියේදී, අපි නව දත්ත පමණක් නොව, බොහෝ විට නව විශේෂාංග ද ලබා ගනිමු, පහත දැක්වෙන සියලුම ඇල්ගොරිතම තුළ අපි සැලකිල්ලට ගනිමු.

රේඛීය ආකෘති

අපි හිතමු අපිට logistic regression තියෙනවා කියලා. අපි පහත සඳහන් සංරචක වලින් පාඩු ආකෘතියක් සාදන්නෙමු:

  • නව දත්ත මත ලොග්ලොස්;
  • අපි නව විශේෂාංගවල බර විධිමත් කරමු (අපි පැරණි ඒවා ස්පර්ශ නොකරමු);
  • පැරණි රටා ආරක්ෂා කිරීම සඳහා අපි පැරණි දත්ත වලින් ද ඉගෙන ගනිමු;
  • සහ, සමහර විට, වඩාත්ම වැදගත් දෙය: අපි Harmonic Regularization එකතු කරමු, සම්මතය අනුව පැරණි ආකෘතියට සාපේක්ෂව බර බොහෝ වෙනස් නොවන බව සහතික කරයි.

සෑම අලාභ සංරචකයකම සංගුණක ඇති බැවින්, හරස් වලංගුකරණය හරහා හෝ නිෂ්පාදන අවශ්‍යතා මත පදනම්ව අපගේ කාර්යය සඳහා ප්‍රශස්ත අගයන් තෝරා ගත හැකිය.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

ගස්

අපි තීරණ ගස් වෙත යමු. ගස් අමතර පුහුණුව සඳහා අපි පහත ඇල්ගොරිතම සම්පාදනය කර ඇත:

  1. නිෂ්පාදනය පැරණි දත්ත කට්ටලයක් මත පුහුණු කරන ලද ගස් 100-300 ක වනාන්තරයක් පවත්වාගෙන යයි.
  2. අවසානයේදී අපි M = 5 කෑලි ඉවත් කර 2M = 10 නව ඒවා එකතු කරමු, සම්පූර්ණ දත්ත කට්ටලය මත පුහුණු කර ඇත, නමුත් නව දත්ත සඳහා ඉහළ බරක් සහිතව, ස්වභාවිකවම ආකෘතියේ වර්ධක වෙනසක් සහතික කරයි.

පැහැදිලිවම, කාලයත් සමඟ ගස් සංඛ්යාව විශාල ලෙස වැඩි වන අතර, කාල නියමයන් සපුරාලීම සඳහා ඒවා වරින් වර අඩු කළ යුතුය. මෙය සිදු කිරීම සඳහා, අපි දැන් සර්වසම්පූර්ණ දැනුම ආසවනය (KD) භාවිතා කරමු. එහි ක්රියාකාරිත්වයේ මූලධර්මය ගැන කෙටියෙන්.

  1. අපට වර්තමාන "සංකීර්ණ" ආකෘතිය ඇත. අපි එය පුහුණු දත්ත කට්ටලය මත ධාවනය කර ප්‍රතිදානයේදී පන්ති සම්භාවිතා ව්‍යාප්තිය ලබා ගනිමු.
  2. ඊළඟට, ඉලක්ක විචල්‍යය ලෙස පන්ති ව්‍යාප්තිය භාවිතා කරමින් ආකෘතියේ ප්‍රතිඵල පුනරුච්චාරණය කිරීමට අපි ශිෂ්‍ය ආකෘතිය (මෙම නඩුවේ අඩු ගස් සහිත ආකෘතිය) පුහුණු කරමු.
  3. මෙහිදී සැලකිල්ලට ගත යුතු වැදගත් කරුණක් නම්, අපි දත්ත කට්ටල සලකුණු කිරීම කිසිදු ආකාරයකින් භාවිතා නොකරන අතර, එබැවින් අපට අත්තනෝමතික දත්ත භාවිතා කළ හැකිය. ඇත්ත වශයෙන්ම, අපි ශිෂ්‍ය ආකෘතිය සඳහා පුහුණු නියැදියක් ලෙස සටන් ප්‍රවාහයෙන් දත්ත නියැදියක් භාවිතා කරමු. මේ අනුව, පුහුණු කට්ටලය මඟින් ආකෘතියේ නිරවද්‍යතාවය සහතික කිරීමට අපට ඉඩ සලසයි, සහ ප්‍රවාහ නියැදිය නිෂ්පාදන බෙදා හැරීමේ සමාන කාර්ය සාධනයක් සහතික කරයි, පුහුණු කට්ටලයේ පක්ෂග්‍රාහීත්වය සඳහා වන්දි ලබා දේ.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

මෙම ශිල්පීය ක්‍රම දෙකෙහි එකතුව (ගස් එකතු කිරීම සහ දැනුම ආසවනය භාවිතයෙන් වරින් වර ඒවායේ සංඛ්‍යාව අඩු කිරීම) නව රටා හඳුන්වාදීම සහ සම්පූර්ණ අඛණ්ඩ පැවැත්ම සහතික කරයි.

KD ආධාරයෙන්, අපි විශේෂාංග ඉවත් කිරීම සහ හිඩැස් මත වැඩ කිරීම වැනි ආකෘති විශේෂාංග මත විවිධ මෙහෙයුම් සිදු කරන්නෙමු. අපගේ නඩුවේදී, දත්ත සමුදායේ ගබඩා කර ඇති වැදගත් සංඛ්‍යාන විශේෂාංග ගණනාවක් (යවන්නන්, පෙළ හැෂ්, URL යනාදිය) අප සතුව ඇත, ඒවා අසාර්ථක වීමට නැඹුරු වේ. පුහුණු කට්ටලය තුළ අසාර්ථක තත්ත්වයන් සිදු නොවන බැවින්, ආකෘතිය, ඇත්ත වශයෙන්ම, එවැනි සිදුවීම් වර්ධනයක් සඳහා සූදානම් නැත. එවැනි අවස්ථාවන්හිදී, අපි KD සහ වර්ධන ශිල්පීය ක්‍රම ඒකාබද්ධ කරමු: දත්තවල කොටසක් සඳහා පුහුණු කරන විට, අපි අවශ්‍ය අංග ඉවත් කර හෝ නැවත සකසන්න, සහ අපි මුල් ලේබල (වත්මන් ආකෘතියේ ප්‍රතිදානය) ලබා ගනිමු, සහ ශිෂ්‍ය ආකෘතිය මෙම බෙදා හැරීම නැවත කිරීමට ඉගෙන ගනී. .

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

වඩාත් බැරෑරුම් මාදිලි හැසිරවීම සිදු වන බව අපි දුටුවෙමු, නූල් සාම්පලයේ ප්‍රතිශතය වැඩි වේ.

විශේෂාංග ඉවත් කිරීම, සරලම මෙහෙයුම, ප්‍රවාහයේ කුඩා කොටසක් පමණක් අවශ්‍ය වේ, මන්ද විශේෂාංග කිහිපයක් පමණක් වෙනස් වන අතර වත්මන් ආකෘතිය එකම කට්ටලයක් මත පුහුණු කර ඇත - වෙනස අවම වේ. ආකෘතිය සරල කිරීම සඳහා (ගස් ගණන කිහිප වතාවක් අඩු කිරීම), දැනටමත් 50 සිට 50 දක්වා අවශ්‍ය වේ. තවද ආකෘතියේ ක්‍රියාකාරීත්වයට බරපතල ලෙස බලපාන වැදගත් සංඛ්‍යානමය ලක්ෂණ මඟ හැරීම සඳහා, ඊටත් වඩා ප්‍රවාහයක් අවශ්‍ය වේ. සියලු වර්ගවල අකුරු මත නව අතපසු-ප්‍රතිරෝධී ආකෘතිය.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

FastText

අපි FastText වෙත යමු. වචනයක නිරූපණය (Embedding) සමන්විත වන්නේ වචනයේම කාවැද්දීමේ එකතුවෙන් සහ එහි සියලුම N-ග්‍රෑම් අක්ෂර, සාමාන්‍යයෙන් ට්‍රයිග්‍රෑම් වලින් බව මම ඔබට මතක් කරමි. ට්‍රයිග්‍රෑම් විශාල ප්‍රමාණයක් තිබිය හැකි බැවින්, Bucket Hashing භාවිතා වේ, එනම්, සම්පූර්ණ ඉඩම නිශ්චිත ස්ථාවර හැෂ්මැප් එකක් බවට පරිවර්තනය කරයි. එහි ප්රතිඵලයක් වශයෙන්, වචන + බාල්දි ගණනකට අභ්යන්තර ස්ථරයේ මානය සමඟ බර අනුකෘතිය ලබා ගනී.

අතිරේක පුහුණුවක් සමඟ, නව සංඥා දිස්වේ: වචන සහ ත්රිකෝණාකාර. Facebook වෙතින් සම්මත පසු විපරම් පුහුණුවේදී සැලකිය යුතු කිසිවක් සිදු නොවේ. හරස් එන්ට්‍රොපිය සහිත පැරණි බර පමණක් නව දත්ත මත නැවත පුහුණු කරනු ලැබේ. මේ අනුව, නව විශේෂාංග භාවිතා නොකෙරේ; ඇත්ත වශයෙන්ම, මෙම ප්රවේශය නිෂ්පාදනයේ ආකෘතියේ අනපේක්ෂිතභාවය හා සම්බන්ධ ඉහත විස්තර කර ඇති සියලුම අවාසි ඇත. ඒකයි අපි FastText ටිකක් වෙනස් කළේ. අපි සියලු නව බර (වචන සහ ට්‍රයිග්‍රෑම්) එකතු කරමු, හරස් එන්ට්‍රොපිය සමඟ සම්පූර්ණ න්‍යාසය පුළුල් කර රේඛීය ආකෘතිය සමඟ ප්‍රතිසමයෙන් හාර්මොනික් නියාමනය එකතු කරන්නෙමු, එය පැරණි බරෙහි නොවැදගත් වෙනසක් සහතික කරයි.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

සීඑන්එන්

Convolutional networks ටිකක් සංකීර්ණයි. CNN හි අවසාන ස්ථර සම්පූර්ණ කර ඇත්නම්, ඇත්ත වශයෙන්ම, ඔබට සුසංයෝගය විධිමත් කිරීම සහ අඛණ්ඩතාව සහතික කළ හැකිය. නමුත් සම්පූර්ණ ජාලයේ අමතර පුහුණුවක් අවශ්ය නම්, එවැනි විධිමත් කිරීම තවදුරටත් සියලු ස්ථරවලට යෙදිය නොහැක. කෙසේ වෙතත්, Triplet Loss හරහා අනුපූරක කාවැද්දීම පුහුණු කිරීමට විකල්පයක් ඇත (මුල් ලිපිය).

ත්‍රිත්ව පාඩුව

උදාහරණයක් ලෙස ප්‍රති-තතුබෑම් කාර්යයක් භාවිතා කරමින්, අපි සාමාන්‍යයෙන් ත්‍රිත්ව අලාභය දෙස බලමු. අපි අපගේ ලාංඡනය මෙන්ම වෙනත් සමාගම්වල ලාංඡනවල ධනාත්මක සහ සෘණාත්මක උදාහරණ ද ගනිමු. අපි පළමු අතර දුර ප්රමාණය අවම කර දෙවනුව අතර දුර ප්රමාණය උපරිම කරමු, පංතිවල වැඩි සංයුක්තතාවයක් සහතික කිරීම සඳහා අපි කුඩා පරතරයකින් මෙය කරන්නෙමු.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

අපි තවදුරටත් ජාලය පුහුණු කරන්නේ නම්, අපගේ මෙට්රික් අවකාශය සම්පූර්ණයෙන්ම වෙනස් වන අතර එය පෙර එකට සම්පූර්ණයෙන්ම නොගැලපේ. දෛශික භාවිතා කරන ගැටළු වල මෙය බරපතල ගැටළුවකි. මෙම ගැටළුව මඟහරවා ගැනීම සඳහා, අපි පුහුණුව අතරතුර පැරණි කාවැද්දීම මිශ්ර කරමු.

අපි පුහුණු කට්ටලයට නව දත්ත එකතු කර ඇති අතර මුල සිටම ආකෘතියේ දෙවන අනුවාදය පුහුණු කරන්නෙමු. දෙවන අදියරේදී, අපි අපගේ ජාලය (Finetuning) තවදුරටත් පුහුණු කරමු: පළමුව අවසාන ස්ථරය සම්පූර්ණ කර ඇති අතර පසුව මුළු ජාලයම නොකැඩී ඇත. ත්‍රිත්ව රචනා කිරීමේ ක්‍රියාවලියේදී, අපි පුහුණු කළ ආකෘතිය භාවිතයෙන් කාවැද්දීම් වලින් කොටසක් පමණක් ගණනය කරමු, ඉතිරිය - පැරණි එක භාවිතා කරමින්. මේ අනුව, අමතර පුහුණු කිරීමේ ක්‍රියාවලියේදී, අපි මෙට්‍රික් අවකාශයේ v1 සහ v2 අනුකූලතාව සහතික කරමු. හාර්මොනික් විධිමත් කිරීමේ අද්විතීය අනුවාදයක්.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

සමස්ත ගෘහ නිර්මාණ ශිල්පය

උදාහරණයක් ලෙස අපි සමස්ත පද්ධතියම antispam භාවිතා කරන්නේ නම්, ආකෘති හුදකලා නොවේ, නමුත් එකිනෙකා තුළ කැදලි ඇත. අපි පින්තූර, පෙළ සහ අනෙකුත් විශේෂාංග ලබා ගනිමු, CNN සහ Fast Text භාවිතයෙන් අපට කාවැද්දීම් ලැබේ. මීළඟට, කාවැද්දීම්වලට ඉහළින් වර්ගීකරණ යොදනු ලැබේ, එමඟින් විවිධ පන්ති සඳහා ලකුණු ලබා දේ (අකුරු වර්ග, අයාචිත තැපැල්, ලාංඡනයක් තිබීම). අවසන් තීරණය ගැනීම සඳහා සංඥා සහ සංඥා දැනටමත් ගස් වනාන්තරයට ඇතුල් වේ. මෙම යෝජනා ක්‍රමයේ ඇති තනි වර්ගීකරණ මඟින් පද්ධතියේ ප්‍රතිඵල වඩාත් හොඳින් අර්ථකථනය කිරීමටත්, ගැටළු ඇති වූ විට සංරචක වඩාත් නිශ්චිතව නැවත පුහුණු කිරීමටත් හැකි වේ, සියලු දත්ත අමු ආකාරයෙන් තීරණ ගස්වලට පෝෂණය කරනවාට වඩා.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

එහි ප්‍රතිඵලයක් වශයෙන්, අපි සෑම මට්ටමකින්ම අඛණ්ඩ පැවැත්ම සහතික කරමු. CNN සහ Fast Text හි පහළ මට්ටමේ දී අපි හරාත්මක විධිමත් කිරීම භාවිතා කරමු, මැද ඇති වර්ගීකරණ සඳහා අපි සම්භාවිතා ව්‍යාප්තියේ අනුකූලතාව සඳහා හාර්මොනික් විධිමත් කිරීම සහ අනුපාත ක්‍රමාංකනය ද භාවිතා කරමු. හොඳයි, ගස් වැඩි කිරීම වර්ධක ලෙස හෝ දැනුම ආසවනය භාවිතයෙන් පුහුණු කරනු ලැබේ.

සාමාන්‍යයෙන්, එවැනි කැදැලි යන්ත්‍ර ඉගෙනුම් පද්ධතියක් පවත්වා ගැනීම සාමාන්‍යයෙන් වේදනාවකි, මන්ද පහළ මට්ටමේ ඇති ඕනෑම සංරචකයක් ඉහත සමස්ත පද්ධතියට යාවත්කාලීන කිරීමට මග පාදයි. නමුත් අපගේ සැකසුමේදී සෑම සංරචකයක්ම තරමක් වෙනස් වන අතර පෙර එකට අනුකූල වන බැවින්, සම්පූර්ණ ව්‍යුහය නැවත පුහුණු කිරීමේ අවශ්‍යතාවයකින් තොරව සමස්ත පද්ධතියම කෑල්ලෙන් කොටස යාවත්කාලීන කළ හැකි අතර එමඟින් බරපතල පොදු කාර්ය භාරයකින් තොරව සහාය වීමට ඉඩ සලසයි.

යොදවන්න

අපි විවිධ මාදිලියේ ආකෘති පිළිබඳ දත්ත එකතු කිරීම සහ අමතර පුහුණුව පිළිබඳව සාකච්ඡා කර ඇත, එබැවින් අපි නිෂ්පාදන පරිසරයට ඔවුන්ගේ යෙදවීම වෙත ගමන් කරමු.

A/B පරීක්ෂණය

මා කලින් කී පරිදි, දත්ත එකතු කිරීමේ ක්‍රියාවලියේදී, අපට සාමාන්‍යයෙන් ලැබෙන්නේ පක්ෂග්‍රාහී නියැදියක් වන අතර, එයින් ආකෘතියේ නිෂ්පාදන ක්‍රියාකාරිත්වය තක්සේරු කළ නොහැක. එබැවින්, යෙදවීමේදී, දේවල් ඇත්ත වශයෙන්ම සිදුවන්නේ කෙසේද යන්න තේරුම් ගැනීම සඳහා, එනම් A/B පරීක්ෂණ පැවැත්වීම සඳහා ආකෘතිය පෙර අනුවාදය සමඟ සැසඳිය යුතුය. ඇත්ත වශයෙන්ම, ප්‍රස්ථාර පෙරළීමේ සහ විශ්ලේෂණය කිරීමේ ක්‍රියාවලිය සාමාන්‍ය දෙයක් වන අතර එය පහසුවෙන් ස්වයංක්‍රීය කළ හැකිය. අපි අපගේ මාදිලි ක්‍රමයෙන් 5%, 30%, 50% සහ 100% පරිශීලකයන් වෙත ලබා දෙන අතර, ආකෘති ප්‍රතිචාර සහ පරිශීලක ප්‍රතිපෝෂණ පිළිබඳ පවතින සියලුම ප්‍රමිතික එකතු කර ගනිමු. සමහර බරපතල පිටස්තරයන් සම්බන්ධයෙන්, අපි ස්වයංක්‍රීයව ආකෘතිය පෙරළන්නෙමු, සහ අනෙකුත් අවස්ථා සඳහා, ප්‍රමාණවත් පරිශීලක ක්ලික් කිරීම් සංඛ්‍යාවක් එකතු කර ගැනීමෙන්, අපි ප්‍රතිශතය වැඩි කිරීමට තීරණය කරමු. එහි ප්‍රතිඵලයක් වශයෙන්, අපි නව මාදිලිය පරිශීලකයින්ගෙන් 50% ක් වෙත සම්පූර්ණයෙන්ම ස්වයංක්‍රීයව ගෙන එන අතර, මෙම පියවර ස්වයංක්‍රීය කළ හැකි වුවද, සම්පූර්ණ ප්‍රේක්ෂකාගාරය වෙත පෙරළීම පුද්ගලයෙකු විසින් අනුමත කරනු ලැබේ.

කෙසේ වෙතත්, A/B පරීක්ෂණ ක්‍රියාවලිය ප්‍රශස්තකරණය සඳහා ඉඩ ලබා දේ. කාරණය නම් ඕනෑම A/B පරීක්ෂණයක් තරමක් දිගු වේ (අපගේ නඩුවේ ප්‍රතිපෝෂණ ප්‍රමාණය අනුව එය පැය 6 සිට 24 දක්වා ගත වේ), එමඟින් එය තරමක් මිල අධික සහ සීමිත සම්පත් ඇති කරයි. මීට අමතරව, A/B පරීක්ෂණයේ සමස්ත කාලය අත්‍යවශ්‍යයෙන්ම වේගවත් කිරීම සඳහා පරීක්ෂණය සඳහා ප්‍රමාණවත් තරම් ඉහළ ප්‍රවාහ ප්‍රතිශතයක් අවශ්‍ය වේ (සංඛ්‍යානමය වශයෙන් වැදගත් සාම්පලයක් කුඩා ප්‍රතිශතයකින් ප්‍රමිතික ඇගයීමට ඉතා දිගු කාලයක් ගත විය හැක) A/B තව් ගණන අතිශයින් සීමිතය. නිසැකවම, අපට අතිරේක පුහුණු ක්‍රියාවලියේදී අපට බොහෝ දේ ලැබෙන වඩාත්ම පොරොන්දු වූ ආකෘති පමණක් පරීක්ෂා කිරීමට අවශ්‍ය වේ.

මෙම ගැටළුව විසඳීම සඳහා, අපි A/B පරීක්ෂණයක සාර්ථකත්වය පුරෝකථනය කරන වෙනම වර්ගීකරණයක් පුහුණු කළෙමු. මෙය සිදු කිරීම සඳහා, අපි තීරණ ගැනීමේ සංඛ්‍යාලේඛන, නිරවද්‍යතාවය, නැවත කැඳවීම සහ පුහුණු කට්ටලය, කල් දැමූ එක සහ ප්‍රවාහයේ නියැදිය මත විශේෂාංග ලෙස ගනිමු. අපි නිෂ්පාදනයේ පවතින මාදිලිය සමඟ, හූරිස්ටික්ස් සමඟ සංසන්දනය කර, ආකෘතියේ සංකීර්ණත්වය සැලකිල්ලට ගනිමු. මෙම සියලු විශේෂාංග භාවිතා කරමින්, පරීක්ෂණ ඉතිහාසය පිළිබඳ පුහුණු කරන ලද වර්ගීකරණයක් අපේක්ෂක ආකෘති ඇගයීමට ලක් කරයි, අපගේ නඩුවේදී මේවා ගස් වනාන්තර වන අතර, A/B පරීක්ෂණයේදී භාවිතා කළ යුත්තේ කුමක්ද යන්න තීරණය කරයි.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

ක්‍රියාත්මක කරන අවස්ථාවේදී, මෙම ප්‍රවේශය අපට සාර්ථක A/B පරීක්ෂණ ගණන කිහිප වතාවක් වැඩි කිරීමට ඉඩ ලබා දුන්නේය.

පරීක්ෂා කිරීම සහ අධීක්ෂණය

පරීක්ෂා කිරීම සහ අධීක්ෂණය කිරීම, පුදුමයට කරුණක් නම්, අපගේ සෞඛ්‍යයට හානියක් නොකරන්න; ඊට පටහැනිව, ඔවුන් එය වැඩිදියුණු කර අනවශ්‍ය ආතතියෙන් අපව නිදහස් කරයි. පරීක්ෂාව මඟින් ඔබට අසාර්ථක වීමක් වළක්වා ගත හැකි අතර, පරිශීලකයින්ට ඇති බලපෑම අවම කිරීම සඳහා එය නියමිත වේලාවට හඳුනා ගැනීමට අධීක්ෂණය ඔබට ඉඩ සලසයි.

ඉක්මනින් හෝ පසුව ඔබේ පද්ධතිය සැමවිටම වැරදි සිදු කරනු ඇති බව මෙහිදී තේරුම් ගැනීම වැදගත්ය - මෙය ඕනෑම මෘදුකාංගයක සංවර්ධන චක්රය නිසාය. පද්ධති සංවර්ධනය ආරම්භයේදී සෑම දෙයක්ම සමථයකට පත් වන තෙක් සහ නවෝත්පාදනයේ ප්‍රධාන අදියර අවසන් වන තුරු සෑම විටම දෝෂ රාශියක් ඇත. නමුත් කාලයාගේ ඇවෑමෙන්, එන්ට්‍රොපිය එහි හානියට පත් වන අතර දෝෂ නැවත දිස් වේ - අවට ඇති සංරචක පිරිහීම සහ දත්තවල වෙනස්වීම් හේතුවෙන්, මම ආරම්භයේදී කතා කළෙමි.

ඕනෑම යන්ත්‍ර ඉගෙනීමේ පද්ධතියක් එහි සමස්ත ජීවන චක්‍රය පුරාවටම එහි ලාභයේ දෘෂ්ටි කෝණයෙන් සලකා බැලිය යුතු බව මෙහිදී සටහන් කිරීමට කැමැත්තෙමි. පහත ප්‍රස්ථාරයෙන් දැක්වෙන්නේ පද්ධතිය දුර්ලභ ස්පෑම් වර්ගයක් අල්ලා ගැනීමට ක්‍රියා කරන ආකාරය පිළිබඳ උදාහරණයක් පෙන්වයි (ප්‍රස්ථාරයේ රේඛාව ශුන්‍යයට ආසන්නයි). දිනක්, වැරදි ලෙස හැඹිලිගත ගුණාංගයක් නිසා, ඇය පිස්සු වැටුණාය. වාසනාවකට මෙන්, අසාමාන්‍ය ප්‍රේරක සඳහා අධීක්‍ෂණයක් නොතිබුණි; එහි ප්‍රතිඵලයක් ලෙස, පද්ධතිය තීරණ ගැනීමේ මායිමේ “ස්පෑම්” ෆෝල්ඩරයට විශාල ප්‍රමාණවලින් ලිපි සුරැකීමට පටන් ගත්තේය. ප්‍රතිවිපාක නිවැරදි කළද, පද්ධතිය දැනටමත් බොහෝ වාරයක් වැරදි කර ඇති අතර එය වසර පහකින් පවා එය ගෙවන්නේ නැත. තවද මෙය ආකෘතියේ ජීවන චක්රයේ දෘෂ්ටි කෝණයෙන් සම්පූර්ණ අසාර්ථකත්වයකි.

Mail.ru තැපෑලෙන් යන්ත්‍ර ඉගෙනීම ක්‍රියාත්මක කිරීම

එමනිසා, නිරීක්ෂණය වැනි සරල දෙයක් නිරූපිකාවකගේ ජීවිතයේ ප්රධාන විය හැකිය. සම්මත සහ පැහැදිලි ප්‍රමිතික වලට අමතරව, අපි ආදර්ශ ප්‍රතිචාර සහ ලකුණු බෙදා හැරීම මෙන්ම ප්‍රධාන විශේෂාංග අගයන් බෙදා හැරීම සලකා බලමු. KL අපසරනය භාවිතා කරමින්, අපට වත්මන් ව්‍යාප්තිය ඓතිහාසික එකක් සමඟ හෝ A/B පරීක්ෂණයේ ඇති අගයන් ඉතිරි ප්‍රවාහය සමඟ සංසන්දනය කළ හැකිය, එමඟින් අපට ආකෘතියේ විෂමතා දැකීමට සහ නියමිත වේලාවට වෙනස්කම් ආපසු හැරවීමට ඉඩ සලසයි.

බොහෝ අවස්ථාවන්හිදී, අපි අනාගතයේදී නිරීක්ෂණය ලෙස භාවිතා කරන සරල හූරිස්ටික් හෝ මාදිලි භාවිතයෙන් අපගේ පළමු පද්ධති අනුවාදයන් දියත් කරමු. උදාහරණයක් ලෙස, අපි විශේෂිත අන්තර්ජාල වෙළඳසැල් සඳහා නිත්‍ය ඒවාට සාපේක්ෂව NER ආකෘතිය නිරීක්ෂණය කරන අතර, ඒවා සමඟ සංසන්දනය කිරීමේදී වර්ගීකරණ ආවරණය පහත වැටේ නම්, අපි හේතු තේරුම් ගනිමු. හූරිස්ටික් වල තවත් ප්‍රයෝජනවත් භාවිතයක්!

ප්රතිඵල

අපි නැවතත් ලිපියේ ප්‍රධාන අදහස් වෙත යමු.

  • ෆිබ්ඩෙක්. අපි සෑම විටම පරිශීලකයා ගැන සිතමු: ඔහු අපගේ වැරදි සමඟ ජීවත් වන්නේ කෙසේද, ඔහුට ඒවා වාර්තා කිරීමට හැකි වන්නේ කෙසේද. පරිශීලකයන් පුහුණු ආකෘති සඳහා පිරිසිදු ප්රතිපෝෂණ මූලාශ්රයක් නොවන බව අමතක නොකරන්න, සහ සහායක ML පද්ධති ආධාරයෙන් එය ඉවත් කිරීම අවශ්ය වේ. පරිශීලකයාගෙන් සංඥාවක් එකතු කිරීමට නොහැකි නම්, අපි විකල්ප ප්‍රතිපෝෂණ ප්‍රභවයන් සොයන්නෙමු, උදාහරණයක් ලෙස සම්බන්ධිත පද්ධති.
  • අමතර පුහුණුව. මෙහි ප්රධානතම දෙය වන්නේ අඛණ්ඩ පැවැත්මයි, එබැවින් අපි වත්මන් නිෂ්පාදන ආකෘතිය මත රඳා පවතී. හාර්මොනික් විධිමත් කිරීම සහ ඒ හා සමාන උපක්‍රම හේතුවෙන් පෙර පැවති ඒවාට වඩා බොහෝ වෙනස් නොවන පරිදි අපි නව මාදිලි පුහුණු කරමු.
  • යොදවන්න. ප්‍රමිතික මත පදනම්ව ස්වයංක්‍රීයව යෙදවීම ආකෘති ක්‍රියාත්මක කිරීමේ කාලය බෙහෙවින් අඩු කරයි. අධීක්ෂණ සංඛ්‍යාලේඛන සහ තීරණ ගැනීමේ බෙදා හැරීම, ඔබේ විවේකී නින්ද සහ ඵලදායී සති අන්තය සඳහා පරිශීලකයන්ගෙන් පහත වැටීම් සංඛ්‍යාව අනිවාර්ය වේ.

හොඳයි, මම මෙය ඔබට ඔබේ ML පද්ධති වේගයෙන් වැඩිදියුණු කිරීමටත්, ඒවා වේගයෙන් වෙළඳපොළට ලබා ගැනීමටත්, ඒවා වඩාත් විශ්වාසදායක සහ අඩු ආතතියෙන් යුක්ත කිරීමටත් උපකාරී වනු ඇතැයි මම බලාපොරොත්තු වෙමි.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න