Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

Highload++ மற்றும் DataFest Minsk 2019 இல் எனது உரைகளின் அடிப்படையில்.

இன்று பலருக்கு, அஞ்சல் என்பது ஆன்லைன் வாழ்க்கையின் ஒருங்கிணைந்த பகுதியாகும். அதன் உதவியுடன், நாங்கள் வணிக கடிதங்களை நடத்துகிறோம், நிதிகள், ஹோட்டல் முன்பதிவுகள், ஆர்டர்களை வைப்பது மற்றும் பலவற்றுடன் தொடர்புடைய அனைத்து வகையான முக்கியமான தகவல்களையும் சேமித்து வைக்கிறோம். 2018 ஆம் ஆண்டின் நடுப்பகுதியில், அஞ்சல் மேம்பாட்டிற்கான தயாரிப்பு உத்தியை உருவாக்கினோம். நவீன அஞ்சல் எப்படி இருக்க வேண்டும்?

அஞ்சல் இருக்க வேண்டும் புத்திசாலி, அதாவது, அதிகரித்து வரும் தகவலின் அளவைப் பயன்படுத்த பயனர்களுக்கு உதவுகிறது: வடிகட்டி, கட்டமைப்பு மற்றும் அதை மிகவும் வசதியான முறையில் வழங்குதல். அவள் இருக்க வேண்டும் பயனுள்ள, உங்கள் அஞ்சல் பெட்டியில் பல்வேறு பணிகளைத் தீர்க்க உங்களை அனுமதிக்கிறது, எடுத்துக்காட்டாக, அபராதம் செலுத்துங்கள் (துரதிர்ஷ்டவசமாக, நான் பயன்படுத்தும் செயல்பாடு). அதே நேரத்தில், நிச்சயமாக, அஞ்சல் தகவல் பாதுகாப்பை வழங்க வேண்டும், ஸ்பேமைத் துண்டிக்க வேண்டும் மற்றும் ஹேக்கிங்கிலிருந்து பாதுகாக்க வேண்டும், அதாவது பாதுகாப்பான.

இந்த பகுதிகள் பல முக்கிய பிரச்சனைகளை வரையறுக்கின்றன, அவற்றில் பலவற்றை இயந்திர கற்றலைப் பயன்படுத்தி திறம்பட தீர்க்க முடியும். மூலோபாயத்தின் ஒரு பகுதியாக ஏற்கனவே இருக்கும் அம்சங்களின் எடுத்துக்காட்டுகள் இங்கே உள்ளன - ஒவ்வொரு திசைக்கும் ஒன்று.

  • ஸ்மார்ட் பதில். மெயிலில் ஸ்மார்ட் ரிப்ளை வசதி உள்ளது. நரம்பியல் நெட்வொர்க் கடிதத்தின் உரையை பகுப்பாய்வு செய்கிறது, அதன் அர்த்தத்தையும் நோக்கத்தையும் புரிந்துகொள்கிறது, இதன் விளைவாக மூன்று மிகவும் பொருத்தமான பதில் விருப்பங்களை வழங்குகிறது: நேர்மறை, எதிர்மறை மற்றும் நடுநிலை. கடிதங்களுக்கு பதிலளிக்கும் போது நேரத்தை கணிசமாக மிச்சப்படுத்த இது உதவுகிறது, மேலும் அடிக்கடி தரமற்ற மற்றும் வேடிக்கையான முறையில் பதிலளிக்கிறது.
  • மின்னஞ்சல்களை குழுவாக்குதல்ஆன்லைன் ஸ்டோர்களில் உள்ள ஆர்டர்களுடன் தொடர்புடையது. நாங்கள் அடிக்கடி ஆன்லைனில் ஷாப்பிங் செய்கிறோம், மேலும், ஒரு விதியாக, ஒவ்வொரு ஆர்டருக்கும் கடைகள் பல மின்னஞ்சல்களை அனுப்பலாம். எடுத்துக்காட்டாக, மிகப்பெரிய சேவையான AliExpress இலிருந்து, ஒரு ஆர்டருக்கு நிறைய கடிதங்கள் வருகின்றன, மேலும் முனையத்தில் அவற்றின் எண்ணிக்கை 29 வரை எட்டலாம் என்று கணக்கிட்டோம். எனவே, பெயரிடப்பட்ட நிறுவன அங்கீகார மாதிரியைப் பயன்படுத்தி, ஆர்டர் எண்ணைப் பிரித்தெடுக்கிறோம். மற்றும் உரையிலிருந்து மற்ற தகவல்கள் மற்றும் அனைத்து எழுத்துக்களையும் ஒரே நூலில் குழுவாக்கவும். ஆர்டரைப் பற்றிய அடிப்படைத் தகவலையும் தனிப் பெட்டியில் காண்பிக்கிறோம், இது இந்த வகையான மின்னஞ்சலில் வேலை செய்வதை எளிதாக்குகிறது.

    Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

  • ஃபிஷிங் எதிர்ப்பு. ஃபிஷிங் என்பது குறிப்பாக ஆபத்தான மோசடி வகை மின்னஞ்சலாகும், இதன் உதவியுடன் தாக்குபவர்கள் நிதித் தகவல் (பயனர்களின் வங்கி அட்டைகள் உட்பட) மற்றும் உள்நுழைவுகளைப் பெற முயல்கின்றனர். இத்தகைய கடிதங்கள் பார்வைக்கு உட்பட சேவையால் அனுப்பப்பட்ட உண்மையான கடிதங்களைப் பிரதிபலிக்கின்றன. எனவே, கம்ப்யூட்டர் விஷனின் உதவியுடன், லோகோக்கள் மற்றும் பெரிய நிறுவனங்களின் (எடுத்துக்காட்டாக, Mail.ru, Sber, Alfa) கடிதங்களின் வடிவமைப்பு பாணியை நாங்கள் அங்கீகரிக்கிறோம், மேலும் எங்கள் ஸ்பேம் மற்றும் ஃபிஷிங் வகைப்படுத்திகளில் உள்ள உரை மற்றும் பிற அம்சங்களுடன் இதை கணக்கில் எடுத்துக்கொள்கிறோம். .

இயந்திர வழி கற்றல்

பொதுவாக மின்னஞ்சலில் இயந்திர கற்றல் பற்றி கொஞ்சம். அஞ்சல் மிகவும் ஏற்றப்பட்ட அமைப்பு: 1,5 மில்லியன் DAU பயனர்களுக்கு சராசரியாக ஒரு நாளைக்கு 30 பில்லியன் கடிதங்கள் எங்கள் சேவையகங்கள் வழியாக செல்கின்றன. சுமார் 30 இயந்திர கற்றல் அமைப்புகள் தேவையான அனைத்து செயல்பாடுகளையும் அம்சங்களையும் ஆதரிக்கின்றன.

ஒவ்வொரு எழுத்தும் முழு வகைப்பாடு குழாய் வழியாக செல்கிறது. முதலில் ஸ்பேமை துண்டித்து நல்ல மின்னஞ்சல்களை அனுப்புவோம். 95-99% ஸ்பேம் பொருத்தமான கோப்புறையில் கூட முடிவடையாததால், பயனர்கள் பெரும்பாலும் ஆன்டிஸ்பேமின் வேலையை கவனிக்க மாட்டார்கள். ஸ்பேம் அங்கீகாரம் எங்கள் அமைப்பின் மிக முக்கியமான பகுதியாகும், மேலும் ஸ்பேம் எதிர்ப்புத் துறையில் பாதுகாப்பு மற்றும் தாக்குதல் அமைப்புகளுக்கு இடையே ஒரு நிலையான தழுவல் இருப்பதால், இது எங்கள் அணிக்கு தொடர்ச்சியான பொறியியல் சவாலை வழங்குகிறது.

அடுத்து, மக்கள் மற்றும் ரோபோக்களிடமிருந்து கடிதங்களைப் பிரிக்கிறோம். நபர்களிடமிருந்து வரும் மின்னஞ்சல்கள் மிக முக்கியமானவை, எனவே அவர்களுக்கு ஸ்மார்ட் ரிப்ளை போன்ற அம்சங்களை வழங்குகிறோம். ரோபோக்களிடமிருந்து வரும் கடிதங்கள் இரண்டு பகுதிகளாகப் பிரிக்கப்பட்டுள்ளன: பரிவர்த்தனை - இவை சேவைகளின் முக்கியமான கடிதங்கள், எடுத்துக்காட்டாக, கொள்முதல் அல்லது ஹோட்டல் முன்பதிவுகளின் உறுதிப்படுத்தல்கள், நிதி மற்றும் தகவல் - இவை வணிக விளம்பரம், தள்ளுபடிகள்.

பரிவர்த்தனை மின்னஞ்சல்கள் தனிப்பட்ட கடிதப் பரிமாற்றத்திற்கு சமமான முக்கியத்துவம் வாய்ந்தவை என்று நாங்கள் நம்புகிறோம். அவர்கள் கையில் இருக்க வேண்டும், ஏனென்றால் ஆர்டர் அல்லது விமான டிக்கெட் முன்பதிவு பற்றிய தகவல்களை விரைவாகக் கண்டுபிடிக்க வேண்டும், மேலும் இந்த கடிதங்களைத் தேடுவதில் நேரத்தை செலவிடுகிறோம். எனவே, வசதிக்காக, நாங்கள் அவற்றை தானாகவே ஆறு முக்கிய வகைகளாகப் பிரிக்கிறோம்: பயணம், ஆர்டர்கள், நிதி, டிக்கெட்டுகள், பதிவுகள் மற்றும் இறுதியாக அபராதம்.

தகவல் கடிதங்கள் மிகப்பெரிய மற்றும் குறைவான முக்கியத்துவம் வாய்ந்த குழுவாகும், இதற்கு உடனடி பதில் தேவையில்லை, ஏனெனில் பயனர் அத்தகைய கடிதத்தைப் படிக்கவில்லை என்றால் அவரது வாழ்க்கையில் குறிப்பிடத்தக்க எதுவும் மாறாது. எங்களின் புதிய இடைமுகத்தில், சமூக வலைப்பின்னல்கள் மற்றும் செய்திமடல்கள் என இரண்டு இழைகளாக அவற்றைச் சுருக்குகிறோம், இதனால் இன்பாக்ஸை பார்வைக்கு அழித்து முக்கியமான செய்திகளை மட்டும் பார்க்கலாம்.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

சுரண்டல்

அதிக எண்ணிக்கையிலான அமைப்புகள் செயல்பாட்டில் நிறைய சிரமங்களை ஏற்படுத்துகின்றன. எல்லாவற்றிற்கும் மேலாக, எந்த மென்பொருளையும் போலவே மாதிரிகள் காலப்போக்கில் சிதைந்துவிடும்: அம்சங்கள் உடைந்து, இயந்திரங்கள் தோல்வியடைகின்றன, குறியீடு வளைந்திருக்கும். கூடுதலாக, தரவு தொடர்ந்து மாறுகிறது: புதியவை சேர்க்கப்படுகின்றன, பயனர் நடத்தை முறைகள் மாற்றப்படுகின்றன, எனவே சரியான ஆதரவு இல்லாத மாதிரியானது காலப்போக்கில் மோசமாகவும் மோசமாகவும் வேலை செய்யும்.

ஆழமான இயந்திரக் கற்றல் பயனர்களின் வாழ்க்கையில் ஊடுருவுகிறது, அவை சுற்றுச்சூழல் அமைப்பில் அதிக தாக்கத்தை ஏற்படுத்துகின்றன, இதன் விளைவாக, அதிக நிதி இழப்புகள் அல்லது லாபங்கள் சந்தை வீரர்கள் பெற முடியும் என்பதை நாம் மறந்துவிடக் கூடாது. எனவே, அதிக எண்ணிக்கையிலான பகுதிகளில், வீரர்கள் ML அல்காரிதம்களின் வேலைக்குத் தழுவுகிறார்கள் (கிளாசிக் எடுத்துக்காட்டுகள் விளம்பரம், தேடல் மற்றும் ஏற்கனவே குறிப்பிட்டுள்ள ஆன்டிஸ்பேம்).

மேலும், இயந்திர கற்றல் பணிகளுக்கு ஒரு தனித்தன்மை உள்ளது: கணினியில் ஏதேனும், சிறிய மாற்றம் கூட, மாதிரியுடன் நிறைய வேலைகளை உருவாக்கலாம்: தரவுகளுடன் பணிபுரிதல், மீண்டும் பயிற்சி செய்தல், வரிசைப்படுத்துதல், வாரங்கள் அல்லது மாதங்கள் ஆகலாம். எனவே, உங்கள் மாதிரிகள் செயல்படும் சூழல் எவ்வளவு வேகமாக மாறுகிறதோ, அந்த அளவுக்கு அவற்றைப் பராமரிக்க அதிக முயற்சி தேவைப்படுகிறது. ஒரு குழு நிறைய அமைப்புகளை உருவாக்கி, அதைப் பற்றி மகிழ்ச்சியாக இருக்க முடியும், ஆனால் புதிதாக எதையும் செய்ய வாய்ப்பில்லாமல், கிட்டத்தட்ட எல்லா வளங்களையும் அவற்றைப் பராமரிக்கச் செலவிடலாம். ஆன்டிஸ்பேம் குழுவில் ஒருமுறை இதுபோன்ற சூழ்நிலையை நாங்கள் சந்தித்தோம். ஆதரவை தானியக்கமாக்க வேண்டும் என்ற தெளிவான முடிவை அவர்கள் எடுத்தனர்.

ஆட்டோமேஷன்

என்ன தானியங்கி செய்ய முடியும்? கிட்டத்தட்ட எல்லாம், உண்மையில். இயந்திர கற்றல் உள்கட்டமைப்பை வரையறுக்கும் நான்கு பகுதிகளை நான் அடையாளம் கண்டுள்ளேன்:

  • தரவு சேகரிப்பு;
  • கூடுதல் பயிற்சி;
  • வரிசைப்படுத்த;
  • சோதனை மற்றும் கண்காணிப்பு.

சூழல் நிலையற்றது மற்றும் தொடர்ந்து மாறிக்கொண்டே இருந்தால், மாதிரியைச் சுற்றியுள்ள முழு உள்கட்டமைப்பும் மாதிரியை விட மிக முக்கியமானதாக மாறும். இது ஒரு நல்ல பழைய நேரியல் வகைப்படுத்தியாக இருக்கலாம், ஆனால் நீங்கள் அதற்கு சரியான அம்சங்களை அளித்து, பயனர்களிடமிருந்து நல்ல கருத்துக்களைப் பெற்றால், அனைத்து மணிகள் மற்றும் விசில்களுடன் கூடிய ஸ்டேட்-ஆஃப்-தி-ஆர்ட் மாடல்களை விட இது மிகவும் சிறப்பாக செயல்படும்.

கருத்து வளையம்

இந்த சுழற்சி தரவு சேகரிப்பு, கூடுதல் பயிற்சி மற்றும் வரிசைப்படுத்தல் ஆகியவற்றை ஒருங்கிணைக்கிறது - உண்மையில், முழு மாதிரி புதுப்பிப்பு சுழற்சி. அது ஏன் முக்கியம்? மின்னஞ்சலில் பதிவு அட்டவணையைப் பாருங்கள்:

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

மெஷின் லேர்னிங் டெவலப்பர், போட்களை மின்னஞ்சலில் பதிவு செய்வதைத் தடுக்கும் ஆன்டி-போட் மாதிரியை செயல்படுத்தியுள்ளார். உண்மையான பயனர்கள் மட்டுமே இருக்கும் மதிப்பிற்கு வரைபடம் குறைகிறது. எல்லாம் அருமை! ஆனால் நான்கு மணிநேரம் கடந்து, போட்கள் தங்கள் ஸ்கிரிப்ட்களை மாற்றியமைக்கின்றன, மேலும் எல்லாம் இயல்பு நிலைக்குத் திரும்பும். இந்தச் செயலாக்கத்தில், டெவலப்பர் அம்சங்களைச் சேர்ப்பதற்கும் மாடலை மீண்டும் பயிற்சி செய்வதற்கும் ஒரு மாதம் செலவிட்டார், ஆனால் ஸ்பேமர் நான்கு மணி நேரத்தில் மாற்றியமைக்க முடிந்தது.

மிகவும் வேதனையாக இருக்கக்கூடாது என்பதற்காகவும், பின்னர் எல்லாவற்றையும் மீண்டும் செய்ய வேண்டிய அவசியமில்லை, பின்னூட்ட வளையம் எப்படி இருக்கும், சூழல் மாறினால் என்ன செய்வோம் என்பதைப் பற்றி ஆரம்பத்தில் சிந்திக்க வேண்டும். தரவு சேகரிப்புடன் தொடங்குவோம் - இது நமது வழிமுறைகளுக்கான எரிபொருள்.

தரவு சேகரிப்பு

நவீன நரம்பியல் நெட்வொர்க்குகளுக்கு, அதிக தரவு, சிறந்தது, மேலும் அவை உண்மையில் தயாரிப்பின் பயனர்களால் உருவாக்கப்படுகின்றன என்பது தெளிவாகிறது. தரவைக் குறிப்பதன் மூலம் பயனர்கள் எங்களுக்கு உதவலாம், ஆனால் இதை நாங்கள் தவறாகப் பயன்படுத்த முடியாது, ஏனெனில் ஒரு கட்டத்தில் பயனர்கள் உங்கள் மாடல்களை நிறைவு செய்வதில் சோர்வடைவார்கள் மற்றும் வேறு தயாரிப்புக்கு மாறுவார்கள்.

மிகவும் பொதுவான தவறுகளில் ஒன்று (இங்கே நான் ஆண்ட்ரூ என்ஜியைப் பற்றி குறிப்பிடுகிறேன்) சோதனை தரவுத்தொகுப்பில் உள்ள அளவீடுகளில் அதிக கவனம் செலுத்துகிறது, மேலும் பயனரின் கருத்துகளில் அல்ல, இது உண்மையில் வேலையின் தரத்தின் முக்கிய அளவீடு ஆகும், ஏனெனில் நாங்கள் உருவாக்குகிறோம். பயனருக்கான தயாரிப்பு. பயனர் புரிந்து கொள்ளவில்லை அல்லது மாதிரியின் வேலை பிடிக்கவில்லை என்றால், எல்லாம் பாழாகிவிடும்.

எனவே, பயனர் எப்பொழுதும் வாக்களிக்க முடியும் மற்றும் கருத்து தெரிவிக்க ஒரு கருவி வழங்கப்பட வேண்டும். அஞ்சல் பெட்டியில் நிதி தொடர்பான கடிதம் வந்திருப்பதாக நாம் நினைத்தால், அதை “நிதி” என்று குறிக்க வேண்டும் மற்றும் பயனர் கிளிக் செய்து இது நிதியல்ல என்று சொல்லக்கூடிய பொத்தானை வரைய வேண்டும்.

கருத்து தரம்

பயனர் பின்னூட்டத்தின் தரத்தைப் பற்றி பேசலாம். முதலில், நீங்களும் பயனரும் வெவ்வேறு அர்த்தங்களை ஒரு கருத்தில் வைக்கலாம். எடுத்துக்காட்டாக, நீங்களும் உங்கள் தயாரிப்பு மேலாளர்களும் "நிதி" என்பது வங்கியிலிருந்து வரும் கடிதங்கள் என்று நினைக்கிறீர்கள், மேலும் பாட்டியின் ஓய்வூதியம் பற்றிய கடிதமும் நிதியைக் குறிக்கிறது என்று பயனர் நினைக்கிறார். இரண்டாவதாக, எந்த தர்க்கமும் இல்லாமல் பொத்தான்களை அழுத்துவதை மனதில்லாமல் விரும்பும் பயனர்கள் உள்ளனர். மூன்றாவதாக, பயனர் தனது முடிவுகளில் ஆழமாக தவறாக இருக்கலாம். எங்கள் நடைமுறையில் இருந்து ஒரு குறிப்பிடத்தக்க உதாரணம் ஒரு வகைப்படுத்தியை செயல்படுத்துவதாகும் நைஜீரிய ஸ்பேம், ஆப்ரிக்காவில் திடீரெனக் கண்டுபிடிக்கப்பட்ட தொலைதூர உறவினரிடமிருந்து பல மில்லியன் டாலர்களை எடுக்குமாறு பயனர் கேட்கப்படும் மிகவும் வேடிக்கையான ஸ்பேம். இந்த வகைப்படுத்தியைச் செயல்படுத்திய பிறகு, இந்த மின்னஞ்சல்களில் உள்ள “ஸ்பேம் அல்ல” கிளிக்குகளை நாங்கள் சரிபார்த்தோம், அவற்றில் 80% நைஜீரிய ஸ்பேம் என்று தெரியவந்துள்ளது, இது பயனர்கள் மிகவும் ஏமாறக்கூடியவர்களாக இருக்கலாம் என்று கூறுகிறது.

பொத்தான்களை மக்களால் மட்டுமல்ல, உலாவியைப் போல் பாசாங்கு செய்யும் அனைத்து வகையான போட்களாலும் கிளிக் செய்ய முடியும் என்பதை மறந்துவிடக் கூடாது. எனவே மூல பின்னூட்டம் கற்றலுக்கு நல்லதல்ல. இந்த தகவலை நீங்கள் என்ன செய்ய முடியும்?

நாங்கள் இரண்டு அணுகுமுறைகளைப் பயன்படுத்துகிறோம்:

  • இணைக்கப்பட்ட ML இன் கருத்து. எடுத்துக்காட்டாக, எங்களிடம் ஒரு ஆன்லைன் ஆன்டி-போட் அமைப்பு உள்ளது, இது நான் குறிப்பிட்டுள்ளபடி, குறைந்த எண்ணிக்கையிலான அறிகுறிகளின் அடிப்படையில் விரைவான முடிவை எடுக்கும். உண்மைக்குப் பிறகு செயல்படும் இரண்டாவது, மெதுவான அமைப்பு உள்ளது. இது பயனர், அவரது நடத்தை போன்றவற்றைப் பற்றிய கூடுதல் தகவல்களைக் கொண்டுள்ளது. இதன் விளைவாக, மிகவும் தகவலறிந்த முடிவு எடுக்கப்படுகிறது; அதன்படி, இது அதிக துல்லியம் மற்றும் முழுமை கொண்டது. இந்த அமைப்புகளின் செயல்பாட்டில் உள்ள வேறுபாட்டை நீங்கள் பயிற்சித் தரவாக முதலில் இயக்கலாம். எனவே, எளிமையான அமைப்பு எப்போதும் மிகவும் சிக்கலான ஒன்றின் செயல்திறனை அணுக முயற்சிக்கும்.
  • வகைப்பாடு என்பதைக் கிளிக் செய்யவும். நீங்கள் ஒவ்வொரு பயனரின் கிளிக்கையும் வகைப்படுத்தலாம், அதன் செல்லுபடியாகும் தன்மை மற்றும் பயன்பாட்டினை மதிப்பீடு செய்யலாம். பயனர் பண்புக்கூறுகள், அவரது வரலாறு, அனுப்புநர் பண்புக்கூறுகள், உரை மற்றும் வகைப்படுத்திகளின் முடிவு ஆகியவற்றைப் பயன்படுத்தி, ஆண்டிஸ்பேம் மின்னஞ்சலில் இதைச் செய்கிறோம். இதன் விளைவாக, பயனர் கருத்தை சரிபார்க்கும் ஒரு தானியங்கி அமைப்பைப் பெறுகிறோம். மேலும் இது மிகவும் குறைவாகவே மீண்டும் பயிற்சியளிக்கப்பட வேண்டும் என்பதால், அதன் வேலை மற்ற எல்லா அமைப்புகளுக்கும் அடிப்படையாக அமையும். இந்த மாதிரியின் முக்கிய முன்னுரிமை துல்லியமானது, ஏனெனில் தவறான தரவுகளில் மாதிரியைப் பயிற்றுவிப்பது விளைவுகளால் நிறைந்துள்ளது.

நாங்கள் தரவைச் சுத்தம் செய்து, எம்எல் அமைப்புகளுக்குப் பயிற்சி அளிக்கும்போது, ​​பயனர்களைப் பற்றி மறந்துவிடக் கூடாது, ஏனென்றால் வரைபடத்தில் உள்ள ஆயிரக்கணக்கான, மில்லியன் கணக்கான பிழைகள் புள்ளிவிவரங்கள், மேலும் பயனருக்கு ஒவ்வொரு பிழையும் ஒரு சோகம். தயாரிப்பில் உங்கள் பிழையுடன் பயனர் எப்படியாவது வாழ வேண்டும் என்ற உண்மையைத் தவிர, கருத்துக்களைப் பெற்ற பிறகு, எதிர்காலத்தில் இதேபோன்ற நிலைமை அகற்றப்படும் என்று அவர் எதிர்பார்க்கிறார். எனவே, பயனர்களுக்கு வாக்களிக்கும் வாய்ப்பை வழங்குவது மட்டுமல்லாமல், எம்.எல் அமைப்புகளின் நடத்தையை சரிசெய்வதற்கும் எப்போதும் மதிப்புள்ளது, எடுத்துக்காட்டாக, ஒவ்வொரு பின்னூட்டக் கிளிக்கிற்கும் தனிப்பட்ட ஹியூரிஸ்டிக்ஸ் உருவாக்குதல்; அஞ்சலைப் பொறுத்தவரை, இது வடிகட்டுவதற்கான திறனாக இருக்கலாம். அனுப்புநரின் கடிதங்கள் மற்றும் இந்தப் பயனருக்கான தலைப்பு.

நீங்கள் சில அறிக்கைகள் அல்லது கோரிக்கைகளின் அடிப்படையில் ஒரு மாதிரியை உருவாக்க வேண்டும்.

கற்றலுக்கான ஹியூரிஸ்டிக்ஸ்

இந்த ஹூரிஸ்டிக்ஸ் மற்றும் ஊன்றுகோல்களில் இரண்டு சிக்கல்கள் உள்ளன. முதலாவதாக, எப்போதும் அதிகரித்து வரும் ஊன்றுகோல்களை பராமரிப்பது கடினம், நீண்ட காலத்திற்கு அவற்றின் தரம் மற்றும் செயல்திறன் ஒருபுறம் இருக்கட்டும். இரண்டாவது சிக்கல் என்னவென்றால், பிழை அடிக்கடி இருக்காது, மேலும் மாதிரியை மேலும் பயிற்றுவிக்க சில கிளிக்குகள் போதுமானதாக இருக்காது. பின்வரும் அணுகுமுறையைப் பயன்படுத்தினால், இந்த இரண்டு தொடர்பில்லாத விளைவுகளை கணிசமாக நடுநிலையாக்க முடியும் என்று தோன்றுகிறது.

  1. நாங்கள் ஒரு தற்காலிக ஊன்றுகோலை உருவாக்குகிறோம்.
  2. அதிலிருந்து தரவை மாதிரிக்கு அனுப்புகிறோம், பெறப்பட்ட தரவு உட்பட, அது தொடர்ந்து தன்னைப் புதுப்பிக்கிறது. இங்கே, நிச்சயமாக, பயிற்சித் தொகுப்பில் உள்ள தரவின் தரத்தை குறைக்காதபடி, ஹூரிஸ்டிக்ஸ் அதிக துல்லியத்தைக் கொண்டிருப்பது முக்கியம்.
  3. ஊன்றுகோலைத் தூண்டுவதற்கு நாங்கள் கண்காணிப்பை அமைத்துள்ளோம், சிறிது நேரம் கழித்து ஊன்றுகோல் வேலை செய்யாது மற்றும் மாதிரியால் முழுமையாக மூடப்பட்டிருந்தால், நீங்கள் அதை பாதுகாப்பாக அகற்றலாம். இப்போது இந்தப் பிரச்னை மீண்டும் ஏற்பட வாய்ப்பில்லை.

எனவே ஊன்றுகோல்களின் படை மிகவும் பயனுள்ளதாக இருக்கும். முக்கிய விஷயம் என்னவென்றால், அவர்களின் சேவை அவசரமானது மற்றும் நிரந்தரமானது அல்ல.

கூடுதல் பயிற்சி

மறுபயிற்சி என்பது பயனர்கள் அல்லது பிற அமைப்புகளின் பின்னூட்டத்தின் விளைவாகப் பெறப்பட்ட புதிய தரவைச் சேர்ப்பதும், ஏற்கனவே உள்ள மாதிரியைப் பயிற்றுவிப்பதும் ஆகும். கூடுதல் பயிற்சியில் பல சிக்கல்கள் இருக்கலாம்:

  1. மாதிரியானது கூடுதல் பயிற்சியை ஆதரிக்காமல் இருக்கலாம், ஆனால் புதிதாக மட்டுமே கற்றுக்கொள்ளுங்கள்.
  2. இயற்கையின் புத்தகத்தில் எங்கும் கூடுதல் பயிற்சி நிச்சயமாக உற்பத்தியில் வேலையின் தரத்தை மேம்படுத்தும் என்று எழுதப்படவில்லை. பெரும்பாலும் எதிர்மாறாக நடக்கும், அதாவது, சீரழிவு மட்டுமே சாத்தியமாகும்.
  3. மாற்றங்கள் கணிக்க முடியாததாக இருக்கலாம். இது நமக்கு நாமே அடையாளம் கண்டுகொண்ட மிகவும் நுட்பமான புள்ளி. A/B சோதனையில் ஒரு புதிய மாடல் தற்போதையதை ஒப்பிடும்போது ஒரே மாதிரியான முடிவுகளைக் காட்டினாலும், அது ஒரே மாதிரியாக வேலை செய்யும் என்று அர்த்தமல்ல. அவர்களின் பணி ஒரு சதவீதத்தில் வேறுபடலாம், இது புதிய பிழைகளைக் கொண்டு வரலாம் அல்லது ஏற்கனவே சரிசெய்யப்பட்ட பழையவற்றைத் திரும்பப் பெறலாம். தற்போதைய பிழைகளுடன் எவ்வாறு வாழ்வது என்பது எங்களுக்கும் பயனர்களுக்கும் ஏற்கனவே தெரியும், மேலும் அதிக எண்ணிக்கையிலான புதிய பிழைகள் எழும்போது, ​​என்ன நடக்கிறது என்பதை பயனர் புரிந்துகொள்ளாமல் இருக்கலாம், ஏனெனில் அவர் கணிக்கக்கூடிய நடத்தையை எதிர்பார்க்கிறார்.

எனவே, கூடுதல் பயிற்சியில் மிக முக்கியமான விஷயம், மாதிரி மேம்படுத்தப்பட்டதா அல்லது குறைந்தபட்சம் மோசமடையாமல் இருப்பதை உறுதி செய்வதாகும்.

கூடுதல் பயிற்சியைப் பற்றி பேசும்போது முதலில் நினைவுக்கு வருவது செயலில் கற்றல் அணுகுமுறை. இதன் பொருள் என்ன? எடுத்துக்காட்டாக, ஒரு மின்னஞ்சலானது நிதி தொடர்பானதா என்பதை வகைப்படுத்தி தீர்மானிக்கிறது, மேலும் அதன் முடிவு எல்லையைச் சுற்றி லேபிளிடப்பட்ட எடுத்துக்காட்டுகளின் மாதிரியைச் சேர்ப்போம். இது நன்றாக வேலை செய்கிறது, எடுத்துக்காட்டாக, விளம்பரத்தில், நிறைய கருத்துகள் உள்ளன, மேலும் நீங்கள் ஆன்லைனில் மாதிரியைப் பயிற்றுவிக்கலாம். சிறிய கருத்து இருந்தால், உற்பத்தி தரவு விநியோகத்துடன் ஒப்பிடும்போது மிகவும் பக்கச்சார்பான மாதிரியைப் பெறுகிறோம், அதன் அடிப்படையில் செயல்பாட்டின் போது மாதிரியின் நடத்தையை மதிப்பீடு செய்வது சாத்தியமில்லை.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

உண்மையில், பழைய வடிவங்கள், ஏற்கனவே அறியப்பட்ட மாதிரிகள் மற்றும் புதியவற்றைப் பெறுவதே எங்கள் குறிக்கோள். இங்கே தொடர்ச்சி முக்கியம். நாங்கள் அடிக்கடி உருட்டுவதற்கு மிகுந்த சிரத்தை எடுத்துக்கொண்ட மாதிரி, ஏற்கனவே வேலை செய்கிறது, எனவே அதன் செயல்திறனில் கவனம் செலுத்தலாம்.

மின்னஞ்சலில் வெவ்வேறு மாதிரிகள் பயன்படுத்தப்படுகின்றன: மரங்கள், நேரியல், நரம்பியல் நெட்வொர்க்குகள். ஒவ்வொன்றிற்கும் நாங்கள் எங்கள் சொந்த கூடுதல் பயிற்சி அல்காரிதத்தை உருவாக்குகிறோம். கூடுதல் பயிற்சியின் செயல்பாட்டில், நாங்கள் புதிய தரவை மட்டுமல்ல, பெரும்பாலும் புதிய அம்சங்களையும் பெறுகிறோம், கீழே உள்ள அனைத்து வழிமுறைகளிலும் நாங்கள் கணக்கில் எடுத்துக்கொள்வோம்.

நேரியல் மாதிரிகள்

எங்களிடம் லாஜிஸ்டிக் பின்னடைவு உள்ளது என்று வைத்துக்கொள்வோம். பின்வரும் கூறுகளிலிருந்து இழப்பு மாதிரியை உருவாக்குகிறோம்:

  • புதிய தரவுகளில் பதிவு இழப்பு;
  • புதிய அம்சங்களின் எடையை நாங்கள் முறைப்படுத்துகிறோம் (பழையவற்றை நாங்கள் தொடுவதில்லை);
  • பழைய வடிவங்களைப் பாதுகாப்பதற்காக பழைய தரவுகளிலிருந்தும் கற்றுக்கொள்கிறோம்;
  • மற்றும், ஒருவேளை, மிக முக்கியமான விஷயம்: நாங்கள் ஹார்மோனிக் ஒழுங்குபடுத்தலைச் சேர்க்கிறோம், இது விதிமுறைப்படி பழைய மாதிரியுடன் ஒப்பிடும்போது எடைகள் அதிகம் மாறாது என்று உத்தரவாதம் அளிக்கிறது.

ஒவ்வொரு இழப்பு கூறுகளும் குணகங்களைக் கொண்டிருப்பதால், குறுக்கு சரிபார்ப்பு அல்லது தயாரிப்பு தேவைகளின் அடிப்படையில் நமது பணிக்கான உகந்த மதிப்புகளைத் தேர்ந்தெடுக்கலாம்.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

மரங்கள்

முடிவு மரங்களுக்கு செல்லலாம். மரங்களின் கூடுதல் பயிற்சிக்காக பின்வரும் வழிமுறையை நாங்கள் தொகுத்துள்ளோம்:

  1. உற்பத்தியானது 100-300 மரங்கள் கொண்ட காடுகளை நடத்துகிறது, இது பழைய தரவு தொகுப்பில் பயிற்சியளிக்கப்படுகிறது.
  2. முடிவில் M = 5 துண்டுகளை அகற்றிவிட்டு, 2M = 10 புதியவற்றைச் சேர்ப்போம், முழு தரவுத் தொகுப்பிலும் பயிற்சியளிக்கப்பட்டது, ஆனால் புதிய தரவுக்கான அதிக எடையுடன், இது இயற்கையாகவே மாதிரியில் அதிகரிக்கும் மாற்றத்திற்கு உத்தரவாதம் அளிக்கிறது.

வெளிப்படையாக, காலப்போக்கில், மரங்களின் எண்ணிக்கை பெரிதும் அதிகரிக்கிறது, மேலும் நேரத்தைச் சந்திக்க அவை அவ்வப்போது குறைக்கப்பட வேண்டும். இதைச் செய்ய, இப்போது எங்கும் நிறைந்திருக்கும் அறிவு வடிகட்டுதலை (KD) பயன்படுத்துகிறோம். அதன் செயல்பாட்டின் கொள்கை பற்றி சுருக்கமாக.

  1. எங்களிடம் தற்போதைய "சிக்கலான" மாதிரி உள்ளது. பயிற்சி தரவு தொகுப்பில் அதை இயக்கி, வெளியீட்டில் வகுப்பு நிகழ்தகவு விநியோகத்தைப் பெறுகிறோம்.
  2. அடுத்து, வகுப்பு விநியோகத்தை இலக்கு மாறியாகப் பயன்படுத்தி மாதிரியின் முடிவுகளை மீண்டும் செய்ய மாணவர் மாதிரியை (இந்த விஷயத்தில் குறைவான மரங்களைக் கொண்ட மாதிரி) பயிற்சியளிக்கிறோம்.
  3. தரவு செட் மார்க்அப்பை நாங்கள் எந்த வகையிலும் பயன்படுத்துவதில்லை, எனவே நாம் தன்னிச்சையான தரவைப் பயன்படுத்தலாம் என்பதை இங்கே கவனிக்க வேண்டியது அவசியம். நிச்சயமாக, மாணவர் மாதிரிக்கான பயிற்சி மாதிரியாக போர் ஸ்ட்ரீமில் இருந்து தரவு மாதிரியைப் பயன்படுத்துகிறோம். எனவே, பயிற்சித் தொகுப்பு மாதிரியின் துல்லியத்தை உறுதிப்படுத்த அனுமதிக்கிறது, மேலும் ஸ்ட்ரீம் மாதிரியானது உற்பத்தி விநியோகத்தில் இதேபோன்ற செயல்திறனுக்கு உத்தரவாதம் அளிக்கிறது, பயிற்சித் தொகுப்பின் சார்புக்கு ஈடுசெய்கிறது.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

இந்த இரண்டு நுட்பங்களின் கலவையானது (மரங்களைச் சேர்ப்பது மற்றும் அறிவு வடிகட்டுதலைப் பயன்படுத்தி அவற்றின் எண்ணிக்கையை அவ்வப்போது குறைப்பது) புதிய வடிவங்களின் அறிமுகம் மற்றும் முழுமையான தொடர்ச்சியை உறுதி செய்கிறது.

KD இன் உதவியுடன், அம்சங்களை அகற்றுதல் மற்றும் இடைவெளிகளில் பணிபுரிதல் போன்ற மாதிரி அம்சங்களில் பல்வேறு செயல்பாடுகளையும் நாங்கள் செய்கிறோம். எங்கள் விஷயத்தில், எங்களிடம் பல முக்கியமான புள்ளிவிவர அம்சங்கள் (அனுப்புபவர்கள், உரை ஹாஷ்கள், URLகள் போன்றவை) தரவுத்தளத்தில் சேமிக்கப்பட்டுள்ளன, அவை தோல்வியடையும். பயிற்சித் தொகுப்பில் தோல்வி சூழ்நிலைகள் ஏற்படாததால், நிகழ்வுகளின் அத்தகைய வளர்ச்சிக்கு மாதிரி, நிச்சயமாகத் தயாராக இல்லை. இதுபோன்ற சந்தர்ப்பங்களில், நாங்கள் KD மற்றும் பெருக்குதல் நுட்பங்களை இணைக்கிறோம்: தரவின் ஒரு பகுதிக்கு பயிற்சியளிக்கும் போது, ​​தேவையான அம்சங்களை அகற்றி அல்லது மீட்டமைக்கிறோம், மேலும் அசல் லேபிள்களை (தற்போதைய மாதிரியின் வெளியீடுகள்) எடுத்துக்கொள்கிறோம், மேலும் மாணவர் மாதிரி இந்த விநியோகத்தை மீண்டும் செய்ய கற்றுக்கொள்கிறது. .

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

மிகவும் தீவிரமான மாதிரி கையாளுதல் ஏற்படுவதை நாங்கள் கவனித்தோம், நூல் மாதிரியின் சதவீதம் அதிகமாக தேவைப்படுகிறது.

அம்சம் அகற்றுதல், எளிமையான செயல்பாடு, ஓட்டத்தின் ஒரு சிறிய பகுதி மட்டுமே தேவைப்படுகிறது, ஏனெனில் இரண்டு அம்சங்கள் மட்டுமே மாறுகின்றன, மேலும் தற்போதைய மாதிரி அதே தொகுப்பில் பயிற்சியளிக்கப்பட்டது - வேறுபாடு குறைவாக உள்ளது. மாதிரியை எளிதாக்குவதற்கு (மரங்களின் எண்ணிக்கையை பல முறை குறைத்தல்), ஏற்கனவே 50 முதல் 50 வரை தேவைப்படுகிறது. மேலும் மாதிரியின் செயல்திறனைக் கடுமையாகப் பாதிக்கும் முக்கியமான புள்ளியியல் அம்சங்களைப் புறக்கணிக்க, அதன் வேலையைச் சமன் செய்ய இன்னும் அதிக ஓட்டம் தேவைப்படுகிறது. அனைத்து வகையான எழுத்துக்களிலும் புதிய விடுபட-எதிர்ப்பு மாதிரி.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

விரைவான உரை

FastText க்கு செல்லலாம். ஒரு வார்த்தையின் பிரதிநிதித்துவம் (உட்பொதித்தல்) அந்த வார்த்தையின் உட்பொதிப்பின் கூட்டுத்தொகை மற்றும் அதன் அனைத்து எழுத்து N-கிராம்கள், பொதுவாக ட்ரைகிராம்கள் ஆகியவற்றைக் கொண்டுள்ளது என்பதை உங்களுக்கு நினைவூட்டுகிறேன். நிறைய ட்ரிகிராம்கள் இருக்கக்கூடும் என்பதால், பக்கெட் ஹேஷிங் பயன்படுத்தப்படுகிறது, அதாவது முழு இடத்தையும் ஒரு குறிப்பிட்ட நிலையான ஹாஷ்மேப்பாக மாற்றுகிறது. இதன் விளைவாக, எடை அணியானது உள் அடுக்கின் பரிமாணத்தை வார்த்தைகளின் எண்ணிக்கை + வாளிகள் மூலம் பெறப்படுகிறது.

கூடுதல் பயிற்சியுடன், புதிய அறிகுறிகள் தோன்றும்: வார்த்தைகள் மற்றும் ட்ரிகிராம்கள். Facebook வழங்கும் நிலையான பின்தொடர்தல் பயிற்சியில் குறிப்பிடத்தக்க எதுவும் நடக்காது. குறுக்கு-என்ட்ரோபி கொண்ட பழைய எடைகள் மட்டுமே புதிய தரவுகளில் மீண்டும் பயிற்சியளிக்கப்படுகின்றன. எனவே, புதிய அம்சங்கள் பயன்படுத்தப்படவில்லை; நிச்சயமாக, இந்த அணுகுமுறை உற்பத்தியில் மாதிரியின் கணிக்க முடியாத தன்மையுடன் தொடர்புடைய மேலே விவரிக்கப்பட்ட அனைத்து குறைபாடுகளையும் கொண்டுள்ளது. அதனால்தான் FastText ஐ சிறிது மாற்றியுள்ளோம். நாங்கள் அனைத்து புதிய எடைகளையும் (சொற்கள் மற்றும் ட்ரிகிராம்கள்) சேர்க்கிறோம், முழு மேட்ரிக்ஸை குறுக்கு-என்ட்ரோபியுடன் விரிவுபடுத்துகிறோம் மற்றும் நேரியல் மாதிரியுடன் ஒப்புமை மூலம் ஹார்மோனிக் ஒழுங்குபடுத்தலைச் சேர்க்கிறோம், இது பழைய எடைகளில் ஒரு சிறிய மாற்றத்திற்கு உத்தரவாதம் அளிக்கிறது.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

சிஎன்என்

மாற்றும் நெட்வொர்க்குகள் சற்று சிக்கலானவை. CNN இல் கடைசி அடுக்குகள் முடிந்தால், நிச்சயமாக, நீங்கள் ஹார்மோனிக் ஒழுங்குபடுத்தலைப் பயன்படுத்தலாம் மற்றும் தொடர்ச்சிக்கு உத்தரவாதம் அளிக்கலாம். ஆனால் முழு நெட்வொர்க்கின் கூடுதல் பயிற்சி தேவைப்பட்டால், அத்தகைய முறைப்படுத்தல் இனி அனைத்து அடுக்குகளுக்கும் பயன்படுத்தப்படாது. இருப்பினும், டிரிப்லெட் லாஸ் மூலம் நிரப்பு உட்பொதிப்புகளைப் பயிற்றுவிப்பதற்கான விருப்பம் உள்ளது (அசல் கட்டுரை).

மும்மடங்கு இழப்பு

ஃபிஷிங் எதிர்ப்புப் பணியை உதாரணமாகப் பயன்படுத்தி, ட்ரிப்லெட் லாஸ்ஸைப் பொதுவாகப் பார்க்கலாம். நாங்கள் எங்கள் லோகோவை எடுத்துக்கொள்கிறோம், அதே போல் மற்ற நிறுவனங்களின் லோகோக்களின் நேர்மறை மற்றும் எதிர்மறை உதாரணங்களையும் எடுத்துக்கொள்கிறோம். முதல்வற்றுக்கு இடையேயான தூரத்தை நாங்கள் குறைத்து, இரண்டாவதாக உள்ள தூரத்தை அதிகரிக்கிறோம், வகுப்புகளின் அதிக சுருக்கத்தை உறுதிப்படுத்த ஒரு சிறிய இடைவெளியுடன் இதைச் செய்கிறோம்.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

நாங்கள் நெட்வொர்க்கை மேலும் பயிற்றுவித்தால், எங்கள் மெட்ரிக் இடம் முற்றிலும் மாறுகிறது, மேலும் அது முந்தையவற்றுடன் முற்றிலும் பொருந்தாது. திசையன்களைப் பயன்படுத்தும் சிக்கல்களில் இது ஒரு தீவிர பிரச்சனை. இந்த சிக்கலைச் சமாளிக்க, பயிற்சியின் போது பழைய உட்பொதிவுகளை கலக்குவோம்.

பயிற்சித் தொகுப்பில் புதிய தரவைச் சேர்த்துள்ளோம், மேலும் மாடலின் இரண்டாவது பதிப்பை புதிதாகப் பயிற்சி செய்து வருகிறோம். இரண்டாவது கட்டத்தில், நாங்கள் எங்கள் நெட்வொர்க்கை (ஃபைன்ட்யூனிங்) மேலும் பயிற்றுவிப்போம்: முதலில் கடைசி அடுக்கு முடிந்தது, பின்னர் முழு பிணையமும் முடக்கப்படும். மும்மூர்த்திகளை உருவாக்கும் செயல்பாட்டில், பயிற்சியளிக்கப்பட்ட மாதிரியைப் பயன்படுத்தி உட்பொதிவுகளின் ஒரு பகுதியை மட்டுமே கணக்கிடுகிறோம், மீதமுள்ளவை - பழையதைப் பயன்படுத்தி. எனவே, கூடுதல் பயிற்சியின் செயல்பாட்டில், மெட்ரிக் இடைவெளிகள் v1 மற்றும் v2 ஆகியவற்றின் இணக்கத்தன்மையை நாங்கள் உறுதி செய்கிறோம். ஹார்மோனிக் ஒழுங்குபடுத்தலின் தனித்துவமான பதிப்பு.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

முழு கட்டிடக்கலை

ஆன்டிஸ்பேமைப் பயன்படுத்தி முழு அமைப்பையும் உதாரணமாகக் கருதினால், மாதிரிகள் தனிமைப்படுத்தப்படவில்லை, ஆனால் ஒருவருக்கொருவர் உள்ளமைக்கப்பட்டவை. நாங்கள் படங்கள், உரை மற்றும் பிற அம்சங்களை எடுத்துக்கொள்கிறோம், CNN மற்றும் Fast Text ஐப் பயன்படுத்தி உட்பொதிவுகளைப் பெறுகிறோம். அடுத்து, உட்பொதிப்புகளின் மேல் வகைப்படுத்திகள் பயன்படுத்தப்படுகின்றன, இது பல்வேறு வகுப்புகளுக்கான மதிப்பெண்களை வழங்குகிறது (கடிதங்களின் வகைகள், ஸ்பேம், லோகோவின் இருப்பு). இறுதி முடிவெடுப்பதற்கான சமிக்ஞைகளும் அடையாளங்களும் ஏற்கனவே மரங்களின் காட்டுக்குள் நுழைகின்றன. இந்தத் திட்டத்தில் உள்ள தனிப்பட்ட வகைப்படுத்திகள், கணினியின் முடிவுகளைச் சிறப்பாகப் புரிந்துகொள்வதையும், சிக்கல்கள் ஏற்பட்டால், எல்லாத் தரவையும் ஒரு மூல வடிவத்தில் முடிவெடுக்கும் மரங்களுக்கு வழங்குவதை விட, குறிப்பாகக் கூறுகளை மீண்டும் பயிற்றுவிப்பதை சாத்தியமாக்குகிறது.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

இதன் விளைவாக, ஒவ்வொரு மட்டத்திலும் தொடர்ச்சிக்கு நாங்கள் உத்தரவாதம் அளிக்கிறோம். CNN மற்றும் Fast Text இல் கீழ் மட்டத்தில் நாம் ஹார்மோனிக் ஒழுங்குபடுத்தலைப் பயன்படுத்துகிறோம், நடுவில் உள்ள வகைப்படுத்திகளுக்கு, நிகழ்தகவு விநியோகத்தின் நிலைத்தன்மைக்கு ஹார்மோனிக் ஒழுங்குமுறை மற்றும் வீத அளவுத்திருத்தத்தையும் பயன்படுத்துகிறோம். நன்றாக, மரத்தை அதிகரிப்பது, அதிகப்படியாக அல்லது அறிவு வடித்தல் மூலம் பயிற்சியளிக்கப்படுகிறது.

பொதுவாக, அத்தகைய உள்ளமைக்கப்பட்ட இயந்திரக் கற்றல் முறையைப் பராமரிப்பது பொதுவாக ஒரு வேதனையாகும், ஏனெனில் கீழ் மட்டத்தில் உள்ள எந்தவொரு கூறுகளும் மேலே உள்ள முழு அமைப்புக்கும் புதுப்பித்தலுக்கு வழிவகுக்கும். ஆனால் எங்கள் அமைப்பில் ஒவ்வொரு கூறுகளும் சற்று மாறி, முந்தையவற்றுடன் இணக்கமாக இருப்பதால், முழு அமைப்பையும் மீண்டும் பயிற்சி செய்ய வேண்டிய அவசியமின்றி முழு அமைப்பையும் துண்டு துண்டாக புதுப்பிக்க முடியும், இது தீவிரமான மேல்நிலை இல்லாமல் ஆதரிக்க அனுமதிக்கிறது.

வரிசைப்படுத்த

தரவு சேகரிப்பு மற்றும் பல்வேறு வகையான மாடல்களின் கூடுதல் பயிற்சி பற்றி நாங்கள் விவாதித்தோம், எனவே உற்பத்தி சூழலில் அவற்றைப் பயன்படுத்துவதற்கு நாங்கள் செல்கிறோம்.

ஏ/பி சோதனை

நான் முன்பு கூறியது போல், தரவு சேகரிக்கும் செயல்பாட்டில், நாங்கள் வழக்கமாக ஒரு சார்பு மாதிரியைப் பெறுகிறோம், அதில் இருந்து மாதிரியின் உற்பத்தி செயல்திறனை மதிப்பீடு செய்வது சாத்தியமில்லை. எனவே, வரிசைப்படுத்தும்போது, ​​​​விஷயங்கள் உண்மையில் எவ்வாறு நடக்கிறது என்பதைப் புரிந்துகொள்வதற்கு, அதாவது, A/B சோதனைகளை நடத்துவதற்கு, மாதிரியை முந்தைய பதிப்போடு ஒப்பிட வேண்டும். உண்மையில், வரைபடங்களை உருட்டுதல் மற்றும் பகுப்பாய்வு செய்யும் செயல்முறை மிகவும் வழக்கமானது மற்றும் எளிதாக தானியங்கு செய்யப்படலாம். எங்கள் மாடல்களை படிப்படியாக 5%, 30%, 50% மற்றும் 100% பயனர்களுக்கு வழங்குகிறோம், அதே நேரத்தில் மாதிரி பதில்கள் மற்றும் பயனர் கருத்துகளில் கிடைக்கக்கூடிய அனைத்து அளவீடுகளையும் சேகரிக்கிறோம். சில தீவிரமான அவுட்லையர்களின் விஷயத்தில், நாங்கள் தானாகவே மாதிரியைத் திரும்பப் பெறுகிறோம், மற்ற சந்தர்ப்பங்களில், போதுமான எண்ணிக்கையிலான பயனர் கிளிக்குகளைச் சேகரித்து, சதவீதத்தை அதிகரிக்க முடிவு செய்கிறோம். இதன் விளைவாக, புதிய மாடலை 50% பயனர்களுக்கு முற்றிலும் தானாகக் கொண்டு வருகிறோம், மேலும் முழு பார்வையாளர்களுக்கும் வெளியீடு ஒரு நபரால் அங்கீகரிக்கப்படும், இருப்பினும் இந்த படியை தானியங்குபடுத்த முடியும்.

இருப்பினும், A/B சோதனைச் செயல்முறை மேம்படுத்தலுக்கான இடத்தை வழங்குகிறது. உண்மை என்னவென்றால், எந்தவொரு A/B சோதனையும் மிக நீளமானது (எங்கள் விஷயத்தில் பின்னூட்டத்தின் அளவைப் பொறுத்து 6 முதல் 24 மணிநேரம் வரை ஆகும்), இது மிகவும் விலையுயர்ந்த மற்றும் வரையறுக்கப்பட்ட ஆதாரங்களுடன் உள்ளது. கூடுதலாக, A/B சோதனையின் ஒட்டுமொத்த நேரத்தை விரைவுபடுத்துவதற்கு, சோதனைக்கான போதுமான அதிக சதவீத ஓட்டம் தேவைப்படுகிறது (சிறிய சதவீதத்தில் அளவீடுகளை மதிப்பிடுவதற்கு புள்ளியியல் முக்கியத்துவம் வாய்ந்த மாதிரியை ஆட்சேர்ப்பு செய்வது மிக நீண்ட நேரம் எடுக்கும்), இது A/B ஸ்லாட்டுகளின் எண்ணிக்கை மிகவும் குறைவாக உள்ளது. வெளிப்படையாக, நாங்கள் மிகவும் நம்பிக்கைக்குரிய மாதிரிகளை மட்டுமே சோதிக்க வேண்டும், அவற்றில் கூடுதல் பயிற்சி செயல்பாட்டின் போது நாங்கள் நிறையப் பெறுகிறோம்.

இந்தச் சிக்கலைத் தீர்க்க, A/B சோதனையின் வெற்றியை முன்னறிவிக்கும் தனி வகைப்படுத்தியைப் பயிற்றுவித்தோம். இதைச் செய்ய, பயிற்சித் தொகுப்பு, ஒத்திவைக்கப்பட்ட ஒன்று மற்றும் ஸ்ட்ரீமில் இருந்து மாதிரியில் முடிவெடுக்கும் புள்ளிவிவரங்கள், துல்லியம், நினைவுகூருதல் மற்றும் பிற அளவீடுகளை அம்சங்களாக எடுத்துக்கொள்கிறோம். மாடலை தற்போது உற்பத்தியில் உள்ள மாடலுடன், ஹூரிஸ்டிக்ஸுடன் ஒப்பிட்டு, மாதிரியின் சிக்கலான தன்மையை கணக்கில் எடுத்துக்கொள்கிறோம். இந்த அனைத்து அம்சங்களையும் பயன்படுத்தி, சோதனை வரலாற்றில் பயிற்சி பெற்ற ஒரு வகைப்படுத்தி வேட்பாளர் மாதிரிகளை மதிப்பீடு செய்கிறது, எங்கள் விஷயத்தில் இவை மரங்களின் காடுகள், மேலும் A/B சோதனையில் எதைப் பயன்படுத்த வேண்டும் என்பதைத் தீர்மானிக்கிறது.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

செயல்படுத்தும் நேரத்தில், இந்த அணுகுமுறை வெற்றிகரமான A/B சோதனைகளின் எண்ணிக்கையை பல மடங்கு அதிகரிக்க அனுமதித்தது.

சோதனை மற்றும் கண்காணிப்பு

சோதனை மற்றும் கண்காணிப்பு, விந்தை போதும், நம் ஆரோக்கியத்திற்கு தீங்கு விளைவிப்பதில்லை; மாறாக, அவை அதை மேம்படுத்துகின்றன மற்றும் தேவையற்ற மன அழுத்தத்திலிருந்து நம்மை விடுவிக்கின்றன. சோதனையானது தோல்வியைத் தடுக்க உங்களை அனுமதிக்கிறது, மேலும் பயனர்கள் மீதான தாக்கத்தைக் குறைக்க கண்காணிப்பு அதை சரியான நேரத்தில் கண்டறிய உங்களை அனுமதிக்கிறது.

விரைவில் அல்லது பின்னர் உங்கள் கணினி எப்போதும் தவறுகளைச் செய்யும் என்பதை இங்கே புரிந்துகொள்வது முக்கியம் - இது எந்த மென்பொருளின் வளர்ச்சி சுழற்சியின் காரணமாகும். கணினி மேம்பாட்டின் தொடக்கத்தில், எல்லாம் சரியாகி, புதுமையின் முக்கிய கட்டம் முடிவடையும் வரை எப்போதும் நிறைய பிழைகள் உள்ளன. ஆனால் காலப்போக்கில், என்ட்ரோபி அதன் எண்ணிக்கையை எடுக்கும், மேலும் பிழைகள் மீண்டும் தோன்றும் - சுற்றியுள்ள கூறுகளின் சிதைவு மற்றும் தரவுகளில் ஏற்படும் மாற்றங்கள் காரணமாக, நான் ஆரம்பத்தில் பேசினேன்.

எந்தவொரு இயந்திரக் கற்றல் முறையையும் அதன் முழு வாழ்க்கைச் சுழற்சியிலும் அதன் லாபத்தின் பார்வையில் இருந்து கருத்தில் கொள்ள வேண்டும் என்பதை இங்கே நான் கவனிக்க விரும்புகிறேன். ஒரு அரிய வகை ஸ்பேமைப் பிடிக்க கணினி எவ்வாறு செயல்படுகிறது என்பதற்கான உதாரணத்தை கீழே உள்ள வரைபடம் காட்டுகிறது (வரைபடத்தில் உள்ள கோடு பூஜ்ஜியத்திற்கு அருகில் உள்ளது). ஒரு நாள், தவறான கேச் செய்யப்பட்ட பண்பு காரணமாக, அவள் பைத்தியம் பிடித்தாள். அதிர்ஷ்டவசமாக, அசாதாரண தூண்டுதலுக்கான கண்காணிப்பு இல்லை; இதன் விளைவாக, முடிவெடுக்கும் எல்லையில் உள்ள "ஸ்பேம்" கோப்புறையில் கணினி அதிக அளவில் கடிதங்களைச் சேமிக்கத் தொடங்கியது. பின்விளைவுகளைச் சரிசெய்தாலும், ஐந்தாண்டுகளில் கூட பணம் செலுத்தாத அளவுக்கு அமைப்பு ஏற்கனவே பல முறை தவறுகளை செய்துள்ளது. மாடலின் வாழ்க்கைச் சுழற்சியின் பார்வையில் இது ஒரு முழுமையான தோல்வியாகும்.

Mail.ru மெயிலில் இயந்திர கற்றலின் செயல்பாடு

எனவே, கண்காணிப்பு போன்ற ஒரு எளிய விஷயம் ஒரு மாதிரியின் வாழ்க்கையில் முக்கியமானது. நிலையான மற்றும் வெளிப்படையான அளவீடுகளுக்கு கூடுதலாக, மாதிரி பதில்கள் மற்றும் மதிப்பெண்களின் விநியோகம் மற்றும் முக்கிய அம்ச மதிப்புகளின் விநியோகம் ஆகியவற்றை நாங்கள் கருதுகிறோம். KL டைவர்ஜென்ஸைப் பயன்படுத்தி, தற்போதைய விநியோகத்தை வரலாற்று ஒன்றுடன் அல்லது A/B சோதனையில் உள்ள மதிப்புகளை மீதமுள்ள ஸ்ட்ரீமுடன் ஒப்பிடலாம், இது மாதிரியில் உள்ள முரண்பாடுகளைக் கவனிக்கவும் சரியான நேரத்தில் மாற்றங்களைத் திரும்பப் பெறவும் அனுமதிக்கிறது.

பெரும்பாலான சந்தர்ப்பங்களில், எதிர்காலத்தில் நாங்கள் கண்காணிப்பாகப் பயன்படுத்தும் எளிய ஹூரிஸ்டிக்ஸ் அல்லது மாடல்களைப் பயன்படுத்தி எங்கள் முதல் பதிப்பு அமைப்புகளைத் தொடங்குகிறோம். எடுத்துக்காட்டாக, குறிப்பிட்ட ஆன்லைன் ஸ்டோர்களுக்கான வழக்கமானவற்றுடன் ஒப்பிடும்போது NER மாதிரியை நாங்கள் கண்காணிக்கிறோம், மேலும் அவற்றுடன் ஒப்பிடுகையில் வகைப்படுத்தி கவரேஜ் குறைந்தால், அதற்கான காரணங்களை நாங்கள் புரிந்துகொள்கிறோம். ஹியூரிஸ்டிக்ஸின் மற்றொரு பயனுள்ள பயன்பாடு!

முடிவுகளை

கட்டுரையின் முக்கிய யோசனைகளை மீண்டும் பார்ப்போம்.

  • ஃபிப்டெக். நாங்கள் எப்போதும் பயனரைப் பற்றி சிந்திக்கிறோம்: அவர் நம் தவறுகளுடன் எப்படி வாழ்வார், அவர் அவற்றை எவ்வாறு புகாரளிக்க முடியும். பயனர்கள் பயிற்சி மாதிரிகளுக்கான தூய கருத்துகளின் ஆதாரமாக இல்லை என்பதை மறந்துவிடாதீர்கள், மேலும் அது துணை ML அமைப்புகளின் உதவியுடன் அழிக்கப்பட வேண்டும். பயனரிடமிருந்து ஒரு சிக்னலை சேகரிக்க முடியாவிட்டால், பின்னூட்டத்தின் மாற்று ஆதாரங்களை நாங்கள் தேடுகிறோம், எடுத்துக்காட்டாக, இணைக்கப்பட்ட அமைப்புகள்.
  • கூடுதல் பயிற்சி. இங்கே முக்கிய விஷயம் தொடர்ச்சி, எனவே நாங்கள் தற்போதைய உற்பத்தி மாதிரியை நம்பியுள்ளோம். புதிய மாடல்களைப் பயிற்றுவிப்போம், அவை ஹார்மோனிக் ரெகுலரைசேஷன் மற்றும் ஒத்த தந்திரங்களால் முந்தையவற்றிலிருந்து அதிகம் வேறுபடுவதில்லை.
  • வரிசைப்படுத்த. அளவீடுகளின் அடிப்படையில் தானியங்கு வரிசைப்படுத்தல் மாதிரிகளை செயல்படுத்துவதற்கான நேரத்தை வெகுவாகக் குறைக்கிறது. புள்ளிவிவரங்களைக் கண்காணித்தல் மற்றும் முடிவெடுக்கும் விநியோகம், உங்களின் நிம்மதியான உறக்கம் மற்றும் பயனுள்ள வார இறுதியில் பயனர்களின் வீழ்ச்சிகளின் எண்ணிக்கை கட்டாயமாகும்.

சரி, இது உங்கள் ML அமைப்புகளை விரைவாக மேம்படுத்தவும், அவற்றை விரைவாக சந்தைப்படுத்தவும், மேலும் நம்பகமானதாகவும், மன அழுத்தத்தைக் குறைக்கவும் உதவும் என்று நம்புகிறேன்.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்