தக்கவைத்தல்: பைதான் மற்றும் பாண்டாஸில் தயாரிப்பு பகுப்பாய்வுக்கான திறந்த மூல கருவிகளை நாங்கள் எவ்வாறு எழுதினோம்

வணக்கம், ஹப்ர். ஒரு பயன்பாடு அல்லது இணையதளத்தில் பயனர் இயக்கப் பாதைகளைச் செயலாக்குவதற்கான முறைகள் மற்றும் கருவிகளின் தொகுப்பின் நான்கு வருட வளர்ச்சியின் முடிவுகளுக்கு இந்தக் கட்டுரை அர்ப்பணிக்கப்பட்டுள்ளது. வளர்ச்சியின் ஆசிரியர் - மாக்சிம் கோட்ஸி, தயாரிப்பு படைப்பாளர்களின் குழுவிற்கு தலைமை தாங்குபவர் மற்றும் கட்டுரையின் ஆசிரியரும் ஆவார். தயாரிப்பே Retentioneering என்று அழைக்கப்பட்டது; அது இப்போது ஒரு திறந்த மூல நூலகமாக மாற்றப்பட்டு கிதுப்பில் வெளியிடப்பட்டுள்ளது, இதனால் அனைவரும் அதைப் பயன்படுத்தலாம். தயாரிப்பு மற்றும் சந்தைப்படுத்தல் பகுப்பாய்வு, விளம்பரம் மற்றும் தயாரிப்பு மேம்பாடு ஆகியவற்றில் ஈடுபட்டுள்ளவர்களுக்கு இவை அனைத்தும் ஆர்வமாக இருக்கலாம். மூலம், ஹப்ரே மீது தக்கவைப்புடன் பணிபுரியும் நிகழ்வுகளில் ஒன்றைப் பற்றி ஏற்கனவே ஒரு கட்டுரை வெளியிடப்பட்டுள்ளது. தயாரிப்பு என்ன செய்ய முடியும் மற்றும் அதை எவ்வாறு பயன்படுத்தலாம் என்பதை புதிய பொருள் விளக்குகிறது.

கட்டுரையைப் படித்த பிறகு, நீங்களே உங்கள் சொந்த தக்கவைப்பை எழுத முடியும்; இது பயன்பாடு மற்றும் அதற்கு அப்பால் உள்ள பயனர் பாதைகளை செயலாக்குவதற்கான எந்தவொரு தரப்படுத்தப்பட்ட முறையாகவும் இருக்கலாம், இது நடத்தையின் பண்புகளை விரிவாகப் பார்க்கவும் வளர்ச்சிக்கான நுண்ணறிவுகளைப் பெறவும் உங்களை அனுமதிக்கிறது. வணிக அளவீடுகள்.

தக்கவைத்தல் என்றால் என்ன, அது ஏன் தேவைப்படுகிறது?

"டிஜிட்டல் மாந்திரீகம்" உலகில் இருந்து எண்கள், பகுப்பாய்வு மற்றும் முன்னறிவிப்புகளின் உலகத்திற்கு வளர்ச்சி ஹேக்கிங்கை நகர்த்துவதே எங்கள் ஆரம்ப இலக்காக இருந்தது. இதன் விளைவாக, அற்புதமான கதைகளுக்குப் பதிலாக எண்களை விரும்புவோருக்குத் தயாரிப்பு பகுப்பாய்வுகள் தூய கணிதம் மற்றும் நிரலாக்கத்திற்குக் குறைக்கப்படுகின்றன, மேலும் "மறுபெயரிடுதல்", "மறுநிலைப்படுத்துதல்" போன்ற சலசலப்புச் சொற்களுக்கான சூத்திரங்கள் நன்றாகத் தோன்றினாலும் நடைமுறையில் சிறிதளவு உதவுகின்றன.

இந்தச் சிக்கல்களைத் தீர்க்க, வரைபடங்கள் மற்றும் பாதைகள் மூலம் பகுப்பாய்வுகளுக்கான கட்டமைப்பும், அதே நேரத்தில் வழக்கமான பகுப்பாய்வாளர் நடைமுறைகளை எளிதாக்கும் ஒரு நூலகமும் தேவை, இது வழக்கமான தயாரிப்பு பகுப்பாய்வு பணிகளை விவரிக்கும் ஒரு வழியாகும், இது மக்களுக்கும் ரோபோக்களுக்கும் புரியும். டெவலப்பர்கள் மற்றும் பகுப்பாய்வாளர்களின் வழக்கமான பணிகளை எளிதாக்குகிறது மற்றும் தானியங்குபடுத்துகிறது மற்றும் வணிகத்துடன் அவர்களின் தொடர்பை எளிதாக்கும் வகையில், பயனர் நடத்தையை விவரிக்கும் மற்றும் அதை ஒரு முறையான மற்றும் தெளிவான மொழியில் தயாரிப்பு வணிக அளவீடுகளுடன் இணைக்கும் திறனை நூலகம் வழங்குகிறது.

தக்கவைத்தல் என்பது ஒரு முறை மற்றும் பகுப்பாய்வு மென்பொருள் கருவியாகும், இது எந்த டிஜிட்டல் (மற்றும் மட்டுமல்ல) தயாரிப்பிலும் மாற்றியமைக்கப்படலாம் மற்றும் ஒருங்கிணைக்கப்படலாம்.

நாங்கள் 2015 இல் தயாரிப்பில் பணியாற்றத் தொடங்கினோம். இப்போது இது ஒரு ஆயத்தமாக உள்ளது, இன்னும் சிறந்ததாக இல்லாவிட்டாலும், தரவுகளுடன் பணிபுரியும் பைதான் மற்றும் பாண்டாஸில் உள்ள கருவிகளின் தொகுப்பு, sklearn-போன்ற api உடன் இயந்திர கற்றல் மாதிரிகள், இயந்திர கற்றல் மாதிரிகள் eli5 மற்றும் shap ஆகியவற்றின் முடிவுகளை விளக்குவதற்கான கருவிகள்.

எல்லாம் முடிஞ்சு போச்சு திறந்த கிதுப் களஞ்சியத்தில் வசதியான திறந்த மூல நூலகத்திற்கு - தக்கவைத்தல்-கருவிகள். நூலகத்தைப் பயன்படுத்துவது கடினம் அல்ல; தயாரிப்பு பகுப்பாய்வை விரும்பும் எவரும், ஆனால் இதற்கு முன் குறியீட்டை எழுதாதவர்கள், எங்கள் பகுப்பாய்வு முறைகளை தங்கள் தரவுகளுக்கு சுயாதீனமாகவும் குறிப்பிடத்தக்க நேர முதலீடு இல்லாமல் பயன்படுத்தலாம்.

சரி, ஒரு ப்ரோக்ராமர், ஆப்ஸ் கிரியேட்டர் அல்லது டெவலப்மெண்ட் அல்லது டெஸ்டிங் டீமின் உறுப்பினர், இதற்கு முன் பகுப்பாய்வு செய்யாதவர்கள் இந்தக் குறியீட்டைக் கொண்டு விளையாடத் தொடங்கி, வெளி உதவியின்றி தங்கள் பயன்பாட்டின் பயன்பாட்டு முறைகளைப் பார்க்கலாம்.

பகுப்பாய்வின் அடிப்படை உறுப்பு மற்றும் அதன் செயலாக்கத்திற்கான முறைகள் என பயனர் பாதை

பயனர் பாதை என்பது குறிப்பிட்ட நேர புள்ளிகளில் பயனர் நிலைகளின் வரிசையாகும். மேலும், நிகழ்வுகள் ஆன்லைனிலும் ஆஃப்லைனிலும் வெவ்வேறு தரவு மூலங்களிலிருந்து வரலாம். பயனருக்கு ஏற்படும் நிகழ்வுகள் அவரது பாதையின் ஒரு பகுதியாகும். எடுத்துக்காட்டுகள்:
• பொத்தானை அழுத்தவும்
• படம் பார்த்தேன்
• திரையில் அடிக்கவும்
• மின்னஞ்சல் வந்தது
• தயாரிப்பை நண்பருக்குப் பரிந்துரைத்தார்
• படிவத்தை நிரப்பவும்
• திரையைத் தட்டியது
• உருட்டப்பட்டது
• பணப் பதிவேட்டிற்குச் சென்றார்
• ஒரு பர்ரிட்டோவை ஆர்டர் செய்தார்
• ஒரு பர்ரிட்டோ சாப்பிட்டேன்
• பர்ரிட்டோ சாப்பிடுவதால் விஷம் கிடைத்தது
• பின் நுழைவாயிலில் இருந்து ஓட்டலுக்குள் நுழைந்தார்
• முன் நுழைவாயிலில் இருந்து நுழைந்தது
• பயன்பாடு குறைக்கப்பட்டது
• புஷ் அறிவிப்பு கிடைத்தது
• X ஐ விட நீண்ட நேரம் திரையில் சிக்கியிருந்தது
• ஆர்டருக்காக பணம் செலுத்தப்பட்டது
• ஆர்டரை வாங்கினார்
• கடன் மறுக்கப்பட்டது

பயனர்களின் குழுவின் பாதைத் தரவை நீங்கள் எடுத்து, மாற்றங்கள் எவ்வாறு கட்டமைக்கப்பட்டுள்ளன என்பதைப் படித்தால், பயன்பாட்டில் அவர்களின் நடத்தை எவ்வாறு கட்டமைக்கப்பட்டுள்ளது என்பதை நீங்கள் சரியாகக் கண்டறியலாம். மாநிலங்கள் முனைகளாகவும், மாநிலங்களுக்கிடையேயான மாற்றங்கள் விளிம்புகளாகவும் இருக்கும் வரைபடத்தின் மூலம் இதைச் செய்வது வசதியானது:

தக்கவைத்தல்: பைதான் மற்றும் பாண்டாஸில் தயாரிப்பு பகுப்பாய்வுக்கான திறந்த மூல கருவிகளை நாங்கள் எவ்வாறு எழுதினோம்

"டிராஜெக்டரி" என்பது மிகவும் வசதியான கருத்து - இது அனைத்து பயனர் செயல்களைப் பற்றிய விரிவான தகவலைக் கொண்டுள்ளது, இந்த செயல்களின் விளக்கத்தில் கூடுதல் தரவைச் சேர்க்கும் திறன் கொண்டது. இது ஒரு உலகளாவிய பொருளாக ஆக்குகிறது. பாதைகளுடன் பணிபுரிய உங்களை அனுமதிக்கும் அழகான மற்றும் வசதியான கருவிகள் உங்களிடம் இருந்தால், நீங்கள் ஒற்றுமைகளைக் கண்டறிந்து அவற்றைப் பிரிக்கலாம்.

பாதைப் பிரிவு முதலில் மிகவும் சிக்கலானதாகத் தோன்றலாம். ஒரு சாதாரண சூழ்நிலையில், இதுதான் வழக்கு - நீங்கள் இணைப்பு மேட்ரிக்ஸ் ஒப்பீடு அல்லது வரிசை சீரமைப்பைப் பயன்படுத்த வேண்டும். நாங்கள் ஒரு எளிய வழியைக் கண்டுபிடித்தோம் - அதிக எண்ணிக்கையிலான பாதைகளைப் படிக்கவும், கிளஸ்டரிங் மூலம் அவற்றைப் பிரிக்கவும்.

அது மாறியது போல், தொடர்ச்சியான பிரதிநிதித்துவங்களைப் பயன்படுத்தி ஒரு பாதையை ஒரு புள்ளியாக மாற்ற முடியும், எடுத்துக்காட்டாக, TF-IDF. மாற்றத்திற்குப் பிறகு, பாதையானது விண்வெளியில் ஒரு புள்ளியாக மாறும், அங்கு பல்வேறு நிகழ்வுகளின் இயல்பான நிகழ்வு மற்றும் பாதையில் அவற்றுக்கிடையேயான மாற்றங்கள் அச்சுகளில் திட்டமிடப்படுகின்றன. ஒரு பெரிய ஆயிரம் அல்லது அதற்கு மேற்பட்ட பரிமாண இடைவெளியில் இருந்து இந்த விஷயம் (dimS=sum(நிகழ்வு வகைகள்)+sum(ngrams_2 வகைகள்)) பயன்படுத்தி விமானத்தில் திட்டமிடலாம் TSNE. TSNE என்பது இடத்தின் பரிமாணத்தை 2 அச்சுகளாகக் குறைத்து, முடிந்தால், புள்ளிகளுக்கு இடையே உள்ள ஒப்பீட்டு தூரத்தைப் பாதுகாக்கும் ஒரு மாற்றமாகும். அதன்படி, வெவ்வேறு பாதைகளின் புள்ளிகள் தங்களுக்குள் எவ்வாறு அமைந்திருந்தன என்பதைப் படிப்பது ஒரு தட்டையான வரைபடத்தில், பாதைகளின் உருவக திட்ட வரைபடத்தில் சாத்தியமாகும். அவை ஒன்றுக்கொன்று எவ்வளவு நெருக்கமாக அல்லது வேறுபட்டவை என்பதை இது பகுப்பாய்வு செய்கிறது, அவை கொத்துக்களை உருவாக்கினதா அல்லது வரைபடத்தில் சிதறிவிட்டன, முதலியன:

தக்கவைத்தல்: பைதான் மற்றும் பாண்டாஸில் தயாரிப்பு பகுப்பாய்வுக்கான திறந்த மூல கருவிகளை நாங்கள் எவ்வாறு எழுதினோம்

தக்கவைத்தல் பகுப்பாய்வுக் கருவிகள் சிக்கலான தரவு மற்றும் பாதைகளை ஒன்றோடொன்று ஒப்பிடக்கூடிய பார்வையாக மாற்றும் திறனை வழங்குகின்றன, பின்னர் மாற்றத்தின் முடிவை ஆய்வு செய்து விளக்கலாம்.

ட்ராஜெக்டரிகளை செயலாக்குவதற்கான நிலையான முறைகளைப் பற்றி பேசுகையில், ரிடென்ஷனிங்கில் நாங்கள் செயல்படுத்திய மூன்று முக்கிய கருவிகளைக் குறிக்கிறோம் - வரைபடங்கள், படி மெட்ரிக்குகள் மற்றும் பாதைத் திட்ட வரைபடங்கள்.

Google Analytics, Firebase மற்றும் ஒத்த பகுப்பாய்வு அமைப்புகளுடன் பணிபுரிவது மிகவும் சிக்கலானது மற்றும் 100% பயனுள்ளதாக இல்லை. சிக்கல் என்பது பயனருக்கு பல கட்டுப்பாடுகள் ஆகும், இதன் விளைவாக அத்தகைய அமைப்புகளில் ஆய்வாளரின் பணி மவுஸ் கிளிக்குகள் மற்றும் துண்டுகளின் தேர்வைப் பொறுத்தது. Google Analytics இல் உள்ளதைப் போல, புனல்களுடன் மட்டுமல்லாமல், பயனர் பாதைகளுடன் பணிபுரிவதைத் தக்கவைத்தல் சாத்தியமாக்குகிறது, அங்கு விவரங்களின் நிலை பெரும்பாலும் ஒரு புனலாகக் குறைக்கப்படுகிறது, இருப்பினும் ஒரு குறிப்பிட்ட பிரிவுக்காக கட்டமைக்கப்படுகிறது.

தக்கவைத்தல் மற்றும் வழக்குகள்

உருவாக்கப்பட்ட கருவியைப் பயன்படுத்துவதற்கான எடுத்துக்காட்டு, ரஷ்யாவில் ஒரு பெரிய முக்கிய சேவையின் வழக்கை மேற்கோள் காட்டலாம். இந்த நிறுவனம் வாடிக்கையாளர்கள் மத்தியில் பிரபலமான ஆண்ட்ராய்டு மொபைல் செயலியைக் கொண்டுள்ளது. மொபைல் பயன்பாட்டிலிருந்து ஆண்டு வருவாய் சுமார் 7 மில்லியன் ரூபிள் ஆகும், பருவகால ஏற்ற இறக்கங்கள் 60-130 ஆயிரம் வரை இருந்தன, அதே நிறுவனத்தில் iOS க்கும் ஒரு பயன்பாடு உள்ளது, மேலும் ஆப்பிள் பயன்பாட்டின் பயனரின் சராசரி பில் சராசரி கட்டணத்தை விட அதிகமாக இருந்தது. ஆண்ட்ராய்டு பயன்பாட்டைப் பயன்படுத்தும் வாடிக்கையாளர் - 1080 ரூபிள். எதிராக 1300 ரூபிள்.

நிறுவனம் ஆண்ட்ராய்டு பயன்பாட்டின் செயல்திறனை அதிகரிக்க முடிவு செய்தது, அதற்காக அது ஒரு முழுமையான பகுப்பாய்வை நடத்தியது. பயன்பாட்டின் செயல்திறனை அதிகரிப்பது பற்றி பல டஜன் கருதுகோள்கள் உருவாக்கப்பட்டன. Retentionneering ஐப் பயன்படுத்திய பிறகு, புதிய பயனர்களுக்குக் காட்டப்பட்ட செய்திகளில் சிக்கல் இருப்பது தெரியவந்தது. பிராண்ட், நிறுவனத்தின் நன்மைகள் மற்றும் விலைகள் பற்றிய தகவல்களைப் பெற்றனர். ஆனால், அது மாறியது போல், பயன்பாட்டில் எவ்வாறு வேலை செய்வது என்பதை பயனர் அறிய செய்திகள் உதவ வேண்டும்.

தக்கவைத்தல்: பைதான் மற்றும் பாண்டாஸில் தயாரிப்பு பகுப்பாய்வுக்கான திறந்த மூல கருவிகளை நாங்கள் எவ்வாறு எழுதினோம்

இது செய்யப்பட்டது, இதன் விளைவாக பயன்பாடு குறைவாக நிறுவல் நீக்கப்பட்டது, மேலும் ஆர்டருக்கு மாற்றுவதில் அதிகரிப்பு 23% ஆக இருந்தது. முதலில், உள்வரும் போக்குவரத்தில் 20 சதவீதம் சோதனைக்கு வழங்கப்பட்டது, ஆனால் சில நாட்களுக்குப் பிறகு, முதல் முடிவுகளை பகுப்பாய்வு செய்து, போக்கை மதிப்பிட்ட பிறகு, அவர்கள் விகிதாச்சாரத்தை மாற்றியமைத்தனர், மாறாக, கட்டுப்பாட்டு குழுவிற்கு 20 சதவீதத்தை விட்டுவிட்டனர். எண்பது சதவிகிதம் தேர்வில் வைக்கப்பட்டது. ஒரு வாரம் கழித்து, மேலும் இரண்டு கருதுகோள்களின் சோதனையை தொடர்ச்சியாக சேர்க்க முடிவு செய்யப்பட்டது. வெறும் ஏழு வாரங்களில், ஆண்ட்ராய்டு பயன்பாட்டிலிருந்து விற்றுமுதல் முந்தைய நிலையுடன் ஒப்பிடும்போது ஒன்றரை மடங்கு அதிகரித்துள்ளது.

தக்கவைப்புடன் எவ்வாறு வேலை செய்வது?

முதல் படிகள் மிகவும் எளிமையானவை - pip install retentioneering கட்டளையுடன் நூலகத்தைப் பதிவிறக்கவும். சில தயாரிப்பு பகுப்பாய்வு பணிகளுக்கான தரவு செயலாக்கத்தின் ஆயத்த எடுத்துக்காட்டுகள் மற்றும் வழக்குகள் களஞ்சியத்தில் உள்ளன. முதல் அறிமுகத்திற்கு போதுமானதாக இருக்கும் வரை தொகுப்பு தொடர்ந்து புதுப்பிக்கப்படும். எவரும் ஆயத்த தொகுதிகளை எடுத்து உடனடியாக தங்கள் பணிகளுக்கு அவற்றைப் பயன்படுத்தலாம் - இது முடிந்தவரை விரைவாகவும் திறமையாகவும் பயனர் பாதைகளின் விரிவான பகுப்பாய்வு மற்றும் மேம்படுத்தல் செயல்முறையை உடனடியாக அமைக்க அனுமதிக்கிறது. இவை அனைத்தும் தெளிவான குறியீட்டின் மூலம் பயன்பாட்டு பயன்பாட்டு முறைகளைக் கண்டறிந்து, சக ஊழியர்களுடன் இந்த அனுபவத்தைப் பகிர்ந்துகொள்வதை சாத்தியமாக்குகிறது.

தக்கவைத்தல் என்பது உங்கள் பயன்பாட்டின் வாழ்நாள் முழுவதும் பயன்படுத்தக்கூடிய ஒரு கருவியாகும், அதற்கான காரணம் இங்கே உள்ளது:

  • பயனர் பாதைகளைக் கண்காணிப்பதற்கும் தொடர்ந்து மேம்படுத்துவதற்கும் வணிக செயல்திறனை மேம்படுத்துவதற்கும் தக்கவைத்தல் பயனுள்ளதாக இருக்கும். எனவே, புதிய அம்சங்கள் பெரும்பாலும் மின்வணிக பயன்பாடுகளில் சேர்க்கப்படுகின்றன, தயாரிப்பின் மீதான தாக்கத்தை எப்போதும் சரியாகக் கணிக்க முடியாது. சில சந்தர்ப்பங்களில், புதிய மற்றும் பழைய செயல்பாடுகளுக்கு இடையில் பொருந்தக்கூடிய சிக்கல்கள் எழுகின்றன - எடுத்துக்காட்டாக, புதியவை ஏற்கனவே உள்ளவற்றை "நரமாமிசமாக்குகின்றன". இந்த சூழ்நிலையில், பாதைகளின் நிலையான பகுப்பாய்வு துல்லியமாக தேவைப்படுகிறது.
  • விளம்பர சேனல்களுடன் பணிபுரியும் போது நிலைமை ஒத்திருக்கிறது: புதிய போக்குவரத்து ஆதாரங்கள் மற்றும் விளம்பர படைப்புகள் தொடர்ந்து சோதிக்கப்படுகின்றன, பருவநிலை, போக்குகள் மற்றும் பிற நிகழ்வுகளின் செல்வாக்கு ஆகியவற்றை கண்காணிக்க வேண்டியது அவசியம், இது மேலும் மேலும் புதிய வகை சிக்கல்களின் தோற்றத்திற்கு வழிவகுக்கிறது. இதற்கு பயனர் இயக்கவியலின் நிலையான கண்காணிப்பு மற்றும் விளக்கம் தேவைப்படுகிறது.
  • பயன்பாட்டின் செயல்திறனைத் தொடர்ந்து பாதிக்கும் பல காரணிகள் உள்ளன. எடுத்துக்காட்டாக, டெவலப்பர்களிடமிருந்து புதிய வெளியீடுகள்: தற்போதைய சிக்கலை மூடுவது, அவர்கள் அறியாமல் பழையதைத் திருப்பித் தருகிறார்கள் அல்லது முற்றிலும் புதியதை உருவாக்குகிறார்கள். காலப்போக்கில், புதிய வெளியீடுகளின் எண்ணிக்கை அதிகரிக்கிறது, மேலும் பயனர் பாதைகளை பகுப்பாய்வு செய்வது உட்பட, கண்காணிப்பு பிழைகளின் செயல்முறை தானியக்கமாக இருக்க வேண்டும்.

ஒட்டுமொத்தமாக, தக்கவைத்தல் ஒரு பயனுள்ள கருவியாகும். ஆனால் முழுமைக்கு வரம்பு இல்லை - அதை மேம்படுத்தலாம், மேம்படுத்தலாம் மற்றும் புதிய குளிர் தயாரிப்புகளை அதன் அடிப்படையில் உருவாக்கலாம். திட்டத்தின் சமூகம் எவ்வளவு சுறுசுறுப்பாக இருக்கிறதோ, அவ்வளவு ஃபோர்க்ஸ் இருக்கும், மேலும் அதைப் பயன்படுத்துவதற்கான புதிய சுவாரஸ்யமான விருப்பங்கள் தோன்றும்.

தக்கவைக்கும் கருவிகள் பற்றிய கூடுதல் தகவல்:

ஆதாரம்: www.habr.com

கருத்தைச் சேர்