பாதுகாப்பு மற்றும் தனியுரிமைக்கான அளவிடக்கூடிய தரவு வகைப்பாடு

பாதுகாப்பு மற்றும் தனியுரிமைக்கான அளவிடக்கூடிய தரவு வகைப்பாடு

உள்ளடக்க அடிப்படையிலான தரவு வகைப்பாடு ஒரு திறந்த பிரச்சனை. பாரம்பரிய தரவு இழப்பு தடுப்பு (DLP) அமைப்புகள் தொடர்புடைய தரவை கைரேகை மற்றும் கைரேகைக்கான இறுதிப்புள்ளிகளை கண்காணிப்பதன் மூலம் இந்த சிக்கலை தீர்க்கின்றன. Facebook இல் தொடர்ந்து மாறிவரும் தரவு வளங்களின் எண்ணிக்கையைக் கருத்தில் கொண்டு, இந்த அணுகுமுறை அளவிடக்கூடியது மட்டுமல்ல, தரவு எங்கு உள்ளது என்பதைத் தீர்மானிப்பதற்கும் பயனற்றது. இந்த தாள், Facebook இல் உணர்திறன் பொருள் வகைகளை அளவில் கண்டறிந்து, தரவு சேமிப்பகம் மற்றும் அணுகல் கட்டுப்பாட்டை தானாக செயல்படுத்த கட்டமைக்கப்பட்ட ஒரு எண்ட்-டு-எண்ட் அமைப்பில் கவனம் செலுத்துகிறது.

இங்கே விவரிக்கப்பட்டுள்ள அணுகுமுறையானது, Facebook இல் உள்ள எல்லா தரவையும் வரைபடமாக்குவதற்கும் வகைப்படுத்துவதற்கும் தரவு சமிக்ஞைகள், இயந்திர கற்றல் மற்றும் பாரம்பரிய கைரேகை நுட்பங்களை இணைப்பதன் மூலம் இந்தச் சிக்கலைத் தீர்க்க முயற்சிக்கும் எங்களின் முதல் எண்ட்-டு-எண்ட் தனியுரிமை அமைப்பு ஆகும். விவரிக்கப்பட்ட அமைப்பு ஒரு உற்பத்தி சூழலில் இயக்கப்படுகிறது, பல்வேறு தனியுரிமை வகுப்புகளில் சராசரியாக 2+ F0,9 மதிப்பெண்ணைப் பெறுகிறது, அதே நேரத்தில் டஜன் கணக்கான களஞ்சியங்களில் பெரிய அளவிலான தரவு ஆதாரங்களை செயலாக்குகிறது. இயந்திர கற்றலின் அடிப்படையில் பாதுகாப்பு மற்றும் தனியுரிமைக்கான அளவிடக்கூடிய தரவு வகைப்பாடு குறித்த Facebook இன் ArXiv தாளின் மொழிபெயர்ப்பை அறிமுகப்படுத்துகிறது.

அறிமுகம்

இன்று, நிறுவனங்கள் பல்வேறு வடிவங்கள் மற்றும் இருப்பிடங்களில் பெரிய அளவிலான தரவைச் சேகரித்துச் சேமிக்கின்றன [1], பின்னர் தரவு பல இடங்களில் நுகரப்படுகிறது, சில சமயங்களில் நகலெடுக்கப்படுகிறது அல்லது பலமுறை தற்காலிகமாக சேமிக்கப்படுகிறது, இதன் விளைவாக மதிப்புமிக்க மற்றும் முக்கியமான வணிகத் தகவல்கள் பல நிறுவன தரவுகளில் சிதறடிக்கப்படுகின்றன. கடைகள். சிவில் நடவடிக்கைகளில் விதிமுறைகளுக்கு இணங்குதல் போன்ற சில சட்ட அல்லது ஒழுங்குமுறைத் தேவைகளைப் பூர்த்தி செய்ய ஒரு நிறுவனம் தேவைப்படும்போது, ​​தேவையான தரவுகளின் இருப்பிடத்தைப் பற்றிய தரவுகளைச் சேகரிப்பது அவசியமாகிறது. அங்கீகரிக்கப்படாத நிறுவனங்களுடன் தனிப்பட்ட தகவலைப் பகிரும் போது, ​​ஒரு நிறுவனம் அனைத்து சமூகப் பாதுகாப்பு எண்களையும் (SSNகள்) மறைக்க வேண்டும் என்று தனியுரிமை ஒழுங்குமுறை கூறும்போது, ​​இயற்கையான முதல் படி, நிறுவனத்தின் தரவுக் கடைகள் முழுவதும் அனைத்து SSNகளையும் தேடுவதாகும். இத்தகைய சூழ்நிலைகளில், தரவு வகைப்பாடு முக்கியமானதாகிறது [1]. அணுகல் கட்டுப்பாட்டுக் கொள்கைகளை இயக்குதல், தரவுத் தக்கவைப்பு போன்ற தனியுரிமை மற்றும் பாதுகாப்புக் கொள்கைகளை நிறுவனங்கள் தானாகச் செயல்படுத்த வகைப்பாடு அமைப்பு அனுமதிக்கும். பல தரவு சமிக்ஞைகள், அளவிடக்கூடிய கணினி கட்டமைப்பு மற்றும் முக்கியமான சொற்பொருள் தரவு வகைகளைக் கண்டறிய இயந்திர கற்றல் ஆகியவற்றைப் பயன்படுத்தும் ஃபேஸ்புக்கில் நாங்கள் உருவாக்கிய அமைப்பை Facebook அறிமுகப்படுத்துகிறது.

தரவு கண்டுபிடிப்பு மற்றும் வகைப்பாடு என்பது தரவுகளைக் கண்டறிந்து லேபிளிங் செய்யும் செயல்முறையாகும், இதனால் தேவையான தகவல்களை விரைவாகவும் திறமையாகவும் மீட்டெடுக்க முடியும். தற்போதைய செயல்முறை இயற்கையில் மாறாக கைமுறையாக உள்ளது மற்றும் தொடர்புடைய சட்டங்கள் அல்லது ஒழுங்குமுறைகளை ஆராய்வது, எந்த வகையான தகவல்களை உணர்திறன் கொண்டதாகக் கருத வேண்டும் மற்றும் வெவ்வேறு நிலை உணர்திறன் என்ன என்பதை தீர்மானித்தல், பின்னர் வகுப்புகள் மற்றும் வகைப்பாடு கொள்கைகளை உருவாக்குதல் [1]. தரவு இழப்பு தடுப்பு (DLP) பின்னர் தரவை கைரேகைகள் மற்றும் கைரேகைகளைப் பெற கீழ்நிலை முனைப்புள்ளிகளை கண்காணிக்கிறது. பெட்டாபைட் தரவுகளைக் கொண்ட சொத்து-கனமான கிடங்கைக் கையாளும் போது, ​​இந்த அணுகுமுறை வெறுமனே அளவிடப்படாது.

தரவு வகை அல்லது வடிவமைப்பில் கூடுதல் கட்டுப்பாடுகள் இல்லாமல், வலுவான மற்றும் நிலையற்ற பயனர் தரவை அளவிடும் தரவு வகைப்பாடு அமைப்பை உருவாக்குவதே எங்கள் குறிக்கோள். இது ஒரு துணிச்சலான குறிக்கோள், இயற்கையாகவே இது சவால்களுடன் வருகிறது. கொடுக்கப்பட்ட தரவு பதிவு ஆயிரக்கணக்கான எழுத்துக்கள் நீளமாக இருக்கலாம்.

பாதுகாப்பு மற்றும் தனியுரிமைக்கான அளவிடக்கூடிய தரவு வகைப்பாடு
படம் 1. ஆன்லைன் மற்றும் ஆஃப்லைன் முன்கணிப்பு ஓட்டங்கள்

எனவே, பின்னர் ஒன்றிணைந்து எளிதாக நகர்த்தக்கூடிய பொதுவான அம்சங்களைப் பயன்படுத்தி அதை நாம் திறமையாகப் பிரதிநிதித்துவப்படுத்த வேண்டும். இந்த அம்சங்கள் துல்லியமான வகைப்படுத்தலை வழங்குவதோடு மட்டுமல்லாமல், எதிர்காலத்தில் புதிய தரவு வகைகளைச் சேர்க்க மற்றும் கண்டறிய நெகிழ்வுத்தன்மை மற்றும் நீட்டிப்பு ஆகியவற்றை வழங்க வேண்டும். இரண்டாவதாக, நீங்கள் பெரிய ஆஃப்லைன் அட்டவணைகளை சமாளிக்க வேண்டும். நீடித்த தரவுகள் பல பெட்டாபைட் அளவுள்ள அட்டவணையில் சேமிக்கப்படும். இது மெதுவான ஸ்கேன் வேகத்தை ஏற்படுத்தலாம். மூன்றாவதாக, ஆவியாகும் தரவுகளில் கடுமையான SLA வகைப்பாட்டை நாம் கடைபிடிக்க வேண்டும். இது கணினியை மிகவும் திறமையாகவும், வேகமாகவும், துல்லியமாகவும் இருக்கும்படி கட்டாயப்படுத்துகிறது. இறுதியாக, நிகழ்நேர வகைப்பாட்டைச் செய்வதற்கும் இணையப் பயன்பாட்டு நிகழ்வுகளுக்கும் ஆவியாகும் தரவுகளுக்கான குறைந்த தாமத தரவு வகைப்பாட்டை நாங்கள் வழங்க வேண்டும்.

மேலே உள்ள சவால்களை நாங்கள் எவ்வாறு எதிர்கொண்டோம் என்பதை இந்த கட்டுரை விவரிக்கிறது மற்றும் பொதுவான அம்சங்களின் அடிப்படையில் அனைத்து வகையான, வடிவங்கள் மற்றும் ஆதாரங்களின் தரவு கூறுகளை வகைப்படுத்தும் வேகமான மற்றும் அளவிடக்கூடிய வகைப்பாடு அமைப்பை வழங்குகிறது. கணினி கட்டமைப்பை விரிவுபடுத்தி, ஆஃப்லைன் மற்றும் ஆன்லைன் தரவை விரைவாக வகைப்படுத்த தனிப்பயன் இயந்திர கற்றல் மாதிரியை உருவாக்கினோம். இந்த தாள் பின்வருமாறு ஒழுங்கமைக்கப்பட்டுள்ளது: பிரிவு 2 அமைப்பின் ஒட்டுமொத்த வடிவமைப்பை வழங்குகிறது. பகுதி 3 இயந்திர கற்றல் அமைப்பின் பகுதிகளைப் பற்றி விவாதிக்கிறது. 4 மற்றும் 5 பிரிவுகள் தொடர்புடைய வேலையைச் சிறப்பித்துக் காட்டுகின்றன மற்றும் வேலையின் எதிர்கால திசைகளை கோடிட்டுக் காட்டுகின்றன.

கட்டிடக்கலை

தொடர்ச்சியான மற்றும் பேஸ்புக் அளவிலான ஆன்லைன் தரவுகளின் சவால்களைச் சமாளிக்க, வகைப்படுத்தல் அமைப்பில் இரண்டு தனித்தனி ஸ்ட்ரீம்கள் உள்ளன, அதை நாங்கள் விரிவாக விவாதிப்போம்.

நிலையான தரவு

ஆரம்பத்தில், கணினி பேஸ்புக்கின் பல தகவல் சொத்துக்களைப் பற்றி அறிந்து கொள்ள வேண்டும். ஒவ்வொரு களஞ்சியத்திற்கும், அந்தத் தரவைக் கொண்ட தரவு மையம், அந்தத் தரவைக் கொண்ட அமைப்பு மற்றும் குறிப்பிட்ட தரவுக் களஞ்சியத்தில் அமைந்துள்ள சொத்துக்கள் போன்ற சில அடிப்படைத் தகவல்கள் சேகரிக்கப்படுகின்றன. இது ஒரு மெட்டாடேட்டா பட்டியலை உருவாக்குகிறது, இது மற்ற பொறியாளர்கள் பயன்படுத்தும் கிளையன்ட்கள் மற்றும் ஆதாரங்களை ஓவர்லோட் செய்யாமல் தரவை திறமையாக மீட்டெடுக்க கணினியை அனுமதிக்கிறது.

இந்த மெட்டாடேட்டா பட்டியல் அனைத்து ஸ்கேன் செய்யப்பட்ட சொத்துகளுக்கும் அதிகாரப்பூர்வ ஆதாரத்தை வழங்குகிறது மற்றும் பல்வேறு சொத்துகளின் நிலையை கண்காணிக்க உங்களை அனுமதிக்கிறது. இந்தத் தகவலைப் பயன்படுத்தி, கணினியிலிருந்து சேகரிக்கப்பட்ட தரவு மற்றும் உள் தகவல்களின் அடிப்படையில் திட்டமிடல் முன்னுரிமை நிறுவப்பட்டது, அதாவது சொத்து கடைசியாக வெற்றிகரமாக ஸ்கேன் செய்யப்பட்ட நேரம் மற்றும் அது உருவாக்கப்பட்ட நேரம், அத்துடன் அந்தச் சொத்துக்கான கடந்த நினைவகம் மற்றும் CPU தேவைகள் இது முன்பு ஸ்கேன் செய்யப்பட்டது. பின்னர், ஒவ்வொரு தரவு வளத்திற்கும் (ஆதாரங்கள் கிடைக்கும் போது), உண்மையில் ஆதாரத்தை ஸ்கேன் செய்ய ஒரு வேலை அழைக்கப்படுகிறது.

ஒவ்வொரு வேலையும் தொகுக்கப்பட்ட பைனரி கோப்பாகும், இது ஒவ்வொரு சொத்துக்கும் கிடைக்கும் சமீபத்திய தரவுகளில் பெர்னௌல்லி மாதிரியை செய்கிறது. சொத்து தனித்தனி நெடுவரிசைகளாகப் பிரிக்கப்படுகிறது, அங்கு ஒவ்வொரு நெடுவரிசையின் வகைப்பாடு முடிவும் தனித்தனியாக செயலாக்கப்படும். கூடுதலாக, நெடுவரிசைகளுக்குள் ஏதேனும் நிறைவுற்ற தரவை கணினி ஸ்கேன் செய்கிறது. JSON, அணிவரிசைகள், குறியிடப்பட்ட கட்டமைப்புகள், URLகள், அடிப்படை 64 வரிசைப்படுத்தப்பட்ட தரவு மற்றும் பல அனைத்தும் ஸ்கேன் செய்யப்படுகின்றன. இது ஸ்கேன் செயலாக்க நேரத்தை கணிசமாக அதிகரிக்கலாம், ஏனெனில் ஒரு அட்டவணையில் ஆயிரக்கணக்கான உள்ளமை நெடுவரிசைகள் ஒரு குமிழியில் இருக்கலாம். json.

தரவுச் சொத்தில் தேர்ந்தெடுக்கப்பட்ட ஒவ்வொரு வரிசைக்கும், வகைப்படுத்தல் அமைப்பு, உள்ளடக்கத்திலிருந்து மிதவை மற்றும் உரைப் பொருட்களைப் பிரித்தெடுத்து, ஒவ்வொரு பொருளையும் அது எடுக்கப்பட்ட நெடுவரிசையுடன் மீண்டும் இணைக்கிறது. அம்சத்தைப் பிரித்தெடுக்கும் படியின் வெளியீடு என்பது தரவுச் சொத்தில் காணப்படும் ஒவ்வொரு நெடுவரிசைக்கான அனைத்து அம்சங்களின் வரைபடமாகும்.

அறிகுறிகள் எதற்காக?

பண்புகளின் கருத்து முக்கியமானது. மிதவை மற்றும் உரைப் பண்புகளுக்குப் பதிலாக, ஒவ்வொரு தரவு வளத்திலிருந்தும் நேரடியாகப் பிரித்தெடுக்கப்படும் மூல சரம் மாதிரிகளை நாம் அனுப்பலாம். கூடுதலாக, இயந்திர கற்றல் மாதிரிகள் ஒவ்வொரு மாதிரியிலும் நேரடியாகப் பயிற்சியளிக்கப்படலாம், நூற்றுக்கணக்கான அம்சக் கணக்கீடுகளுக்குப் பதிலாக, மாதிரியை தோராயமாக மதிப்பிட முயற்சிக்கும். இதற்கு பல காரணங்கள் உள்ளன:

  1. தனியுரிமை முதலில்: மிக முக்கியமாக, அம்சங்களின் கருத்து, நாம் மீட்டெடுக்கும் வடிவங்களை மட்டுமே நினைவகத்தில் சேமிக்க அனுமதிக்கிறது. இது ஒரே நோக்கத்திற்காக மாதிரிகளை சேமித்து வைப்பதையும், எங்கள் சொந்த முயற்சியின் மூலம் அவற்றை ஒருபோதும் பதிவு செய்வதையும் உறுதி செய்கிறது. கணிப்பை வழங்குவதற்கு முன் சேவையானது சில வகைப்பாடு நிலையை பராமரிக்க வேண்டும் என்பதால், ஆவியாகும் தரவுகளுக்கு இது மிகவும் முக்கியமானது.
  2. நினைவகம்: சில மாதிரிகள் ஆயிரக்கணக்கான எழுத்துக்கள் நீளமாக இருக்கலாம். அத்தகைய தரவைச் சேமித்து, கணினியின் பகுதிகளுக்கு அனுப்புவது தேவையில்லாமல் பல கூடுதல் பைட்டுகளைப் பயன்படுத்துகிறது. ஆயிரக்கணக்கான நெடுவரிசைகளுடன் பல தரவு ஆதாரங்கள் இருப்பதால், இரண்டு காரணிகளும் காலப்போக்கில் ஒன்றிணைக்க முடியும்.
  3. அம்சம் திரட்டுதல்: அம்சங்கள் ஒவ்வொரு ஸ்கேன் முடிவுகளையும் ஒரு குறிப்பிட்ட அம்சங்களின் மூலம் தெளிவாகக் குறிப்பிடுகின்றன, அதே தரவு வளத்தின் முந்தைய ஸ்கேன்களின் முடிவுகளை வசதியான வழியில் இணைக்க கணினியை அனுமதிக்கிறது. பல ரன்களில் ஒரு தரவு ஆதாரத்திலிருந்து ஸ்கேன் முடிவுகளை ஒருங்கிணைக்க இது பயனுள்ளதாக இருக்கும்.

ஒவ்வொரு நெடுவரிசையின் தரவு லேபிள்களையும் கணிக்க விதி அடிப்படையிலான வகைப்பாடு மற்றும் இயந்திர கற்றலைப் பயன்படுத்தும் முன்கணிப்பு சேவைக்கு அம்சங்கள் அனுப்பப்படும். இந்த சேவையானது விதி வகைப்படுத்திகள் மற்றும் இயந்திர கற்றல் ஆகிய இரண்டையும் சார்ந்துள்ளது மற்றும் ஒவ்வொரு கணிப்பு பொருளிலிருந்தும் கொடுக்கப்பட்ட சிறந்த கணிப்பைத் தேர்ந்தெடுக்கிறது.

விதி வகைப்படுத்திகள் கைமுறையான ஹூரிஸ்டிக்ஸ் ஆகும், அவை 0 முதல் 100 வரையிலான ஒரு பொருளை இயல்பாக்குவதற்கு கணக்கீடுகள் மற்றும் குணகங்களைப் பயன்படுத்துகின்றன. ஒவ்வொரு தரவு வகை மற்றும் அந்தத் தரவுடன் தொடர்புடைய நெடுவரிசைப் பெயருக்கும் அத்தகைய ஆரம்ப மதிப்பெண் உருவாக்கப்பட்டால், அது எந்த "தடையிலும் சேர்க்கப்படாது. பட்டியல்கள்" ,விதி வகைப்படுத்தி ,எல்லா தரவு வகைகளிலும் அதிக இயல்பாக்கப்பட்ட மதிப்பெண்ணைத் தேர்ந்தெடுக்கிறது.

வகைப்பாட்டின் சிக்கலான தன்மையின் காரணமாக, கைமுறை ஹியூரிஸ்டிக்ஸை மட்டுமே நம்பியிருப்பது குறைந்த வகைப்பாடு துல்லியத்தை ஏற்படுத்துகிறது, குறிப்பாக கட்டமைக்கப்படாத தரவுகளுக்கு. இந்த காரணத்திற்காக, பயனர் உள்ளடக்கம் மற்றும் முகவரி போன்ற கட்டமைக்கப்படாத தரவின் வகைப்பாட்டுடன் பணிபுரிய ஒரு இயந்திர கற்றல் அமைப்பை நாங்கள் உருவாக்கினோம். இயந்திரக் கற்றல் கையேடு ஹியூரிஸ்டிக்ஸிலிருந்து விலகி, கூடுதல் தரவு சமிக்ஞைகளைப் பயன்படுத்துவதை சாத்தியமாக்கியுள்ளது (எ.கா. நெடுவரிசைப் பெயர்கள், தரவு ஆதாரம்), கண்டறிதல் துல்லியத்தை கணிசமாக மேம்படுத்துகிறது. எங்கள் இயந்திர கற்றல் கட்டமைப்பில் பின்னர் ஆழமாக மூழ்குவோம்.

கணிப்பு சேவையானது ஒவ்வொரு நெடுவரிசைக்கான முடிவுகளை ஸ்கேன் செய்யும் நேரம் மற்றும் நிலை தொடர்பான மெட்டாடேட்டாவுடன் சேமிக்கிறது. இந்தத் தரவைச் சார்ந்துள்ள எந்தவொரு நுகர்வோர் மற்றும் கீழ்நிலை செயல்முறைகள் தினசரி வெளியிடப்பட்ட தரவுத்தொகுப்பிலிருந்து அதைப் படிக்கலாம். இந்தத் தொகுப்பு இந்த ஸ்கேன் வேலைகள் அல்லது நிகழ்நேர தரவு பட்டியல் APIகளின் முடிவுகளை ஒருங்கிணைக்கிறது. வெளியிடப்பட்ட கணிப்புகள் தனியுரிமை மற்றும் பாதுகாப்புக் கொள்கைகளை தானாக செயல்படுத்துவதற்கான அடித்தளமாகும்.

இறுதியாக, முன்னறிவிப்பு சேவையானது அனைத்து தரவையும் எழுதி, அனைத்து முன்னறிவிப்புகளும் சேமிக்கப்பட்ட பிறகு, எங்கள் தரவு பட்டியல் API நிகழ்நேரத்தில் ஆதாரத்திற்கான அனைத்து தரவு வகை முன்னறிவிப்புகளையும் வழங்க முடியும். ஒவ்வொரு நாளும் ஒவ்வொரு சொத்துக்கான அனைத்து சமீபத்திய முன்னறிவிப்புகளையும் கொண்ட தரவுத்தொகுப்பை கணினி வெளியிடுகிறது.

நிலையற்ற தரவு

மேலே உள்ள செயல்முறை நிலையான சொத்துக்களுக்காக வடிவமைக்கப்பட்டிருந்தாலும், நிலையான போக்குவரத்தும் ஒரு நிறுவனத்தின் தரவின் ஒரு பகுதியாகக் கருதப்படுகிறது மற்றும் முக்கியமானதாக இருக்கலாம். இந்த காரணத்திற்காக, எந்தவொரு இடைப்பட்ட போக்குவரத்திற்கும் நிகழ்நேர வகைப்பாடு கணிப்புகளை உருவாக்குவதற்கான ஆன்லைன் API ஐ கணினி வழங்குகிறது. நிகழ்நேர முன்கணிப்பு அமைப்பு வெளிச்செல்லும் போக்குவரத்து, உள்வரும் போக்குவரத்தை இயந்திர கற்றல் மாதிரிகள் மற்றும் விளம்பரதாரர் தரவுகளாக வகைப்படுத்துவதில் பரவலாகப் பயன்படுத்தப்படுகிறது.

இங்கே API இரண்டு முக்கிய வாதங்களை எடுத்துக்கொள்கிறது: குழுவாக்கும் விசை மற்றும் கணிக்கப்பட வேண்டிய மூல தரவு. சேவையானது மேலே விவரிக்கப்பட்டுள்ள அதே பொருளை மீட்டெடுப்பதைச் செய்கிறது மற்றும் ஒரே விசைக்காக பொருட்களை ஒன்றாகக் குழுவாக்குகிறது. இந்த அம்சங்கள் தோல்வியை மீட்டெடுப்பதற்கான நிரந்தர தற்காலிக சேமிப்பிலும் ஆதரிக்கப்படுகின்றன. ஒவ்வொரு குழுவிசை விசைக்கும், மேலே விவரிக்கப்பட்ட செயல்முறையைப் பின்பற்றி, முன்கணிப்பு சேவையை அழைப்பதற்கு முன் போதுமான மாதிரிகளைப் பார்த்திருப்பதைச் சேவை உறுதி செய்கிறது.

தேர்வுமுறை

சில ஸ்டோரேஜ்களை ஸ்கேன் செய்ய, ஹாட் ஸ்டோரேஜ் [2] மூலம் வாசிப்பை மேம்படுத்த நூலகங்கள் மற்றும் நுட்பங்களைப் பயன்படுத்துகிறோம்.

மிகப் பெரிய டேபிள்களுக்கு (50+ பெட்டாபைட்டுகள்), அனைத்து மேம்படுத்தல்கள் மற்றும் நினைவக திறன் இருந்தபோதிலும், கணினி நினைவகம் தீர்ந்துவிடும் முன் அனைத்தையும் ஸ்கேன் செய்து கணக்கிடுகிறது. எல்லாவற்றிற்கும் மேலாக, ஸ்கேன் முழுவதுமாக நினைவகத்தில் கணக்கிடப்படுகிறது மற்றும் ஸ்கேன் செய்யும் போது சேமிக்கப்படாது. பெரிய அட்டவணைகள் கட்டமைக்கப்படாத தரவுக் கொத்துக்களைக் கொண்ட ஆயிரக்கணக்கான நெடுவரிசைகளைக் கொண்டிருந்தால், முழு அட்டவணையிலும் கணிப்புகளைச் செய்யும்போது போதுமான நினைவக வளங்கள் இல்லாததால் வேலை தோல்வியடையக்கூடும். இதனால் கவரேஜ் குறையும். இதை எதிர்த்துப் போராட, தற்போதைய பணிச்சுமையை கணினி எவ்வளவு சிறப்பாகக் கையாளுகிறது என்பதற்கான ப்ராக்ஸியாக ஸ்கேன் வேகத்தைப் பயன்படுத்த கணினியை மேம்படுத்தினோம். நினைவகச் சிக்கல்களைக் காணவும் அம்ச வரைபடத்தைக் கணிக்கவும் வேகத்தை ஒரு முன்கணிப்பு பொறிமுறையாகப் பயன்படுத்துகிறோம். அதே நேரத்தில், வழக்கத்தை விட குறைவான டேட்டாவைப் பயன்படுத்துகிறோம்.

தரவு சமிக்ஞைகள்

ஒரு வகைப்பாடு அமைப்பு தரவிலிருந்து வரும் சிக்னல்களைப் போலவே சிறந்தது. வகைப்பாடு அமைப்பால் பயன்படுத்தப்படும் அனைத்து சமிக்ஞைகளையும் இங்கே பார்ப்போம்.

  • உள்ளடக்கம் அடிப்படையில்: நிச்சயமாக, முதல் மற்றும் மிக முக்கியமான சமிக்ஞை உள்ளடக்கம். தரவு உள்ளடக்கத்தின் அடிப்படையில் அம்சங்களை ஸ்கேன் செய்து பிரித்தெடுக்கும் ஒவ்வொரு தரவுச் சொத்தின் மீதும் பெர்னௌல்லி மாதிரி எடுக்கப்படுகிறது. உள்ளடக்கத்திலிருந்து பல அறிகுறிகள் வருகின்றன. எத்தனை மிதக்கும் பொருள்கள் சாத்தியமாகும், இது ஒரு குறிப்பிட்ட மாதிரி வகை எத்தனை முறை பார்க்கப்பட்டது என்பதைக் கணக்கிடுகிறது. எடுத்துக்காட்டாக, ஒரு மாதிரியில் காணப்பட்ட மின்னஞ்சல்களின் எண்ணிக்கையின் அடையாளங்கள் அல்லது ஒரு மாதிரியில் எத்தனை எமோஜிகள் காணப்படுகின்றன என்பதற்கான அறிகுறிகள் எங்களிடம் இருக்கலாம். இந்த அம்சக் கணக்கீடுகளை வெவ்வேறு ஸ்கேன்களில் இயல்பாக்கலாம் மற்றும் ஒருங்கிணைக்கலாம்.
  • தரவு ஆதாரம்: பெற்றோர் அட்டவணையில் இருந்து உள்ளடக்கம் மாறும்போது உதவும் முக்கியமான சமிக்ஞை. ஒரு பொதுவான உதாரணம் ஹாஷ் தரவு. குழந்தை அட்டவணையில் உள்ள தரவு ஹாஷ் செய்யப்பட்டால், அது பெரும்பாலும் பெற்றோர் அட்டவணையில் இருந்து வருகிறது, அங்கு அது தெளிவாக இருக்கும். பரம்பரைத் தரவு, குறிப்பிட்ட வகைத் தரவைத் தெளிவாகப் படிக்காதபோது அல்லது அப்ஸ்ட்ரீம் அட்டவணையில் இருந்து மாற்றும்போது வகைப்படுத்த உதவுகிறது.
  • சிறுகுறிப்புகள்: கட்டமைக்கப்படாத தரவை அடையாளம் காண உதவும் மற்றொரு உயர்தர சமிக்ஞை. உண்மையில், வெவ்வேறு தரவு சொத்துக்களில் பண்புகளை பரப்புவதற்கு சிறுகுறிப்புகள் மற்றும் ஆதாரத் தரவு ஒன்றாகச் செயல்பட முடியும். சிறுகுறிப்புகள் கட்டமைக்கப்படாத தரவின் மூலத்தைக் கண்டறிய உதவுகின்றன, அதே சமயம் பரம்பரைத் தரவு களஞ்சியம் முழுவதும் அந்தத் தரவின் ஓட்டத்தைக் கண்காணிக்க உதவும்.
  • தரவு உட்செலுத்துதல் என்பது அறியப்பட்ட தரவு வகைகளின் அறியப்பட்ட மூலங்களில் சிறப்பு, படிக்க முடியாத எழுத்துக்கள் வேண்டுமென்றே அறிமுகப்படுத்தப்படும் ஒரு நுட்பமாகும். பின்னர், படிக்க முடியாத அதே எழுத்து வரிசையுடன் உள்ளடக்கத்தை ஸ்கேன் செய்யும் போதெல்லாம், அந்த அறியப்பட்ட தரவு வகையிலிருந்து உள்ளடக்கம் வருகிறது என்பதை ஊகிக்க முடியும். இது சிறுகுறிப்புகளைப் போன்ற மற்றொரு தரமான தரவு சமிக்ஞையாகும். உள்ளடக்க அடிப்படையிலான கண்டறிதல் உள்ளிட்ட தரவைக் கண்டறிய உதவுகிறது.

அளவீட்டு அளவீடுகள்

ஒரு முக்கியமான கூறு அளவீடுகளை அளவிடுவதற்கான கடுமையான முறை ஆகும். வகைப்பாடு மேம்பாடு மறு செய்கைக்கான முக்கிய அளவீடுகள் ஒவ்வொரு லேபிளின் துல்லியம் மற்றும் நினைவுபடுத்துதல் ஆகும், F2 மதிப்பெண் மிக முக்கியமானது.

இந்த அளவீடுகளைக் கணக்கிட, தரவு சொத்துக்களை லேபிளிங் செய்வதற்கான ஒரு சுயாதீனமான முறை தேவைப்படுகிறது, அது அமைப்பிலிருந்து சுயாதீனமாக உள்ளது, ஆனால் அதனுடன் நேரடியாக ஒப்பிடுவதற்குப் பயன்படுத்தலாம். Facebook இலிருந்து அடிப்படை உண்மையை எவ்வாறு சேகரித்து அதை எங்கள் வகைப்பாடு முறையைப் பயிற்றுவிக்கப் பயன்படுத்துகிறோம் என்பதை கீழே விவரிக்கிறோம்.

நம்பகமான தரவு சேகரிப்பு

கீழே பட்டியலிடப்பட்டுள்ள ஒவ்வொரு மூலத்திலிருந்தும் நம்பகமான தரவை அதன் சொந்த அட்டவணையில் சேகரிக்கிறோம். ஒவ்வொரு அட்டவணையும் குறிப்பிட்ட மூலத்திலிருந்து சமீபத்திய கவனிக்கப்பட்ட மதிப்புகளைத் திரட்டுவதற்கு பொறுப்பாகும். ஒவ்வொரு மூலத்திற்கும் கவனிக்கப்பட்ட மதிப்புகள் உயர் தரம் மற்றும் சமீபத்திய தரவு வகை லேபிள்களைக் கொண்டிருப்பதை உறுதிசெய்ய ஒவ்வொரு மூலமும் தரவுத் தரச் சோதனைகளைக் கொண்டுள்ளது.

  • லாக்கிங் பிளாட்ஃபார்ம் உள்ளமைவுகள்: ஹைவ் டேபிள்களில் உள்ள சில புலங்கள் குறிப்பிட்ட வகையைச் சேர்ந்த தரவுகளால் நிரப்பப்படுகின்றன. இந்தத் தரவின் பயன்பாடு மற்றும் பரப்புதல் உண்மையின் நம்பகமான ஆதாரமாக செயல்படுகிறது.
  • கைமுறை லேபிளிங்: கணினியை பராமரிக்கும் டெவலப்பர்கள் மற்றும் வெளிப்புற லேபிலர்கள் நெடுவரிசைகளை லேபிளிட பயிற்சியளிக்கப்படுகிறார்கள். இது பொதுவாக கிடங்கில் உள்ள அனைத்து வகையான தரவுகளுக்கும் நன்றாக வேலை செய்யும், மேலும் செய்தி தரவு அல்லது பயனர் உள்ளடக்கம் போன்ற சில கட்டமைக்கப்படாத தரவுகளுக்கான உண்மையின் முதன்மை ஆதாரமாக இருக்கலாம்.
  • பெற்றோர் அட்டவணையில் இருந்து நெடுவரிசைகள் குறிப்பிட்ட தரவுகளைக் கொண்டிருப்பதாகக் குறிக்கலாம் அல்லது சிறுகுறிப்பு செய்யலாம், மேலும் குழந்தைகளின் அட்டவணையில் அந்தத் தரவைக் கண்காணிக்கலாம்.
  • எக்ஸிகியூஷன் த்ரெட்களைப் பெறுதல்: ஃபேஸ்புக்கில் செயல்படுத்தும் இழைகள் குறிப்பிட்ட வகையான தரவுகளைக் கொண்டு செல்கின்றன. எங்கள் ஸ்கேனரை ஒரு சேவை கட்டமைப்பாகப் பயன்படுத்தி, அறியப்பட்ட தரவு வகைகளைக் கொண்ட ஸ்ட்ரீம்களை மாதிரியாகக் கொண்டு அவற்றை கணினி மூலம் அனுப்பலாம். இந்தத் தரவைச் சேமிப்பதில்லை என்று கணினி உறுதியளிக்கிறது.
  • மாதிரி அட்டவணைகள்: பெரிய ஹைவ் டேபிள்கள், முழு தரவு கார்பஸைக் கொண்டிருப்பதாக அறியப்படுகிறது, பயிற்சித் தரவாகவும் பயன்படுத்தப்படலாம் மற்றும் ஸ்கேனர் வழியாக சேவையாக அனுப்பப்படும். முழு அளவிலான தரவு வகைகளைக் கொண்ட அட்டவணைகளுக்கு இது சிறந்தது, எனவே ஒரு நெடுவரிசையை சீரற்ற முறையில் மாதிரி செய்வது, அந்த தரவு வகையின் முழு தொகுப்பையும் மாதிரியாக்குவதற்குச் சமம்.
  • செயற்கை தரவு: பறக்கும்போது தரவை உருவாக்கும் நூலகங்களையும் நாம் பயன்படுத்தலாம். முகவரி அல்லது ஜிபிஎஸ் போன்ற எளிய, பொது தரவு வகைகளுக்கு இது நன்றாக வேலை செய்கிறது.
  • தரவுப் பணிப்பெண்கள்: தனியுரிமை திட்டங்கள் பொதுவாக தரவுத் துண்டுகளுக்குக் கொள்கைகளை கைமுறையாக ஒதுக்க தரவுப் பணிப்பெண்களைப் பயன்படுத்துகின்றன. இது உண்மையின் மிகவும் துல்லியமான ஆதாரமாக செயல்படுகிறது.

உண்மையின் ஒவ்வொரு முக்கிய மூலத்தையும் அந்தத் தரவுகள் அனைத்திலும் ஒரு கார்பஸாக இணைக்கிறோம். செல்லுபடியாகும் மிகப்பெரிய சவால், இது தரவுக் களஞ்சியத்தின் பிரதிநிதி என்பதை உறுதி செய்வதாகும். இல்லையெனில், வகைப்பாடு இயந்திரங்கள் மிகைப்படுத்தலாம். இதை எதிர்த்துப் போராட, மேலே உள்ள அனைத்து ஆதாரங்களும் பயிற்சி மாதிரிகள் அல்லது அளவீடுகளைக் கணக்கிடும் போது சமநிலையை உறுதிப்படுத்த பயன்படுத்தப்படுகின்றன. கூடுதலாக, மனித லேபிளர்கள் களஞ்சியத்தில் வெவ்வேறு நெடுவரிசைகளை ஒரே மாதிரியாக மாதிரி செய்து, அதற்கேற்ப தரவை லேபிளிடுகிறார்கள், இதனால் நில உண்மையின் சேகரிப்பு பக்கச்சார்பற்றதாக இருக்கும்.

தொடர்ச்சியான ஒருங்கிணைப்பு

விரைவான மறு செய்கை மற்றும் மேம்பாட்டை உறுதிப்படுத்த, எப்போதும் உண்மையான நேரத்தில் கணினி செயல்திறனை அளவிடுவது முக்கியம். கணினிக்கு எதிராக ஒவ்வொரு வகைப்பாடு மேம்பாட்டையும் இன்று நாம் அளவிட முடியும், எனவே தரவுகளின் அடிப்படையில் எதிர்கால மேம்பாடுகளை தந்திரமாக வழிநடத்த முடியும். சரியான தரவு மூலம் வழங்கப்பட்ட பின்னூட்ட வளையத்தை கணினி எவ்வாறு நிறைவு செய்கிறது என்பதை இங்கே பார்க்கலாம்.

நம்பகமான மூலத்திலிருந்து லேபிளைக் கொண்ட ஒரு சொத்தை திட்டமிடல் அமைப்பு சந்திக்கும் போது, ​​நாங்கள் இரண்டு பணிகளைத் திட்டமிடுகிறோம். முதலில் எங்கள் தயாரிப்பு ஸ்கேனரைப் பயன்படுத்துகிறது, இதனால் எங்கள் உற்பத்தி திறன்கள். இரண்டாவது பணியானது சமீபத்திய அம்சங்களைக் கொண்ட சமீபத்திய உருவாக்க ஸ்கேனரைப் பயன்படுத்துகிறது. ஒவ்வொரு பணியும் அதன் வெளியீட்டை அதன் சொந்த அட்டவணையில் எழுதுகிறது, வகைப்பாடு முடிவுகளுடன் பதிப்புகளைக் குறியிடுகிறது.

வெளியீட்டு வேட்பாளர் மற்றும் தயாரிப்பு மாதிரியின் வகைப்பாடு முடிவுகளை உண்மையான நேரத்தில் ஒப்பிடுவது இதுதான்.

தரவுத்தொகுப்புகள் RC மற்றும் PROD அம்சங்களை ஒப்பிடும் போது, ​​கணிப்பு சேவையின் ML வகைப்பாடு இயந்திரத்தின் பல மாறுபாடுகள் பதிவு செய்யப்பட்டுள்ளன. மிக சமீபத்தில் கட்டமைக்கப்பட்ட இயந்திர கற்றல் மாதிரி, உற்பத்தியில் தற்போதைய மாதிரி மற்றும் ஏதேனும் சோதனை மாதிரிகள். அதே அணுகுமுறை மாதிரியின் வெவ்வேறு பதிப்புகளை "துண்டு" (எங்கள் விதி வகைப்படுத்திகளுக்கு அஞ்ஞானமானது) மற்றும் உண்மையான நேரத்தில் அளவீடுகளை ஒப்பிட அனுமதிக்கிறது. ML பரிசோதனை எப்போது உற்பத்திக்கு தயாராக உள்ளது என்பதை இது எளிதாகத் தீர்மானிக்கிறது.

ஒவ்வொரு இரவும், அந்த நாளுக்காக கணக்கிடப்பட்ட RC அம்சங்கள் ML பயிற்சி பைப்லைனுக்கு அனுப்பப்படுகின்றன, அங்கு மாடல் சமீபத்திய RC அம்சங்களில் பயிற்சியளிக்கப்படுகிறது மற்றும் அதன் செயல்திறனை நில உண்மை தரவுத்தொகுப்பிற்கு எதிராக மதிப்பிடுகிறது.

ஒவ்வொரு காலையிலும், மாடல் பயிற்சியை முடித்து தானாகவே ஒரு சோதனை மாதிரியாக வெளியிடப்படும். இது தானாகவே பரிசோதனை பட்டியலில் சேர்க்கப்படும்.

சில முடிவுகள்

100 க்கும் மேற்பட்ட வெவ்வேறு வகையான தரவுகள் அதிக துல்லியத்துடன் லேபிளிடப்பட்டுள்ளன. மின்னஞ்சல்கள் மற்றும் தொலைபேசி எண்கள் போன்ற நன்கு கட்டமைக்கப்பட்ட வகைகள் 2 க்கும் அதிகமான f0,95 மதிப்பெண்ணுடன் வகைப்படுத்தப்படுகின்றன. பயனர் உருவாக்கிய உள்ளடக்கம் மற்றும் பெயர் போன்ற இலவச தரவு வகைகளும் சிறப்பாக செயல்படுகின்றன, F2 மதிப்பெண்கள் 0,85 ஐ விட அதிகமாக உள்ளது.

நிலையான மற்றும் நிலையற்ற தரவுகளின் அதிக எண்ணிக்கையிலான தனிப்பட்ட நெடுவரிசைகள் அனைத்து களஞ்சியங்களிலும் தினசரி வகைப்படுத்தப்படுகின்றன. 500க்கும் மேற்பட்ட தரவுக் கிடங்குகளில் தினமும் 10க்கும் மேற்பட்ட டெராபைட்டுகள் ஸ்கேன் செய்யப்படுகின்றன. இந்த களஞ்சியங்களில் பெரும்பாலானவை 98% க்கும் அதிகமான கவரேஜ் கொண்டவை.

காலப்போக்கில், வகைப்படுத்தல் மிகவும் திறமையானது, நிலையான ஆஃப்லைன் ஸ்ட்ரீமில் வகைப்படுத்தல் வேலைகள் ஒரு சொத்தை ஸ்கேன் செய்வதிலிருந்து ஒவ்வொரு நெடுவரிசைக்கும் கணிப்புகளைக் கணக்கிடுவதற்கு சராசரியாக 35 வினாடிகள் ஆகும்.

பாதுகாப்பு மற்றும் தனியுரிமைக்கான அளவிடக்கூடிய தரவு வகைப்பாடு
அரிசி. 2. RC பொருள்கள் எவ்வாறு உருவாக்கப்பட்டு மாதிரிக்கு அனுப்பப்படுகின்றன என்பதைப் புரிந்துகொள்ள தொடர்ச்சியான ஒருங்கிணைப்பு ஓட்டத்தை விவரிக்கும் வரைபடம்.

பாதுகாப்பு மற்றும் தனியுரிமைக்கான அளவிடக்கூடிய தரவு வகைப்பாடு
படம் 3. இயந்திர கற்றல் கூறுகளின் உயர்நிலை வரைபடம்.

இயந்திர கற்றல் அமைப்பு கூறு

முந்தைய பிரிவில், ஒட்டுமொத்த சிஸ்டம் ஆர்க்கிடெக்சர், ஹைலைட் செய்யும் அளவு, தேர்வுமுறை மற்றும் ஆஃப்லைன் மற்றும் ஆன்லைன் தரவுப் பாய்வுகளை ஆழமாகப் பார்த்தோம். இந்த பிரிவில், முன்கணிப்பு சேவையைப் பார்ப்போம் மற்றும் முன்கணிப்பு சேவையை இயக்கும் இயந்திர கற்றல் அமைப்பை விவரிப்போம்.

100 க்கும் மேற்பட்ட தரவு வகைகள் மற்றும் மெசேஜ் டேட்டா மற்றும் பயனர் உள்ளடக்கம் போன்ற சில கட்டமைக்கப்படாத உள்ளடக்கத்துடன், முற்றிலும் கைமுறையான ஹியூரிஸ்டிக்ஸைப் பயன்படுத்தி துணை அளவுரு வகைப்பாடு துல்லியம் ஏற்படுகிறது, குறிப்பாக கட்டமைக்கப்படாத தரவுகளுக்கு. இந்த காரணத்திற்காக, கட்டமைக்கப்படாத தரவுகளின் சிக்கல்களைச் சமாளிக்க இயந்திர கற்றல் அமைப்பையும் நாங்கள் உருவாக்கியுள்ளோம். மெஷின் லேர்னிங்கைப் பயன்படுத்துவது, கையேடு ஹியூரிஸ்டிக்ஸிலிருந்து விலகி, துல்லியத்தை மேம்படுத்த அம்சங்கள் மற்றும் கூடுதல் தரவு சமிக்ஞைகளுடன் (உதாரணமாக, நெடுவரிசைப் பெயர்கள், தரவு தோற்றம்) வேலை செய்ய உங்களை அனுமதிக்கிறது.

செயல்படுத்தப்பட்ட மாதிரியானது வெக்டார் பிரதிநிதித்துவங்களை [3] அடர்த்தியான மற்றும் அரிதான பொருட்களின் மீது தனித்தனியாக ஆய்வு செய்கிறது. இவை பின்னர் ஒரு திசையனை உருவாக்குவதற்கு ஒருங்கிணைக்கப்படுகின்றன, இது தொடர்ச்சியான தொகுதி இயல்பாக்கம் [4] மற்றும் இறுதி முடிவை உருவாக்க நேரியல் அல்லாத படிகள் வழியாக செல்கிறது. இறுதி முடிவு ஒவ்வொரு லேபிளுக்கும் [0-1] இடையே ஒரு மிதக்கும் புள்ளி எண்ணாகும், இது அந்த உணர்திறன் வகையைச் சேர்ந்தது என்பதற்கான நிகழ்தகவைக் குறிக்கிறது. மாதிரிக்கு PyTorch ஐப் பயன்படுத்துவதால், விரைவாகச் செல்ல எங்களை அனுமதித்தது, அணிக்கு வெளியே உள்ள டெவலப்பர்கள் விரைவாக மாற்றங்களைச் செய்து சோதிக்க அனுமதிக்கிறது.

கட்டிடக்கலையை வடிவமைக்கும் போது, ​​அவற்றின் உள்ளார்ந்த வேறுபாடுகள் காரணமாக, அரிதான (எ.கா. உரை) மற்றும் அடர்த்தியான (எ.கா. எண்) பொருட்களை தனித்தனியாக மாதிரி செய்வது முக்கியம். இறுதிக் கட்டமைப்பிற்கு, கற்றல் வீதம், தொகுதி அளவு மற்றும் பிற உயர் அளவுகோல்களுக்கான உகந்த மதிப்பைக் கண்டறிய ஒரு அளவுரு ஸ்வீப்பைச் செய்வதும் முக்கியமானது. ஆப்டிமைசரின் தேர்வும் ஒரு முக்கியமான ஹைப்பர் பாராமீட்டராக இருந்தது. பிரபலமான ஆப்டிமைசரைக் கண்டறிந்தோம் ஆடம்பெரும்பாலும் மிகைப்படுத்தலுக்கு வழிவகுக்கிறது, அதேசமயம் ஒரு மாதிரி SGD மேலும் நிலையானது. மாதிரியில் நேரடியாகச் சேர்க்க வேண்டிய கூடுதல் நுணுக்கங்கள் இருந்தன. எடுத்துக்காட்டாக, ஒரு அம்சம் ஒரு குறிப்பிட்ட மதிப்பைக் கொண்டிருக்கும்போது, ​​மாதிரியானது ஒரு உறுதியான கணிப்பைச் செய்கிறது என்பதை உறுதிப்படுத்தும் நிலையான விதிகள். இந்த நிலையான விதிகள் எங்கள் வாடிக்கையாளர்களால் வரையறுக்கப்படுகின்றன. இந்த சிறப்பு விளிம்பு நிகழ்வுகளைக் கையாளுவதற்கு பிந்தைய செயலாக்க படியை செயல்படுத்துவதற்கு மாறாக, அவற்றை நேரடியாக மாதிரியில் இணைப்பதன் மூலம் மிகவும் சுய-கட்டுமான மற்றும் வலுவான கட்டமைப்பை நாங்கள் கண்டறிந்தோம். சாய்வு வம்சாவளி பயிற்சி செயல்முறைக்கு இடையூறு ஏற்படாத வகையில் பயிற்சியின் போது இந்த விதிகள் முடக்கப்பட்டுள்ளன என்பதையும் கவனத்தில் கொள்ளவும்.

பிரச்சினைகள்

சவால்களில் ஒன்று உயர்தர, நம்பகமான தரவைச் சேகரிப்பது. ஒவ்வொரு வகுப்பிற்கும் மாதிரிக்கு நம்பிக்கை தேவை, அதனால் அது பொருள்கள் மற்றும் லேபிள்களுக்கு இடையே உள்ள தொடர்பைக் கற்றுக்கொள்ள முடியும். முந்தைய பிரிவில், கணினி அளவீடு மற்றும் மாதிரி பயிற்சி ஆகிய இரண்டிற்கும் தரவு சேகரிப்பு முறைகளைப் பற்றி விவாதித்தோம். கிரெடிட் கார்டு மற்றும் வங்கி கணக்கு எண்கள் போன்ற தரவு வகுப்புகள் எங்கள் கிடங்கில் மிகவும் பொதுவானவை அல்ல என்பதை பகுப்பாய்வு காட்டுகிறது. இது மாடல்களைப் பயிற்றுவிப்பதற்காக பெரிய அளவிலான நம்பகமான தரவைச் சேகரிப்பதை கடினமாக்குகிறது. இந்தச் சிக்கலைத் தீர்க்க, இந்த வகுப்புகளுக்கான செயற்கை அடிப்படை உண்மைத் தரவைப் பெறுவதற்கான செயல்முறைகளை நாங்கள் உருவாக்கியுள்ளோம். உள்ளிட்ட முக்கிய வகைகளுக்காக நாங்கள் அத்தகைய தரவை உருவாக்குகிறோம் எஸ்எஸ்என்களுக்கும், கடன் அட்டை எண்கள் и IBAN இல்மாதிரியால் முன்னரே கணிக்க முடியாத எண்கள். இந்த அணுகுமுறை, உண்மையான முக்கியத் தரவை மறைப்பதில் தொடர்புடைய தனியுரிமை அபாயங்கள் இல்லாமல் முக்கியமான தரவு வகைகளைச் செயலாக்க அனுமதிக்கிறது.

அடிப்படை உண்மை சிக்கல்களைத் தவிர, திறந்த கட்டடக்கலை சிக்கல்கள் உள்ளன தனிமைப்படுத்தலை மாற்றவும் и ஆரம்ப நிறுத்தம். நெட்வொர்க்கின் வெவ்வேறு பகுதிகளுக்கு வெவ்வேறு மாற்றங்கள் செய்யப்படும்போது, ​​குறிப்பிட்ட வகுப்புகளுக்கு பாதிப்பு தனிமைப்படுத்தப்பட்டு ஒட்டுமொத்த முன்கணிப்பு செயல்திறனில் பரந்த தாக்கத்தை ஏற்படுத்தாது என்பதை உறுதிப்படுத்த, தனிமைப்படுத்தலை மாற்றுவது முக்கியம். முன்கூட்டியே நிறுத்தும் அளவுகோல்களை மேம்படுத்துவது மிகவும் முக்கியமானதாகும், இதனால் சில வகுப்புகள் மிகைப்படுத்தப்பட்டு மற்றவை செய்யாத நிலையில் இல்லாமல், அனைத்து வகுப்புகளுக்கும் நிலையான இடத்தில் பயிற்சி செயல்முறையை நிறுத்த முடியும்.

அம்சம் முக்கியத்துவம்

ஒரு மாடலில் ஒரு புதிய அம்சம் அறிமுகப்படுத்தப்படும்போது, ​​மாடலில் அதன் ஒட்டுமொத்த தாக்கத்தை அறிய விரும்புகிறோம். கணிப்புகள் மனிதர்களால் புரிந்துகொள்ளக்கூடியவை என்பதை நாங்கள் உறுதிப்படுத்த விரும்புகிறோம், இதன் மூலம் ஒவ்வொரு வகையான தரவுகளுக்கும் என்ன அம்சங்கள் பயன்படுத்தப்படுகின்றன என்பதை நாம் சரியாகப் புரிந்துகொள்ள முடியும். இந்த நோக்கத்திற்காக நாங்கள் உருவாக்கி அறிமுகப்படுத்தியுள்ளோம் வகுப்பு மூலம் PyTorch மாடலுக்கான அம்சங்களின் முக்கியத்துவம். இது பொதுவாக ஆதரிக்கப்படும் ஒட்டுமொத்த அம்ச முக்கியத்துவத்திலிருந்து வேறுபட்டது என்பதை நினைவில் கொள்ளவும், ஏனெனில் குறிப்பிட்ட வகுப்பிற்கு எந்த அம்சங்கள் முக்கியமானவை என்பதை இது எங்களிடம் கூறவில்லை. பொருளை மறுசீரமைத்த பிறகு கணிப்புப் பிழையின் அதிகரிப்பைக் கணக்கிடுவதன் மூலம் ஒரு பொருளின் முக்கியத்துவத்தை அளவிடுகிறோம். மதிப்புகளை மாற்றுவது மாதிரியின் பிழையை அதிகரிக்கும் போது ஒரு அம்சம் "முக்கியமானது", ஏனெனில் இந்த விஷயத்தில் மாடல் அதன் கணிப்பைச் செய்ய அம்சத்தை நம்பியிருந்தது. ஒரு அம்சம் "முக்கியமற்றது" அதன் மதிப்புகளை மாற்றும்போது மாதிரி பிழை மாறாமல் இருக்கும், ஏனெனில் இந்த விஷயத்தில் மாடல் அதை புறக்கணித்தது [5].

ஒவ்வொரு வகுப்பிற்கும் உள்ள அம்சத்தின் முக்கியத்துவம், மாதிரியை விளக்கக்கூடியதாக மாற்ற அனுமதிக்கிறது, இதன் மூலம் ஒரு லேபிளைக் கணிக்கும்போது மாதிரி என்ன பார்க்கிறது என்பதைப் பார்க்கலாம். உதாரணமாக, நாம் பகுப்பாய்வு செய்யும் போது ADDR, பின் முகவரியுடன் தொடர்புடைய அடையாளம் போன்றவற்றை நாங்கள் உத்தரவாதம் செய்கிறோம் முகவரி வரிகள் எண்ணிக்கை, ஒவ்வொரு வகுப்பிற்கும் அம்ச முக்கியத்துவ அட்டவணையில் உயர்ந்த இடத்தில் உள்ளது, இதனால் நமது மனித உள்ளுணர்வு மாதிரி கற்றுக்கொண்டவற்றுடன் நன்றாகப் பொருந்துகிறது.

மதிப்பீடு

வெற்றிக்கான ஒற்றை மெட்ரிக்கை வரையறுப்பது முக்கியம். நாங்கள் தேர்ந்தெடுத்தோம் F2 - ரீகால் மற்றும் துல்லியம் இடையே சமநிலை (நினைவூட்டல் சார்பு சற்று பெரியது). தனியுரிமைப் பயன்பாட்டு விஷயத்தில் துல்லியத்தை விட மீட்டெடுப்பது மிகவும் முக்கியமானது, ஏனெனில் குழு எந்த முக்கியத் தரவையும் தவறவிடாமல் இருப்பது முக்கியம் (நியாயமான துல்லியத்தை உறுதி செய்யும் போது). எங்கள் மாதிரியின் உண்மையான F2 செயல்திறன் மதிப்பீடு இந்தத் தாளின் எல்லைக்கு அப்பாற்பட்டது. இருப்பினும், கவனமாக டியூனிங் செய்வதன் மூலம், மிக முக்கியமான உணர்திறன் வகுப்புகளுக்கு அதிக (0,9+) F2 மதிப்பெண்களைப் பெறலாம்.

வேலை சம்மந்தப்பட்ட

அமைப்பு பொருத்தம், ஆவண ஒற்றுமை தேடல் மற்றும் பல்வேறு இயந்திர கற்றல் முறைகள் (பேய்சியன், முடிவு மரங்கள், கே-அருகிலுள்ள அண்டை நாடுகள் மற்றும் பல) [6] போன்ற பல்வேறு முறைகளைப் பயன்படுத்தி கட்டமைக்கப்படாத ஆவணங்களைத் தானாக வகைப்படுத்துவதற்கு பல வழிமுறைகள் உள்ளன. இவற்றில் ஏதேனும் ஒரு வகைப்பாட்டின் ஒரு பகுதியாகப் பயன்படுத்தப்படலாம். இருப்பினும், பிரச்சனை அளவிடுதல். இந்த கட்டுரையில் உள்ள வகைப்பாடு அணுகுமுறை நெகிழ்வுத்தன்மை மற்றும் செயல்திறனுக்கான சார்புடையது. இது எதிர்காலத்தில் புதிய வகுப்புகளை ஆதரிக்கவும் தாமதத்தை குறைவாக வைத்திருக்கவும் அனுமதிக்கிறது.

டேட்டா பிங்கர் பிரிண்டிங்கிலும் நிறைய வேலை இருக்கிறது. எடுத்துக்காட்டாக, [7] இல் உள்ள ஆசிரியர்கள், முக்கியமான தரவு கசிவைக் கைப்பற்றுவதில் உள்ள சிக்கலில் கவனம் செலுத்தும் ஒரு தீர்வை விவரித்தனர். அறியப்பட்ட உணர்திறன் தரவுகளின் தொகுப்புடன் பொருந்துமாறு தரவு கைரேகையைப் பெறலாம் என்பது அடிப்படை அனுமானம். [8] இல் உள்ள ஆசிரியர்கள் இதேபோன்ற தனியுரிமை கசிவு சிக்கலை விவரிக்கிறார்கள், ஆனால் அவற்றின் தீர்வு ஒரு குறிப்பிட்ட ஆண்ட்ராய்டு கட்டமைப்பை அடிப்படையாகக் கொண்டது மற்றும் பயனர் செயல்கள் தனிப்பட்ட தகவல்களைப் பகிர்வதில் விளைந்தால் அல்லது அடிப்படை பயன்பாடு பயனர் தரவைக் கசிந்தால் மட்டுமே வகைப்படுத்தப்படும். இங்கே நிலைமை சற்று வித்தியாசமானது, ஏனெனில் பயனர் தரவு மிகவும் கட்டமைக்கப்படாததாக இருக்கலாம். எனவே, கைரேகையை விட சிக்கலான நுட்பம் நமக்குத் தேவை.

இறுதியாக, சில வகையான உணர்திறன் தரவுகளுக்கான தரவு பற்றாக்குறையைச் சமாளிக்க, நாங்கள் செயற்கைத் தரவை அறிமுகப்படுத்தினோம். தரவு பெருக்கத்தில் ஒரு பெரிய அளவிலான இலக்கியம் உள்ளது, எடுத்துக்காட்டாக, [9] இல் உள்ள ஆசிரியர்கள் பயிற்சியின் போது சத்தம் உட்செலுத்தலின் பங்கை ஆராய்ந்தனர் மற்றும் மேற்பார்வையிடப்பட்ட கற்றலில் நேர்மறையான முடிவுகளைக் கண்டனர். தனியுரிமைக்கான எங்கள் அணுகுமுறை வேறுபட்டது, ஏனெனில் சத்தமில்லாத தரவை அறிமுகப்படுத்துவது எதிர்மறையான விளைவை ஏற்படுத்தும், மேலும் நாங்கள் உயர்தர செயற்கைத் தரவில் கவனம் செலுத்துகிறோம்.

முடிவுக்கு

இந்தத் தாளில், ஒரு தரவை வகைப்படுத்தக்கூடிய ஒரு அமைப்பை நாங்கள் வழங்கினோம். தனியுரிமை மற்றும் பாதுகாப்புக் கொள்கைகளைச் செயல்படுத்துவதற்கான அமைப்புகளை உருவாக்க இது அனுமதிக்கிறது. எங்களின் தனியுரிமை முயற்சிகள் பலவற்றின் வெற்றியில் அளவிடக்கூடிய உள்கட்டமைப்பு, தொடர்ச்சியான ஒருங்கிணைப்பு, இயந்திர கற்றல் மற்றும் உயர்தர தரவு உத்தரவாதம் ஆகியவை முக்கிய பங்கு வகிக்கின்றன என்பதைக் காட்டியுள்ளோம்.

எதிர்கால வேலைகளுக்கு பல திசைகள் உள்ளன. திட்டமிடப்படாத தரவுகளுக்கு (கோப்புகள்) ஆதரவை வழங்குதல், தரவு வகை மட்டுமல்ல, உணர்திறன் அளவையும் வகைப்படுத்துதல் மற்றும் துல்லியமான செயற்கை எடுத்துக்காட்டுகளை உருவாக்குவதன் மூலம் பயிற்சியின் போது சுய-கண்காணிப்பு கற்றலைப் பயன்படுத்துதல் ஆகியவை இதில் அடங்கும். இது, மாடல் இழப்புகளை மிகப்பெரிய அளவில் குறைக்க உதவும். எதிர்கால வேலைகள் விசாரணை பணிப்பாய்வுகளில் கவனம் செலுத்தலாம், அங்கு நாங்கள் கண்டறிதலுக்கு அப்பால் சென்று பல்வேறு தனியுரிமை மீறல்களின் மூல காரணத்தை பகுப்பாய்வு செய்கிறோம். உணர்திறன் பகுப்பாய்வு (அதாவது தரவு வகையின் தனியுரிமை உணர்திறன் அதிகமாக உள்ளதா (எ.கா. பயனர் ஐபி) அல்லது குறைவாக உள்ளதா (எ.கா. Facebook இன்டர்னல் IP) போன்ற சந்தர்ப்பங்களில் இது உதவும்.

நூற்பட்டியல்

  1. டேவிட் பென்-டேவிட், தாமர் டோமனி மற்றும் அபிகாயில் டாரெம். சொற்பொருள் வலை தொழில்நுட்பங்களைப் பயன்படுத்தி நிறுவன தரவு வகைப்பாடு. பீட்டர் எஃப் சொற்பொருள் வலை - ISWC 2010, பக்கங்கள் 66–81, பெர்லின், ஹைடெல்பெர்க், 2010. ஸ்பிரிங்கர் பெர்லின் ஹைடெல்பெர்க்.
  2. சுப்ரமணியன் முரளிதர், வியாட் லாயிட், சப்யசாச்சி ராய், கோரி ஹில், எர்னஸ்ட் லின், வெய்வென் லியு, சதாத்ரு பான், சிவ சங்கர், விஸ்வநாத் சிவகுமார், லின்பெங் டாங் மற்றும் சஞ்சீவ் குமார். f4: Facebook இன் சூடான BLOB சேமிப்பக அமைப்பு. இல் 11வது USENIX சிம்போசியம் இயக்க முறைமைகள் வடிவமைப்பு மற்றும் செயல்படுத்தல் (OSDI 14), பக்கங்கள் 383–398, Broomfield, CO, அக்டோபர் 2014. USENIX சங்கம்.
  3. தாமஸ் மிகோலோவ், இலியா சுட்ஸ்கேவர், காய் சென், கிரெக் எஸ் கொராடோ மற்றும் ஜெஃப் டீன். சொற்கள் மற்றும் சொற்றொடர்களின் விநியோகிக்கப்பட்ட பிரதிநிதித்துவங்கள் மற்றும் அவற்றின் கலவை. C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani மற்றும் K. Q. Weinberger, ஆசிரியர்கள், நரம்பியல் தகவல் செயலாக்க அமைப்புகளில் முன்னேற்றங்கள் 26, பக்கங்கள் 3111–3119. கர்ரான் அசோசியேட்ஸ், இன்க்., 2013.
  4. செர்ஜி ஐயோஃப் மற்றும் கிறிஸ்டியன் செகெடி. தொகுதி இயல்பாக்கம்: உள் கோவாரியட் மாற்றத்தைக் குறைப்பதன் மூலம் ஆழமான நெட்வொர்க் பயிற்சியை துரிதப்படுத்துதல். ஃபிரான்சிஸ் பாக் மற்றும் டேவிட் ப்ளீ, ஆசிரியர்கள், இயந்திர கற்றல் தொடர்பான 32வது சர்வதேச மாநாட்டின் செயல்முறைகள், தொகுதி 37 இன் இயந்திர கற்றல் ஆராய்ச்சியின் செயல்முறைகள், பக்கங்கள் 448–456, லில்லி, பிரான்ஸ், 07–09 ஜூலை 2015. PMLR.
  5. லியோ ப்ரீமன். சீரற்ற காடுகள். மாக். அறிய., 45(1):5–32, அக்டோபர் 2001.
  6. தைர் நு ஃபியூ. தரவுச் செயலாக்கத்தில் வகைப்பாடு நுட்பங்களின் ஆய்வு.
  7. X. ஷு, D. யாவ் மற்றும் E. பெர்டினோ. தனியுரிமை-பாதுகாப்பு முக்கிய தரவு வெளிப்பாடு கண்டறிதல். தகவல் தடயவியல் மற்றும் பாதுகாப்பு மீதான IEEE பரிவர்த்தனைகள், 10(5):1092–1103, 2015.
  8. ஜெமின் யாங், மின் யாங், யுவான் ஜாங், குஃபீ கு, பெங் நிங் மற்றும் சியாயோங் வாங். குறிப்பு: தனியுரிமை கசிவு கண்டறிதலுக்காக ஆண்ட்ராய்டில் முக்கியமான தரவு பரிமாற்றத்தை பகுப்பாய்வு செய்தல். பக்கங்கள் 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong மற்றும் Quoc V. Le. மேற்பார்வை செய்யப்படாத தரவு பெருக்கம்.

பாதுகாப்பு மற்றும் தனியுரிமைக்கான அளவிடக்கூடிய தரவு வகைப்பாடு
SkillFactory ஆன்லைன் படிப்புகளை மேற்கொள்வதன் மூலம் திறன்கள் மற்றும் சம்பளத்தின் அடிப்படையில் புதிதாக அல்லது லெவல் அப் தொழிலை எவ்வாறு பெறுவது என்பது பற்றிய விவரங்களைக் கண்டறியவும்:

மேலும் படிப்புகள்

ஆதாரம்: www.habr.com

கருத்தைச் சேர்