தளத்தில் ஊடுருவும் நபர்களை எதிர்த்துப் போராட ஒரு தானியங்கி அமைப்பை உருவாக்குதல் (மோசடி)

கடந்த ஆறு மாதங்களாக, இதற்கான ஆரம்பக் கட்டமைப்பு எதுவுமின்றி மோசடியை (மோசடி செயல்பாடு, மோசடி போன்றவை) எதிர்த்துப் போராடும் அமைப்பை உருவாக்கி வருகிறேன். எங்கள் அமைப்பில் நாம் கண்டறிந்து செயல்படுத்திய இன்றைய யோசனைகள் பல மோசடி நடவடிக்கைகளைக் கண்டறிந்து பகுப்பாய்வு செய்ய உதவுகின்றன. இந்த கட்டுரையில், தொழில்நுட்ப பகுதிக்குள் செல்லாமல், நாங்கள் பின்பற்றிய கொள்கைகள் மற்றும் எங்கள் அமைப்பின் தற்போதைய நிலையை அடைய என்ன செய்தோம் என்பதைப் பற்றி பேச விரும்புகிறேன்.

எங்கள் அமைப்பின் கோட்பாடுகள்

"தானியங்கி" மற்றும் "மோசடி" போன்ற சொற்களைக் கேட்கும்போது, ​​​​நீங்கள் பெரும்பாலும் இயந்திர கற்றல், அப்பாச்சி ஸ்பார்க், ஹடூப், பைதான், ஏர்ஃப்ளோ மற்றும் அப்பாச்சி அறக்கட்டளை சுற்றுச்சூழல் அமைப்பு மற்றும் தரவு அறிவியல் துறையில் உள்ள பிற தொழில்நுட்பங்களைப் பற்றி சிந்திக்கத் தொடங்குவீர்கள். இந்தக் கருவிகளைப் பயன்படுத்துவதில் பொதுவாகக் குறிப்பிடப்படாத ஒரு அம்சம் இருப்பதாக நான் நினைக்கிறேன்: நீங்கள் அவற்றைப் பயன்படுத்தத் தொடங்குவதற்கு முன், உங்கள் நிறுவன அமைப்பில் சில முன்நிபந்தனைகள் தேவைப்படுகின்றன. சுருக்கமாக, தரவு ஏரி மற்றும் கிடங்கை உள்ளடக்கிய நிறுவன தரவு தளம் உங்களுக்குத் தேவை. ஆனால் உங்களிடம் அத்தகைய தளம் இல்லையென்றால், இந்த நடைமுறையை இன்னும் வளர்த்துக் கொள்ள வேண்டும் என்றால் என்ன செய்வது? கீழே நான் பகிர்ந்து கொள்ளும் பின்வரும் கொள்கைகள், வேலை செய்யும் ஒன்றைக் கண்டுபிடிப்பதற்குப் பதிலாக, எங்கள் யோசனைகளை மேம்படுத்துவதில் கவனம் செலுத்தக்கூடிய ஒரு புள்ளியை அடைய எங்களுக்கு உதவியது. இருப்பினும், இது ஒரு திட்ட பீடபூமி அல்ல. தொழில்நுட்பம் மற்றும் தயாரிப்புக் கண்ணோட்டத்தில் திட்டத்தில் இன்னும் நிறைய விஷயங்கள் உள்ளன.

கொள்கை 1: வணிக மதிப்பு முதலில்

எங்கள் எல்லா முயற்சிகளிலும் "வணிக மதிப்பை" முன்னணியில் வைக்கிறோம். பொதுவாக, எந்தவொரு தானியங்கி பகுப்பாய்வு அமைப்பும் சிக்கலான அமைப்புகளின் குழுவிற்கு சொந்தமானது, இது அதிக அளவிலான தன்னியக்கவியல் மற்றும் தொழில்நுட்ப சிக்கலானது. நீங்கள் புதிதாக உருவாக்கினால், முழுமையான தீர்வை உருவாக்குவதற்கு நிறைய நேரம் எடுக்கும். வணிக மதிப்பை முதன்மையாகவும், தொழில்நுட்ப முழுமையை இரண்டாவதாகவும் வைக்க முடிவு செய்தோம். நிஜ வாழ்க்கையில், மேம்பட்ட தொழில்நுட்பத்தை நாம் கோட்பாடாக ஏற்கவில்லை என்பதே இதன் பொருள். தற்போது நமக்குச் சிறப்பாகச் செயல்படும் தொழில்நுட்பத்தை நாங்கள் தேர்வு செய்கிறோம். காலப்போக்கில், நாம் சில தொகுதிகளை மீண்டும் செயல்படுத்த வேண்டும் என்று தோன்றலாம். இது நாங்கள் ஏற்றுக்கொண்ட சமரசம்.

கொள்கை 2: அதிகரித்த நுண்ணறிவு

இயந்திர கற்றல் தீர்வுகளை உருவாக்குவதில் ஆழமாக ஈடுபடாத பெரும்பாலான மக்கள் மனிதர்களை மாற்றுவதுதான் குறிக்கோள் என்று நினைக்கலாம் என்று நான் பந்தயம் கட்டுகிறேன். உண்மையில், இயந்திர கற்றல் தீர்வுகள் சரியானவை அல்ல, சில பகுதிகளில் மட்டுமே மாற்றீடு சாத்தியமாகும். பல காரணங்களுக்காக இந்த யோசனையை ஆரம்பத்திலிருந்தே நிராகரித்தோம்: மோசடி செயல்பாடு குறித்த சமநிலையற்ற தரவு மற்றும் இயந்திர கற்றல் மாதிரிகளுக்கான அம்சங்களின் விரிவான பட்டியலை வழங்க இயலாமை. மாறாக, மேம்படுத்தப்பட்ட நுண்ணறிவு விருப்பத்தைத் தேர்ந்தெடுத்தோம். இது செயற்கை நுண்ணறிவின் மாற்றுக் கருத்தாகும், இது AI இன் துணைப் பாத்திரத்தில் கவனம் செலுத்துகிறது, அறிவாற்றல் தொழில்நுட்பங்கள் மனித நுண்ணறிவை மாற்றுவதற்குப் பதிலாக மனித நுண்ணறிவை மேம்படுத்துவதை நோக்கமாகக் கொண்டுள்ளன என்ற உண்மையை வலியுறுத்துகிறது. [1]

இதைக் கருத்தில் கொண்டு, தொடக்கத்தில் இருந்து ஒரு முழுமையான இயந்திர கற்றல் தீர்வை உருவாக்குவதற்கு பெரும் முயற்சி தேவைப்படும், இது எங்கள் வணிகத்திற்கான மதிப்பை உருவாக்குவதை தாமதப்படுத்தும். எங்களின் டொமைன் நிபுணர்களின் வழிகாட்டுதலின் கீழ் மீண்டும் மீண்டும் வளர்ந்து வரும் இயந்திர கற்றல் அம்சத்துடன் ஒரு அமைப்பை உருவாக்க முடிவு செய்தோம். அத்தகைய அமைப்பை வளர்ப்பதில் உள்ள சவாலான பகுதி என்னவென்றால், அது மோசடியான செயலா இல்லையா என்பது பற்றிய வழக்குகளை மட்டும் நமது ஆய்வாளர்களுக்கு வழங்க வேண்டும். பொதுவாக, வாடிக்கையாளரின் நடத்தையில் ஏதேனும் ஒழுங்கின்மை என்பது சந்தேகத்திற்குரிய விஷயமாகும், இது நிபுணர்கள் எப்படியாவது விசாரித்து பதிலளிக்க வேண்டும். இந்த அறிக்கையிடப்பட்ட வழக்குகளில் ஒரு பகுதி மட்டுமே மோசடியாக வகைப்படுத்தப்படும்.

கொள்கை 3: ரிச் அனலிட்டிக்ஸ் பிளாட்ஃபார்ம்

எங்கள் கணினியின் மிகவும் சவாலான பகுதி, கணினியின் பணிப்பாய்வுக்கான இறுதி முதல் இறுதி சரிபார்ப்பு ஆகும். ஆய்வாளர்கள் மற்றும் டெவலப்பர்கள் பகுப்பாய்விற்குப் பயன்படுத்தப்படும் அனைத்து அளவீடுகளுடன் வரலாற்றுத் தரவுத் தொகுப்புகளை எளிதாகப் பெற வேண்டும். கூடுதலாக, தரவுத் தளமானது, ஏற்கனவே உள்ள அளவீடுகளின் தொகுப்பை புதியவற்றுடன் நிறைவு செய்வதற்கான எளிதான வழியை வழங்க வேண்டும். நாங்கள் உருவாக்கும் செயல்முறைகள், இவை மென்பொருள் செயல்முறைகள் மட்டுமல்ல, முந்தைய காலகட்டங்களை எளிதாக மீண்டும் கணக்கிடவும், புதிய அளவீடுகளைச் சேர்க்கவும் மற்றும் தரவு முன்னறிவிப்பை மாற்றவும் அனுமதிக்கும். எங்கள் உற்பத்தி அமைப்பு உருவாக்கும் அனைத்து தரவையும் குவிப்பதன் மூலம் இதை அடைய முடியும். இந்த வழக்கில், தரவு படிப்படியாக ஒரு தொல்லையாக மாறும். நாம் பயன்படுத்தாத பெருகிவரும் தரவுகளை சேமித்து பாதுகாக்க வேண்டும். அத்தகைய சூழ்நிலையில், தரவு காலப்போக்கில் மேலும் மேலும் பொருத்தமற்றதாக மாறும், ஆனால் அதை நிர்வகிக்க எங்கள் முயற்சிகள் இன்னும் தேவைப்படுகிறது. எங்களைப் பொறுத்தவரை, தரவு பதுக்கல் அர்த்தமற்றது, எனவே வேறு அணுகுமுறையை எடுக்க முடிவு செய்தோம். நாங்கள் வகைப்படுத்த விரும்பும் இலக்கு நிறுவனங்களைச் சுற்றி நிகழ்நேர தரவுக் கடைகளை ஒழுங்கமைக்க முடிவு செய்தோம், மேலும் சமீபத்திய மற்றும் தொடர்புடைய காலங்களைச் சரிபார்க்க அனுமதிக்கும் தரவை மட்டுமே சேமிக்கவும். இந்த முயற்சிக்கு சவாலாக இருப்பது, எங்கள் கணினியானது பலதரப்பட்ட தரவு அங்காடிகள் மற்றும் மென்பொருள் தொகுதிகள் ஆகியவற்றுடன் சீரான முறையில் செயல்பட கவனமாக திட்டமிட வேண்டும்.

எங்கள் அமைப்பின் வடிவமைப்பு கருத்துக்கள்

எங்கள் அமைப்பில் நான்கு முக்கிய கூறுகள் உள்ளன: உட்செலுத்துதல் அமைப்பு, கணக்கீடு, BI பகுப்பாய்வு மற்றும் கண்காணிப்பு அமைப்பு. அவை குறிப்பிட்ட, தனிமைப்படுத்தப்பட்ட நோக்கங்களுக்காக சேவை செய்கின்றன, மேலும் குறிப்பிட்ட வடிவமைப்பு அணுகுமுறைகளைப் பின்பற்றுவதன் மூலம் அவற்றைத் தனிமைப்படுத்துகிறோம்.

தளத்தில் ஊடுருவும் நபர்களை எதிர்த்துப் போராட ஒரு தானியங்கி அமைப்பை உருவாக்குதல் (மோசடி)

ஒப்பந்த அடிப்படையிலான வடிவமைப்பு

முதலில், கூறுகள் அவற்றுக்கிடையே அனுப்பப்படும் சில தரவு கட்டமைப்புகளை (ஒப்பந்தங்கள்) மட்டுமே நம்பியிருக்க வேண்டும் என்பதை நாங்கள் ஒப்புக்கொண்டோம். இது அவற்றுக்கிடையே ஒருங்கிணைப்பதை எளிதாக்குகிறது மற்றும் கூறுகளின் ஒரு குறிப்பிட்ட கலவையை (மற்றும் வரிசையை) சுமத்துவதில்லை. எடுத்துக்காட்டாக, சில சந்தர்ப்பங்களில், எச்சரிக்கை கண்காணிப்பு அமைப்புடன் உட்கொள்ளும் அமைப்பை நேரடியாக ஒருங்கிணைக்க இது அனுமதிக்கிறது. அத்தகைய சூழ்நிலையில், ஒப்புக் கொள்ளப்பட்ட எச்சரிக்கை ஒப்பந்தத்தின்படி இது செய்யப்படும். இதன் பொருள் இரண்டு கூறுகளும் மற்ற எந்த கூறுகளையும் பயன்படுத்தக்கூடிய ஒப்பந்தத்தைப் பயன்படுத்தி ஒருங்கிணைக்கப்படும். உள்ளீட்டு அமைப்பிலிருந்து கண்காணிப்பு அமைப்பில் விழிப்பூட்டல்களைச் சேர்க்க கூடுதல் ஒப்பந்தத்தைச் சேர்க்க மாட்டோம். இந்த அணுகுமுறைக்கு முன்னரே தீர்மானிக்கப்பட்ட குறைந்தபட்ச எண்ணிக்கையிலான ஒப்பந்தங்களின் பயன்பாடு தேவைப்படுகிறது மற்றும் அமைப்பு மற்றும் தகவல்தொடர்புகளை எளிதாக்குகிறது. முக்கியமாக, "ஒப்பந்தம் முதல் வடிவமைப்பு" என்ற அணுகுமுறையை நாங்கள் எடுத்து அதை ஸ்ட்ரீமிங் ஒப்பந்தங்களுக்குப் பயன்படுத்துகிறோம். [2]

எல்லா இடங்களிலும் ஸ்ட்ரீமிங்

ஒரு அமைப்பில் நிலையைச் சேமிப்பதும் நிர்வகிப்பதும் தவிர்க்க முடியாமல் அதைச் செயல்படுத்துவதில் சிக்கல்களுக்கு வழிவகுக்கும். பொதுவாக, மாநிலமானது எந்தவொரு கூறுகளிலிருந்தும் அணுகக்கூடியதாக இருக்க வேண்டும், அது சீரானதாக இருக்க வேண்டும் மற்றும் அனைத்து கூறுகளிலும் தற்போதைய மதிப்பை வழங்க வேண்டும், மேலும் இது சரியான மதிப்புகளுடன் நம்பகமானதாக இருக்க வேண்டும். கூடுதலாக, சமீபத்திய நிலையை மீட்டெடுப்பதற்கான தொடர்ச்சியான சேமிப்பகத்திற்கான அழைப்புகள் I/O செயல்பாடுகளின் எண்ணிக்கையையும், எங்கள் நிகழ்நேர பைப்லைன்களில் பயன்படுத்தப்படும் அல்காரிதம்களின் சிக்கலான தன்மையையும் அதிகரிக்கும். இதன் காரணமாக, முடிந்தால், எங்கள் அமைப்பிலிருந்து மாநில சேமிப்பகத்தை முழுவதுமாக அகற்ற முடிவு செய்தோம். இந்த அணுகுமுறைக்கு தேவையான அனைத்து தரவும் அனுப்பப்பட்ட தரவுத் தொகுதியில் (செய்தி) சேர்க்கப்பட வேண்டும். எடுத்துக்காட்டாக, சில அவதானிப்புகளின் மொத்த எண்ணிக்கையை (சில குணாதிசயங்களைக் கொண்ட செயல்பாடுகள் அல்லது வழக்குகளின் எண்ணிக்கை) கணக்கிட வேண்டும் என்றால், அதை நினைவகத்தில் கணக்கிட்டு, அத்தகைய மதிப்புகளின் ஸ்ட்ரீமை உருவாக்குவோம். சார்பு தொகுதிகள் பகிர்வு மற்றும் தொகுப்பைப் பயன்படுத்தி ஸ்ட்ரீமை நிறுவனங்களாகப் பிரித்து சமீபத்திய மதிப்புகளில் செயல்படும். இந்த அணுகுமுறை அத்தகைய தரவுகளுக்கான நிலையான வட்டு சேமிப்பகத்தின் தேவையை நீக்கியது. எங்கள் கணினி காஃப்காவை ஒரு செய்தி தரகராகப் பயன்படுத்துகிறது, மேலும் இது KSQL உடன் தரவுத்தளமாகப் பயன்படுத்தப்படலாம். [3] ஆனால் அதைப் பயன்படுத்தினால் எங்கள் தீர்வு காஃப்காவுடன் பெரிதும் இணைக்கப்பட்டிருக்கும், மேலும் அதைப் பயன்படுத்த வேண்டாம் என்று முடிவு செய்தோம். நாங்கள் தேர்ந்தெடுத்த அணுகுமுறை, கணினியில் பெரிய உள் மாற்றங்கள் இல்லாமல் காஃப்காவை மற்றொரு செய்தி தரகரை மாற்ற அனுமதிக்கிறது.

இந்த கருத்து நாம் வட்டு சேமிப்பு மற்றும் தரவுத்தளங்கள் பயன்படுத்த வேண்டாம் என்று அர்த்தம் இல்லை. கணினி செயல்திறனைச் சோதிக்கவும் பகுப்பாய்வு செய்யவும், பல்வேறு அளவீடுகள் மற்றும் நிலைகளைக் குறிக்கும் கணிசமான அளவு தரவை வட்டில் சேமிக்க வேண்டும். இங்கே முக்கியமான விஷயம் என்னவென்றால், நிகழ்நேர அல்காரிதம்கள் அத்தகைய தரவைச் சார்ந்து இல்லை. பெரும்பாலான சந்தர்ப்பங்களில், நாங்கள் சேமிக்கப்பட்ட தரவை ஆஃப்லைன் பகுப்பாய்வு, பிழைத்திருத்தம் மற்றும் குறிப்பிட்ட நிகழ்வுகள் மற்றும் கணினி உருவாக்கும் முடிவுகளை கண்காணிப்பதற்குப் பயன்படுத்துகிறோம்.

எங்கள் அமைப்பின் சிக்கல்கள்

சில பிரச்சனைகளை நாம் ஒரு குறிப்பிட்ட அளவிற்கு தீர்த்துவிட்டோம், ஆனால் அவற்றுக்கு அதிக சிந்தனையுடன் கூடிய தீர்வுகள் தேவைப்படுகின்றன. இப்போது நான் அவற்றை இங்கே குறிப்பிட விரும்புகிறேன், ஏனென்றால் ஒவ்வொரு புள்ளியும் அதன் சொந்த கட்டுரைக்கு மதிப்புள்ளது.

  • எங்களின் தானியங்கு தரவு பகுப்பாய்வு, கண்டுபிடிப்பு மற்றும் ஆய்வுக்கான அர்த்தமுள்ள மற்றும் தொடர்புடைய தரவுகளின் திரட்சியை ஆதரிக்கும் செயல்முறைகள் மற்றும் கொள்கைகளை நாங்கள் இன்னும் வரையறுக்க வேண்டும்.
  • மனித பகுப்பாய்வின் ஒருங்கிணைப்பு, சமீபத்திய தரவுகளுடன் புதுப்பிக்க கணினியை தானாகவே அமைக்கும் செயல்முறையில் விளைகிறது. இது எங்கள் மாதிரியைப் புதுப்பிப்பது மட்டுமல்லாமல், எங்கள் செயல்முறைகளைப் புதுப்பித்து, எங்கள் தரவைப் பற்றிய நமது புரிதலை மேம்படுத்துகிறது.
  • IF-ELSE மற்றும் ML இன் உறுதியான அணுகுமுறைக்கு இடையே சமநிலையைக் கண்டறிதல். யாரோ சொன்னார்கள், "ML என்பது அவநம்பிக்கையானவர்களுக்கு ஒரு கருவி." உங்கள் அல்காரிதங்களை எவ்வாறு மேம்படுத்துவது மற்றும் மேம்படுத்துவது என்பதை இனி நீங்கள் புரிந்து கொள்ளாதபோது நீங்கள் ML ஐப் பயன்படுத்த விரும்புவீர்கள் என்பதே இதன் பொருள். மறுபுறம், தீர்மானிக்கும் அணுகுமுறை எதிர்பார்க்கப்படாத முரண்பாடுகளைக் கண்டறிய அனுமதிக்காது.
  • எங்கள் கருதுகோள்கள் அல்லது தரவுகளில் உள்ள அளவீடுகளுக்கு இடையே உள்ள தொடர்புகளை சோதிக்க எளிய வழி தேவை.
  • கணினி பல நிலைகளில் உண்மையான நேர்மறையான முடிவுகளைக் கொண்டிருக்க வேண்டும். மோசடி வழக்குகள் அனைத்து வழக்குகளிலும் ஒரு பகுதி மட்டுமே ஆகும், அவை அமைப்புக்கு சாதகமானதாகக் கருதப்படும். எடுத்துக்காட்டாக, ஆய்வாளர்கள் அனைத்து சந்தேகத்திற்கிடமான வழக்குகளையும் சரிபார்ப்பதற்காகப் பெற விரும்புகிறார்கள், அவற்றில் ஒரு சிறிய பகுதி மட்டுமே மோசடிகள். உண்மையான மோசடி அல்லது சந்தேகத்திற்கிடமான நடத்தை என்பதைப் பொருட்படுத்தாமல், இந்த அமைப்பு அனைத்து நிகழ்வுகளையும் ஆய்வாளர்களுக்கு திறமையாக வழங்க வேண்டும்.
  • தரவு இயங்குதளமானது, பறக்கும்போது உருவாக்கப்பட்ட மற்றும் கணக்கிடப்பட்ட கணக்கீடுகளுடன் வரலாற்றுத் தரவுத் தொகுப்புகளை மீட்டெடுக்க முடியும்.
  • உற்பத்தி, சோதனை (பீட்டா) மற்றும் டெவலப்பர்கள்: குறைந்தபட்சம் மூன்று வெவ்வேறு சூழல்களில் கணினி கூறுகளில் ஏதேனும் ஒன்றை எளிதாகவும் தானாகவே வரிசைப்படுத்தவும்.
  • கடைசியாக ஆனால் குறைந்தது அல்ல. எங்கள் மாதிரிகளை பகுப்பாய்வு செய்யக்கூடிய சிறந்த செயல்திறன் சோதனை தளத்தை நாங்கள் உருவாக்க வேண்டும். [4]

குறிப்புகள்

  1. ஆக்மென்டட் இன்டலிஜென்ஸ் என்றால் என்ன?
  2. API-முதல் வடிவமைப்பு முறையை செயல்படுத்துதல்
  3. காஃப்கா "நிகழ்வு ஸ்ட்ரீமிங் தரவுத்தளமாக" மாறுகிறது
  4. AUC - ROC வளைவைப் புரிந்துகொள்வது

ஆதாரம்: www.habr.com

கருத்தைச் சேர்