ආරක්ෂාව සහ පෞද්ගලිකත්වය සඳහා පරිමාණය කළ හැකි දත්ත වර්ගීකරණය

ආරක්ෂාව සහ පෞද්ගලිකත්වය සඳහා පරිමාණය කළ හැකි දත්ත වර්ගීකරණය

අන්තර්ගතය මත පදනම් වූ දත්ත වර්ගීකරණය විවෘත ගැටලුවකි. සම්ප්‍රදායික දත්ත අලාභ වැළැක්වීමේ (DLP) පද්ධති අදාළ දත්ත ඇඟිලි සලකුණු කිරීමෙන් සහ ඇඟිලි සලකුණු සඳහා අන්ත ලක්ෂ්‍ය නිරීක්ෂණය කිරීමෙන් මෙම ගැටලුව විසඳයි. Facebook හි නිරන්තරයෙන් වෙනස් වන දත්ත සම්පත් විශාල සංඛ්‍යාවක් සැලකිල්ලට ගෙන, මෙම ප්‍රවේශය පරිමාණය කළ නොහැකි පමණක් නොව, දත්ත පවතින්නේ කොතැනද යන්න තීරණය කිරීම සඳහා අකාර්යක්ෂම වේ. මෙම පත්‍රිකාව අවධානය යොමු කරන්නේ Facebook හි සංවේදී අර්ථකථන වර්ග පරිමාණයෙන් හඳුනා ගැනීමට සහ දත්ත ගබඩා කිරීම සහ ප්‍රවේශ පාලනය ස්වයංක්‍රීයව බලාත්මක කිරීමට ගොඩනගා ඇති අන්තයේ සිට අවසානය දක්වා පද්ධතියක් කෙරෙහි ය.

මෙහි විස්තර කර ඇති ප්‍රවේශය ෆේස්බුක් හි සියලු දත්ත සිතියම්ගත කිරීමට සහ වර්ග කිරීමට දත්ත සංඥා, යන්ත්‍ර ඉගෙනීම සහ සම්ප්‍රදායික ඇඟිලි සලකුණු ක්‍රම ඇතුළත් කිරීමෙන් මෙම ගැටලුව විසඳීමට උත්සාහ කරන අපගේ පළමු අන්තයේ සිට අවසානය දක්වා වූ රහස්‍යතා පද්ධතියයි. විස්තර කරන ලද පද්ධතිය නිෂ්පාදන පරිසරයක් තුළ ක්‍රියාත්මක වන අතර, විවිධ රහස්‍යතා පන්ති හරහා සාමාන්‍ය F2 ලකුණු 0,9+ ලබා ගනිමින් ගබඩා දුසිම් ගණනක් හරහා දත්ත සම්පත් විශාල ප්‍රමාණයක් සකසයි. යන්ත්‍ර ඉගෙනීම මත පදනම් වූ ආරක්ෂාව සහ පෞද්ගලිකත්වය සඳහා පරිමාණය කළ හැකි දත්ත වර්ගීකරණය පිළිබඳ Facebook හි ArXiv පත්‍රිකාවේ පරිවර්තනයක් හඳුන්වා දීම.

හැඳින්වීම

අද, සංවිධාන විවිධ ආකෘති සහ ස්ථාන [1] තුළ විශාල දත්ත ප්‍රමාණයක් රැස් කර ගබඩා කරයි, පසුව දත්ත බොහෝ ස්ථානවල පරිභෝජනය කරයි, සමහර විට පිටපත් කිරීම හෝ කිහිප වතාවක් හැඹිලි කිරීම, ප්‍රතිඵලයක් ලෙස බොහෝ ව්‍යවසාය දත්ත හරහා වටිනා සහ සංවේදී ව්‍යාපාරික තොරතුරු විසිරී යයි. ගබඩා. සිවිල් කටයුතු වලදී රෙගුලාසිවලට අනුකූල වීම වැනි යම් නීතිමය හෝ නියාමන අවශ්‍යතා සපුරාලීමට සංවිධානයකට අවශ්‍ය වූ විට, අවශ්‍ය දත්තවල පිහිටීම පිළිබඳ දත්ත රැස් කිරීම අවශ්‍ය වේ. අනවසර ආයතන සමඟ පුද්ගලික තොරතුරු බෙදාගැනීමේදී සංවිධානයක් සියලුම සමාජ ආරක්ෂණ අංක (SSN) ආවරණය කළ යුතු බව රහස්‍යතා රෙගුලාසියක් සඳහන් කරන විට, ස්වාභාවික පළමු පියවර වන්නේ සංවිධානයේ දත්ත ගබඩා හරහා සියලුම SSN සෙවීමයි. එවැනි තත්වයන් යටතේ, දත්ත වර්ගීකරණය තීරණාත්මක වේ [1]. ප්‍රවේශ පාලන ප්‍රතිපත්ති සක්‍රීය කිරීම, දත්ත රඳවා ගැනීම වැනි පුද්ගලිකත්ව සහ ආරක්‍ෂක ප්‍රතිපත්ති ස්වයංක්‍රීයව බලාත්මක කිරීමට වර්ගීකරණ පද්ධතිය ආයතනවලට ඉඩ ලබා දේ. සංවේදී අර්ථකථන දත්ත වර්ග සොයා ගැනීමට බහු දත්ත සංඥා, පරිමාණ කළ හැකි පද්ධති ගෘහ නිර්මාණ ශිල්පය සහ යන්ත්‍ර ඉගෙනීම භාවිතා කරන Facebook හි අප ගොඩනගා ඇති පද්ධතියක් Facebook විසින් හඳුන්වා දෙයි.

දත්ත සොයා ගැනීම සහ වර්ගීකරණය යනු දත්ත සෙවීම සහ ලේබල් කිරීමේ ක්‍රියාවලිය වන අතර එමඟින් අවශ්‍ය විට අදාළ තොරතුරු ඉක්මනින් සහ කාර්යක්ෂමව ලබා ගත හැක. වර්තමාන ක්‍රියාවලිය තරමක් අතින් අතින් සිදු වන අතර අදාළ නීති හෝ රෙගුලාසි පරීක්ෂා කිරීම, සංවේදී ලෙස සැලකිය යුතු තොරතුරු මොනවාද යන්න සහ විවිධ මට්ටමේ සංවේදීතාවන් මොනවාද යන්න තීරණය කිරීම සහ ඒ අනුව පන්ති සහ වර්ගීකරණ ප්‍රතිපත්ති ගොඩනැගීම සමන්විත වේ [1]. දත්ත නැතිවීම වැළැක්වීම (DLP) පසුව දත්ත ඇඟිලි සලකුණු කර ඇඟිලි සලකුණු ලබා ගැනීම සඳහා පහළ අන්ත ලක්ෂ්‍ය නිරීක්ෂණය කරයි. පෙටාබයිට් දත්ත සහිත වත්කම් බර ගබඩාවක් සමඟ කටයුතු කරන විට, මෙම ප්‍රවේශය හුදෙක් පරිමාණයෙන් සිදු නොවේ.

අපගේ ඉලක්කය වන්නේ දත්ත වර්ගය හෝ ආකෘතිය මත කිසිදු අමතර සීමාවකින් තොරව, ශක්තිමත් සහ තාවකාලික පරිශීලක දත්ත දෙකටම පරිමාණය කරන දත්ත වර්ගීකරණ පද්ධතියක් ගොඩනැගීමයි. මෙය නිර්භීත ඉලක්කයක් වන අතර ස්වාභාවිකවම එය අභියෝග සමඟ පැමිණේ. දී ඇති දත්ත වාර්තාවක් අක්ෂර දහස් ගණනක් දිගු විය හැක.

ආරක්ෂාව සහ පෞද්ගලිකත්වය සඳහා පරිමාණය කළ හැකි දත්ත වර්ගීකරණය
රූපය 1. මාර්ගගත සහ නොබැඳි අනාවැකි ප්රවාහයන්

එබැවින්, පසුව ඒකාබද්ධ කළ හැකි සහ පහසුවෙන් එහා මෙහා ගෙන යා හැකි පොදු විශේෂාංග සමූහයක් භාවිතයෙන් අප එය කාර්යක්ෂමව නියෝජනය කළ යුතුය. මෙම විශේෂාංග මගින් නිවැරදි වර්ගීකරණය පමණක් නොව, අනාගතයේ දී නව දත්ත වර්ග පහසුවෙන් එක් කිරීමට සහ සොයා ගැනීමට නම්‍යශීලී බව සහ විස්තීරණ හැකියාවද සැපයිය යුතුය. දෙවනුව, ඔබ විශාල නොබැඳි වගු සමඟ කටයුතු කළ යුතුය. කල්පවත්නා දත්ත පෙටාබයිට් ප්‍රමාණයේ වගු වල ගබඩා කළ හැක. මෙය මන්දගාමී ස්කෑන් වේගයට හේතු විය හැක. තෙවනුව, අපි වාෂ්පශීලී දත්ත මත දැඩි SLA වර්ගීකරණයට අනුගත විය යුතුය. මෙම පද්ධතිය ඉතා කාර්යක්ෂම, වේගවත් හා නිවැරදි කිරීමට බල කරයි. අවසාන වශයෙන්, අපි තත්‍ය කාලීන වර්ගීකරණය කිරීමට මෙන්ම අන්තර්ජාල භාවිත අවස්ථා සඳහා වාෂ්පශීලී දත්ත සඳහා අඩු ප්‍රමාද දත්ත වර්ගීකරණයක් සැපයිය යුතුය.

මෙම ලිපියෙන් අපි ඉහත අභියෝග සමඟ කටයුතු කළ ආකාරය විස්තර කරන අතර පොදු විශේෂාංග සමූහයක් මත පදනම්ව සියලු වර්ගවල, ආකෘතිවල සහ මූලාශ්‍රවල දත්ත මූලද්‍රව්‍ය වර්ගීකරණය කරන වේගවත් සහ පරිමාණය කළ හැකි වර්ගීකරණ පද්ධතියක් ඉදිරිපත් කරයි. අපි පද්ධති ගෘහ නිර්මාණ ශිල්පය පුළුල් කර නොබැඳි සහ සබැඳි දත්ත ඉක්මනින් වර්ග කිරීමට අභිරුචි යන්ත්‍ර ඉගෙනුම් ආකෘතියක් නිර්මාණය කළෙමු. මෙම ලිපිය පහත පරිදි සංවිධානය කර ඇත: 2 වන කොටස පද්ධතියේ සමස්ත සැලසුම ඉදිරිපත් කරයි. 3 වැනි කොටස යන්ත්‍ර ඉගෙනුම් පද්ධතියක කොටස් සාකච්ඡා කරයි. 4 සහ 5 වගන්ති ආශ්‍රිත වැඩ උද්දීපනය කරන අතර අනාගත වැඩ දිශාවන් ගෙනහැර දක්වයි.

ගෘහ නිර්මාණ ශිල්පය

ස්ථීර සහ ෆේස්බුක් පරිමාණ සබැඳි දත්තවල අභියෝග සමඟ කටයුතු කිරීම සඳහා, වර්ගීකරණ පද්ධතියට වෙනම ප්‍රවාහ දෙකක් ඇත, ඒවා අපි විස්තරාත්මකව සාකච්ඡා කරමු.

තිරසාර දත්ත

මුලදී, පද්ධතිය ෆේස්බුක් හි බොහෝ තොරතුරු වත්කම් ගැන ඉගෙන ගත යුතුය. සෑම ගබඩාවක් සඳහාම, එම දත්ත අඩංගු දත්ත මධ්‍යස්ථානය, එම දත්ත අඩංගු පද්ධතිය සහ නිශ්චිත දත්ත ගබඩාවේ ඇති වත්කම් වැනි මූලික තොරතුරු රැස්කරනු ලැබේ. මෙය වෙනත් ඉංජිනේරුවන් විසින් භාවිතා කරන සේවාලාභීන් සහ සම්පත් අධික ලෙස පැටවීමකින් තොරව කාර්යක්ෂමව දත්ත ලබා ගැනීමට පද්ධතියට ඉඩ සලසන පාර-දත්ත නාමාවලියක් නිර්මාණය කරයි.

මෙම පාරදත්ත නාමාවලිය සියලුම ස්කෑන් කරන ලද වත්කම් සඳහා බලයලත් මූලාශ්‍රයක් සපයන අතර විවිධ වත්කම්වල තත්ත්වය නිරීක්ෂණය කිරීමට ඔබට ඉඩ සලසයි. මෙම තොරතුරු භාවිතා කරමින්, වත්කම අවසන් වරට සාර්ථකව පරිලෝකනය කළ කාලය සහ එය නිර්මාණය කළ කාලය, මෙන්ම එම වත්කම සඳහා අතීත මතකය සහ CPU අවශ්‍යතා වැනි පද්ධතියෙන් එකතු කරන ලද දත්ත සහ අභ්‍යන්තර තොරතුරු මත පදනම්ව උපලේඛනගත කිරීමේ ප්‍රමුඛතාවය ස්ථාපිත කෙරේ. එය කලින් ස්කෑන් කර ඇත. ඉන්පසුව, එක් එක් දත්ත සම්පත සඳහා (සම්පත් ලබා ගත හැකි වන පරිදි), සම්පත සැබවින්ම පරිලෝකනය කිරීමට රැකියාවක් කැඳවනු ලැබේ.

සෑම කාර්යයක්ම සම්පාදනය කරන ලද ද්විමය ගොනුවක් වන අතර එය එක් එක් වත්කම් සඳහා පවතින නවතම දත්ත මත Bernoulli නියැදීම සිදු කරයි. වත්කම තනි තීරු වලට බෙදී ඇති අතර, එක් එක් තීරුවේ වර්ගීකරණ ප්‍රතිඵලය ස්වාධීනව සකසනු ලැබේ. අතිරේකව, පද්ධතිය තීරු තුළ ඇති ඕනෑම සංතෘප්ත දත්ත සඳහා ස්කෑන් කරයි. JSON, arrays, encoded structures, URLs, Base 64 අනුක්‍රමික දත්ත, සහ තවත් සියල්ල ස්කෑන් කර ඇත. මෙය ස්කෑන් ක්‍රියාත්මක කිරීමේ කාලය සැලකිය යුතු ලෙස වැඩි කළ හැක, මන්ද එක් වගුවක බ්ලොබ් එකක කැදලි තීරු දහස් ගණනක් අඩංගු විය හැක. json.

දත්ත වත්කමේ තෝරාගත් සෑම පේළියක් සඳහාම, වර්ගීකරණ පද්ධතිය අන්තර්ගතයෙන් පාවෙන සහ පෙළ වස්තු උපුටා ගන්නා අතර එක් එක් වස්තුව එය ලබාගත් තීරුවට නැවත සම්බන්ධ කරයි. විශේෂාංග උකහා ගැනීමේ පියවරේ ප්‍රතිදානය දත්ත වත්කමේ ඇති එක් එක් තීරු සඳහා සියලුම විශේෂාංගවල සිතියමකි.

සංඥා මොනවාද?

ගුණාංග පිළිබඳ සංකල්පය ප්රධාන වේ. float සහ text traits වෙනුවට, අපට එක් එක් දත්ත සම්පතෙන් සෘජුවම උපුටා ගන්නා raw string නියැදි ලබා දිය හැක. මීට අමතරව, නියැදිය ආසන්න කිරීමට පමණක් උත්සාහ කරන විශේෂාංග ගණනය කිරීම් සිය ගණනකට වඩා, යන්ත්‍ර ඉගෙනුම් ආකෘති එක් එක් නියැදිය මත කෙලින්ම පුහුණු කළ හැක. මේ සඳහා හේතු කිහිපයක් තිබේ:

  1. පුද්ගලිකත්වය පළමුව: වඩාත්ම වැදගත් දෙය නම්, විශේෂාංග පිළිබඳ සංකල්පය අපට මතකයේ ගබඩා කිරීමට ඉඩ දෙන්නේ අප ලබා ගන්නා රටාවන් පමණි. මෙමගින් අප සාම්පල ගබඩා කරන්නේ තනි අරමුණක් සඳහා වන අතර ඒවා කිසිවිටෙක අපගේම උත්සාහයන් හරහා ලොග් නොකරන බව සහතික කරයි. පුරෝකථනයක් සැපයීමට පෙර සේවාව යම් වර්ගීකරණ තත්වයක් පවත්වා ගත යුතු බැවින්, වාෂ්පශීලී දත්ත සඳහා මෙය විශේෂයෙන් වැදගත් වේ.
  2. මතකය: සමහර සාම්පල අක්ෂර දහස් ගණනක් දිග විය හැක. එවැනි දත්ත ගබඩා කිරීම සහ පද්ධතියේ කොටස් වෙත සම්ප්රේෂණය කිරීම අනවශ්ය ලෙස අමතර බයිට් ගණනාවක් පරිභෝජනය කරයි. තීරු දහස් ගණනක් සමඟ බොහෝ දත්ත සම්පත් ඇති බැවින් සාධක දෙක කාලයත් සමඟ ඒකාබද්ධ කළ හැකිය.
  3. විශේෂාංග එකතු කිරීම: විශේෂාංග සමූහයක් හරහා එක් එක් ස්කෑන් ප්‍රතිඵල පැහැදිලිව නියෝජනය කරයි, පද්ධතියට එකම දත්ත සම්පතේ පෙර ස්කෑන් ප්‍රතිඵල පහසු ආකාරයකින් ඒකාබද්ධ කිරීමට ඉඩ සලසයි. බහු ධාවන හරහා තනි දත්ත සම්පතකින් ස්කෑන් ප්‍රතිඵල එකතු කිරීම සඳහා මෙය ප්‍රයෝජනවත් විය හැක.

විශේෂාංග පසුව පුරෝකථන සේවාවකට යවනු ලබන අතර එහිදී අපි එක් එක් තීරුවේ දත්ත ලේබල පුරෝකථනය කිරීමට රීති මත පදනම් වූ වර්ගීකරණය සහ යන්ත්‍ර ඉගෙනීම භාවිත කරමු. සේවාව රීති වර්ගීකරණ සහ යන්ත්‍ර ඉගෙනීම යන දෙකම මත රඳා පවතින අතර එක් එක් පුරෝකථන වස්තුවෙන් ලබා දී ඇති හොඳම අනාවැකිය තෝරා ගනී.

රීති වර්ගීකාරක යනු අත්පොත හූරිස්ටික්ස් වේ, ඒවා වස්තුවක් 0 සිට 100 දක්වා පරාසයකට සාමාන්‍යකරණය කිරීමට ගණනය කිරීම් සහ සංගුණක භාවිතා කරයි. එම දත්ත හා සම්බන්ධ එක් එක් දත්ත වර්ගය සහ තීරු නාමය සඳහා එවැනි ආරම්භක ලකුණු ජනනය කළ පසු, එය කිසිදු "තහනම් කිරීමකට ඇතුළත් නොවේ. ලැයිස්තු", රීති වර්ගීකාරකය ,සියලු දත්ත වර්ග අතර ඉහළම සාමාන්‍යකරණය වූ ලකුණු තෝරා ගනී.

වර්ගීකරණයේ සංකීර්ණත්වය හේතුවෙන්, අතින් හූරිස්ටික්ස් මත පමණක් විශ්වාසය තැබීම, විශේෂයෙන් ව්‍යුහගත නොවන දත්ත සඳහා අඩු වර්ගීකරණ නිරවද්‍යතාවයක් ඇති කරයි. මෙම හේතුව නිසා, අපි පරිශීලක අන්තර්ගතය සහ ලිපිනය වැනි ව්‍යුහගත නොවන දත්ත වර්ගීකරණය සමඟ වැඩ කිරීමට යන්ත්‍ර ඉගෙනුම් පද්ධතියක් සකස් කළෙමු. යන්ත්‍ර ඉගෙනීම මගින් හස්තීය හූරිස්ටික් වලින් ඉවත් වීමට සහ අමතර දත්ත සංඥා යෙදීමට (උදා: තීරු නාම, දත්ත ප්‍රවාහය), හඳුනාගැනීමේ නිරවද්‍යතාවය සැලකිය යුතු ලෙස වැඩිදියුණු කිරීමට හැකි වී ඇත. අපි පසුව අපගේ යන්ත්‍ර ඉගෙනුම් ගෘහ නිර්මාණ ශිල්පයට ගැඹුරට කිමිදෙමු.

අනාවැකි සේවාව ස්කෑන් කිරීමේ වේලාව සහ තත්වය සම්බන්ධයෙන් පාර-දත්ත සමඟ එක් එක් තීරු සඳහා ප්‍රතිඵල ගබඩා කරයි. මෙම දත්ත මත යැපෙන ඕනෑම පාරිභෝගිකයෙකුට සහ පහළ ක්‍රියාවලීන්ට එය දිනපතා ප්‍රකාශිත දත්ත කට්ටලයෙන් කියවිය හැක. මෙම කට්ටලය මෙම සියලු ස්කෑන් රැකියා හෝ තත්‍ය කාලීන දත්ත නාමාවලිය API වල ප්‍රතිඵල එකතු කරයි. ප්‍රකාශිත අනාවැකි යනු පුද්ගලිකත්වය සහ ආරක්ෂක ප්‍රතිපත්ති ස්වයංක්‍රීයව බලාත්මක කිරීම සඳහා පදනම වේ.

අවසාන වශයෙන්, අනාවැකි සේවාව සියලු දත්ත ලියා සියලු අනාවැකි ගබඩා කළ පසු, අපගේ Data Catalog API මඟින් සම්පත සඳහා වන සියලුම දත්ත ආකාරයේ අනාවැකි තත්‍ය කාලීනව ලබා දිය හැක. සෑම දිනකම පද්ධතිය එක් එක් වත්කම් සඳහා නවතම අනාවැකි අඩංගු දත්ත කට්ටලයක් ප්‍රකාශයට පත් කරයි.

වාෂ්පශීලී දත්ත

ඉහත ක්‍රියාවලිය අඛණ්ඩ වත්කම් සඳහා නිර්මාණය කර ඇති අතර, නොනවතින ගමනාගමනය ද සංවිධානයක දත්තවල කොටසක් ලෙස සලකනු ලබන අතර එය වැදගත් විය හැකිය. මෙම හේතුව නිසා, ඕනෑම අතරමැදි ගමනාගමනය සඳහා තත්‍ය කාලීන වර්ගීකරණ අනාවැකි ජනනය කිරීම සඳහා පද්ධතිය සබැඳි API සපයයි. තත්‍ය කාලීන පුරෝකථන පද්ධතිය පිටතට යන ගමනාගමනය, අභ්‍යන්තර ගමනාගමනය යන්ත්‍ර ඉගෙනුම් ආකෘති සහ දැන්වීම්කරුවන්ගේ දත්ත ලෙස වර්ගීකරණය කිරීමේදී බහුලව භාවිතා වේ.

මෙහිදී API ප්‍රධාන තර්ක දෙකක් ගනී: කණ්ඩායම් යතුර සහ පුරෝකථනය කළ යුතු අමු දත්ත. සේවාව ඉහත විස්තර කර ඇති පරිදි එකම වස්තු ලබා ගැනීම සිදු කරන අතර එකම යතුර සඳහා වස්තු කාණ්ඩ කරයි. මෙම විශේෂාංග අසාර්ථක ප්‍රතිසාධනය සඳහා පවතින ස්ථීර හැඹිලියේ ද සහාය දක්වයි. එක් එක් කණ්ඩායම් යතුර සඳහා, ඉහත විස්තර කර ඇති ක්‍රියාවලිය අනුගමනය කරමින් අනාවැකි සේවාව ඇමතීමට පෙර ප්‍රමාණවත් සාම්පල දැක ඇති බව සේවාව සහතික කරයි.

සුසර කිරීම

සමහර ගබඩා පරිලෝකනය කිරීමට, අපි උණුසුම් ගබඩාවෙන් කියවීම ප්‍රශස්ත කිරීමට පුස්තකාල සහ තාක්ෂණික ක්‍රම භාවිතා කරමු [2] සහ එම ගබඩාවට ප්‍රවේශ වන අනෙකුත් පරිශීලකයින්ගෙන් බාධාවක් නොමැති බව සහතික කරමු.

අතිශය විශාල වගු (50+ පෙටාබයිට්) සඳහා, සියලු ප්‍රශස්තිකරණයන් සහ මතක කාර්යක්ෂමතාව තිබියදීත්, පද්ධතිය මතකය අවසන් වීමට පෙර සියල්ල පරිලෝකනය කර ගණනය කිරීමට ක්‍රියා කරයි. සියල්ලට පසු, ස්කෑන් කිරීම සම්පූර්ණයෙන්ම මතකයේ ගණනය කර ඇති අතර ස්කෑන් කිරීමේදී ගබඩා නොකෙරේ. විශාල වගු වල ව්‍යුහගත නොවූ දත්ත පොකුරු සහිත තීරු දහස් ගණනක් අඩංගු වේ නම්, සම්පූර්ණ වගුවෙහි පුරෝකථනය කිරීමේදී ප්‍රමාණවත් මතක සම්පත් නොමැති වීම හේතුවෙන් කාර්යය අසාර්ථක විය හැක. මෙය ආවරණය අඩු කිරීමට හේතු වනු ඇත. මෙයට එරෙහිව සටන් කිරීම සඳහා, අපි පද්ධතිය වත්මන් කාර්ය භාරය කෙතරම් හොඳින් හසුරුවන්නේද යන්න සඳහා ප්‍රොක්සියක් ලෙස ස්කෑන් වේගය භාවිත කිරීමට පද්ධතිය ප්‍රශස්ත කළෙමු. මතක ගැටළු දැකීමට සහ විශේෂාංග සිතියම පුරෝකථනය කිරීමට අපි අනාවැකි යාන්ත්‍රණයක් ලෙස වේගය භාවිතා කරමු. ඒ අතරම, අපි වෙනදාට වඩා අඩු දත්ත භාවිතා කරමු.

දත්ත සංඥා

වර්ගීකරණ පද්ධතියක් හොඳ වන්නේ දත්ත වලින් ලැබෙන සංඥා පමණි. මෙහිදී අපි වර්ගීකරණ පද්ධතිය භාවිතා කරන සියලුම සංඥා දෙස බලමු.

  • අන්තර්ගතය මත පදනම්ව: ඇත්ත වශයෙන්ම, පළමු සහ වැදගත්ම සංඥාව අන්තර්ගතයයි. අපි දත්ත අන්තර්ගතය මත පදනම්ව ස්කෑන් කර විශේෂාංග උපුටා ගන්නා සෑම දත්ත වත්කම මත Bernoulli නියැදීම සිදු කෙරේ. බොහෝ සංඥා අන්තර්ගතයෙන් පැමිණේ. කිසියම් නියැදි වර්ගයක් කොපමණ වාරයක් දැක තිබේද යන්න ගණනය කිරීම් නියෝජනය කරන ඕනෑම පාවෙන වස්තු සංඛ්‍යාවක් හැකි ය. උදාහරණයක් ලෙස, අපට නියැදියක පෙනෙන ඊමේල් සංඛ්‍යාවේ සලකුණු හෝ නියැදියක ඉමෝජි කීයක් දක්නට ලැබේද යන්න පිළිබඳ ලකුණු තිබිය හැකිය. මෙම විශේෂාංග ගණනය කිරීම් විවිධ ස්කෑන් හරහා සාමාන්‍යකරණය කර එකතු කළ හැක.
  • දත්ත ප්‍රභවය: මව් වගුවෙන් අන්තර්ගතය වෙනස් වූ විට උපකාර කළ හැකි වැදගත් සංඥාවක්. පොදු උදාහරණයක් වන්නේ හැෂ් දත්ත ය. ළමා වගුවක දත්ත හෑෂ් කළ විට, එය බොහෝ විට මාපිය වගුවෙන් පැමිණේ, එහිදී එය පැහැදිලිව පවතී. ඇතැම් දත්ත පැහැදිලිව කියවා නොමැති විට හෝ උඩුගං වගුවකින් පරිවර්තනය කළ විට ඒවා වර්ගීකරණය කිරීමට පෙළපත් දත්ත උදවු කරයි.
  • විවරණ: ව්‍යුහගත නොකළ දත්ත හඳුනා ගැනීමට උපකාර වන තවත් උසස් තත්ත්වයේ සංඥාවක්. ඇත්ත වශයෙන්ම, විවිධ දත්ත වත්කම් හරහා උපලක්ෂණ ප්‍රචාරණය කිරීමට අනුසටහන් සහ ප්‍රභව දත්ත එකට ක්‍රියා කළ හැක. විවරණ මගින් ව්‍යුහගත නොකළ දත්තවල මූලාශ්‍රය හඳුනා ගැනීමට උපකාරී වන අතර, පෙළපත් දත්ත ගබඩාව පුරා එම දත්තවල ප්‍රවාහය නිරීක්ෂණය කිරීමට උපකාරී වේ.
  • දත්ත එන්නත් කිරීම යනු දන්නා දත්ත වර්ගවල දන්නා මූලාශ්‍රවලට විශේෂ, කියවිය නොහැකි අක්ෂර හිතාමතාම හඳුන්වා දෙන තාක්‍ෂණයකි. ඉන්පසුව, අපි එකම කියවිය නොහැකි අක්ෂර අනුක්‍රමය සමඟ අන්තර්ගතය පරිලෝකනය කරන විට, එම අන්තර්ගතය එම දන්නා දත්ත වර්ගයෙන් එන බව අපට අනුමාන කළ හැක. මෙය විවරණ වලට සමාන තවත් ගුණාත්මක දත්ත සංඥාවකි. ඇතුළත් කළ දත්ත සොයා ගැනීමට අන්තර්ගතය මත පදනම් වූ අනාවරණය උදවු කරයි.

මිනුම් මිනුම්

වැදගත් අංගයක් වන්නේ ප්‍රමිතික මැනීම සඳහා දැඩි ක්‍රමවේදයකි. වර්ගීකරණ වැඩිදියුණු කිරීමේ පුනරාවර්තනය සඳහා වන ප්‍රධාන මිතික වන්නේ එක් එක් ලේබලයේ නිරවද්‍යතාවය සහ නැවත කැඳවීමයි, F2 ලකුණු වඩාත් වැදගත් වේ.

මෙම ප්‍රමිතික ගණනය කිරීම සඳහා, දත්ත වත්කම් ලේබල් කිරීමේ ස්වාධීන ක්‍රමවේදයක් අවශ්‍ය වන අතර එය පද්ධතියෙන් ස්වාධීන වන නමුත් එය සමඟ සෘජුව සැසඳීම සඳහා භාවිතා කළ හැකිය. අපි Facebook වෙතින් බිම් සත්‍ය එකතු කරන ආකාරය සහ අපගේ වර්ගීකරණ පද්ධතිය පුහුණු කිරීමට එය භාවිතා කරන ආකාරය අපි පහත විස්තර කරමු.

විශ්වසනීය දත්ත එකතු කිරීම

අපි පහත ලැයිස්තුගත කර ඇති සෑම මූලාශ්‍රයකින්ම විශ්වසනීය දත්ත එහිම වගුවකට රැස් කරමු. සෑම වගුවක්ම එම විශේෂිත මූලාශ්‍රයෙන් නවතම නිරීක්ෂණය කළ අගයන් එකතු කිරීම සඳහා වගකිව යුතුය. එක් එක් මූලාශ්‍රය සඳහා නිරීක්ෂණය කරන ලද අගයන් උසස් තත්ත්වයේ සහ නවතම දත්ත වර්ගයේ ලේබල අඩංගු බව සහතික කිරීම සඳහා සෑම මූලාශ්‍රයකම දත්ත තත්ත්ව පරීක්ෂාවන් ඇත.

  • ලොග් වේදිකා වින්‍යාස කිරීම්: කාර්යබහුල වගු වල ඇතැම් ක්ෂේත්‍ර නිශ්චිත වර්ගයක දත්ත වලින් පිරී ඇත. මෙම දත්ත භාවිතය සහ බෙදා හැරීම සත්‍යයේ විශ්වාසනීය මූලාශ්‍රයක් ලෙස ක්‍රියා කරයි.
  • අතින් ලේබල් කිරීම: පද්ධතිය නඩත්තු කරන සංවර්ධකයින් මෙන්ම බාහිර ලේබල් කරන්නන් තීරු ලේබල් කිරීමට පුහුණු කරනු ලැබේ. මෙය සාමාන්‍යයෙන් ගබඩාවේ ඇති සියලු වර්ගවල දත්ත සඳහා හොඳින් ක්‍රියා කරන අතර පණිවිඩ දත්ත හෝ පරිශීලක අන්තර්ගතය වැනි සමහර ව්‍යුහගත නොවන දත්ත සඳහා සත්‍යයේ මූලික මූලාශ්‍රය විය හැකිය.
  • මාපිය වගු වලින් තීරු නිශ්චිත දත්ත අඩංගු ලෙස සලකුණු කිරීමට හෝ සටහන් කිරීමට හැකි අතර, අපට එම දත්ත ළමා වගු තුළ නිරීක්ෂණය කළ හැක.
  • ක්‍රියාත්මක කිරීමේ නූල් ලබා ගැනීම: Facebook හි ක්‍රියාත්මක කිරීමේ නූල් විශේෂිත දත්ත වර්ග දරයි. අපගේ ස්කෑනරය සේවා ගෘහ නිර්මාණ ශිල්පයක් ලෙස භාවිතා කරමින්, අපට දන්නා දත්ත වර්ග ඇති ප්‍රවාහයන් නියැදිය හැකි අතර ඒවා පද්ධතිය හරහා යැවිය හැක. මෙම දත්ත ගබඩා නොකරන බවට පද්ධතිය පොරොන්දු වේ.
  • නියැදි වගු: සම්පූර්ණ දත්ත සංග්‍රහය අඩංගු බව දන්නා විශාල කාර්යබහුල වගු, පුහුණු දත්ත ලෙස භාවිතා කළ හැකි අතර සේවාවක් ලෙස ස්කෑනරය හරහා ගමන් කළ හැක. මෙය සම්පූර්ණ පරාසයක දත්ත වර්ග සහිත වගු සඳහා විශිෂ්ටයි, එබැවින් තීරුවක් අහඹු ලෙස නියැදීම එම දත්ත වර්ගයේ සම්පූර්ණ කට්ටලයම නියැදීමට සමාන වේ.
  • සින්තටික් දත්ත: අපට පියාසර කරන විට දත්ත උත්පාදනය කරන පුස්තකාල පවා භාවිතා කළ හැක. මෙය ලිපිනයක් හෝ GPS වැනි සරල, පොදු දත්ත වර්ග සඳහා හොඳින් ක්‍රියා කරයි.
  • දත්ත භාරකරුවන්: පුද්ගලිකත්ව වැඩසටහන් සාමාන්‍යයෙන් දත්ත කොටස් වලට ප්‍රතිපත්ති හස්තීයව පැවරීමට දත්ත භාරකරුවන් භාවිතා කරයි. මෙය සත්‍යයේ ඉතා නිවැරදි මූලාශ්‍රයක් ලෙස සේවය කරයි.

අපි සත්‍යයේ සෑම ප්‍රධාන මූලාශ්‍රයක්ම එම දත්ත සියල්ල සමඟ එක් කෝපස් එකකට ඒකාබද්ධ කරමු. වලංගුභාවය සමඟ ඇති ලොකුම අභියෝගය වන්නේ එය දත්ත ගබඩාවේ නියෝජිතයෙකු බවට වග බලා ගැනීමයි. එසේ නොමැති නම්, වර්ගීකරණ එන්ජින් ඉක්මවා යා හැක. මෙයට එරෙහිව සටන් කිරීම සඳහා, ආකෘති පුහුණු කිරීමේදී හෝ ප්‍රමිතික ගණනය කිරීමේදී සමතුලිතතාවය සහතික කිරීම සඳහා ඉහත මූලාශ්‍ර සියල්ලම භාවිතා කරනු ලැබේ. මීට අමතරව, මානව ලේබල් කරන්නන් ගබඩාවේ විවිධ තීරු ඒකාකාරව සාම්පල කර ඒ අනුව දත්ත ලේබල් කරන අතර එමඟින් භූගත සත්‍ය එකතු කිරීම අපක්ෂපාතීව පවතී.

අඛණ්ඩ ඒකාබද්ධතාවය

වේගවත් පුනරාවර්තනය සහ වැඩිදියුණු කිරීම සහතික කිරීම සඳහා, සෑම විටම තත්‍ය කාලීනව පද්ධතියේ ක්‍රියාකාරිත්වය මැනීම වැදගත් වේ. අපට අද පද්ධතියට එරෙහිව සෑම වර්ගීකරණ දියුණුවක්ම මැනිය හැක, එබැවින් අපට දත්ත මත පදනම්ව අනාගත වැඩිදියුණු කිරීම් උපායශීලීව මෙහෙයවිය හැක. වලංගු දත්ත මගින් සපයන ප්‍රතිපෝෂණ පුඩුව පද්ධතිය සම්පූර්ණ කරන්නේ කෙසේදැයි මෙහිදී අපි බලමු.

උපලේඛනගත කිරීමේ පද්ධතිය විශ්වාසදායක මූලාශ්‍රයකින් ලේබලයක් ඇති වත්කමක් හමු වූ විට, අපි කාර්යයන් දෙකක් උපලේඛනගත කරමු. පළමුවැන්න අපගේ නිෂ්පාදන ස්කෑනරය සහ ඒ අනුව අපගේ නිෂ්පාදන හැකියාවන් භාවිතා කරයි. දෙවන කාර්යය නවතම විශේෂාංග සහිත නවතම ගොඩනැගීමේ ස්කෑනරය භාවිතා කරයි. සෑම කාර්යයක්ම එහි ප්‍රතිදානය එහිම වගුවකට ලියයි, වර්ගීකරණ ප්‍රතිඵල සමඟ අනුවාද ටැග් කරයි.

අපි නිකුත් කරන අපේක්ෂකයාගේ වර්ගීකරණ ප්‍රතිඵල සහ නිෂ්පාදන ආකෘතිය තත්‍ය කාලීනව සංසන්දනය කරන්නේ මෙලෙසයි.

දත්ත කට්ටල RC සහ PROD විශේෂාංග සංසන්දනය කරන අතර, අනාවැකි සේවාවේ ML වර්ගීකරණ එන්ජිමෙහි බොහෝ වෙනස්කම් ලොග් වී ඇත. ඉතා මෑතක දී ගොඩනඟන ලද යන්ත්‍ර ඉගෙනුම් ආකෘතිය, නිෂ්පාදනයේ වත්මන් ආකෘතිය සහ ඕනෑම පර්යේෂණාත්මක ආකෘති. එකම ප්‍රවේශය මඟින් අපට ආකෘතියේ විවිධ අනුවාද (අපගේ රීති වර්ගීකරණයට අඥෙය) "පෙති" කිරීමට සහ තථ්‍ය කාලය තුළ ප්‍රමිතික සංසන්දනය කිරීමට ඉඩ සලසයි. මෙය ML අත්හදා බැලීමක් නිෂ්පාදනයට යාමට සූදානම් වන්නේ කවදාද යන්න තීරණය කිරීම පහසු කරයි.

සෑම රාත්‍රියකම, එම දිනය සඳහා ගණනය කරන ලද RC විශේෂාංග ML පුහුණු නල මාර්ගයට යවනු ලැබේ, එහිදී ආකෘතිය නවතම RC විශේෂාංග පිළිබඳව පුහුණු කර එහි ක්‍රියාකාරීත්වය භූ සත්‍ය දත්ත කට්ටලයට එරෙහිව ඇගයීමට ලක් කරයි.

සෑම උදෑසනකම, ආකෘතිය පුහුණුව සම්පූර්ණ කරන අතර ස්වයංක්‍රීයව පර්යේෂණාත්මක ආකෘතියක් ලෙස ප්‍රකාශයට පත් කෙරේ. එය ස්වයංක්‍රීයව පරීක්ෂණ ලැයිස්තුවට ඇතුළත් වේ.

සමහර ප්රතිඵල

විවිධ වර්ගයේ දත්ත 100කට අධික ප්‍රමාණයක් ඉහළ නිරවද්‍යතාවයකින් ලේබල් කර ඇත. ඊමේල් සහ දුරකථන අංක වැනි හොඳින් ව්‍යුහගත වර්ග 2 ට වැඩි f0,95 ලකුණු සමඟ වර්ග කර ඇත. පරිශීලක-උත්පාදිත අන්තර්ගතය සහ නම වැනි නිදහස් දත්ත වර්ග ද ඉතා හොඳින් ක්‍රියා කරයි, F2 ලකුණු 0,85ට වඩා වැඩිය.

ස්ථීර සහ වාෂ්පශීලී දත්තවල තනි තීරු විශාල සංඛ්‍යාවක් සියලුම ගබඩා හරහා දිනපතා වර්ගීකරණය කෙරේ. දත්ත ගබඩා 500කට වඩා වැඩි ප්‍රමාණයක් හරහා දිනකට ටෙරාබයිට් 10කට වඩා ස්කෑන් කරනු ලැබේ. මෙම ගබඩාවලින් බොහොමයක් 98% කට වඩා වැඩි ආවරණයක් ඇත.

කාලයාගේ ඇවෑමෙන්, වර්ගීකරණය ඉතා කාර්යක්ෂම වී ඇත, අඛණ්ඩ නොබැඳි ප්‍රවාහයක වර්ගීකරණ කාර්යයන් සඳහා වත්කමක් පරිලෝකනය කිරීමේ සිට එක් එක් තීරුව සඳහා අනාවැකි ගණනය කිරීම දක්වා සාමාන්‍යයෙන් තත්පර 35ක් ගතවේ.

ආරක්ෂාව සහ පෞද්ගලිකත්වය සඳහා පරිමාණය කළ හැකි දත්ත වර්ගීකරණය
සහල්. 2. RC වස්තූන් උත්පාදනය කර ආකෘතියට යවන ආකාරය අවබෝධ කර ගැනීම සඳහා අඛණ්ඩ ඒකාබද්ධතා ප්රවාහය විස්තර කරන රූප සටහන.

ආරක්ෂාව සහ පෞද්ගලිකත්වය සඳහා පරිමාණය කළ හැකි දත්ත වර්ගීකරණය
රූපය 3. යන්ත්‍ර ඉගෙනුම් සංරචකයක ඉහළ මට්ටමේ රූප සටහන.

යන්ත්‍ර ඉගෙනුම් පද්ධති සංරචකය

පෙර කොටසේදී, අපි සමස්ත පද්ධති ගෘහ නිර්මාණ ශිල්පය, උද්දීපනය කිරීමේ පරිමාණය, ප්‍රශස්තකරණය සහ නොබැඳි සහ සබැඳි දත්ත ප්‍රවාහයන් වෙත ගැඹුරට කිමිදෙමු. මෙම කොටසේදී, අපි අනාවැකි සේවාව දෙස බලා අනාවැකි සේවාව බලගන්වන යන්ත්‍ර ඉගෙනුම් පද්ධතිය විස්තර කරන්නෙමු.

දත්ත වර්ග 100කට අධික සංඛ්‍යාවක් සහ පණිවිඩ දත්ත සහ පරිශීලක අන්තර්ගතයන් වැනි ව්‍යුහගත නොවූ අන්තර්ගතයන් සමඟින්, තනිකරම අතින් හූරිස්ටික් භාවිතා කිරීමෙන් උපපරාමිතික වර්ගීකරණ නිරවද්‍යතාවයක් ඇති කරයි, විශේෂයෙන් ව්‍යුහගත නොකළ දත්ත සඳහා. මේ හේතුව නිසා අපි ව්‍යුහගත නොවූ දත්තවල සංකීර්ණතා සමඟ කටයුතු කිරීමට යන්ත්‍ර ඉගෙනුම් පද්ධතියක් ද සකස් කර ඇත. යන්ත්‍ර ඉගෙනීම භාවිතා කිරීමෙන් ඔබට හස්තීය හූරිස්ටික් වලින් ඉවත් වීමට සහ නිරවද්‍යතාවය වැඩි දියුණු කිරීම සඳහා විශේෂාංග සහ අමතර දත්ත සංඥා (උදාහරණයක් ලෙස, තීරු නම්, දත්ත සම්භවය) සමඟ වැඩ කිරීමට ඉඩ සලසයි.

ක්‍රියාත්මක කරන ලද ආකෘතිය ඝන සහ විරල වස්තූන් මත දෛශික නිරූපණයන් [3] වෙන වෙනම අධ්‍යයනය කරයි. මේවා පසුව දෛශිකයක් සාදයි, එය කණ්ඩායම් සාමාන්‍යකරණය [4] සහ අවසාන ප්‍රතිඵලය නිපදවීමට රේඛීය නොවන පියවර මාලාවක් හරහා ගමන් කරයි. අවසාන ප්‍රතිඵලය වන්නේ එක් එක් ලේබලය සඳහා [0-1] අතර පාවෙන ලක්ෂ්‍ය අංකයකි, උදාහරණය එම සංවේදීතා වර්ගයට අයත් වීමේ සම්භාවිතාව දක්වයි. ආකෘතිය සඳහා PyTorch භාවිතා කිරීම අපට වේගයෙන් ගමන් කිරීමට ඉඩ සලසයි, කණ්ඩායමෙන් පිටත සංවර්ධකයින්ට ඉක්මනින් වෙනස්කම් කිරීමට සහ පරීක්ෂා කිරීමට ඉඩ සලසයි.

ගෘහනිර්මාණ ශිල්පය සැලසුම් කිරීමේදී විරල (උදා පෙළ) සහ ඝන (උදා සංඛ්‍යාත්මක) වස්තු වෙන වෙනම ආදර්ශනය කිරීම වැදගත් වූයේ ඒවායේ ආවේනික වෙනස්කම් නිසාය. අවසාන ගෘහ නිර්මාණ ශිල්පය සඳහා, ඉගෙනීමේ අනුපාතය, කණ්ඩායම් ප්‍රමාණය සහ අනෙකුත් අධි පරාමිතීන් සඳහා ප්‍රශස්ත අගය සොයා ගැනීම සඳහා පරාමිති අතුගා දැමීමක් සිදු කිරීම ද වැදගත් විය. ප්‍රශස්තකරණය තෝරා ගැනීම ද වැදගත් අධි පරාමිතියක් විය. ජනප්‍රිය ප්‍රශස්තකාරකයක් බව අපට හමු විය ආදම්සමග ආකෘතියක් බොහෝ විට, overfiting කිරීමට යොමු කරයි අත්සන් කෙළේ වඩා ස්ථාවර. අපට කෙලින්ම ආකෘතියට ඇතුළත් කළ යුතු අමතර සූක්ෂ්මතා තිබුණි. උදාහරණයක් ලෙස, යම් අංගයකට නිශ්චිත අගයක් ඇති විට ආකෘතිය නිශ්චිත පුරෝකථනයක් කරන බව සහතික කරන ස්ථිතික රීති. මෙම ස්ථිතික රීති අපගේ ගනුදෙනුකරුවන් විසින් අර්ථ දක්වා ඇත. මෙම විශේෂ දාර අවස්ථා හැසිරවීමට පශ්චාත් සැකසුම් පියවරක් ක්‍රියාත්මක කිරීමට ප්‍රතිවිරුද්ධව, ඒවා සෘජුවම ආකෘතියට ඇතුළත් කිරීමෙන් වඩාත් ස්වයං අන්තර්ගත සහ ශක්තිමත් ගෘහනිර්මාණ ශිල්පයක් ඇති වූ බව අපට පෙනී ගියේය. ශ්‍රේණියේ බැසීමේ පුහුණු ක්‍රියාවලියට බාධා නොවන පරිදි පුහුණුව අතරතුර මෙම නීති අක්‍රිය කර ඇති බව ද සලකන්න.

ගැටළු

එක් අභියෝගයක් වූයේ උසස් තත්ත්වයේ, විශ්වාසදායක දත්ත රැස් කිරීමයි. වස්තු සහ ලේබල් අතර සම්බන්ධකම් ඉගෙන ගැනීමට හැකි වන පරිදි ආකෘතියට එක් එක් පන්තිය සඳහා විශ්වාසය අවශ්‍ය වේ. කලින් කොටසේදී, අපි පද්ධති මිනුම් සහ ආදර්ශ පුහුණුව යන දෙකම සඳහා දත්ත රැස් කිරීමේ ක්‍රම සාකච්ඡා කළෙමු. විශ්ලේෂණයෙන් පෙන්නුම් කළේ ක්‍රෙඩිට් කාඩ් සහ බැංකු ගිණුම් අංක වැනි දත්ත පන්ති අපගේ ගබඩාවේ එතරම් සුලභ නොවන බවයි. මෙය ආකෘති පුහුණු කිරීම සඳහා විශ්වාසදායක දත්ත විශාල ප්‍රමාණයක් එකතු කිරීම දුෂ්කර කරයි. මෙම ගැටළුව විසඳීම සඳහා, අපි මෙම පන්ති සඳහා කෘතිම භූ සත්‍ය දත්ත ලබා ගැනීම සඳහා ක්‍රියාවලි සකස් කර ඇත. ඇතුළු සංවේදී වර්ග සඳහා අපි එවැනි දත්ත උත්පාදනය කරමු එස්එස්එන්, ක්රෙඩිට් කාඩ් අංක и IBAN-ආකෘතියට කලින් පුරෝකථනය කළ නොහැකි වූ සංඛ්‍යා. මෙම ප්‍රවේශය සත්‍ය සංවේදී දත්ත සැඟවීම හා සම්බන්ධ රහස්‍යතා අවදානමකින් තොරව සංවේදී දත්ත වර්ග සැකසීමට ඉඩ සලසයි.

මූලික සත්‍ය ගැටළු වලට අමතරව, අප වැඩ කරමින් සිටින විවෘත වාස්තු විද්‍යාත්මක ගැටළු තිබේ හුදකලාව වෙනස් කරන්න и කලින් නැවතුම. ජාලයේ විවිධ කොටස් වලට විවිධ වෙනස්කම් සිදු කරන විට, බලපෑම නිශ්චිත පන්තිවලට හුදකලා වන අතර සමස්ත පුරෝකථන කාර්ය සාධනය කෙරෙහි පුළුල් බලපෑමක් ඇති නොවන බව සහතික කිරීම සඳහා වෙනස් හුදකලා කිරීම වැදගත් වේ. කලින් නැවැත්වීමේ නිර්ණායක වැඩිදියුණු කිරීම ද ඉතා වැදගත් වන අතර එමඟින් සමහර පන්ති ඉක්මවා යන සහ අනෙක් ඒවා නොකරන ස්ථානයකට වඩා සියලුම පන්ති සඳහා ස්ථාවර ස්ථානයක පුහුණු ක්‍රියාවලිය නැවැත්විය හැකිය.

විශේෂාංග වැදගත්කම

නව අංගයක් ආකෘතියකට හඳුන්වා දුන් විට, එහි සමස්ත බලපෑම ආකෘතියට දැන ගැනීමට අපට අවශ්‍යය. එක් එක් දත්ත වර්ග සඳහා භාවිතා කරන විශේෂාංග මොනවාදැයි අපට හරියටම තේරුම් ගත හැකි වන පරිදි අනාවැකි මිනිසුන්ට අර්ථකථනය කළ හැකි බව සහතික කර ගැනීමට ද අපට අවශ්‍යය. මේ සඳහා අපි සංවර්ධනය කර හඳුන්වා දී ඇත පන්තිය අනුව PyTorch ආකෘතිය සඳහා විශේෂාංගවල වැදගත්කම. මෙය සාමාන්‍යයෙන් සහය දක්වන සමස්ත විශේෂාංග වැදගත්කමට වඩා වෙනස් බව සලකන්න, මන්ද එය යම් පන්තියකට වැදගත් වන්නේ කුමන විශේෂාංගදැයි අපට නොකියයි. වස්තුව නැවත සකස් කිරීමෙන් පසු අනාවැකි දෝෂයේ වැඩිවීම ගණනය කිරීමෙන් අපි වස්තුවක වැදගත්කම මනිමු. අගයන් හුවමාරු කිරීමේදී ආකෘතියේ දෝෂය වැඩි වන විට විශේෂාංගයක් "වැදගත්" වේ, මන්ද මෙම අවස්ථාවේ දී ආකෘතිය එහි පුරෝකථනය කිරීමට විශේෂාංගය මත රඳා පැවතුනි. විශේෂාංගයක් “වැදගත් නොවේ” එහි අගයන් මාරු කිරීමේදී ආදර්ශ දෝෂය නොවෙනස්ව තබයි, මන්ද මෙම අවස්ථාවෙහිදී ආකෘතිය එය නොසලකා හැර ඇත [5].

එක් එක් පන්තිය සඳහා විශේෂාංගයේ ඇති වැදගත්කම අපට ලේබලයක් පුරෝකථනය කිරීමේදී ආකෘතිය දෙස බලන ආකාරය බැලීමට හැකි වන පරිදි ආකෘතිය අර්ථ නිරූපණය කිරීමට ඉඩ සලසයි. උදාහරණයක් ලෙස, අපි විශ්ලේෂණය කරන විට ADDR, එවිට අපි ලිපිනයට සම්බන්ධ ලකුණක් වැනි බව සහතික කරමු AddressLinesCount, සෑම පන්තියක් සඳහාම විශේෂාංග වැදගත්කම වගුවේ ඉහළ ශ්‍රේණිගත කිරීමක් වන අතර එමඟින් අපගේ මානව බුද්ධිය ආකෘතිය ඉගෙන ගත් දේ සමඟ හොඳින් ගැලපේ.

ඇගයීම

සාර්ථකත්වය සඳහා තනි මෙට්රික් නිර්වචනය කිරීම වැදගත් වේ. අපි තෝරා ගත්තා F2 - නැවත කැඳවීම සහ නිරවද්‍යතාවය අතර සමතුලිතතාවය (මතක තබා ගැනීමේ නැඹුරුව තරමක් විශාල වේ). රහස්‍යතා භාවිත නඩුවක් සඳහා නිරවද්‍යතාවයට වඩා නැවත කැඳවීම වැදගත් වන්නේ කණ්ඩායමට කිසිදු සංවේදී දත්තයක් අතපසු නොකිරීමට (සාධාරණ නිරවද්‍යතාවයක් සහතික කරන අතරතුර) ඉතා වැදගත් වන බැවිනි. අපගේ ආකෘතියේ සැබෑ F2 කාර්ය සාධනය ඇගයීම මෙම පත්‍රිකාවේ විෂය පථයෙන් ඔබ්බට ය. කෙසේ වෙතත්, ප්‍රවේශමෙන් සුසර කිරීමෙන් අපට වඩාත් වැදගත් සංවේදී පන්ති සඳහා ඉහළ (0,9+) F2 ලකුණු ලබා ගත හැක.

සම්බන්ධ වැඩ

රටා ගැලපීම, ලේඛන සමානතා සෙවීම සහ විවිධ යන්ත්‍ර ඉගෙනීමේ ක්‍රම (Bayesian, තීරණ ගස්, k-ළඟම අසල්වැසියන් සහ තවත් බොහෝ අය) [6] වැනි විවිධ ක්‍රම භාවිතා කරමින් ව්‍යුහගත නොවන ලේඛන ස්වයංක්‍රීයව වර්ගීකරණය කිරීම සඳහා බොහෝ ඇල්ගොරිතම තිබේ. මේවායින් ඕනෑම එකක් වර්ගීකරණයක කොටසක් ලෙස භාවිතා කළ හැක. කෙසේ වෙතත්, ගැටළුව පරිමාණය වේ. මෙම ලිපියේ වර්ගීකරණ ප්‍රවේශය නම්‍යශීලී බව සහ කාර්ය සාධනය කෙරෙහි පක්ෂග්‍රාහී වේ. මෙය අපට අනාගතයේදී නව පන්ති සඳහා සහය වීමට සහ ප්‍රමාදය අඩු මට්ටමක තබා ගැනීමට ඉඩ සලසයි.

දත්ත ඇඟිලි සලකුණු පිළිබඳ වැඩ ගොඩක් තිබේ. උදාහරණයක් ලෙස, [7] හි කතුවරුන් සංවේදී දත්ත කාන්දුවීම් ග්‍රහණය කර ගැනීමේ ගැටලුව කෙරෙහි අවධානය යොමු කරන විසඳුමක් විස්තර කරන ලදී. යටින් පවතින උපකල්පනය නම්, දත්ත දන්නා සංවේදී දත්ත කට්ටලයක් සමඟ ගැලපෙන පරිදි ඇඟිලි සලකුණු කළ හැකි බවයි. [8] හි කතුවරුන් පෞද්ගලිකත්වය කාන්දු වීම පිළිබඳ සමාන ගැටලුවක් විස්තර කරයි, නමුත් ඔවුන්ගේ විසඳුම විශේෂිත ඇන්ඩ්‍රොයිඩ් ගෘහ නිර්මාණ ශිල්පයක් මත පදනම් වී ඇති අතර පරිශීලක ක්‍රියාවන්හි ප්‍රතිඵලයක් ලෙස පුද්ගලික තොරතුරු හුවමාරු වුවහොත් හෝ යටින් පවතින යෙදුම පරිශීලක දත්ත කාන්දු වුවහොත් පමණක් වර්ගීකරණය කෙරේ. පරිශීලක දත්ත ද ඉතා ව්‍යුහගත නොවිය හැකි බැවින් මෙහි තත්ත්වය තරමක් වෙනස් ය. එමනිසා, ඇඟිලි සලකුණු වලට වඩා සංකීර්ණ තාක්ෂණයක් අපට අවශ්ය වේ.

අවසාන වශයෙන්, සමහර සංවේදී දත්ත වර්ග සඳහා දත්ත හිඟය සමඟ කටයුතු කිරීම සඳහා, අපි කෘතිම දත්ත හඳුන්වා දුන්නෙමු. දත්ත වැඩි කිරීම පිළිබඳ විශාල සාහිත්‍යයක් ඇත, නිදසුනක් වශයෙන්, [9] හි කතුවරුන් පුහුණුව අතරතුර ශබ්දය එන්නත් කිරීමේ කාර්යභාරය ගවේෂණය කළ අතර අධීක්ෂණය කරන ලද ඉගෙනීමේ ධනාත්මක ප්‍රතිඵල නිරීක්ෂණය කළහ. ඝෝෂාකාරී දත්ත හඳුන්වා දීම ප්‍රතිපලදායක විය හැකි නිසා පුද්ගලිකත්වය සඳහා අපගේ ප්‍රවේශය වෙනස් වන අතර ඒ වෙනුවට අපි උසස් තත්ත්වයේ කෘතිම දත්ත කෙරෙහි අවධානය යොමු කරමු.

නිගමනය

මෙම ලිපියෙන් අපි දත්ත කැබැල්ලක් වර්ගීකරණය කළ හැකි පද්ධතියක් ඉදිරිපත් කළෙමු. පුද්ගලිකත්වය සහ ආරක්ෂක ප්‍රතිපත්ති බලාත්මක කිරීම සඳහා පද්ධති නිර්මාණය කිරීමට මෙය අපට ඉඩ සලසයි. පරිමාණය කළ හැකි යටිතල පහසුකම්, අඛණ්ඩ ඒකාබද්ධ කිරීම, යන්ත්‍ර ඉගෙනීම සහ උසස් තත්ත්වයේ දත්ත සහතික කිරීම අපගේ බොහෝ පෞද්ගලිකත්ව මුලපිරීම්වල සාර්ථකත්වය සඳහා ප්‍රධාන භූමිකාවක් ඉටු කරන බව අපි පෙන්වා දී ඇත්තෙමු.

අනාගත වැඩ සඳහා බොහෝ දිශාවන් තිබේ. ක්‍රමලේඛනය නොකළ දත්ත (ගොනු) සඳහා සහය සැපයීම, දත්ත වර්ගය පමණක් නොව සංවේදීතා මට්ටම වර්ගීකරණය කිරීම සහ නිවැරදි කෘතිම උදාහරණ උත්පාදනය කිරීම මගින් පුහුණුව අතරතුර ස්වයං-අධීක්‍ෂණය කළ ඉගෙනීම භාවිතා කිරීම මෙයට ඇතුළත් විය හැකිය. එමඟින්, ආකෘතියට විශාලතම පාඩුව අඩු කිරීමට උපකාරී වේ. අනාගත වැඩ කටයුතුවලට විමර්ශන කාර්ය ප්‍රවාහය කෙරෙහි ද අවධානය යොමු කළ හැකි අතර, එහිදී අපි හඳුනාගැනීමෙන් ඔබ්බට ගොස් විවිධ රහස්‍යතා උල්ලංඝනය කිරීම් පිළිබඳ මූලික හේතු විශ්ලේෂණය සපයන්නෙමු. මෙය සංවේදීතා විශ්ලේෂණය (එනම් දත්ත වර්ගයක රහස්‍යතා සංවේදිතාව ඉහළද (උදා. පරිශීලක IP) හෝ අඩු (උදා. Facebook අභ්‍යන්තර IP) වැනි අවස්ථා වලදී උපකාර වනු ඇත.

ග්රන්ථ නාමාවලිය

  1. ඩේවිඩ් බෙන්-ඩේවිඩ්, ටමර් ඩොමනි සහ අබිගායිල් ටරෙම්. අර්ථකථන වෙබ් තාක්ෂණය භාවිතයෙන් ව්‍යවසාය දත්ත වර්ගීකරණය. Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks සහ Birte Glimm, සංස්කාරකවරුන්, අර්ථකථන වෙබ් - ISWC 2010, පිටු 66-81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang, සහ Sanjeev Kumar. f4: Facebook හි උණුසුම් BLOB ගබඩා පද්ධතිය. තුල මෙහෙයුම් පද්ධති සැලසුම් කිරීම සහ ක්‍රියාත්මක කිරීම පිළිබඳ 11 වැනි USENIX සම්මන්ත්‍රණය (OSDI 14), පිටු 383–398, Broomfield, CO, ඔක්තෝබර් 2014. USENIX සංගමය.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado සහ Jeff Dean. බෙදා හරින ලද වචන සහ වාක්‍ය ඛණ්ඩ සහ ඒවායේ සංයුතිය. C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani සහ K. Q. Weinberger, සංස්කාරකවරුන්, ස්නායුක තොරතුරු සැකසුම් පද්ධතිවල දියුණුව 26, පිටු 3111-3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe සහ Christian Szegedy. කණ්ඩායම් සාමාන්‍යකරණය: අභ්‍යන්තර covariate මාරුව අඩු කිරීමෙන් ගැඹුරු ජාල පුහුණුව වේගවත් කිරීම. Francis Bach සහ David Blei, සංස්කාරකවරුන්, යන්ත්‍ර ඉගෙනීම පිළිබඳ 32 වැනි ජාත්‍යන්තර සමුළුවේ ක්‍රියාදාමයන්, වෙළුම 37 හි යන්ත්‍ර ඉගෙනුම් පර්යේෂණ කටයුතු, පිටු 448–456, ලිල්, ප්‍රංශය, 07 ජූලි 09–2015. PMLR.
  5. ලියෝ බ්‍රේමන්. අහඹු වනාන්තර. මැක් ඉගෙන ගන්න., 45(1):5–32, ඔක්තෝබර් 2001.
  6. Thair Nu Phyu. දත්ත කැණීමේ දී වර්ගීකරණ ශිල්පීය ක්‍රම පිළිබඳ සමීක්ෂණය.
  7. X. Shu, D. Yao සහ E. Bertino. රහස්‍යභාවය සුරකින සංවේදී දත්ත නිරාවරණය හඳුනා ගැනීම. තොරතුරු අධිකරණ වෛද්‍ය විද්‍යාව සහ ආරක්ෂාව පිළිබඳ IEEE ගනුදෙනු, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning සහ Xiaoyang Wang. ප්‍රකාශකයා: රහස්‍යතා කාන්දුවීම් හඳුනාගැනීම සඳහා android හි සංවේදී දත්ත සම්ප්‍රේෂණය විශ්ලේෂණය කිරීම. පිටු 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, සහ Quoc V. Le. අධීක්ෂණය නොකළ දත්ත වැඩි කිරීම.

ආරක්ෂාව සහ පෞද්ගලිකත්වය සඳහා පරිමාණය කළ හැකි දත්ත වර්ගීකරණය
SkillFactory ඔන්ලයින් පාඨමාලා හැදෑරීමෙන් නිපුණතා සහ වැටුප් අනුව මුල සිටම අපේක්ෂා කරන වෘත්තියක් ලබා ගන්නේ කෙසේද යන්න පිළිබඳ විස්තර සොයා ගන්න:

තවත් පාඨමාලා

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න