අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

ආයුබෝවන් සියල්ලටම! මගේ නම සාෂා, මම LoyaltyLab හි CTO සහ සම-නිර්මාතෘ වෙමි. මීට වසර දෙකකට පෙර, මගේ මිතුරන් සහ මම, සියලුම දුප්පත් සිසුන් මෙන්, සවස් වරුවේ නිවස අසල ඇති වෙළඳසැලට බියර් සඳහා ගියෙමු. අපි බියර් සඳහා පැමිණෙන බව දන්නා සිල්ලර වෙළෙන්දා චිප්ස් හෝ රතිඤ්ඤා සඳහා වට්ටමක් ලබා නොදීම ගැන අපි ඉතා කණගාටු වෙමු, මෙය කෙතරම් තර්කානුකූල වුවත්! මෙම තත්වය සිදුවන්නේ මන්දැයි අපට නොතේරුණු අතර අපගේම සමාගමක් නිර්මාණය කිරීමට තීරණය කළා. හොඳයි, ප්‍රසාද දීමනාවක් ලෙස, එම චිප්ස් සඳහාම සෑම සිකුරාදා දිනකම ඔබටම වට්ටම් ලියන්න.

අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

නිෂ්පාදනයේ තාක්‍ෂණික පැත්තේ ඇති ද්‍රව්‍ය සමඟ මම කතා කරන තැනට සෑම දෙයක්ම පැමිණියේය NVIDIA GTC. අපගේ කාර්යය ප්‍රජාව සමඟ බෙදා ගැනීමට අපි සතුටු වෙමු, එබැවින් මම මගේ වාර්තාව ලිපියක ස්වරූපයෙන් පළ කරමි.

හැඳින්වීම

ගමනේ ආරම්භයේ සිටි සියල්ලන් මෙන්, අපි නිර්දේශක පද්ධති සෑදෙන්නේ කෙසේද යන්න පිළිබඳ දළ විශ්ලේෂණයකින් ආරම්භ කළෙමු. පහත දැක්වෙන ආකාරයේ ගෘහ නිර්මාණ ශිල්පය වඩාත් ජනප්රිය විය:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

එය කොටස් දෙකකින් සමන්විත වේ:

  1. සාමාන්‍යයෙන් සහයෝගී වූ සරල සහ වේගවත් ආකෘතියක් මගින් නිර්දේශ සඳහා අපේක්ෂකයින් නියැදීම.
  2. දත්තවල ඇති හැකි සියලුම විශේෂාංග සැලකිල්ලට ගනිමින් වඩාත් සංකීර්ණ සහ මන්දගාමී අන්තර්ගත ආකෘතියක් මගින් අපේක්ෂකයින් ශ්‍රේණිගත කිරීම.

මෙහි සහ පහතින් මම පහත නියමයන් භාවිතා කරමි:

  • නිර්දේශ සඳහා අපේක්ෂකයා / අපේක්ෂකයා - නිෂ්පාදනයේදී නිර්දේශ ලබා ගත හැකි පරිශීලක-නිෂ්පාදන යුගලයක්.
  • අපේක්ෂකයින් නිස්සාරණය / නිස්සාරණය / අපේක්ෂකයින් නිස්සාරණය කිරීමේ ක්රමය — පවතින දත්ත වලින් "නිර්දේශ සඳහා අපේක්ෂකයින්" උපුටා ගැනීම සඳහා ක්‍රියාවලියක් හෝ ක්‍රමයක්.

පළමු පියවරේදී, සහයෝගී පෙරීමේ විවිධ වෙනස්කම් සාමාන්යයෙන් භාවිතා වේ. වඩාත්ම ජනප්රිය - ALS. පුදුමයට කරුණක් නම්, නිර්දේශිත පද්ධති පිළිබඳ බොහෝ ලිපි පළමු අදියරේදී සහයෝගී මාදිලිවල විවිධ වැඩිදියුණු කිරීම් පමණක් හෙළි කරයි, නමුත් කිසිවෙකු වෙනත් නියැදි ක්‍රම ගැන කතා නොකරයි. අප සඳහා, සහයෝගීතා ආකෘති සහ ඒවා සමඟ විවිධ ප්‍රශස්තිකරණයන් පමණක් භාවිතා කිරීමේ ප්‍රවේශය අප බලාපොරොත්තු වූ ගුණාත්මක භාවය සමඟ ක්‍රියා නොකළ නිසා අපි මෙම කොටස පිළිබඳව විශේෂයෙන් පර්යේෂණ හාරා බැලුවෙමු. ඒවගේම අපේ මූලික පදනම වූ ALS වැඩිදියුණු කිරීමට අපට හැකි වූ ආකාරය ලිපිය අවසානයේ මම පෙන්වන්නම්.

මම අපගේ ප්‍රවේශය විස්තර කිරීමට යාමට පෙර, තත්‍ය කාලීන නිර්දේශ සමඟ, මිනිත්තු 30 කට පෙර සිදු වූ දත්ත සලකා බැලීම අපට වැදගත් වන විට, නියම වේලාවට ක්‍රියා කළ හැකි බොහෝ ප්‍රවේශයන් ඇත්ත වශයෙන්ම නොමැති බව සැලකිල්ලට ගැනීම වැදගත්ය. එහෙත්, අපගේ නඩුවේදී, අපි දිනකට එක් වරකට වඩා නිර්දේශ එකතු කළ යුතු අතර, බොහෝ අවස්ථාවලදී - සතියකට වරක්, සංකීර්ණ ආකෘති භාවිතා කිරීමට සහ ගුණාත්මකභාවය ගුණ කිරීමට අපට අවස්ථාව ලබා දෙයි.

අපේක්ෂකයින් උකහා ගැනීමේ කාර්යයේදී ALS පමණක් පෙන්වන ප්‍රමිතික මොනවාද යන්න මූලික වශයෙන් ගනිමු. අප නිරීක්ෂණය කරන ප්‍රධාන ප්‍රමිතික වන්නේ:

  • නිරවද්යතාව - නියැදි අයගෙන් නිවැරදිව තෝරාගත් අපේක්ෂකයින්ගේ අනුපාතය.
  • මතක තබා ගන්න - ඉලක්කගත කාල පරතරය තුළ ඇත්ත වශයෙන්ම සිදු වූ අපේක්ෂකයින්ගේ අනුපාතය.
  • F1-ලකුණු - පෙර ලකුණු දෙක මත ගණනය කරන ලද F-ලකුණු.

අමතර අන්තර්ගත විශේෂාංග සමඟ ශ්‍රේණිය වැඩි කිරීම පුහුණු කිරීමෙන් පසුව අපි අවසාන ආකෘතියේ ප්‍රමිතික දෙස බලමු. ප්‍රධාන මිනුම් 3 ක් ද ඇත:

  • නිරවද්‍යතාවය@5 - එක් එක් පාරිභෝගිකයා සඳහා සම්භාවිතාව අනුව ඉහළ 5 සිට පහරවල සාමාන්‍ය ප්‍රතිශතය.
  • ප්‍රතිචාර-අනුපාත@5 — සාප්පුව වෙත පැමිණීමෙන් ගැනුම්කරුවන් අවම වශයෙන් එක් පුද්ගලික දීමනාවක් මිලදී ගැනීමක් බවට පරිවර්තනය කිරීම (එක් දීමනාවක නිෂ්පාදන 5 ක් අඩංගු වේ).
  • සාමාන්‍ය පරිශීලකයෙකුට roc-auc - මධ්‍යම roc-auc එක් එක් ගැනුම්කරු සඳහා.

මෙම සියලු ප්‍රමිතික මනිනු ලබන බව සැලකිල්ලට ගැනීම වැදගත්ය කාල ශ්‍රේණි හරස් වලංගුකරණය, එනම්, පළමු k සතිවල පුහුණුව සිදු වන අතර, k + 1 සති පරීක්ෂණ දත්ත ලෙස ගනු ලැබේ. මේ අනුව, සෘතුමය උච්චාවචනයන් ආකෘතිවල ගුණාත්මකභාවය පිළිබඳ අර්ථ නිරූපණයට අවම බලපෑමක් ඇති කළේය. තවද, සියලුම ප්‍රස්ථාරවල, abscissa අක්ෂය හරස් වලංගුකරණයේදී සති අංකය දක්වනු ඇත, සහ ordinate අක්ෂය නිශ්චිත මෙට්‍රික් අගය පෙන්වයි. සියලුම ප්‍රස්ථාර එක් සේවාදායකයෙකුගේ ගණුදෙණු දත්ත මත පදනම් වේ, එබැවින් ඒවා අතර සංසන්දනය නිවැරදි වේ.

අපගේ ප්‍රවේශය විස්තර කිරීමට පෙර, අපි මුලින්ම ALS පුහුණු ආකෘතිය වන මූලික රේඛාව දෙස බලමු.
අපේක්ෂක උකහා ගැනීමේ ප්‍රමිතික:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

අවසාන මිනුම්:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

මම ඇල්ගොරිතමවල සියලුම ක්‍රියාත්මක කිරීම් යම් ආකාරයක ව්‍යාපාරික කල්පිතයක් ලෙස සලකමි. මේ අනුව, ඉතා දළ වශයෙන්, ඕනෑම සහයෝගීතා ආකෘතියක්, "මිනිසුන් ඔවුන් වැනි අය මිලදී ගන්නා දේ මිලදී ගැනීමට නැඹුරු වේ" යන උපකල්පනයක් ලෙස සැලකිය හැකිය. මා කී පරිදි, අපි එවැනි අර්ථකථනවලට සීමා නොවූ අතර, නොබැඳි සිල්ලර වෙළඳාමේ දත්ත මත තවමත් සිසිල්ව ක්‍රියා කරන උපකල්පන කිහිපයක් මෙන්න:

  1. ඔබ කලින් මිලදී ගත් දේ.
  2. මම කලින් මිලදී ගත් දේට සමානයි.
  3. දිගු අතීත මිලදී ගැනීමක කාලය.
  4. ප්‍රවර්ගය/වෙළඳ නාමය අනුව ජනප්‍රියයි.
  5. සතියෙන් සතියට විවිධ භාණ්ඩ විකල්ප මිලදී ගැනීම් (Markov chains).
  6. විවිධ මාදිලි (Word2Vec, DSSM, ආදිය) විසින් ගොඩනගා ඇති ලක්ෂණ අනුව, ගැනුම්කරුවන්ට සමාන නිෂ්පාදන.

ඔබ කලින් මිලදී ගත් දේ

සිල්ලර බඩු සිල්ලර වෙළඳාමේ ඉතා හොඳින් ක්‍රියා කරන වඩාත්ම පැහැදිලි හූරිස්ටික්. මෙහිදී අපි ලෝයල්ටි කාඩ්පත් හිමියා පසුගිය K දින (සාමාන්‍යයෙන් සති 1-3) හෝ වසරකට පෙර K දින මිලදී ගත් සියලුම භාණ්ඩ ලබා ගනිමු. මෙම ක්‍රමය පමණක් යෙදීමෙන්, අපි පහත ප්‍රමිතික ලබා ගනිමු:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

අප කාල පරිච්ෙඡ්දය ගත කරන තරමට, අපට මතක තබා ගැනීම සහ නිරවද්‍යතාවය අඩු වන අතර අනෙක් අතට බව මෙහිදී ඉතා පැහැදිලිය. ගනුදෙනුකරුවන් සඳහා සාමාන්යයෙන් වඩා හොඳ ප්රතිඵල "පසුගිය සති 2" ලබා දෙයි.

මම කලින් මිලදී ගත් දේට සමානයි

සිල්ලර බඩු සිල්ලර වෙළඳාම සඳහා “පෙර මිලදී ගත් දේ” හොඳින් ක්‍රියා කිරීම පුදුමයක් නොවේ, නමුත් පරිශීලකයා දැනටමත් මිලදී ගෙන ඇති දෙයින් පමණක් අපේක්ෂකයින් උපුටා ගැනීම එතරම් සිසිල් නොවේ, මන්ද සමහර නව නිෂ්පාදනයක් සමඟ ගැනුම්කරු පුදුම කිරීමට නොහැකි වනු ඇත. එබැවින්, එම සහයෝගීතා ආකෘති භාවිතා කරමින් මෙම හූරිස්ටික් තරමක් වැඩිදියුණු කිරීමට අපි යෝජනා කරමු. ALS පුහුණුව අතරතුර අපට ලැබුණු දෛශික වලින්, පරිශීලකයා දැනටමත් මිලදී ගෙන ඇති දේට සමාන නිෂ්පාදන ඔබට ලබා ගත හැකිය. මෙම අදහස වීඩියෝ අන්තර්ගත නැරඹීමේ සේවාවන්හි "සමාන වීඩියෝ" වලට බෙහෙවින් සමාන ය, නමුත් පරිශීලකයා යම් මොහොතක කන්නේ/මිලදී ගන්නේ කුමක් දැයි අප නොදන්නා බැවින්, අපට සෙවිය හැක්කේ ඔහු දැනටමත් මිල දී ගෙන ඇති දේට සමාන දෙයක් පමණි, විශේෂයෙන්ම අපි දැනටමත් එය ක්‍රියා කරන ආකාරය දන්නා බැවින්. පසුගිය සති 2 තුළ පරිශීලක ගනුදෙනු සඳහා මෙම ක්‍රමය යෙදීමෙන්, අපට පහත ප්‍රමිතික ලැබේ:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

එය k - පසුගිය දින 14 තුළ ගැනුම්කරු විසින් මිලදී ගත් එක් එක් නිෂ්පාදනය සඳහා ලබා ගන්නා සමාන නිෂ්පාදන ගණන.
මෙම ප්‍රවේශය පරිශීලකයාගේ මිලදී ගැනීමේ ඉතිහාසයේ දැනටමත් ඇති දේ කිසිසේත් නිර්දේශ නොකිරීමට තීරණාත්මක වූ සේවාලාභියෙකු සම්බන්ධයෙන් අපට විශේෂයෙන් හොඳින් ක්‍රියාත්මක විය.

දිගු පසුගිය මිලදී ගැනීමේ කාලය

අපි දැනටමත් සොයාගෙන ඇති පරිදි, භාණ්ඩ මිලදී ගැනීමේ ඉහළ සංඛ්යාතය නිසා, පළමු ප්රවේශය අපගේ විශේෂතා සඳහා හොඳින් ක්රියා කරයි. නමුත් රෙදි සෝදන කුඩු / ෂැම්පු / වැනි භාණ්ඩ ගැන කුමක් කිව හැකිද? එනම්, සෑම සතියකට හෝ දෙකකට වරක් අවශ්‍ය නොවන නිෂ්පාදන සහ පෙර ක්‍රම උකහා ගත නොහැකි නිෂ්පාදන සමඟ ය. මෙය පහත අදහස ඇඟවුම් කරයි - නිෂ්පාදිතය වැඩිපුර මිල දී ගත් ගැනුම්කරුවන් සඳහා එක් එක් නිෂ්පාදනයේ මිල දී ගැනීමේ කාලසීමාව සාමාන්‍යයෙන් ගණනය කිරීමට යෝජනා කෙරේ. k වරක්. ඉන්පසු ගැනුම්කරු දැනටමත් අවසන් වී ඇති දේ උපුටා ගන්න. භාණ්ඩ සඳහා ගණනය කරන ලද කාල සීමාවන් ප්‍රමාණවත් බව සඳහා ඇස්වලින් පරීක්ෂා කළ හැකිය:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

නිර්දේශ නිෂ්පාදනයේ පවතින කාල පරතරය තුළ නිෂ්පාදන කාල පරිච්ඡේදයේ අවසානය වැටෙන්නේ දැයි අපි බලා සිටිමු සහ වැටෙන දේ සාම්පල කරන්න. ප්රවේශය මේ ආකාරයෙන් නිරූපණය කළ හැකිය:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

මෙහිදී අපට සලකා බැලිය හැකි ප්‍රධාන අවස්ථා 2 ක් ඇත:

  1. K වාරයකට වඩා අඩුවෙන් භාණ්ඩය මිල දී ගත් පාරිභෝගිකයින් සඳහා නිෂ්පාදන නියැදිය යුතුද යන්න.
  2. නිෂ්පාදන කාල සීමාවේ අවසානය ඉලක්ක කාල පරතරය ආරම්භ වීමට පෙර වැටෙන්නේ නම් එය නියැදිය යුතුද යන්න.

පහත ප්‍රස්ථාරයෙන් දැක්වෙන්නේ එවැනි ක්‍රමයක් විවිධ අධිපරිමාණ සමඟ ලබා ගන්නා ප්‍රතිඵල මොනවාද යන්නයි.
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය
ft - අවම වශයෙන් K (මෙහි K = 5) වාරයක් භාණ්ඩය මිලදී ගත් ගැනුම්කරුවන් පමණක් ගන්න
tm - ඉලක්කගත පරතරයට වැටෙන අපේක්ෂකයින් පමණක් ගන්න

පුදුමයක් නොවේ, හැකි (0, 0) විශාලතම මා මතක් සහ කුඩාම නිරවද්යතාව, මෙම තත්ත්වය යටතේ බොහෝ අපේක්ෂකයින් උපුටා ගන්නා බැවින්. කෙසේ වෙතත්, වඩා අඩුවෙන් යම් නිෂ්පාදනයක් මිල දී ගත් පාරිභෝගිකයින් සඳහා අපි නිෂ්පාදන නියැදි නොකරන විට හොඳම ප්රතිඵල ලබා ගනී k වේලාවන් සහ නිස්සාරණය, වෙනත් දේ අතර, නියමිත කාල සීමාවට පෙර කාල සීමාව අවසන් වන භාණ්ඩ.

ප්‍රවර්ගය අනුව ජනප්‍රියයි

තවත් තරමක් පැහැදිලි අදහසක් වන්නේ විවිධ කාණ්ඩ හෝ වෙළඳ නාම හරහා ජනප්‍රිය නිෂ්පාදන නියැදීමයි. මෙහිදී අපි එක් එක් පාරිභෝගිකයා සඳහා ගණනය කරමු top-k “ප්‍රියතම” ප්‍රවර්ග/සන්නම් සහ එම ප්‍රවර්ගය/සන්නම් වලින් “ජනප්‍රිය” උපුටා ගන්න. අපගේ නඩුවේදී, නිෂ්පාදන මිලදී ගැනීම් ගණන අනුව අපි "ප්රියතම" සහ "ජනප්රිය" නිර්වචනය කරමු. මෙම ප්රවේශයේ අතිරේක වාසියක් වන්නේ සීතල ආරම්භක නඩුවේ එහි යෙදීමයි. එනම්, ඉතා සුළු මිලදී ගැනීම් සිදු කර ඇති හෝ දිගු කලක් ගබඩාවේ නොසිටි හෝ සාමාන්යයෙන් ලෝයල්ටි කාඩ්පතක් පමණක් නිකුත් කර ඇති පාරිභෝගිකයින් සඳහා ය. ඔවුන් සඳහා, පවතින ඉතිහාසයක් ඇති ගැනුම්කරුවන් අතර ජනප්‍රිය භාණ්ඩ විසි කිරීම පහසු සහ හොඳම වේ. ප්‍රමිතික පහත පරිදි වේ:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය
මෙහි "ප්‍රවර්ගය" යන වචනයට පසුව ඇති අංකයෙන් අදහස් වන්නේ කාණ්ඩයේ කැදලි මට්ටමයි.

සාමාන්යයෙන්, පටු කාණ්ඩ වඩා හොඳ ප්රතිඵල ලබා ගැනීම පුදුමයක් නොවේ, ඔවුන් ගැනුම්කරුවන් සඳහා වඩාත් නිවැරදි "ප්රියතම" නිෂ්පාදන ලබා ගනී.

සතියෙන් සතියට විවිධ භාණ්ඩ විකල්ප මිලදී ගැනීම්

නිර්දේශිත පද්ධති පිළිබඳ ලිපිවල මා දැක නැති රසවත් ප්‍රවේශයක් තරමක් සරල වන අතර ඒ සමඟම මාර්කොව් දාමවල සංඛ්‍යානමය ක්‍රමයකි. මෙන්න අපි විවිධ සති 2 ක් ගත කරමු, එවිට එක් එක් පාරිභෝගිකයා සඳහා අපි නිෂ්පාදන යුගල ගොඩනඟමු [සතියේ i මිලදී ගත්තා]-[ජේ සතියේ මිලදී ගත්තා], j > i, සහ මෙතැන් සිට අපි එක් එක් නිෂ්පාදනය සඳහා ලබන සතියේ වෙනත් නිෂ්පාදනයකට මාරු වීමේ සම්භාවිතාව ගණනය කරමු. එනම්, එක් එක් භාණ්ඩ යුගල සඳහා නිෂ්පාදන-නිෂ්පාදනj සොයාගත් යුගලවල ඔවුන්ගේ අංකය ගණන් කර යුගල ගණනින් බෙදන්න නිෂ්පාදන පළමු සතියේ විය. අපේක්ෂකයින් උපුටා ගැනීම සඳහා, අපි ගැණුම්කරුගේ අවසාන චෙක්පත ගෙන ලබා ගනිමු top-k අපට ලැබුණු සංක්‍රාන්ති අනුකෘතියෙන් බොහෝ දුරට ඉඩ ඇති ඊළඟ නිෂ්පාදන. සංක්‍රාන්ති අනුකෘතියක් ගොඩනැගීමේ ක්‍රියාවලිය මේ ආකාරයෙන් පෙනේ:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

සංක්‍රාන්ති සම්භාවිතා අනුකෘතියේ සැබෑ උදාහරණ වලින්, අපි පහත රසවත් සංසිද්ධි දකිමු:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය
පාරිභෝගික හැසිරීම් වලින් හෙළි වන සිත්ගන්නා පරායත්තතා මෙහිදී ඔබට දැකිය හැකිය: නිදසුනක් ලෙස, පැඟිරි පෙම්වතුන් හෝ කිරි වෙළඳ නාමයක්, ඔවුන් බොහෝ විට වෙනත් ස්ථානයකට මාරු වේ. බටර් වැනි ඉහළ පුනරාවර්තන මිලදී ගැනීම් සහිත අයිතම ද මෙහි අවසන් වීම පුදුමයක් නොවේ.

Markov දාම සමඟ ක්‍රමයේ ප්‍රමිතික පහත පරිදි වේ:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය
k - ගැනුම්කරුගේ අවසන් ගනුදෙනුවෙන් මිලදී ගත් එක් එක් අයිතමය සඳහා ලබා ගන්නා නිෂ්පාදන ගණන.
අපට පෙනෙන පරිදි, k=4 සමඟ ඇති වින්‍යාසය හොඳම ප්‍රතිඵලය පෙන්වයි. 4 වන සතියේ ඇති වැඩිවීම නිවාඩු දිනවල සෘතුමය හැසිරීම මගින් පැහැදිලි කළ හැකිය. 

විවිධ ආකෘතීන් විසින් ගොඩනගා ඇති ලක්ෂණ අනුව, ගැනුම්කරුවන්ට සමාන නිෂ්පාදන

එබැවින් අපි වඩාත් දුෂ්කර හා රසවත් කොටස වෙත පැමිණෙමු - විවිධ මාදිලි අනුව ගොඩනගා ඇති ගැනුම්කරුවන්ගේ සහ නිෂ්පාදනවල දෛශිකවල ආසන්නතම අසල්වැසියන් සෙවීම. අපගේ කාර්යයේදී, අපි එවැනි ආකෘති 3 ක් භාවිතා කරමු:

  • ALS
  • Word2Vec (එවැනි කාර්යයන් සඳහා Item2Vec)
  • ඩීඑස්එස්එම්

අපි දැනටමත් ALS සමඟ කටයුතු කර ඇත, එය ඉගෙන ගන්නා ආකාරය ගැන ඔබට කියවිය හැකිය මෙහි. Word2Vec සම්බන්ධයෙන් ගත් කල, අපි ආකෘතියේ සුප්‍රසිද්ධ ක්‍රියාත්මක කිරීම භාවිතා කරමු gensim. පෙළ සමඟ ප්‍රතිසමයෙන්, අපි පිරිනැමීම මිලදී ගැනීමේ කුවිතාන්සියක් ලෙස අර්ථ දක්වමු. මේ අනුව, නිෂ්පාදන දෛශිකය තැනීමේදී, ආදර්ශය කුවිතාන්සියේ නිෂ්පාදිතය සඳහා එහි "සන්දර්භය" පුරෝකථනය කිරීමට ඉගෙන ගනී (රිසිට්පතේ ඉතිරි භාණ්ඩ). ඊ-වාණිජ්‍යය දත්තවල, කුවිතාන්සියක් වෙනුවට ගැනුම්කරුගේ සැසිය භාවිතා කිරීම වඩා හොඳය. ඕසොන්. තවද DSSM විසුරුවා හැරීම වඩාත් සිත්ගන්නා සුළුය. එය මුලින් ලියා ඇත්තේ මයික්‍රොසොෆ්ට් හි කොල්ලන් විසින් සෙවුම් ආකෘතියක් ලෙස ය. ඔබට මෙහි මුල් පර්යේෂණ පත්‍රිකාව කියවිය හැකිය. ආකෘතියේ ගෘහ නිර්මාණ ශිල්පය මේ ආකාරයෙන් පෙනේ:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

එය Q - විමසුම, පරිශීලක සෙවුම් විමසුම, D[i] - ලේඛනය, වෙබ් පිටුව. ආකෘතියේ ආදානය පිළිවෙලින් ඉල්ලීමේ සහ පිටු වල සලකුණු ලබා ගනී. සෑම ආදාන ස්තරයක් සම්පූර්ණයෙන් සම්බන්ධිත ස්තර ගණනාවක් (බහු ස්ථර perceptron) අනුගමනය කරයි. ඊළඟට, ආකෘතියේ අවසාන ස්ථරවල ලබාගත් දෛශික අතර කෝසයින් අවම කිරීමට ආකෘතිය ඉගෙන ගනී.
නිර්දේශ කිරීමේ කාර්යයන් හරියටම එකම ගෘහ නිර්මාණ ශිල්පය භාවිතා කරයි, නමුත් ඉල්ලීමක් වෙනුවට පරිශීලකයෙකු සිටින අතර පිටු වෙනුවට නිෂ්පාදන ඇත. අපගේ නඩුවේදී, මෙම ගෘහ නිර්මාණ ශිල්පය පහත පරිදි පරිවර්තනය වේ:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

දැන්, ප්‍රතිඵල පරීක්ෂා කිරීම සඳහා, අවසාන කරුණ ආවරණය කිරීමට ඉතිරිව ඇත - ALS සහ DSSM වලදී අපි පරිශීලක දෛශික පැහැදිලිව නිර්වචනය කර ඇත්නම්, Word2Vec සම්බන්ධයෙන් අපට ඇත්තේ නිෂ්පාදන දෛශික පමණි. මෙන්න, පරිශීලක දෛශිකයක් තැනීම සඳහා, අපි ප්‍රධාන ප්‍රවේශයන් 3 ක් හඳුනාගෙන ඇත:

  1. දෛශික එකතු කරන්න, එවිට කොසයින් දුර සඳහා අපි සාප්පු ඉතිහාසයේ නිෂ්පාදන සාමාන්‍යකරණය කළ බව පෙනේ.
  2. යම් කාල බරක් සහිත දෛශික සාරාංශය.
  3. TF-IDF සංගුණකය සමඟ බර කිරන භාණ්ඩ.

ගැනුම්කරු දෛශිකයේ රේඛීය බර තැබීමේදී, පරිශීලකයා මාස හයකට පෙර මිලදී ගත් නිෂ්පාදනයට වඩා ඊයේ මිලදී ගත් නිෂ්පාදිතය ඔහුගේ හැසිරීම කෙරෙහි වැඩි බලපෑමක් ඇති කරයි යන උපකල්පනයෙන් අපි ඉදිරියට යමු. එබැවින් අපි 1 සංගුණකය සමඟ ගැනුම්කරුගේ පෙර සතිය සලකා බලමු, සහ ½, ⅓, ආදියෙහි සංගුණක සමඟ ඊළඟට සිදුවූයේ කුමක්ද:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

TF-IDF සංගුණක සඳහා, අපි පෙළ සඳහා TF-IDF හි ඇති දේම කරන්නෙමු, අපි ගැණුම්කරු ලේඛනයක් ලෙස පමණක් සලකමු, සහ රිසිට්පත පිළිවෙලින් පිරිනැමීමක් ලෙස සලකමු, වචනය නිෂ්පාදනයක් වේ. එබැවින් පරිශීලක දෛශිකය දුර්ලභ භාණ්ඩ දෙසට වැඩිපුර මාරු වනු ඇත, සහ ගැනුම්කරුට නිතර හුරුපුරුදු භාණ්ඩ එය බොහෝ වෙනස් නොවේ. ප්රවේශය මේ ආකාරයෙන් නිරූපණය කළ හැකිය:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

දැන් අපි මෙට්රික්ස් බලමු. ALS ප්‍රතිඵල පෙනෙන්නේ මෙයයි:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය
ගැනුම්කරු දෛශිකය ගොඩනැගීමේ විවිධ වෙනස්කම් සහිත Item2Vec විසින් ප්‍රමිතික:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය
මෙම අවස්ථාවෙහිදී, අපගේ මූලික පදනමේ මෙන් හරියටම එකම ආකෘතිය භාවිතා වේ. එකම වෙනස අපි භාවිතා කරන්නේ කුමන kද යන්නයි. සහයෝගීතා ආකෘති පමණක් භාවිතා කිරීම සඳහා, ඔබ එක් එක් පාරිභෝගිකයා සඳහා ආසන්නතම නිෂ්පාදන 50-70 පමණ ගත යුතුය.

සහ DSSM ප්‍රමිතික:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

සියලු ක්රම ඒකාබද්ධ කරන්නේ කෙසේද?

නියමයි, ඔබ කියනවා, නමුත් එතරම් විශාල අපේක්ෂක නිස්සාරණ මෙවලම් සමඟ කුමක් කළ යුතුද? ඔබගේ දත්ත සඳහා ප්‍රශස්ත වින්‍යාසය තෝරා ගන්නේ කෙසේද? මෙන්න අපට ගැටළු කිහිපයක් තිබේ:

  1. එක් එක් ක්‍රමයේ අධිපරිමාණ සඳහා සෙවුම් ඉඩ කෙසේ හෝ සීමා කිරීම අවශ්‍ය වේ. එය ඇත්ත වශයෙන්ම, සෑම තැනකම විවික්ත වේ, නමුත් හැකි ලකුණු සංඛ්යාව ඉතා විශාල වේ.
  2. නිශ්චිත අධිපරාමිතීන් සහිත විශේෂිත ක්‍රමවල කුඩා සීමිත නියැදියක් භාවිතා කරමින් ඔබේ මෙට්‍රික් සඳහා හොඳම වින්‍යාසය තෝරා ගන්නේ කෙසේද?

අපි තවමත් පළමු ප්‍රශ්නයට නිසැකව නිවැරදි පිළිතුරක් සොයාගෙන නැත, එබැවින් අපි පහත සඳහන් දේවලින් ඉදිරියට යමු: එක් එක් ක්‍රමය සඳහා, අප සතුව ඇති දත්තවල සමහර සංඛ්‍යාලේඛන මත පදනම්ව, අධි පරාමිති සෙවුම් ඉඩ සීමාවක් ලියා ඇත. මේ අනුව, මිනිසුන්ගෙන් මිලදී ගැනීම් අතර සාමාන්ය කාලසීමාව දැන ගැනීමෙන්, "දැනටමත් මිලදී ගෙන ඇති දේ" සහ "දිගු අතීත මිලදී ගැනීමේ කාල පරිච්ඡේදය" යන ක්රමය භාවිතා කිරීමට කුමන කාල පරිච්ඡේදයක් සමඟදැයි අපට අනුමාන කළ හැකිය.

අපි විවිධ ක්‍රමවල ප්‍රමාණවත් වෙනස්කම් කිහිපයක් හරහා ගිය පසු, අපි පහත සඳහන් දේ සටහන් කරමු: එක් එක් ක්‍රියාත්මක කිරීම නිශ්චිත අපේක්ෂකයින් සංඛ්‍යාවක් උපුටා ගන්නා අතර අපට ප්‍රධාන වන මෙට්‍රික් (ආමත කර ගැනීම) හි නිශ්චිත අගයක් ඇත. අපට හැකි ඉහළම මෙට්‍රික් සමඟ, අපගේ අවසර ලත් පරිගණක බලය මත පදනම්ව, සම්පූර්ණ වශයෙන් නිශ්චිත අපේක්ෂකයින් සංඛ්‍යාවක් ලබා ගැනීමට අවශ්‍යය. මෙතැනදී ප්‍රශ්නය හොඳින් ගැටගැසෙන ගැට ප්‍රශ්නය දක්වා කඩා වැටේ.
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

මෙහි අපේක්ෂකයින් සංඛ්‍යාව ඉන්ගෝට් එකේ බර වන අතර, නැවත කැඳවීමේ ක්‍රමය එහි අගයයි. කෙසේ වෙතත්, ඇල්ගොරිතම ක්රියාත්මක කිරීමේදී සැලකිල්ලට ගත යුතු තවත් කරුණු 2 ක් ඇත:

  • ඔවුන් පිටතට ඇද ගන්නා අපේක්ෂකයින් තුළ ක්‍රම අතිච්ඡාදනය වී තිබිය හැක.
  • සමහර අවස්ථාවලදී, විවිධ පරාමිතීන් සමඟ එක් ක්රමයක් දෙවරක් ගැනීම නිවැරදි වනු ඇති අතර, පළමු එකේ ප්රතිදානයේ අපේක්ෂකයින් දෙවන එකේ උප කුලකයක් නොවේ.

උදාහරණයක් ලෙස, අපි නිස්සාරණය සඳහා විවිධ කාල අන්තරයන් සමඟ "දැනටමත් මිලදී ගෙන ඇති දේ" ක්‍රමය ක්‍රියාත්මක කරන්නේ නම්, ඔවුන්ගේ අපේක්ෂකයින් කට්ටල එකිනෙක කැදලි වනු ඇත. ඒ අතරම, පිටවීමේ දී "ආවර්තිතා මිලදී ගැනීම්" තුළ විවිධ පරාමිතීන් සම්පූර්ණ ඡේදනය ලබා නොදේ. එබැවින්, අපි විවිධ පරාමිති සහිත නියැදි ක්‍රම බ්ලොක් වලට බෙදන්නෙමු, එවිට එක් එක් බ්ලොක් එකකින් අපට නිශ්චිත අධිපරාමිතීන් සමඟ එක් නිස්සාරණ ප්‍රවේශයක් ගැනීමට අවශ්‍ය වේ. මෙය සිදු කිරීම සඳහා, ඔබ නැප්සැක් ගැටළුව ක්රියාත්මක කිරීමේදී ටිකක් රැවටිය යුතුය, නමුත් අසමමිතිය සහ ප්රතිඵලය මෙයින් වෙනස් නොවේ.

එවැනි දක්ෂ සංයෝජනයක් සරලව සහයෝගීතා ආකෘති සමඟ සැසඳීමේදී පහත සඳහන් මිනුම් ලබා ගැනීමට අපට ඉඩ සලසයි:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය
අවසාන ප්‍රමිතික මත අපි පහත පින්තූරය දකිමු:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

කෙසේ වෙතත්, ව්‍යාපාර සඳහා ප්‍රයෝජනවත් වන නිර්දේශ සඳහා එක් අනාවරණ කරුණක් ඇති බව මෙහිදී ඔබට දැක ගත හැකිය. පරිශීලකයා මිලදී ගන්නා දේ සිසිල්ව පුරෝකථනය කරන්නේ කෙසේදැයි අපි දැන් ඉගෙන ගත්තෙමු, උදාහරණයක් ලෙස, ලබන සතියේ. නමුත් ඔහු කෙසේ හෝ මිලදී ගනු ඇතැයි යන කාරණයට වට්ටමක් ලබා දීම එතරම් සිසිල් නොවේ. නමුත් අපේක්ෂාව උපරිම කිරීම සඳහා එය සිසිල් ය, උදාහරණයක් ලෙස, පහත ප්‍රමිතික:

  1. පුද්ගලික නිර්දේශ මත පදනම්ව ආන්තිකය/පිරිවැටුම.
  2. ගැනුම්කරුවන්ගේ සාමාන්ය චෙක්පත.
  3. සංචාර වාර ගණන.

එබැවින් අපි ලබාගත් සම්භාවිතා විවිධ සංගුණක මගින් ගුණ කර ඒවා නැවත ශ්‍රේණිගත කර ඉහළට ඉහත ප්‍රමිතිකවලට බලපාන නිෂ්පාදන ඇතුළත් වේ. මෙහි සූදානම් කළ විසඳුමක් නොමැත, කුමන ප්රවේශය භාවිතා කිරීමට වඩා හොඳය. අපි පවා නිෂ්පාදනයේ සෘජුවම එවැනි සංගුණක අත්හදා බලමින් සිටිමු. නමුත් බොහෝ විට අපට හොඳම ප්‍රතිඵල ලබා දෙන රසවත් උපක්‍රම කිහිපයක් මෙන්න:

  1. භාණ්ඩයේ මිල/ආන්තිකයෙන් ගුණ කරන්න.
  2. නිෂ්පාදිතය සිදු වන සාමාන්ය චෙක්පතෙන් ගුණ කරන්න. එබැවින් ඔවුන් සාමාන්‍යයෙන් වෙනත් දෙයක් ගන්නා භාණ්ඩ එළියට එනු ඇත.
  3. මෙම නිෂ්පාදනය සඳහා නිතර නිතර ප්‍රතිලාභ ඇති කරයි යන උපකල්පනය මත පදනම්ව, මෙම නිෂ්පාදනයේ ගැනුම්කරුවන්ගේ සාමාන්‍ය චාරිකා සංඛ්‍යාතයෙන් ගුණ කරන්න.

සංගුණක සමඟ අත්හදා බැලීමෙන් පසු, අපට නිෂ්පාදනයේදී පහත මිනුම් ලබා ගත හැකිය:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය
එය සමස්ත නිෂ්පාදන පරිවර්තනය - අප විසින් ජනනය කරන ලද නිර්දේශවල සියලුම නිෂ්පාදන වලින් මිලදී ගත් නිෂ්පාදනවල කොටස.

අවධානයෙන් සිටින පාඨකයෙකු නොබැඳි සහ සබැඳි මිතික අතර සැලකිය යුතු වෙනසක් දකිනු ඇත. ආකෘතිය පුහුණු කිරීමේදී නිර්දේශ කළ හැකි නිෂ්පාදන සඳහා සියලුම ගතික පෙරහන් සැලකිල්ලට ගත නොහැකි බව මෙම හැසිරීම පැහැදිලි කරයි. උකහා ගත් අපේක්ෂකයින්ගෙන් අඩක් පෙරීමට හැකි වූ විට එය අපට සාමාන්‍ය කතාවකි, එවැනි විශේෂත්වයක් අපගේ කර්මාන්තයේ සාමාන්‍ය වේ.

ආදායම අනුව, පහත සඳහන් කථාව ලබා ගනී, නිර්දේශයන් දියත් කිරීමෙන් පසුව, පරීක්ෂණ කණ්ඩායමේ ආදායම දැඩි ලෙස වර්ධනය වන බව පැහැදිලිය, දැන් අපගේ නිර්දේශයන් සමඟ ආදායමේ සාමාන්ය වැඩිවීම 3-4% වේ:
අපි නොබැඳි සිල්ලර වෙළඳාමේ නිර්දේශවල ගුණාත්මකභාවය නාටකාකාර ලෙස වැඩිදියුණු කළ ආකාරය

අවසාන වශයෙන්, මට කියන්නට අවශ්‍ය වන්නේ ඔබට තත්‍ය කාලීන නොවන නිර්දේශ අවශ්‍ය නම්, නිර්දේශ සඳහා අපේක්ෂකයින් උපුටා ගැනීමේ අත්හදා බැලීම් වලදී ගුණාත්මක භාවයේ ඉතා විශාල වැඩි වීමක් දක්නට ලැබෙන බවයි. ඒවා උත්පාදනය කිරීම සඳහා විශාල කාලයක් බොහෝ හොඳ ක්රම ඒකාබද්ධ කිරීමට හැකි වන අතර, සමස්තයක් වශයෙන් ව්යාපාරය සඳහා සිසිල් ප්රතිඵල ලබා දෙනු ඇත.

ද්රව්ය රසවත් යැයි පෙනෙන සෑම කෙනෙකු සමඟම අදහස් දැක්වීමේදී කතා කිරීමට මම සතුටු වෙමි. ඔබට පෞද්ගලිකව මගෙන් ප්‍රශ්න ඇසීමට හැකිය ටෙලිග්රාෆ්. මම AI/startups පිළිබඳ මගේ අදහස් ද මගේ තුළ බෙදා ගනිමි විදුලි පණිවුඩ නාලිකාව - සාදරයෙන් පිළිගනිමු 🙂

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න