په Mail.ru میل کې د ماشین زده کړې عملیات

په Mail.ru میل کې د ماشین زده کړې عملیات

په Highload++ او DataFest Minsk 2019 کې زما د ویناوو پر بنسټ.

نن ورځ د ډیری لپاره، بریښنالیک د آنلاین ژوند یوه مهمه برخه ده. د دې په مرسته، موږ سوداګریز لیکونه ترسره کوو، د مالي، هوټل بکینګ، سپارښتنې او نور ډیر څه پورې اړوند هر ډول مهم معلومات ذخیره کوو. د 2018 په مینځ کې، موږ د بریښنالیک پراختیا لپاره د محصول ستراتیژي جوړه کړه. عصري میل باید څه ډول وي؟

میل باید وي هوښیار، دا د کاروونکو سره مرسته کوي د معلوماتو مخ په زیاتیدونکي حجم کې حرکت وکړي: فلټر ، جوړښت او په خورا مناسب ډول یې چمتو کړئ. هغه باید وي ګټور، تاسو ته اجازه درکوي په خپل میل باکس کې مختلف دندې حل کړئ ، د مثال په توګه ، جریمې تادیه کړئ (یو فعالیت چې له بده مرغه زه یې کاروم). او په ورته وخت کې ، البته ، بریښنالیک باید د معلوماتو محافظت چمتو کړي ، د سپیم قطع کول او د هیک کولو پروړاندې محافظت وکړي ، دا دی. خوندي.

دا سیمې یو شمیر کلیدي ستونزې تعریفوي، چې ډیری یې د ماشین زده کړې په کارولو سره په اغیزمنه توګه حل کیدی شي. دلته د پخوانۍ موجوده ځانګړتیاو مثالونه دي چې د ستراتیژۍ د یوې برخې په توګه رامینځته شوي - د هر لوري لپاره یو.

  • سمارټ ځواب. میل د سمارټ ځواب ځانګړتیا لري. عصبي شبکه د لیک متن تحلیل کوي ، د هغې معنی او هدف پوهیږي ، او په پایله کې د ځواب درې خورا مناسب انتخابونه وړاندیز کوي: مثبت ، منفي او غیر جانبدار. دا د لیکونو ځواب ویلو کې د پام وړ وخت خوندي کولو کې مرسته کوي ، او ډیری وختونه په غیر معیاري او مسخره ډول ځواب ورکوي.
  • د بریښنالیکونو ګروپ کولپه آنلاین پلورنځیو کې امرونو پورې اړوند. موږ ډیری وختونه آنلاین پیرود کوو، او د یوې قاعدې په توګه، پلورنځي کولی شي د هر امر لپاره ډیری بریښنالیکونه واستوي. د مثال په توګه، د AliExpress څخه، ترټولو لوی خدمت، د یو امر لپاره ډیری لیکونه راځي، او موږ محاسبه کړه چې په ټرمینل قضیه کې د دوی شمیره 29 ته رسیږي. له همدې امله، د نوم شوي وجود پیژندنې ماډل په کارولو سره، موږ د امر شمیره استخراج کوو. او د متن څخه نور معلومات او ټول لیکونه په یوه تار کې ګروپ کړئ. موږ د امر په اړه لومړني معلومات په جلا بکس کې هم ښکاره کوو، کوم چې د دې ډول بریښنالیک سره کار کول اسانه کوي.

    په Mail.ru میل کې د ماشین زده کړې عملیات

  • انټيفشینګ. فشینګ په ځانګړي ډول خطرناک جعلي بریښنالیک دی چې په مرسته یې برید کونکي هڅه کوي مالي معلومات ترلاسه کړي (پشمول د کارونکي بانک کارتونه) او ننوتل. دا ډول لیکونه د ریښتیني لیکونو تقلید کوي چې د خدمت لخوا لیږل شوي ، پشمول لید. له همدې امله، د کمپیوټر ویژن په مرسته، موږ د لویو شرکتونو لوګو او د لیکونو ډیزاین سټایل پیژنو (د بیلګې په توګه، Mail.ru، Sber، Alfa) او دا زموږ په سپیم او فشینګ کټګوریو کې د متن او نورو ځانګړتیاوو سره په پام کې نیسو. .

د ماشین زده کړه

په عمومي ډول په بریښنالیک کې د ماشین زده کړې په اړه لږ څه. میل یو ډیر بار شوی سیسټم دی: هره ورځ په اوسط ډول 1,5 ملیارد لیکونه زموږ د سرورونو څخه د 30 ملیون DAU کاروونکو لپاره تیریږي. شاوخوا 30 د ماشین زده کړې سیسټمونه د ټولو اړینو دندو او ځانګړتیاو ملاتړ کوي.

هر لیک د ټول ډلبندۍ پایپ لاین څخه تیریږي. لومړی موږ سپیم پرې کړو او ښه بریښنالیکونه پریږدو. کاروونکي اکثرا د انټي سپیم کار ته پام نه کوي، ځکه چې 95-99٪ سپیم حتی په مناسب فولډر کې پای ته نه رسیږي. د سپیم پیژندنه زموږ د سیسټم خورا مهمه برخه ده، او خورا ستونزمن، ځکه چې د سپیم ضد په ساحه کې د دفاع او برید سیسټمونو ترمنځ دوامداره موافقت شتون لري، کوم چې زموږ د ټیم لپاره دوامداره انجنیري ننګونه وړاندې کوي.

بیا، موږ د خلکو او روبوټونو څخه لیکونه جلا کوو. د خلکو بریښنالیکونه خورا مهم دي ، نو موږ د دوی لپاره د سمارټ ځواب په څیر ځانګړتیاوې چمتو کوو. د روبوټ لیکونه په دوو برخو ویشل شوي دي: لیږد - دا د خدماتو څخه مهم لیکونه دي، د بیلګې په توګه، د پیرود تصدیق یا د هوټل ریزرویشن، مالي او معلوماتي - دا سوداګریز اعلانونه، تخفیفونه دي.

موږ باور لرو چې د لیږد بریښنالیکونه د شخصي لیکونو په اهمیت کې مساوي دي. دوی باید په لاس کې وي، ځکه چې موږ ډیری وختونه د امر یا د هوایی ټکټ ریزرویشن په اړه ژر تر ژره معلومات موندلو ته اړتیا لرو، او موږ د دې لیکونو په لټون کې وخت تیروو. له همدې امله، د اسانتیا لپاره، موږ دوی په اوتومات ډول په شپږو اصلي کټګوریو ویشو: سفر، امرونه، مالیه، ټکټونه، راجسټریشن او په پای کې، جریمې.

د معلوماتو لیکونه ترټولو لوی او شاید لږ مهم ګروپ دی، کوم چې سمدستي ځواب ته اړتیا نلري، ځکه چې د کارونکي په ژوند کې به د پام وړ هیڅ بدلون نه وي که چیرې هغه دا ډول لیک ونه لولي. زموږ په نوي انٹرفیس کې، موږ دوی په دوه برخو ویشو: ټولنیزې شبکې او خبر لیکونه، په دې توګه د انبکس پاکول او یوازې مهم پیغامونه لیدل کیږي.

په Mail.ru میل کې د ماشین زده کړې عملیات

عملیات

د سیسټمونو لوی شمیر په عملیاتو کې د ډیرو ستونزو لامل کیږي. په هرصورت ، ماډلونه د وخت په تیریدو سره خرابیږي ، لکه د کوم سافټویر په څیر: ځانګړتیاوې ماتیږي ، ماشینونه ناکامیږي ، کوډ خرابیږي. سربیره پردې ، ډاټا په دوامداره توګه بدلیږي: نوي اضافه کیږي ، د کارونکي چلند نمونې بدلیږي ، او داسې نور ، نو د مناسب ملاتړ پرته ماډل به د وخت په تیریدو سره خراب او خراب کار وکړي.

موږ باید هیر نکړو چې د ماشین زده کړې ژوره د کاروونکو ژوند ته ننوځي ، څومره چې دوی په اکوسیستم باندې خورا لوی تاثیر لري ، او په پایله کې ، د بازار لوبغاړي ډیر مالي زیانونه یا ګټې ترلاسه کولی شي. له همدې امله ، په ډیریدونکي شمیر برخو کې ، لوبغاړي د ML الګوریتم کار سره تطابق کوي (کلاسیک مثالونه اعلانونه ، لټون او دمخه ذکر شوي انټي سپیم دي).

همچنان ، د ماشین زده کړې دندې ځانګړتیا لري: په سیسټم کې هر ډول ، حتی کوچني ، بدلون کولی شي د ماډل سره ډیر کار رامینځته کړي: د ډیټا سره کار کول ، بیا روزنه ، ځای په ځای کول ، چې کولی شي اونۍ یا میاشتې وخت ونیسي. له همدې امله، څومره ګړندی چاپیریال چې ستاسو ماډلونه په کې کار کوي بدلون راولي، د دوی ساتلو لپاره ډیرې هڅې ته اړتیا لري. یو ټیم کولی شي ډیری سیسټمونه رامینځته کړي او د هغې په اړه خوشحاله وي، مګر بیا د هغې په ساتلو کې نږدې ټولې سرچینې مصرفوي، پرته له دې چې کوم نوي کار وکړي. موږ یوځل د انټیسپیم ټیم کې د ورته حالت سره مخ شو. او دوی څرګنده پایله وکړه چې ملاتړ باید اتومات شي.

اتومات

څه شی اتومات کیدی شي؟ تقریبا هرڅه، په حقیقت کې. ما څلور ساحې په ګوته کړې چې د ماشین زده کړې زیربنا تعریفوي:

  • د معلوماتو راټولول
  • اضافي روزنه؛
  • ځای پرځای کول
  • ازموینه او څارنه.

که چیرې چاپیریال بې ثباته وي او په دوامداره توګه بدلون ومومي، نو د ماډل شاوخوا ټوله زیربنا د ماډل په پرتله خورا مهم وي. دا ممکن یو ښه زوړ خطي کټګوري وي، مګر که تاسو دا سمې ځانګړتیاوې وخورئ او د کاروونکو څخه ښه فیډبیک ترلاسه کړئ، دا به د ټولو زنګونو او ویسلونو سره د عصري ماډلونو په پرتله خورا ښه کار وکړي.

د فیډبیک لوپ

دا دوره د معلوماتو راټولول، اضافي روزنه او ګمارنه سره یوځای کوي - په حقیقت کې، د ټول ماډل تازه کولو دورې. ولې دا مهمه ده؟ په بریښنالیک کې د راجسټریشن مهالویش وګورئ:

په Mail.ru میل کې د ماشین زده کړې عملیات

د ماشین زده کړې پراختیا کونکي د بوټ ضد ماډل پلي کړی چې بوټونه په بریښنالیک کې راجسټر کیدو مخه نیسي. ګراف یو ارزښت ته راټیټیږي چیرې چې یوازې اصلي کاروونکي پاتې کیږي. هرڅه عالي دي! مګر څلور ساعته تیریږي، بوټان خپل سکریپټونه ټیکوي، او هرڅه بیرته عادي حالت ته راځي. په دې تطبیق کې، پراختیا کونکي یوه میاشت د ځانګړتیاوو په اضافه کولو او د ماډل بیا روزنې لګولو، مګر سپیمر توانیدلی و چې په څلورو ساعتونو کې تطبیق کړي.

د دې لپاره چې دومره په زړه پورې دردناک نه وي او د هرڅه وروسته بیا ترسره کولو ته اړتیا ونلري، موږ باید په پیل کې فکر وکړو چې د فیډبیک لوپ به څه ډول ښکاري او موږ به څه وکړو که چیرې چاپیریال بدل شي. راځئ چې د معلوماتو راټولولو سره پیل وکړو - دا زموږ د الګوریتم لپاره تیل دی.

د معلوماتو راټولول

دا روښانه ده چې د عصري عصبي شبکو لپاره، څومره چې ډیر معلومات، ښه، او دا په حقیقت کې د محصول کاروونکو لخوا تولید شوي. کاروونکي کولی شي د معلوماتو په نښه کولو سره زموږ سره مرسته وکړي، مګر موږ نشو کولی له دې څخه ناوړه ګټه پورته کړو، ځکه چې په یو وخت کې کاروونکي به ستاسو د ماډلونو بشپړولو څخه ستړي شي او بل محصول ته لاړ شي.

یو له خورا عام غلطیو څخه (دلته زه انډریو این جی ته اشاره کوم) د ازموینې ډیټاسیټ میټریک باندې خورا ډیر تمرکز دی ، او نه د کارونکي لخوا فیډبیک باندې ، کوم چې واقعیا د کار کیفیت اصلي اندازه ده ، ځکه چې موږ رامینځته کوو د کارونکي لپاره محصول. که چیرې کاروونکي نه پوهیږي یا د ماډل کار نه خوښوي، نو هرڅه خراب شوي.

له همدې امله، کاروونکي باید تل د رایې ورکولو وړ وي او باید د فیډبیک لپاره وسیله ورکړل شي. که موږ فکر وکړو چې د مالیې پورې اړوند یو لیک په میل باکس کې راغلی، موږ باید دا په نښه کړو "مالیات" او یو تڼۍ رسم کړئ چې کاروونکي کولی شي کلیک وکړي او ووایی چې دا مالیه نه ده.

د فیډبیک کیفیت

راځئ چې د کاروونکي فیډبیک کیفیت په اړه وغږیږو. لومړی، تاسو او کاروونکي کولی شي مختلف معنی په یوه مفهوم کې واچوي. د مثال په توګه، تاسو او ستاسو د محصول مدیران فکر کوي چې "مالیات" د بانک څخه لیکونه معنی لري، او کاروونکي فکر کوي چې د هغې د تقاعد په اړه د انا لیک هم مالي ته اشاره کوي. دوهم، داسې کاروونکي شتون لري چې پرته له کوم منطق پرته د بټونو فشارولو سره مینه لري. دریم، کاروونکي ممکن په خپلو پایلو کې ژوره غلطه وي. زموږ د عمل څخه یو څرګند مثال د طبقه بندي پلي کول دي نایجیریا سپیم، د سپیم یو خورا مسخره ډول دی چیرې چې له کارونکي څخه غوښتنه کیږي چې په افریقا کې ناڅاپه موندل شوي لرې خپلوان څخه څو ملیون ډالر واخلي. د دې ډلبندۍ پلي کولو وروسته، موږ په دې بریښنالیکونو کې د "سپیم نه" کلیکونه چیک کړل، او دا معلومه شوه چې د دوی 80٪ جوس نایجیریا سپیم وو، کوم چې دا وړاندیز کوي چې کاروونکي خورا سپک وي.

او راځئ چې دا هیر نکړو چې تڼۍ نه یوازې د خلکو لخوا کلیک کیدی شي ، بلکه د هر ډول بوټو لخوا هم کلیک کیدی شي چې د براوزر ښکارندوی کوي. نو خام نظر د زده کړې لپاره ښه ندی. تاسو د دې معلوماتو سره څه کولی شئ؟

موږ دوه طریقې کاروو:

  • د تړل شوي ML څخه فیډبیک. د مثال په توګه ، موږ د انټي بوټ ضد آنلاین سیسټم لرو ، کوم چې لکه څنګه چې ما وویل ، د محدود شمیر نښو پراساس ګړندي پریکړه کوي. او یو دوهم، سست سیسټم شتون لري چې د واقعیت وروسته کار کوي. دا د کارونکي، د هغه چلند، او نور په اړه ډیر معلومات لري. د پایلې په توګه، ترټولو باخبره پریکړه کیږي؛ په وینا، دا لوړ دقت او بشپړتیا لري. تاسو کولی شئ د دې سیسټمونو په عملیاتو کې توپیر لومړی ته د روزنې معلوماتو په توګه واستوئ. په دې توګه، یو ساده سیسټم به تل هڅه وکړي چې د یو پیچلي سیسټم فعالیت ته نږدې شي.
  • په طبقه بندي کلیک وکړئ. تاسو کولی شئ په ساده ډول د هر کارونکي کلیک طبقه بندي کړئ، د هغې اعتبار او کارونې ارزونه وکړئ. موږ دا د انټي سپیم میل کې ترسره کوو ، د کارونکي ځانګړتیاو په کارولو سره ، د هغه تاریخ ، د لیږونکي ځانګړتیاوې ، پخپله متن او د کټګوریو پایله. د پایلې په توګه، موږ یو اتوماتیک سیسټم ترلاسه کوو چې د کاروونکي فیډبیک تاییدوي. او له هغه ځایه چې دا باید ډیر لږ ځله وروزل شي، د دې کار کولی شي د نورو ټولو سیسټمونو اساس شي. په دې ماډل کې اصلي لومړیتوب دقیقیت دی، ځکه چې د ناسم معلوماتو په اړه د ماډل روزنه د پایلو سره ډکه ده.

پداسې حال کې چې موږ ډیټا پاکوو او زموږ د ML سیسټمونو ته روزنه ورکوو، موږ باید د کاروونکو په اړه هیر نکړو، ځکه چې زموږ لپاره، په ګراف کې زرګونه، ملیونونه غلطۍ احصایې دي، او د کاروونکي لپاره، هر بګ یوه تراژیدي ده. د دې حقیقت سربیره چې کارونکي باید یو څه په محصول کې ستاسو د غلطۍ سره ژوند وکړي ، د فیډبیک ترلاسه کولو وروسته ، هغه تمه لري چې په راتلونکي کې به ورته وضعیت له مینځه ویسي. له همدې امله ، دا تل د ارزښت وړ دی چې کاروونکو ته نه یوازې د رایې ورکولو فرصت ورکړئ ، بلکه د ML سیسټمونو چلند سمولو لپاره هم ، رامینځته کول ، د مثال په توګه ، د هر فیډبیک کلیک لپاره شخصي هوریستیک؛ د میل په حالت کې ، دا د فلټر کولو وړتیا کیدی شي. د دې کارونکي لپاره د لیږونکي او سرلیک لخوا دا ډول لیکونه.

تاسو اړتیا لرئ د ځینې راپورونو یا غوښتنې پراساس په نیمه اتوماتیک یا لارښود حالت کې د ملاتړ لپاره ماډل رامینځته کړئ ترڅو نور کارونکي د ورته ستونزو سره مخ نشي.

د زده کړې لپاره هوریستیک

د دې هیوریسټیک او کرچ سره دوه ستونزې شتون لري. لومړی دا چې د کرچچونو تل مخ په زیاتیدونکي شمیر ساتل ستونزمن دي، د اوږدې مودې لپاره د دوی کیفیت او فعالیت پریږدئ. دویمه ستونزه دا ده چې تېروتنه ممکن مکرر نه وي، او د ماډل نور روزلو لپاره یو څو کلیکونه به کافي نه وي. داسې ښکاري چې دا دوه غیر اړونده اغیزې د پام وړ بې طرفه کیدی شي که چیرې لاندې طریقه پلي شي.

  1. موږ یو لنډمهاله کرچ جوړوو.
  2. موږ له دې څخه ماډل ته ډیټا لیږو ، دا په منظم ډول خپل ځان تازه کوي ، پشمول د ترلاسه شوي معلوماتو په شمول. دلته، البته، دا مهمه ده چې هیوریسټیک لوړ دقت ولري ترڅو د روزنې سیټ کې د معلوماتو کیفیت کم نه کړي.
  3. بیا موږ د کرچ چلولو لپاره څارنه تنظیم کړه، او که د یو څه وخت وروسته کرچ نور کار نه کوي او په بشپړ ډول د ماډل لخوا پوښل شوی وي، نو تاسو کولی شئ په خوندي ډول لرې کړئ. اوس دا امکان نشته چې دا ستونزه بیا پیښ شي.

نو د بیسارۍ اردو خورا ګټوره ده. اصلي خبره دا ده چې د دوی خدمت عاجل دی نه دایمي.

اضافي روزنه

بیا روزنه د کاروونکو یا نورو سیسټمونو څخه د فیډبیک په پایله کې ترلاسه شوي نوي ډیټا اضافه کولو پروسه ده ، او پدې اړه د موجوده ماډل روزنه. د اضافي روزنې سره ډیری ستونزې شتون لري:

  1. ماډل ممکن په ساده ډول د اضافي روزنې ملاتړ ونه کړي، مګر یوازې د سکریچ څخه زده کړه.
  2. د طبیعت په کتاب کې هیڅ ځای نه دی لیکل شوی چې اضافي روزنه به یقینا په تولید کې د کار کیفیت ښه کړي. ډیری وختونه برعکس واقع کیږي، دا دی، یوازې خرابیدل ممکن دي.
  3. بدلونونه د اټکل وړ نه وي. دا یو ډیر فرعي ټکی دی چې موږ د ځان لپاره پیژندلی دی. حتی که په A/B ازموینه کې نوی ماډل د اوسني په پرتله ورته پایلې ښیي، دا پدې معنی ندي چې دا به په ورته ډول کار وکړي. د دوی کار ممکن یوازې په سلو کې توپیر ولري، کوم چې ممکن نوي غلطۍ راوړي یا زاړه بیرته راولي چې مخکې سم شوي. دواړه موږ او کاروونکي لا دمخه پوهیږو چې څنګه د اوسني غلطیتونو سره ژوند وکړو، او کله چې لوی شمیر نوي غلطۍ رامینځته کیږي، نو کاروونکي ممکن نه پوهیږي چې څه پیښیږي، ځکه چې هغه د اټکل وړ چلند تمه لري.

له همدې امله، په اضافي روزنې کې ترټولو مهم شی دا دی چې ډاډ ترلاسه شي چې ماډل ښه شوی، یا لږترلږه خراب شوی.

لومړی شی چې ذهن ته راځي کله چې موږ د اضافي روزنې په اړه خبرې کوو د فعال زده کړې طریقه ده. دا څه مانا لري؟ د مثال په توګه، کټګوري ټاکي چې ایا بریښنالیک د مالیې سره تړاو لري، او د هغې د پریکړې حد په شاوخوا کې موږ د لیبل شوي مثالونو نمونه اضافه کوو. دا ښه کار کوي، د بیلګې په توګه، په اعلاناتو کې، چیرې چې ډیری فیډبیک شتون لري او تاسو کولی شئ ماډل آنلاین وروزو. او که لږ غبرګون شتون ولري، نو بیا موږ د تولید ډیټا ویشلو په اړه خورا متعصبه نمونه ترلاسه کوو، د کوم پر بنسټ چې د عملیاتو په جریان کې د ماډل چلند ارزول ناممکن دي.

په Mail.ru میل کې د ماشین زده کړې عملیات

په حقیقت کې، زموږ هدف دا دی چې زاړه نمونې، دمخه پیژندل شوي ماډلونه وساتئ، او نوي ترلاسه کړئ. دوام دلته مهم دی. ماډل، کوم چې موږ ډیری وختونه د راوتلو لپاره لوی دردونه اخیستي، لا دمخه کار کوي، نو موږ کولی شو د هغې په فعالیت تمرکز وکړو.

په میل کې مختلف ماډلونه کارول کیږي: ونې، خطي، عصبي شبکې. د هر یو لپاره موږ خپل اضافي روزنې الګوریتم جوړوو. د اضافي روزنې په بهیر کې، موږ نه یوازې نوي معلومات ترلاسه کوو، بلکې ډیری وختونه نوي ځانګړتیاوې هم ترلاسه کوو، کوم چې موږ به په لاندې ټولو الګوریتمونو کې په پام کې ونیسو.

خطي موډلونه

راځئ چې ووایو موږ لوژیستیکي ریګریشن لرو. موږ د لاندې اجزاوو څخه د تاوان ماډل جوړوو:

  • په نوي معلوماتو کې LogLoss؛
  • موږ د نوي ځانګړتیاوو وزنونه منظم کوو (موږ زاړه ته لاس نه ورکوو)؛
  • موږ د زړو معلوماتو څخه هم زده کوو ترڅو زاړه نمونې وساتي؛
  • او، شاید، ترټولو مهم شی: موږ د هارمونیک منظم کول اضافه کوو، کوم چې تضمین کوي ​​​​چې وزن به د نورم سره سم د زاړه ماډل په پرتله ډیر بدلون ونلري.

څرنګه چې د ضایعاتو هره برخه ضمیمه لري، موږ کولی شو د کراس تایید له لارې یا د محصول اړتیاو پراساس زموږ د دندې لپاره غوره ارزښتونه وټاکو.

په Mail.ru میل کې د ماشین زده کړې عملیات

ونې

راځئ چې د پریکړې ونې ته لاړ شو. موږ د ونو د اضافي روزنې لپاره لاندې الګوریتم ترتیب کړی دی:

  1. تولید د 100-300 ونو ځنګل چلوي، کوم چې د زاړه ډاټا سیټ په اساس روزل کیږي.
  2. په پای کې موږ M = 5 ټوټې لرې کوو او 2M = 10 نوي اضافه کوو، په ټول ډیټا سیټ کې روزل شوي، مګر د نوي ډیټا لپاره د لوړ وزن سره، کوم چې په طبیعي توګه په ماډل کې د زیاتیدونکي بدلون تضمین کوي.

په ښکاره ډول، د وخت په تیریدو سره، د ونو شمیر خورا زیاتیږي، او دوی باید د وخت سره سم د وخت سره سم کم شي. د دې کولو لپاره، موږ اوس هر ځای د پوهې تحلیل (KD) کاروو. په لنډه توګه د عملیاتو د اصولو په اړه.

  1. موږ اوسنی "پیچلی" ماډل لرو. موږ دا د روزنې ډیټا سیټ کې پرمخ وړو او په محصول کې د ټولګي احتمالي توزیع ترلاسه کوو.
  2. بیا، موږ د زده کونکي ماډل (په دې قضیه کې د لږو ونو سره ماډل) روزو ترڅو د هدف متغیر په توګه د ټولګي ویش په کارولو سره د ماډل پایلې تکرار کړي.
  3. دا مهمه ده چې دلته یادونه وکړو چې موږ په هیڅ ډول د ډیټا سیټ مارک اپ نه کاروو، او له همدې امله موږ کولی شو خپل سري ډاټا وکاروو. البته، موږ د زده کونکي ماډل لپاره د روزنې نمونې په توګه د جنګي جریان څخه د معلوماتو نمونه کاروو. په دې توګه، د روزنې سیټ موږ ته اجازه راکوي چې د ماډل دقت ډاډمن کړو، او د جریان نمونه د تولید ویش کې ورته فعالیت تضمینوي، د روزنې سیټ تعصب ته تاوان ورکوي.

په Mail.ru میل کې د ماشین زده کړې عملیات

د دې دوه تخنیکونو ترکیب (د ونو اضافه کول او په دوره توګه د پوهې تحلیل په کارولو سره د دوی شمیر کمول) د نوي نمونو معرفي کول او بشپړ دوام تضمینوي.

د KD په مرسته، موږ د ماډل ځانګړتیاو په اړه مختلف عملیات هم ترسره کوو، لکه د ځانګړتیاوو لرې کول او په تشو کار کول. زموږ په قضیه کې، موږ یو شمیر مهم احصایوي ځانګړتیاوې لرو (د لیږونکو لخوا، د متن هشونو، URLs، او نور) چې په ډیټابیس کې زیرمه شوي، کوم چې د ناکامۍ سره مخ کیږي. ماډل، البته، د پیښو د داسې پرمختګ لپاره چمتو نه دی، ځکه چې د ناکامۍ حالت د روزنې په ترتیب کې نه واقع کیږي. په داسې حاالتو کې، موږ د KD او لوړولو تخنیکونه سره یوځای کوو: کله چې د معلوماتو د برخې لپاره روزنه ورکول کیږي، موږ اړین ځانګړتیاوې لرې یا بیا تنظیم کوو، او موږ اصلي لیبلونه اخلو (د اوسني ماډل پایلې)، او د زده کونکي ماډل زده کوي چې دا ویش تکرار کړي. .

په Mail.ru میل کې د ماشین زده کړې عملیات

موږ ولیدل چې د ماډل ډیر جدي لاسوهنه واقع کیږي، د تار نمونې فیصده ډیره اړینه ده.

د فیچر لیرې کول، ترټولو ساده عملیات، یوازې د جریان کوچنۍ برخې ته اړتیا لري، ځکه چې یوازې یو څو ځانګړتیاوې بدلیږي، او اوسنی ماډل په ورته سیټ کې روزل شوی - توپیر لږترلږه دی. د ماډل ساده کولو لپاره (د ونو شمیر څو څو ځله کمول)، دمخه له 50 څخه تر 50 پورې اړتیا لیدل کیږي. او د مهمو احصایوي ځانګړتیاو له مینځه وړلو لپاره چې د ماډل فعالیت په جدي توګه اغیزه کوي، حتی د کار د کچې د برابرولو لپاره نور جریان ته اړتیا ده. د لیکونو په ټولو ډولونو کې د معافیت مقاومت لرونکي ماډل.

په Mail.ru میل کې د ماشین زده کړې عملیات

چټک متن

راځئ چې فاسټ متن ته لاړ شو. اجازه راکړئ تاسو ته یادونه وکړم چې د یوې کلمې نمایندګي (Embedding) د کلمې د سرایت کولو مجموعه او د هغې ټول لیک N-grams، معمولا ټریګرامونه لري. څرنګه چې کیدای شي ډیری ټریګرامونه شتون ولري، د بالټ هیشینګ کارول کیږي، دا دی، ټول ځای په یو ټاکل شوي هش میپ بدلوي. د پایلې په توګه، د وزن میټرکس د هرې کلمې + بالټ شمیرې د داخلي پرت ابعاد سره ترلاسه کیږي.

د اضافي روزنې سره، نوې نښې څرګندیږي: ټکي او ټریګرامونه. د فیسبوک څخه د معیاري تعقیب روزنې کې هیڅ مهم نه پیښیږي. یوازې زاړه وزنونه د کراس انټروپي سره په نوي ډیټا کې بیا روزل کیږي. په دې توګه، نوې ځانګړتیاوې نه کارول کیږي؛ البته، دا طریقه ټول پورته بیان شوي زیانونه لري چې په تولید کې د ماډل غیر اټکل سره تړاو لري. له همدې امله موږ فاسټ متن یو څه بدل کړ. موږ ټول نوي وزنونه (کلمې او ټریګرامونه) اضافه کوو، ټول میټریکس د کراس انټروپي سره پراخوو او د خطي ماډل سره د انډول په واسطه هارمونیک منظم کول اضافه کوو، کوم چې په زاړه وزن کې د پام وړ بدلون تضمینوي.

په Mail.ru میل کې د ماشین زده کړې عملیات

CNN

قانع کونکي شبکې یو څه ډیر پیچلي دي. که وروستي پرتونه په CNN کې ​​بشپړ شوي وي، نو البته، تاسو کولی شئ د هارمونیک منظم کولو غوښتنه وکړئ او دوام تضمین کړئ. مګر که د ټولې شبکې اضافي روزنې ته اړتیا وي، نو بیا دا ډول منظم کول نور په ټولو پرتونو کې نشي پلي کیدی. په هرصورت، یو اختیار شتون لري چې د درې اړخیز تاوان له لارې بشپړونکي سرایتونه وروزي (اصلي مقاله).

درې ځله تاوان

د مثال په توګه د فشینګ ضد کار کارول، راځئ چې په عمومي شرایطو کې د درې اړخیز ضایع وګورو. موږ خپل لوګو او همدارنګه د نورو شرکتونو لوګو مثبت او منفي مثالونه اخلو. موږ د لومړي تر مینځ فاصله کموو او د دوهم تر مینځ فاصله اعظمي کوو، موږ دا د کوچني تشې سره ترسره کوو ترڅو د ټولګیو لوی جوړښت ډاډمن کړو.

په Mail.ru میل کې د ماشین زده کړې عملیات

که موږ شبکه نوره هم وروزو، نو زموږ د میټریک ځای په بشپړه توګه بدلیږي، او دا د تیر سره په بشپړه توګه مطابقت نلري. دا په هغو ستونزو کې یوه جدي ستونزه ده چې ویکتورونه کاروي. د دې ستونزې په شاوخوا کې د ترلاسه کولو لپاره، موږ به د روزنې په جریان کې په زاړه سرایتونو کې مخلوط کړو.

موږ د روزنې سیټ کې نوي معلومات اضافه کړي او د ماډل دوهم نسخه له سکریچ څخه روزنه کوو. په دویمه مرحله کې، موږ خپل شبکه نوره روزنه ورکوو (Finetuning): لومړی وروستی پرت بشپړ شو، او بیا ټوله شبکه غیر منجمد کیږي. د درې اړخیزو ترکیب کولو په پروسه کې، موږ د روزل شوي ماډل په کارولو سره د سرایتونو یوازې برخه محاسبه کوو، پاتې نور - د زاړه په کارولو سره. په دې توګه، د اضافي روزنې په بهیر کې، موږ د میټریک ځایونو v1 او v2 مطابقت یقیني کوو. د هارمونیک منظم کولو یوه ځانګړې نسخه.

په Mail.ru میل کې د ماشین زده کړې عملیات

ټول معمارۍ

که موږ د مثال په توګه د انټي سپیم کارولو ټول سیسټم په پام کې ونیسو، نو ماډلونه جلا نه دي، مګر په یو بل کې ځړول شوي. موږ عکسونه، متن او نور ځانګړتیاوې اخلو، د CNN او چټک متن په کارولو سره موږ سرایتونه ترلاسه کوو. بیا، طبقه بندي د سرایتونو په سر کې پلي کیږي، کوم چې د مختلفو ټولګیو لپاره نمرې چمتو کوي (د لیکونو ډولونه، سپیم، د لوګو شتون). نښې او نښې لا دمخه د وروستۍ پریکړې لپاره د ونو ځنګل ته ننوځي. په دې سکیم کې انفرادي طبقه بندي دا ممکنه کوي چې د سیسټم پایلې په ښه توګه تشریح کړي او په ځانګړې توګه د ستونزو په صورت کې د اجزاوو بیا رغونه وکړي، د دې پر ځای چې ټول معلومات د پریکړې ونې ته په خام شکل کې تغذیه کړي.

په Mail.ru میل کې د ماشین زده کړې عملیات

د پایلې په توګه، موږ په هره کچه دوام تضمین کوو. په CNN او ګړندۍ متن کې په لاندې کچه کې موږ هارمونیک منظم کول کاروو ، په مینځ کې د کټګوریو لپاره موږ هم د احتمالي توزیع د دوام لپاره هارمونیک منظم کولو او نرخ کیلیبریشن کاروو. ښه، د ونې وده په تدریجي ډول روزل کیږي یا د پوهې تحلیل په کارولو سره.

په عموم کې، د داسې ځړول شوي ماشین زده کړې سیسټم ساتل معمولا یو درد دی، ځکه چې په ټیټه کچه هره برخه پورته ټول سیسټم ته تازه کوي. مګر څنګه چې زموږ په ترتیب کې هره برخه یو څه بدلیږي او د تیر سره مطابقت لري ، نو ټول سیسټم د بشپړ جوړښت بیا روزنې ته اړتیا پرته ټوټه ټوټه تازه کیدی شي ، کوم چې دا اجازه ورکوي پرته له جدي سر څخه ملاتړ وکړي.

ګمارل

موږ د ډیټا راټولولو او د مختلف ډوله ماډلونو اضافي روزنې په اړه بحث کړی ، نو موږ د تولید چاپیریال کې د دوی ګمارلو ته روان یو.

د A/B ازموینه

لکه څنګه چې ما مخکې وویل، د معلوماتو راټولولو په بهیر کې، موږ معمولا یو اړخیزه نمونه ترلاسه کوو، چې له هغې څخه د ماډل تولید فعالیت ارزول ناممکن دي. له همدې امله، کله چې ځای پرځای کول، ماډل باید د پخوانۍ نسخې سره پرتله شي ترڅو پوه شي چې شیان واقعیا څنګه پرمخ ځي، دا د A/B ازموینې ترسره کوي. په حقیقت کې، د چارټونو د راټیټولو او تحلیل کولو پروسه خورا معمول ده او په اسانۍ سره اتومات کیدی شي. موږ خپل ماډلونه په تدریجي ډول 5٪، 30٪، 50٪ او 100٪ کاروونکو ته وړاندې کوو، پداسې حال کې چې د ماډل ځوابونو او د کاروونکو نظرونو په اړه ټول موجود میټریکونه راټولوو. د ځینو جدي بهرنیانو په حالت کې، موږ په اتوماتيک ډول ماډل بیرته راګرځوو، او د نورو قضیو لپاره، د کافي شمیر کاروونکو کلیکونو راټولولو سره، موږ پریکړه کوو چې فیصده زیاته کړو. د پایلې په توګه، موږ نوی ماډل 50٪ کاروونکو ته په بشپړ ډول په اتوماتيک ډول راوړو، او ټول لیدونکو ته به د یو شخص لخوا تصویب شي، که څه هم دا مرحله اتومات کیدی شي.

په هرصورت، د A/B ازموینې پروسه د اصلاح کولو لپاره خونه وړاندې کوي. حقیقت دا دی چې هر ډول A/B ازموینه خورا اوږده ده (زموږ په قضیه کې دا د فیډبیک مقدار پورې اړه لري له 6 څخه تر 24 ساعتونو پورې وخت نیسي) ، کوم چې دا خورا ګران او د محدود سرچینو سره رامینځته کوي. برسېره پردې، د ازموینې لپاره د جریان یوه کافي لوړه سلنه اړینه ده چې د A/B ازموینې ټول وخت ګړندی کړي (په لږه سلنه کې د میټریکونو ارزولو لپاره د احصایوي پلوه د پام وړ نمونې استخدام کولی شي خورا اوږد وخت ونیسي) ، کوم چې رامینځته کوي. د A/B سلاټونو شمیر خورا محدود دی. په ښکاره ډول، موږ اړتیا لرو چې یوازې خورا ژمن ماډلونه وازموئ، کوم چې موږ د اضافي روزنې پروسې په جریان کې ډیر څه ترلاسه کوو.

د دې ستونزې د حل لپاره، موږ یو جلا کټګوري روزلي چې د A/B ازموینې بریالیتوب اټکل کوي. د دې کولو لپاره، موږ د تصمیم نیولو احصایې، دقیقیت، یادول او نور میټریکونه د روزنې سیټ، په ځنډول شوي، او د جریان څخه نمونه د ځانګړتیاوو په توګه اخلو. موږ ماډل هم په تولید کې د اوسني سره پرتله کوو، د هیوریسټیک سره، او د ماډل پیچلتیا په پام کې نیسو. د دې ټولو ځانګړتیاو په کارولو سره، د آزموینې په تاریخ کې روزل شوی کټګوري د کاندید ماډلونه ارزوي، زموږ په قضیه کې دا د ونو ځنګلونه دي، او پریکړه کوي چې کوم یو د A/B ازموینه کې کارول کیږي.

په Mail.ru میل کې د ماشین زده کړې عملیات

د تطبیق په وخت کې، دې طریقې موږ ته اجازه راکړه چې د بریالي A/B ازموینو شمیر څو ځله زیات کړو.

ازموینه او څارنه

ازموینه او څارنه، په عجیب ډول، زموږ روغتیا ته زیان نه رسوي؛ بلکه، دوی دا ښه کوي او موږ له غیر ضروري فشار څخه خلاصوي. ازموینه تاسو ته اجازه درکوي د ناکامۍ مخه ونیسئ، او څارنه تاسو ته اجازه درکوي چې دا په وخت کې کشف کړئ ترڅو په کاروونکو اغیزه کمه کړي.

دلته دا مهمه ده چې پوه شئ چې ژر یا وروسته ستاسو سیسټم به تل تېروتنې وکړي - دا د هر سافټویر د پراختیا دوره له امله ده. د سیسټم پراختیا په پیل کې تل ډیری بګونه شتون لري تر هغه چې هرڅه سم شي او د نوښت اصلي مرحله بشپړه شي. مګر د وخت په تیریدو سره ، انټروپي خپل تاوان اخلي ، او غلطۍ بیا څرګندیږي - د شاوخوا برخو تخریب او په ډیټا کې بدلونونو له امله ، کوم چې ما په پیل کې خبرې وکړې.

دلته غواړم یادونه وکړم چې د ماشین زده کړې هر سیسټم باید د خپل ټول ژوند دوره کې د ګټې له نظره په پام کې ونیول شي. لاندې ګراف یو مثال ښیې چې سیسټم څنګه د نادر ډول سپیم نیولو لپاره کار کوي (په ګراف کې کرښه صفر ته نږدې ده). یوه ورځ، د ناسم زیرمه شوي صفت له امله، هغه لیونۍ شوه. لکه څنګه چې بخت به دا ولري، د غیر معمولي محرکاتو لپاره هیڅ څارنه شتون نلري؛ په پایله کې، سیسټم د پریکړې کولو حد کې "سپیم" فولډر ته په لوی مقدار کې لیکونه خوندي کول پیل کړل. د پایلو د سمولو سره سره، سیسټم مخکې له دې څو څو ځله تېروتنې کړې چې حتی په پنځو کلونو کې به یې پخپله ادا نه کړي. او دا د ماډل د ژوند دورې له نظره یوه بشپړه ناکامي ده.

په Mail.ru میل کې د ماشین زده کړې عملیات

له همدې امله، د څارنې په توګه دومره ساده شی د موډل په ژوند کې کلیدي شي. د معیاري او څرګند میټریکونو سربیره، موږ د ماډل ځوابونو او نمرو ویش، او همدارنګه د کلیدي ځانګړتیاو ارزښتونو ویش په پام کې نیسو. د KL انحراف په کارولو سره، موږ کولی شو اوسنی توزیع له تاریخي سره پرتله کړو یا د A/B ټیسټ ارزښتونه د پاتې جریان سره پرتله کړو، کوم چې موږ ته اجازه راکوي چې په موډل کې ګډوډي په ګوته کړو او په وخت سره بدلونونه بیرته راوباسئ.

په ډیری حاالتو کې، موږ د سیسټمونو لومړنۍ نسخه د ساده هیوریسټیک یا ماډلونو په کارولو سره پیل کوو چې موږ یې په راتلونکي کې د څارنې په توګه کاروو. د مثال په توګه، موږ د ځانګړو آنلاین پلورنځیو لپاره د منظمو په پرتله د NER ماډل څارنه کوو، او که د ډلبندۍ پوښښ د دوی په پرتله راټیټ شي، نو موږ په دلیلونو پوهیږو. د هیوریسټیک بله ګټوره ګټه!

پایلې

راځئ چې بیا د مقالې کلیدي نظرونو ته لاړ شو.

  • فیبډیک. موږ تل د کارونکي په اړه فکر کوو: هغه به څنګه زموږ د غلطیو سره ژوند وکړي، هغه به څنګه د دوی راپور ورکړي. مه هېروئ چې کاروونکي د روزنې ماډلونو لپاره د خالص فیډبیک سرچینه نه ده، او دا باید د معاون ML سیسټمونو په مرسته پاک شي. که چیرې د کارونکي څخه سیګنال راټولول امکان ونلري، نو موږ د فیډبیک بدیل سرچینې په لټه کې یو، د بیلګې په توګه، تړل شوي سیسټمونه.
  • اضافي روزنه. دلته اصلي شی دوام دی، نو موږ د اوسني تولید ماډل تکیه کوو. موږ نوي ماډلونه روزو ترڅو دوی د هارمونیک منظم کولو او ورته چلونو له امله له تیرو څخه ډیر توپیر ونه کړي.
  • ګمارل. د میټریکونو پراساس د اتوماتیک ګمارل د ماډلونو پلي کولو وخت خورا کموي. د احصایو څارنه او د تصمیم نیولو ویش، د کاروونکو څخه د کمښت شمیره ستاسو د آرام خوب او ګټور اونۍ پای لپاره لازمي ده.

ښه، زه امید لرم چې دا تاسو سره ستاسو د ML سیسټمونو ګړندي وده کولو کې مرسته کوي ، دوی ګړندي بازار ته راوړي ، او دوی ډیر باوري او لږ فشار راوړي.

سرچینه: www.habr.com

Add a comment