څنګه نظرونه خلاص کړئ او په سپیم کې ډوب نه شئ

څنګه نظرونه خلاص کړئ او په سپیم کې ډوب نه شئ

کله چې ستاسو دنده دا وي چې یو څه ښکلي جوړ کړئ، تاسو اړتیا نلرئ په دې اړه ډیرې خبرې وکړئ، ځکه چې پایله د هرچا د سترګو په وړاندې ده. مګر که تاسو د کټارو څخه لیکنې پاکې کړئ، هیڅوک به ستاسو کار ته پام ونه کړي تر هغه چې کټارونه ښه ښکاري یا تر هغه چې تاسو یو څه غلط پاک کړئ.

هر هغه خدمت چې تاسو کولی شئ تبصره پریږدئ، بیاکتنه وکړئ، یو پیغام واستوئ یا عکسونه پورته کړئ ژر یا وروسته د سپیم، درغلۍ او فحشا ستونزې سره مخ دي. د دې څخه مخنیوی نشي کیدی، مګر دا باید ورسره معامله وشي.

زما نوم میخایل دی، زه د انټیسپیم ټیم کې کار کوم، کوم چې د Yandex خدماتو کاروونکي د ورته ستونزو څخه ساتي. زموږ کار په ندرت سره لیدل کیږي (او دا یو ښه شی دی!) ، نو نن به زه تاسو ته د دې په اړه نور څه ووایم. تاسو به زده کړئ کله چې اعتدال بې ګټې وي او ولې دقت د دې اغیزمنتوب یوازینی شاخص ندی. موږ به د پیشوګانو او سپیو د مثال په کارولو سره د قسم خوړلو په اړه هم وغږیږو او ولې دا ځینې وختونه ګټور وي "د قسم خوړلو په څیر فکر وکړئ."

ډیر او ډیر خدمتونه په Yandex کې څرګندیږي چیرې چې کاروونکي خپل مینځپانګې خپروي. تاسو کولی شئ پوښتنه وکړئ یا په Yandex.Q کې ځواب ولیکئ، په Yandex.District کې د انګړ خبرونو په اړه بحث وکړئ، د Yandex.Maps په خبرو اترو کې د ترافیک شرایط شریک کړئ. مګر کله چې د خدماتو لیدونکي وده کوي، دا د سکیمرانو او سپیمرانو لپاره زړه راښکونکي کیږي. دوی راځي او تبصرې ډکوي: دوی اسانه پیسې وړاندیز کوي، معجزه درملنه اعلانوي او د ټولنیزو ګټو ژمنه کوي. د سپیمرونو له امله، ځینې کاروونکي پیسې له لاسه ورکوي، پداسې حال کې چې نور د سپیم سره ډیر شوي په ناپاک خدمت کې د وخت تیرولو لیوالتیا له لاسه ورکوي.

او دا یوازینۍ ستونزه نه ده. موږ هڅه کوو چې نه یوازې د کاروونکو څخه د سکیمرانو ساتنه وکړو، بلکه د اړیکو لپاره د آرامۍ فضا رامنځته کول. که چیرې خلک په تبصرو کې د قسم خوړلو او سپکاوي سره مخ شي ، نو احتمال لري چې پریږدي او هیڅکله بیرته راستون نشي. دا پدې مانا ده چې تاسو هم اړتیا لرئ چې د دې سره معامله وکړئ.

پاک ویب

لکه څنګه چې ډیری وختونه زموږ سره قضیه وي، لومړی پرمختګونه په لټون کې زیږیدلي، په هغه برخه کې چې د لټون پایلو کې سپیم سره مبارزه کوي. شاوخوا لس کاله دمخه، د کورنۍ لټونونو او پوښتنو لپاره چې د 18+ کټګوریو څخه ځوابونو ته اړتیا نلري د بالغ منځپانګې فلټر کولو دنده هلته ښکاره شوه. دا څنګه د فحش او قسم خوړلو لومړي لاسي ټایپ شوي قاموسونه څرګند شول ، دوی د شنونکو لخوا ډک شوي. اصلي دنده دا وه چې غوښتنې په هغو کسانو کې طبقه بندي کړئ چیرې چې د بالغ مینځپانګې ښودلو لپاره د منلو وړ وي او چیرې چې نه وي. د دې کار لپاره، مارک اپ راټول شوی، هوریستیک جوړ شوی، او ماډلونه روزل شوي. دا څنګه د ناغوښتل شوي مینځپانګې فلټر کولو لپاره لومړني پرمختګونه څرګند شول.

د وخت په تیریدو سره، UGC (د کاروونکي تولید شوي منځپانګې) په Yandex کې څرګندیدل پیل کړل - هغه پیغامونه چې پخپله د کاروونکو لخوا لیکل شوي، او Yandex یوازې خپروي. د پورته بیان شوي دلیلونو لپاره، ډیری پیغامونه پرته له کتلو خپاره نشي - اعتدال اړین و. بیا دوی پریکړه وکړه چې یو خدمت رامینځته کړي چې د ټولو Yandex UGC محصولاتو لپاره د سپیم او برید کونکو پروړاندې محافظت چمتو کړي او په لټون کې د ناغوښتل شوي مینځپانګې فلټر کولو لپاره پرمختګونه وکاروي. دا خدمت د "پاک ویب" په نوم یادیږي.

نوې دندې او د فشار کونکو څخه مرسته

په لومړي سر کې، یوازې ساده اتومات زموږ لپاره کار کاوه: خدماتو موږ ته متنونه لیږلي، او موږ د فحش لغتونه، د فحش لغتونه او منظم بیانونه په دوی باندې چلول - شنونکو هر څه په لاسي ډول ترتیب کړل. مګر د وخت په تیریدو سره، خدمت د Yandex محصولاتو په زیاتیدونکي شمیر کې کارول کیده، او موږ باید د نوي ستونزو سره کار کول زده کړل.

ډیری وختونه ، د بیاکتنې پرځای ، کارونکي د لیکونو بې معنی سیټ خپروي ، هڅه کوي خپلې لاسته راوړنې زیاتې کړي ، ځینې وختونه دوی د سیالي کونکي شرکت په بیاکتنو کې خپل شرکت اعلانوي ، او ځینې وختونه دوی په ساده ډول سازمانونه مغشوشوي او د پالتو پلورنځي په اړه بیاکتنه کې لیکي: " په سمه توګه پخه شوې کب! شاید یوه ورځ مصنوعي هوښیارتیا به د هر متن معنی په بشپړ ډول درک کولو زده کړي ، مګر اوس اتوماتیک ځینې وختونه د انسانانو په پرتله خورا بد چلند کوي.

دا څرګنده شوه چې موږ دا د لاسي نښه کولو پرته نشو کولی، او موږ خپل سرکټ ته دویمه مرحله اضافه کړه - دا د یو شخص لخوا د لاسي تفتیش لپاره لیږل. هغه خپاره شوي متنونه چې د ډلبندۍ لپاره یې کومه ستونزه نه لیدله هلته شامل شوي. تاسو کولی شئ په اسانۍ سره د داسې یوې دندې اندازه تصور کړئ، نو موږ نه یوازې په ارزونکو تکیه وکړه، بلکې د "د ګڼې ګوڼې" څخه هم ګټه پورته کړه، دا چې موږ د مرستې لپاره مخاطبینو ته مخه کړه. دوی هغه څوک دي چې موږ سره مرسته کوي په ګوته کړي چې ماشین څه له لاسه ورکړی، او په دې توګه یې درس ورکوي.

سمارټ کیچنګ او LSH هیشینګ

بله ستونزه چې موږ ورسره مخ شو کله چې د نظرونو سره کار کول سپیم وو، یا په سمه توګه، د هغې حجم او د خپریدو سرعت. کله چې د Yandex.Region لیدونکو په چټکۍ سره وده پیل کړه، سپیمر هلته راغلل. دوی زده کړل چې د متن په لږ څه بدلولو سره منظم بیانونه پریږدي. سپیم، البته، لاهم موندل شوی او حذف شوی، مګر د Yandex په پیمانه، د نه منلو وړ پیغام حتی د 5 دقیقو لپاره پوسټ شوی د سلګونو خلکو لخوا لیدل کیدی شي.

څنګه نظرونه خلاص کړئ او په سپیم کې ډوب نه شئ

البته ، دا زموږ سره مناسب نه و ، او موږ د LSH پراساس سمارټ متن کیچ کول (د سیمه ایز حساس هیشینګ). دا د دې په څیر کار کوي: موږ متن نورمال کړ ، له هغې څخه لینکونه لرې کړل او په n-ګرامونو (د لیکونو ترتیب) کې یې پرې کړل. بیا، د n-ګرامو چرس محاسبه شوي، او د سند LSH ویکتور له دوی څخه جوړ شوی. ټکی دا دی چې ورته متنونه، حتی که لږ څه بدل شوي وي، په ورته ویکتورونو بدل شوي.

دې حل دا ممکنه کړه چې د ورته متنونو لپاره د طبقه بندی کونکو او تولوکرانو قضاوت بیا وکارول شي. د سپیم برید په جریان کې ، هرڅومره ژر چې لومړی پیغام سکین تیر شو او د "سپیم" پریکړې سره کیچ ته ننوتل ، ټول ورته ورته پیغامونه ، حتی تعدیل شوي ، ورته پریکړه ترلاسه کړه او په اوتومات ډول حذف شوي. وروسته، موږ زده کړل چې څنګه د سپیم کټګوریو روزنه او په اتوماتيک ډول بیرته راګرځول، مګر دا "سمارټ کیچ" زموږ سره پاتې شو او لاهم ډیری وختونه زموږ سره مرسته کوي.

ښه متن طبقه بندي

پرته له دې چې د سپیم سره د مبارزې څخه د وقفې اخیستلو لپاره وخت ولرو، موږ پوهیږو چې زموږ 95٪ محتويات په لاسي ډول تنظیم شوي: طبقه بندي یوازې د سرغړونو په وړاندې غبرګون کوي، او ډیری متنونه ښه دي. موږ پاکوونکي بار کوو چې له 95 څخه په 100 قضیو کې د "هرڅه سم دي" درجه ورکوي. زه باید یو غیر معمولي دنده ترسره کړم - د ښه مینځپانګې ډلبندۍ رامینځته کول ، له نېکه مرغه پدې وخت کې کافي مارک اپ راټول شوی و.

لومړی طبقه بندي داسې ښکاري: موږ متن لیکو (کلمې د دوی لومړني شکل ته راټیټ کړو)، د وینا ټولې مرستندویه برخې وغورځوو او مخکې چمتو شوي "د ښه لیما لغت" کاروو. که په متن کې ټول ټکي "ښه" وي، نو ټول متن هیڅ سرغړونه نلري. په بیالبیلو خدماتو کې، دا طریقه سمدلاسه د 25 څخه تر 35٪ پورې د لارښود مارک اپ اتوماتیک ورکوي. البته، دا طریقه مناسبه نه ده: دا اسانه ده چې د څو بې ګناه کلمو سره یوځای شي او یو ډیر تیریدونکي بیان ترلاسه کړي، مګر دا موږ ته اجازه راکړه چې ژر تر ژره د اتوماتیک ښه کچې ته ورسیږو او موږ ته د ډیرو پیچلو ماډلونو روزلو لپاره وخت راکړ.

د ښه متن کټګوریو په راتلونکو نسخو کې لا دمخه خطي ماډلونه، د پریکړې ونې، او د دوی ترکیبونه شامل دي. د بې رحمۍ او سپکاوي نښه کولو لپاره، د بیلګې په توګه، موږ د BERT عصبي شبکه هڅه کوو. دا مهمه ده چې په شرایطو کې د یوې کلمې معنی او د مختلفو جملو څخه د کلمو ترمنځ اړیکه ونیسئ، او BERT پدې کې ښه دنده ترسره کوي. (په هرصورت، پدې وروستیو کې د خبرونو همکاران وویل, څنګه ټیکنالوژي د غیر معیاري کار لپاره کارول کیږي - په سرلیکونو کې د غلطیو موندل.) د پایلې په توګه، دا ممکنه وه چې د خدماتو پورې اړه لري، تر 90٪ پورې جریان اتومات کړي.

دقت، بشپړتیا او سرعت

د پراختیا لپاره، تاسو اړتیا لرئ پوه شئ چې ځینې اتوماتیک کټګورۍ کومې ګټې راوړي، په دوی کې بدلونونه، او ایا د لاسي چکونو کیفیت خراب دی. د دې کولو لپاره، موږ دقیق او د یادولو میټریک کاروو.

دقت د ناسم محتوا په اړه د ټولو فیصلو ترمنځ د سمو فیصلو تناسب دی. څومره چې دقت لوړ وي هغومره لږ ناسم مثبت. که تاسو دقت ته پام ونه کړئ ، نو په تیوري کې تاسو کولی شئ ټول سپیم او فحشا حذف کړئ ، او د دوی سره نیمایي ښه پیغامونه. له بلې خوا ، که تاسو یوازې په دقت تکیه وکړئ ، نو غوره ټیکنالوژي به هغه وي چې هیڅوک یې نه نیسي. له همدې امله، د بشپړتیا شاخص هم شتون لري: د خراب مینځپانګې ټول حجم کې د پیژندل شوي خراب مینځپانګې برخه. دا دوه میترونه یو بل سره توازن کوي.

د اندازه کولو لپاره، موږ د هر خدمت لپاره ټول راتلونکی جریان نمونه کوو او د متخصص ارزونې او د ماشین حلونو سره پرتله کولو لپاره ارزونکو ته د منځپانګې نمونې ورکوو.

مګر یو بل مهم شاخص شتون لري.

ما پورته لیکلي چې د نه منلو وړ پیغام د سلګونو خلکو لخوا حتی په 5 دقیقو کې لیدل کیدی شي. نو موږ حساب کوو چې مخکې لدې چې موږ یې پټ کړو څو ځله موږ خلکو ته خراب مینځپانګه ښودلې. دا مهم دی ځکه چې دا د اغیزمن کار کولو لپاره کافي ندي - تاسو هم اړتیا لرئ چې چټک کار وکړئ. او کله چې موږ د قسم خوړلو په وړاندې دفاع جوړه کړه، موږ دا په بشپړ ډول احساس کړه.

د پیشوګانو او سپیو مثال په کارولو سره ضد ضد

یو کوچنی شعري تحلیل. ځینې ​​شاید ووایي چې فحشا او سپکاوی د ناوړه اړیکو په څیر خطرناک ندي، او د سپیم په څیر ځورونکي ندي. مګر موږ هڅه کوو چې د ملیونونو کاروونکو لپاره د مخابراتو لپاره آرامۍ شرایط وساتو، او خلک نه خوښوي چې هغه ځایونو ته راستانه شي چیرې چې دوی ته سپکاوی شوی وي. دا د هیڅ شی لپاره ندي چې د قسم خوړلو او سپکاوي بندیز د ډیری ټولنو په مقرراتو کې څرګند شوی ، پشمول د هابري. مګر موږ انحراف کوو.

د قسم خوړلو قاموسونه د روسي ژبې د ټولو بډایو سره مقابله نشي کولی. د دې حقیقت سره سره چې یوازې د قسمونو څلور اصلي ریښې شتون لري، له دوی څخه تاسو کولی شئ بې شمیره کلمې جوړې کړئ چې د منظم انجنونو لخوا نشي نیول کیدی. برسېره پر دې، تاسو کولی شئ په ژباړې کې د یوې کلمې یوه برخه ولیکئ، د ورته ترکیبونو سره حروف بدل کړئ، حروف بیا تنظیم کړئ، ستوري اضافه کړئ، او داسې نور. ځینې وختونه، پرته له شرایطو، دا اساسا ناشونې ده چې معلومه کړئ چې کارونکي د قسم کلمه معنی لري. موږ د حبر قواعدو ته درناوی کوو، نو موږ به دا د ژوندیو مثالونو سره نه، بلکې د پیشوګانو او سپیو سره ښکاره کړو.

څنګه نظرونه خلاص کړئ او په سپیم کې ډوب نه شئ

"قانون،" پیشو وویل. مګر موږ پوهیږو چې پیشو یو بل کلمه وویل ...

موږ د خپل قاموس لپاره د "فزي میچینګ" الګوریتمونو په اړه فکر کول پیل کړل او د هوښیار پری پروسس کولو په اړه: موږ ژباړې ، چپک شوي ځایونه او ټکي په ګډه چمتو کړل ، نمونې یې وڅارلې او په دوی یې جلا منظم څرګندونې ولیکل. دې طریقې پایلې راوړې، مګر ډیری وختونه دقت کم شوی او مطلوب بشپړتیا یې نه ده چمتو کړې.

بیا موږ پریکړه وکړه چې "د قسم خوړلو په څیر فکر وکړو." موږ پخپله ډیټا کې شور معرفي کول پیل کړل: موږ لیکونه بیا تنظیم کړل ، ټایپونه یې رامینځته کړل ، د ورته املا سره حروف بدل کړل ، او داسې نور. د دې لپاره لومړنی مارک اپ د متنونو لوی کارپورا ته د میټ لغتونو پلي کولو سره اخیستل شوی و. که تاسو یوه جمله واخلئ او په څو لارو یې وخورئ، تاسو د ډیرو جملو سره پای ته ورسیږئ. پدې توګه تاسو کولی شئ د روزنې نمونه لسګونه ځله زیاته کړئ. ټول هغه څه چې پاتې دي د پایلې په حوض کې د لږ یا لږ سمارټ ماډل روزنه وه چې شرایط یې په پام کې نیولي.

څنګه نظرونه خلاص کړئ او په سپیم کې ډوب نه شئ

د وروستۍ پریکړې په اړه خبرې کول ډیر وختي دي. موږ لاهم د دې ستونزې لپاره د تګلارو سره تجربه کوو، مګر موږ لا دمخه لیدلی شو چې د څو پرتونو یو ساده سمبولیک قانع کونکي شبکه د پام وړ لغتونو او منظم انجنونو ته وده ورکوي: دا ممکنه ده چې دقت او یاد دواړه زیات شي.

البته، موږ پوهیږو چې تل به د حتی خورا پرمختللي اتومات څخه د تیریدو لارې شتون ولري، په ځانګړې توګه کله چې مسله خورا خطرناکه وي: په داسې ډول ولیکئ چې یو احمق ماشین به نه پوهیږي. دلته، لکه څنګه چې د سپیم په وړاندې مبارزه کې، زموږ موخه دا نه ده چې د یو څه فحش لیکلو احتمال له منځه یوسو؛ زموږ دنده دا ده چې ډاډ ترلاسه کړو چې لوبه د شمعې ارزښت نلري.

د خپل نظر شریکولو، خبرو اترو او تبصرو کولو فرصت خلاصول ستونزمن نه دي. د خوندي، راحته شرایطو او د خلکو سره د درناوي چلند ترلاسه کول خورا ستونزمن دي. او له دې پرته به د ټولنې پرمختګ نه وي.

سرچینه: www.habr.com

Add a comment