چگونه تبلیغات را تعدیل می کنیم

چگونه تبلیغات را تعدیل می کنیم

هر سرویسی که کاربران آن می توانند محتوای خود را ایجاد کنند (UGC - محتوای تولید شده توسط کاربر) نه تنها مجبور است مشکلات تجاری را حل کند، بلکه به نظم در UGC نیز بپردازد. تعدیل محتوای ضعیف یا بی کیفیت در نهایت می تواند جذابیت سرویس را برای کاربران کاهش دهد و حتی به عملکرد آن پایان دهد.

امروز ما در مورد هم افزایی بین Yula و Odnoklassniki به شما خواهیم گفت که به ما کمک می کند تا به طور مؤثر تبلیغات در Yula را تعدیل کنیم.

سینرژی به طور کلی یک چیز بسیار مفید است و در دنیای مدرن، زمانی که تکنولوژی ها و روندها خیلی سریع تغییر می کنند، می تواند به یک نجات دهنده تبدیل شود. چرا منابع و زمان کمیاب را برای اختراع چیزی که قبلاً اختراع شده و قبل از شما به ذهن آورده اید تلف کنید؟

هنگامی که با وظیفه کامل تعدیل محتوای کاربر - تصاویر، متن و پیوندها - روبرو شدیم، همین فکر را می کردیم. کاربران ما روزانه میلیون‌ها قطعه محتوا را در Yula آپلود می‌کنند و بدون پردازش خودکار، کنترل دستی همه این داده‌ها کاملاً غیرممکن است.

بنابراین، ما از یک پلت فرم تعدیل آماده استفاده کردیم، که در آن زمان همکاران ما از Odnoklassniki به حالت "تقریبا کمال" کامل شده بودند.

چرا Odnoklassniki؟

هر روز ده ها میلیون کاربر به شبکه اجتماعی می آیند و میلیاردها قطعه محتوا را منتشر می کنند: از عکس گرفته تا فیلم و متن. پلت فرم تعدیل Odnoklassniki به بررسی حجم بسیار زیاد داده و مقابله با هرزنامه ها و ربات ها کمک می کند.

تیم اعتدال OK از آنجایی که 12 سال است ابزار خود را بهبود می بخشد، تجربه زیادی جمع کرده است. مهم است که آنها نه تنها راه حل های آماده خود را به اشتراک بگذارند، بلکه معماری پلتفرم خود را متناسب با وظایف خاص ما سفارشی کنند.

چگونه تبلیغات را تعدیل می کنیم

از این پس، برای اختصار، ما به سادگی پلتفرم تعدیل OK را "پلتفرم" می نامیم.

چگونه همه چیز کار می کند

تبادل داده بین Yula و Odnoklassniki از طریق ایجاد می شود آپاچی کافکا.

چرا این ابزار را انتخاب کردیم:

  • در یولا، همه تبلیغات پس از تعدیل هستند، بنابراین در ابتدا نیازی به پاسخ همزمان نبود.
  • اگر پاراگراف بدی اتفاق بیفتد و Yula یا Odnoklassniki در دسترس نباشند، از جمله به دلیل بارهای اوج، داده های کافکا در هیچ کجا ناپدید نمی شوند و می توانند بعداً خوانده شوند.
  • این پلتفرم قبلاً با کافکا ادغام شده بود، بنابراین بسیاری از مسائل امنیتی حل شدند.

چگونه تبلیغات را تعدیل می کنیم

برای هر تبلیغ ایجاد یا اصلاح شده توسط کاربر در Yula، یک JSON با داده تولید می شود که برای تعدیل بعدی در کافکا قرار می گیرد. از کافکا، اعلان ها در پلتفرم بارگذاری می شوند، جایی که به صورت خودکار یا دستی قضاوت می شوند. آگهی‌های بد با دلیل مسدود می‌شوند و آن‌هایی که پلتفرم تخلفی در آنها پیدا نمی‌کند به‌عنوان «خوب» علامت‌گذاری می‌شوند. سپس تمام تصمیمات به یولا بازگردانده می شود و در سرویس اعمال می شود.

در پایان، برای یولا همه چیز به اقدامات ساده ختم می شود: یک تبلیغ را به پلتفرم Odnoklassniki ارسال کنید و وضوح "ok" یا چرا نه "ok" را دریافت کنید.

پردازش خودکار

بعد از اینکه تبلیغ روی پلتفرم قرار گرفت چه اتفاقی برای آن می افتد؟ هر تبلیغ به چندین نهاد تقسیم می شود:

  • نام،
  • شرح،
  • عکس ها،
  • دسته و زیرمجموعه آگهی انتخاب شده توسط کاربر،
  • цена.

چگونه تبلیغات را تعدیل می کنیم

سپس پلتفرم برای هر موجودیت برای یافتن موارد تکراری، خوشه بندی را انجام می دهد. علاوه بر این، متن و عکس ها بر اساس طرح های مختلف خوشه بندی می شوند.

قبل از خوشه بندی، متون برای حذف کاراکترهای خاص، حروف تغییر یافته و سایر زباله ها عادی می شوند. داده های دریافتی به N گرم تقسیم می شوند که هر کدام هش می شوند. نتیجه، تعداد زیادی هش منحصر به فرد است. شباهت بین متون توسط اندازه ژاکارد بین دو مجموعه حاصل اگر شباهت بیشتر از آستانه باشد، متون در یک خوشه ادغام می شوند. برای سرعت بخشیدن به جستجوی خوشه های مشابه، از MinHash و هش حساس به محلی استفاده می شود.

گزینه های مختلفی برای چسباندن تصاویر برای عکس ها اختراع شده است، از مقایسه تصاویر pHash گرفته تا جستجوی تکراری با استفاده از یک شبکه عصبی.

آخرین روش "شدیدترین" است. برای آموزش مدل، سه تایی از تصاویر (N، A، P) انتخاب شدند که در آنها N مشابه A نیست و P مشابه A (نیمه تکراری است). سپس شبکه عصبی یاد گرفت که A و P را تا حد امکان به یکدیگر نزدیک کند و A و N را تا حد امکان به هم نزدیک کند. این در مقایسه با جاسازی ساده از یک شبکه از پیش آموزش دیده، نتایج مثبت کاذب کمتری را به همراه دارد.

هنگامی که شبکه عصبی تصاویر را به عنوان ورودی دریافت می کند، یک بردار N(128)-بعدی برای هر یک از آنها تولید می کند و درخواستی برای ارزیابی نزدیکی تصویر می شود. در مرحله بعد، آستانه ای محاسبه می شود که در آن تصاویر نزدیک تکراری در نظر گرفته می شوند.

این مدل می‌تواند به طرز ماهرانه‌ای اسپمرهایی را پیدا کند که به طور خاص از یک محصول از زوایای مختلف عکس می‌گیرند تا از مقایسه pHash دور بزنند.

چگونه تبلیغات را تعدیل می کنیمچگونه تبلیغات را تعدیل می کنیم
نمونه ای از عکس های هرزنامه که توسط یک شبکه عصبی به عنوان تکراری به هم چسبانده شده اند.

در مرحله آخر، تبلیغات تکراری به صورت همزمان با متن و تصویر جستجو می شوند.

اگر دو یا چند آگهی در یک خوشه به هم چسبیده باشند، سیستم مسدود کردن خودکار را شروع می‌کند، که با استفاده از الگوریتم‌های خاصی، انتخاب می‌کند که کدام تکرار حذف شود و کدام یک را ترک کند. به عنوان مثال، اگر دو کاربر در یک تبلیغ عکس های مشابهی داشته باشند، سیستم آگهی جدیدتر را مسدود می کند.

پس از ایجاد، همه خوشه ها از یک سری فیلترهای خودکار عبور می کنند. هر فیلتر یک امتیاز به خوشه اختصاص می دهد: چقدر احتمال دارد که حاوی تهدیدی باشد که این فیلتر شناسایی می کند.

به عنوان مثال، سیستم توضیحات موجود در یک آگهی را تجزیه و تحلیل می کند و دسته بندی های احتمالی را برای آن انتخاب می کند. سپس آن را با حداکثر احتمال می گیرد و آن را با دسته ای که نویسنده آگهی مشخص کرده است مقایسه می کند. اگر مطابقت نداشته باشند، تبلیغ برای دسته اشتباه مسدود می شود. و از آنجایی که ما مهربان و صادق هستیم، مستقیماً به کاربر می گوییم که باید کدام دسته بندی را انتخاب کند تا تبلیغ از اعتدال عبور کند.

چگونه تبلیغات را تعدیل می کنیم
اعلان مسدود شدن برای دسته بندی نادرست.

یادگیری ماشینی در پلتفرم ما احساس راحتی می‌کند. به عنوان مثال، با کمک آن، نام و توضیحات کالاهای ممنوعه در فدراسیون روسیه را جستجو می کنیم. و مدل‌های شبکه‌های عصبی تصاویر را با دقت «بررسی» می‌کنند تا ببینند آیا آنها حاوی URL، متن‌های هرزنامه، شماره تلفن و همان اطلاعات «ممنوع» هستند یا خیر.

برای مواردی که آنها سعی می کنند کالای ممنوعه را به شکل قانونی بفروشند و هیچ متنی در عنوان یا توضیحات وجود ندارد، از برچسب گذاری تصویر استفاده می کنیم. برای هر تصویر می توان تا 11 هزار تگ مختلف اضافه کرد که توصیف کننده آنچه در تصویر است.

چگونه تبلیغات را تعدیل می کنیم
آنها با تبدیل قلیان به سماور در صدد فروش آن هستند.

به موازات فیلترهای پیچیده، فیلترهای ساده نیز کار می کنند و مشکلات واضح مربوط به متن را حل می کنند:

  • ضد تشک;
  • ردیاب آدرس و شماره تلفن؛
  • ذکر پیام رسان های فوری و سایر مخاطبین؛
  • کاهش قیمت؛
  • تبلیغاتی که در آن چیزی برای فروش نیست و غیره.

امروزه، هر تبلیغی از غربال ظریفی متشکل از بیش از 50 فیلتر خودکار عبور می کند که سعی می کنند چیز بدی را در آگهی پیدا کنند.

اگر هیچ یک از آشکارسازها کار نکرد، پاسخی برای یولا ارسال می شود که آگهی "به احتمال زیاد" در نظم کامل است. ما خودمان از این پاسخ استفاده می‌کنیم و کاربرانی که مشترک فروشنده شده‌اند، اعلانی درباره در دسترس بودن محصول جدید دریافت می‌کنند.

چگونه تبلیغات را تعدیل می کنیم
اطلاع رسانی مبنی بر اینکه فروشنده محصول جدیدی دارد.

در نتیجه، هر تبلیغی با ابرداده‌هایی که برخی از آن‌ها هنگام ایجاد آگهی (آدرس IP نویسنده، عامل کاربر، پلتفرم، موقعیت جغرافیایی و غیره) تولید می‌شوند، و بقیه امتیازی است که توسط هر فیلتر صادر می‌شود. .

صف های اعلامیه

هنگامی که یک تبلیغ به پلتفرم می رسد، سیستم آن را در یکی از صف ها قرار می دهد. هر صف با استفاده از یک فرمول ریاضی ایجاد می شود که ابرداده های تبلیغاتی را به گونه ای ترکیب می کند که هر گونه الگوی بد را تشخیص دهد.

به عنوان مثال، می توانید یک صف از تبلیغات در دسته "تلفن های همراه" از کاربران Yula که ظاهراً اهل سنت پترزبورگ هستند ایجاد کنید، اما آدرس IP آنها از مسکو یا شهرهای دیگر است.

چگونه تبلیغات را تعدیل می کنیم
نمونه ای از تبلیغات ارسال شده توسط یک کاربر در شهرهای مختلف.

یا می‌توانید بر اساس امتیازهایی که شبکه عصبی به تبلیغات اختصاص می‌دهد صف‌هایی تشکیل دهید و آنها را به ترتیب نزولی مرتب کنید.

هر صف طبق فرمول خود امتیاز نهایی را به آگهی اختصاص می دهد. سپس می توانید به روش های مختلف ادامه دهید:

  • آستانه ای را مشخص کنید که در آن یک تبلیغ نوع خاصی از مسدود شدن را دریافت می کند.
  • همه تبلیغات در صف را برای بازبینی دستی به مدیران ارسال کنید.
  • یا ترکیب گزینه های قبلی: آستانه مسدودسازی خودکار را مشخص کنید و تبلیغاتی را که به این آستانه نرسیده اند برای مدیران ارسال کنید.

چگونه تبلیغات را تعدیل می کنیم

چرا این صف ها مورد نیاز است؟ فرض کنید یک کاربر عکسی از یک سلاح گرم آپلود کرده است. شبکه عصبی از 95 تا 100 به آن امتیاز می دهد و با دقت 99 درصد تشخیص می دهد که در تصویر یک سلاح وجود دارد. اما اگر مقدار امتیاز زیر 95٪ باشد، دقت مدل شروع به کاهش می کند (این یکی از ویژگی های مدل های شبکه عصبی است).

در نتیجه، یک صف بر اساس مدل امتیاز تشکیل می شود و تبلیغاتی که بین 95 تا 100 دریافت کرده اند به طور خودکار به عنوان "محصولات ممنوعه" مسدود می شوند. آگهی های با امتیاز زیر 95 برای پردازش دستی به مدیران ارسال می شود.

چگونه تبلیغات را تعدیل می کنیم
برتا شکلاتی با کارتریج. فقط برای تعدیل دستی! 🙂

تعدیل دستی

در ابتدای سال 2019، حدود 94 درصد از تمام تبلیغات در یولا به طور خودکار تعدیل می شوند.

چگونه تبلیغات را تعدیل می کنیم

اگر پلتفرم نتواند در مورد برخی از تبلیغات تصمیم بگیرد، آنها را برای نظارت دستی ارسال می کند. Odnoklassniki ابزار خاص خود را توسعه داد: وظایف مدیران بلافاصله تمام اطلاعات لازم را برای تصمیم گیری سریع نشان می دهد - تبلیغ مناسب است یا باید مسدود شود و دلیل آن را نشان می دهد.

و برای اینکه کیفیت خدمات در هنگام تعدیل دستی آسیب نبیند، کار افراد به طور مداوم نظارت می شود. به عنوان مثال، در جریان کار، ناظر "تله" نشان داده می شود - تبلیغاتی که از قبل راه حل های آماده ای برای آنها وجود دارد. اگر تصمیم ناظم با تصمیم نهایی مطابقت نداشته باشد، به مدیر خطا داده می شود.

به طور متوسط، یک ناظر 10 ثانیه را صرف بررسی یک آگهی می کند. علاوه بر این، تعداد خطاها بیش از 0,5٪ از کل تبلیغات تأیید شده نیست.

اعتدال مردم

همکاران Odnoklassniki حتی فراتر رفتند و از "کمک مخاطبان" استفاده کردند: آنها یک برنامه بازی برای شبکه اجتماعی نوشتند که در آن می توانید به سرعت حجم زیادی از داده ها را علامت گذاری کنید و برخی از علائم بد را برجسته کنید - Moderator Odnoklassniki (https://ok.ru/app/moderator). یک راه خوب برای استفاده از کمک کاربران OK که سعی در لذت بخشیدن به محتوا دارند.

چگونه تبلیغات را تعدیل می کنیم
بازی ای که در آن کاربران عکس هایی را که شماره تلفن روی آن ها وجود دارد تگ می کنند.

هر صف تبلیغاتی در پلتفرم را می توان به بازی Odnoklassniki Moderator هدایت کرد. هر چیزی که کاربران بازی علامت گذاری می کنند، سپس برای بررسی به مدیران داخلی ارسال می شود. این طرح به شما امکان می دهد تبلیغاتی را که هنوز فیلتری برای آنها ایجاد نشده است مسدود کنید و همزمان نمونه های آموزشی ایجاد کنید.

ذخیره نتایج تعدیل

ما تمام تصمیمات اتخاذ شده در حین تعدیل را ذخیره می کنیم تا تبلیغاتی را که قبلاً در مورد آنها تصمیم گرفته ایم، دوباره پردازش نکنیم.

میلیون ها خوشه هر روز بر اساس تبلیغات ایجاد می شوند. با گذشت زمان، هر خوشه برچسب "خوب" یا "بد" می شود. هر تبلیغ جدید یا ویرایش آن، با ورود به یک خوشه با یک علامت، به طور خودکار یک وضوح از خود خوشه دریافت می کند. حدود 20 هزار چنین وضوح خودکار در روز وجود دارد.

چگونه تبلیغات را تعدیل می کنیم

اگر هیچ اعلان جدیدی به کلاستر نرسد، از حافظه حذف می شود و هش و راه حل آن در آپاچی کاساندرا نوشته می شود.

هنگامی که پلتفرم یک تبلیغ جدید دریافت می کند، ابتدا سعی می کند یک خوشه مشابه را در بین آنهایی که قبلا ایجاد شده است پیدا کند و از آن راه حل بگیرد. اگر چنین خوشه ای وجود نداشته باشد، پلت فرم به کاساندرا می رود و آنجا را نگاه می کند. پیداش کردی؟ عالی است، راه حل را روی خوشه اعمال می کند و آن را برای Yula ارسال می کند. هر روز به طور متوسط ​​70 هزار تصمیم "تکرار" وجود دارد - 8٪ از کل.

مجموع

ما دو سال و نیم است که از پلت فرم تعدیل Odnoklassniki استفاده می کنیم. ما نتایج را دوست داریم:

  • ما به طور خودکار 94٪ از تبلیغات را در روز تعدیل می کنیم.
  • هزینه تعدیل یک آگهی از 2 روبل به 7 کوپک کاهش یافت.
  • به لطف ابزار آماده، مشکلات مدیریت مدیران را فراموش کردیم.
  • با همین تعداد ناظر و بودجه، تعداد تبلیغات پردازش دستی را 2,5 برابر افزایش دادیم. کیفیت تعدیل دستی نیز به دلیل کنترل خودکار افزایش یافته است و حدود 0,5 درصد خطاها در نوسان است.
  • ما به سرعت انواع جدید هرزنامه ها را با فیلترها پوشش می دهیم.
  • ما به سرعت بخش های جدید را به اعتدال وصل می کنیم "یولا عمودی". از سال 2017، Yula املاک و مستغلات، موقعیت های خالی و عمودی خودرو را اضافه کرده است.

منبع: www.habr.com

اضافه کردن نظر