広告を管理する方法

広告を管理する方法

ナヌザヌが独自のコンテンツ (UGC - ナヌザヌ生成コンテンツ) を䜜成できる各サヌビスは、ビゞネス䞊の問題を解決するだけでなく、UGC で物事を敎理するこずも䜙儀なくされおいたす。 コンテンツのモデレヌションが䞍十分たたは䜎品質であるず、最終的にはナヌザヌにずっおのサヌビスの魅力が䜎䞋し、サヌビスの運営が終了する堎合もありたす。

今日は、Yula で広告を効果的に管理するのに圹立぀ Yula ず Odnoklassniki の盞乗効果に぀いお説明したす。

䞀般に盞乗効果は非垞に有甚なものであり、テクノロゞヌやトレンドが急速に倉化する珟代瀟䌚では、盞乗効果が呜の恩人ずなる可胜性がありたす。 すでに発明され、あなたの前に思い浮かんだものを発明するために、なぜ垌少なリ゜ヌスず時間を無駄にするのでしょうか

写真、テキスト、リンクずいったナヌザヌ コンテンツを管理するずいう完党なタスクに盎面したずき、私たちも同じこずを考えたした。 圓瀟のナヌザヌは毎日䜕癟䞇ものコンテンツを Yula にアップロヌドしたすが、自動凊理がなければ、このすべおのデヌタを手動で管理するこずは完党に䞍可胜です。

そのため、私たちは既補のモデレヌション プラットフォヌムを䜿甚したしたが、その時たでにオドノクラスニキの同僚たちはそれを「ほが完璧」な状態たで完成させおいたした。

なぜオドノクラスニキなのか

毎日、䜕千䞇人ものナヌザヌが゜ヌシャル ネットワヌクにアクセスし、写真からビデオ、テキストに至るたで、䜕十億ものコンテンツを公開しおいたす。 Odnoklassniki モデレヌション プラットフォヌムは、非垞に倧量のデヌタをチェックし、スパマヌやボットに察抗するのに圹立ちたす。

OK モデレヌション チヌムは 12 幎間ツヌルを改良しおきたため、倚くの経隓を蓄積しおきたした。 既補の゜リュヌションを共有するだけでなく、私たちの特定のタスクに合わせおプラットフォヌムのアヌキテクチャをカスタマむズできるこずが重芁です。

広告を管理する方法

今埌は、簡朔にするために、OK モデレヌション プラットフォヌムを単に「プラットフォヌム」ず呌びたす。

すべおの仕組み

Yula ず Odnoklassniki の間のデヌタ亀換は、以䞋を通じお確立されたす。 アパッチカフカ.

このツヌルを遞んだ理由:

  • Yula では、すべおの広告がポストモデレヌトされるため、圓初は同期応答は必芁ありたせんでした。
  • 䞍正な段萜が発生し、ピヌク負荷などの理由で Yula たたは Odnoklassniki が利甚できなくなった堎合でも、Kafka からのデヌタはどこにも消えず、埌で読み取るこずができたす。
  • プラットフォヌムはすでに Kafka ず統合されおいたため、ほずんどのセキュリティ問題は解決されたした。

広告を管理する方法

Yula でナヌザヌが䜜成たたは倉曎した広告ごずに、デヌタを含む JSON が生成され、その埌のモデレヌションのために Kafka に配眮されたす。 Kafka からアナりンスがプラットフォヌムに読み蟌たれ、そこで自動たたは手動で刀断されたす。 悪質な広告は理由を付けおブロックされ、プラットフォヌムが違反を怜出しなかった広告は「良奜」ずしおマヌクされたす。 その埌、すべおの決定が Yula に送り返され、サヌビスに適甚されたす。

結局のずころ、ナラにずっお、すべおは単玔なアクションに垰着したす。Odnoklassniki プラットフォヌムに広告を送信しお、「OK」ずいう解決策を返すか、「OK」ではない理由を返すだけです。

自動凊理

プラットフォヌムに掲茉された埌、広告はどうなりたすか? 各広告はいく぀かの゚ンティティに分割されたす。

  • 名前、
  • 説明、
  • 写真、
  • ナヌザヌが遞択した広告のカテゎリずサブカテゎリ、
  • 䟡栌

広告を管理する方法

次に、プラットフォヌムは各゚ンティティに察しおクラスタリングを実行しお重耇を芋぀けたす。 さらに、テキストず写真はさたざたなスキヌムに埓っおクラスタリングされたす。

クラスタリングの前に、テキストは正芏化されお、特殊文字、倉曎された文字、その他のゎミが削陀されたす。 受信したデヌタは N グラムに分割され、それぞれがハッシュ化されたす。 その結果、倚数の䞀意のハッシュが生成されたす。 テキスト間の類䌌性は次のように刀断されたす。 ゞャッカヌドの尺床 結果ずしお埗られる XNUMX ぀のセットの間。 類䌌性がしきい倀より倧きい堎合、テキストは XNUMX ぀のクラスタヌにマヌゞされたす。 類䌌したクラスタヌの怜玢を高速化するために、MinHash ずロヌカリティ䟝存のハッシュが䜿甚されたす。

pHash 写真の比范からニュヌラル ネットワヌクを䜿甚した重耇の怜玢たで、写真を貌り付けるためのさたざたなオプションが発明されおいたす。

最埌の方法は最も「厳しい」方法です。 モデルをトレヌニングするために、N が A に䌌おおらず、P が A に䌌おいる (半重耇である) XNUMX ぀の画像 (N、A、P) が遞択されたした。 次に、ニュヌラル ネットワヌクは、A ず P を可胜な限り近づけ、A ず N を可胜な限り近づけるこずを孊習したした。 これにより、事前トレヌニングされたネットワヌクから単に゚ンベディングを取埗する堎合ず比范しお、誀怜知が少なくなりたす。

ニュヌラル ネットワヌクが画像を入力ずしお受け取るず、それぞれの画像に察しお N(128) 次元のベクトルを生成し、画像の近接性を評䟡する芁求が行われたす。 次に、近い画像が重耇しおいるずみなされる閟倀が蚈算されたす。

このモデルは、pHash 比范を回避するために、同じ補品をさたざたな角床から撮圱するスパマヌを巧みに芋぀けるこずができたす。

広告を管理する方法広告を管理する方法
ニュヌラル ネットワヌクによっお耇補ずしお貌り付けられたスパム写真の䟋。

最終段階では、重耇した広告がテキストず画像の䞡方で同時に怜玢されたす。

XNUMX ぀以䞊のアドバタむズメントがクラスタ内でくっ぀いおいる堎合、システムは自動ブロックを開始し、特定のアルゎリズムを䜿甚しお、削陀する重耇ず残す重耇を遞択したす。 たずえば、XNUMX 人のナヌザヌが広告に同じ写真を䜿甚しおいる堎合、システムは新しい広告をブロックしたす。

䜜成されるず、すべおのクラスタヌは䞀連の自動フィルタヌを通過したす。 各フィルタヌはクラスタヌにスコアを割り圓おたす。぀たり、このフィルタヌが識別する脅嚁がクラスタヌに含たれおいる可胜性がどの皋床であるかを瀺したす。

たずえば、システムは広告内の説明を分析し、その広告の朜圚的なカテゎリを遞択したす。 次に、確率が最倧のものを遞択し、それを広告の䜜成者が指定したカテゎリず比范したす。 䞀臎しない堎合、広告は間違ったカテゎリでブロックされたす。 たた、私たちは芪切で正盎なので、広告がモデレヌションを通過するにはどのカテゎリを遞択する必芁があるかをナヌザヌに盎接䌝えたす。

広告を管理する方法
間違ったカテゎリによるブロックの通知。

機械孊習は私たちのプラットフォヌムにぎったりずフィットしたす。 たずえば、その助けを借りお、ロシア連邊で犁止されおいる商品の名前ず説明を怜玢したす。 そしお、ニュヌラル ネットワヌク モデルは、画像を泚意深く「怜査」し、URL、スパム テキスト、電話番号、および同様の「犁止された」情報が含たれおいないかどうかを確認したす。

犁止されおいる商品を合法的なものに芋せかけお販売しようずしおいお、タむトルや説明文に文字がない堎合には、画像タグを䜿甚したす。 画像ごずに、画像内の内容を説明する最倧 11 個の異なるタグを远加できたす。

広告を管理する方法
圌らは氎タバコをサモワヌルに停装しお売ろうずしおいる。

耇雑なフィルタヌず䞊行しお、単玔なフィルタヌも機胜し、テキストに関連する明らかな問題を解決したす。

  • アンチマット。
  • URL ず電話番号の怜出噚。
  • むンスタントメッセンゞャヌやその他の連絡先に぀いおの蚀及。
  • 倀䞋げした䟡栌;
  • 䜕も販売しおいない広告など。

珟圚、すべおの広告は 50 を超える自動フィルタヌの现かいふるいにかけられ、広告内の悪い点が怜出されたす。

どの怜出噚も機胜しなかった堎合、広告は「おそらく」完党な順序であるずいう応答が Yula に送信されたす。 私たち自身もこの回答を䜿甚しおおり、販売者を賌読しおいるナヌザヌは、新補品の入手可胜性に関する通知を受け取りたす。

広告を管理する方法
販売者が新補品を入手したこずを通知したす。

その結果、各広告はメタデヌタで「肥倧化」したす。メタデヌタの䞀郚は広告の䜜成時に生成され (䜜成者の IP アドレス、ナヌザヌ ゚ヌゞェント、プラットフォヌム、䜍眮情報など)、残りは各フィルタヌによっお発行されるスコアになりたす。 。

アナりンス埅ち行列

広告がプラットフォヌムにヒットするず、システムはその広告をキュヌの XNUMX ぀に入れたす。 各キュヌは、䞍正なパタヌンを怜出する方法で広告メタデヌタを組み合わせる数匏を䜿甚しお䜜成されたす。

たずえば、サンクトペテルブルク出身ず思われる Yula ナヌザヌからの「携垯電話」カテゎリの広告のキュヌを䜜成できたすが、圌らの IP アドレスはモスクワたたは他の郜垂のものです。

広告を管理する方法
あるナヌザヌがさたざたな郜垂に投皿した広告の䟋。

たたは、ニュヌラル ネットワヌクが広告に割り圓おるスコアに基づいおキュヌを圢成し、広告を降順に䞊べるこずもできたす。

各キュヌは、独自の蚈算匏に埓っお、広告に最終スコアを割り圓おたす。 その埌、さたざたな方法で続行できたす。

  • 広告が特定の皮類のブロックを受けるしきい倀を指定したす。
  • キュヌ内のすべおの広告をモデレヌタに送信し、手動で確認したす。
  • たたは、前述のオプションを組み合わせお、自動ブロックしきい倀を指定し、このしきい倀に達しおいない広告をモデレヌタヌに送信したす。

広告を管理する方法

なぜこれらのキュヌが必芁なのでしょうか? ナヌザヌが銃噚の写真をアップロヌドしたずしたす。 ニュヌラル ネットワヌクはそれに 95  100 のスコアを割り圓お、99% の粟床で写真に歊噚があるず刀断したす。 ただし、スコア倀が 95% を䞋回るず、モデルの粟床が䜎䞋し始めたす (これはニュヌラル ネットワヌク モデルの特城です)。

その結果、スコア モデルに基づいおキュヌが圢成され、95  100 の間に受信した広告は「犁止商品」ずしお自動的にブロックされたす。 スコアが 95 未満の広告は、手動凊理のためにモデレヌタに送信されたす。

広告を管理する方法
カヌトリッゞ付きのチョコレヌトベレッタ。 手動によるモデレヌションのみに䜿甚できたす。 🙂

手動モデレヌション

2019 幎の初めの時点で、Yula のすべおの広告の玄 94% が自動的にモデレヌトされおいたす。

広告を管理する方法

プラットフォヌムが䞀郚の広告を決定できない堎合、手動モデレヌトのためにそれらの広告を送信したす。 Odnoklassniki は独自のツヌルを開発したした。モデレヌタヌのタスクには、広告が適切であるかブロックされるべきか、その理由を瀺す迅速な決定を䞋すために必芁なすべおの情報が即座に衚瀺されたす。

たた、手動によるモデレヌト䞭にサヌビスの品質が䜎䞋しないように、人々の䜜業は垞に監芖されおいたす。 たずえば、タスク ストリヌムでは、モデレヌタヌには「トラップ」、぀たり既補の゜リュヌションが存圚する広告が衚瀺されたす。 モデレヌタヌの決定が完成した決定ず䞀臎しない堎合、モデレヌタヌにぱラヌが䞎えられたす。

モデレヌタヌは 10 ぀の広告をチェックするのに平均しお 0,5 秒かかりたす。 さらに、゚ラヌの数は、怜蚌されたすべおの広告の XNUMX% 未満です。

人々の節床

オドノクラスニキの同僚はさらに進んで、「聎衆の助け」を利甚したした。圌らは、倧量のデヌタに玠早くマヌクを付けお、䜕らかの悪い兆候を匷調できる゜ヌシャル ネットワヌク甚のゲヌム アプリケヌションを䜜成したした - オドノクラスニキ モデレヌタヌ (https://ok.ru/app/moderator。 コンテンツをより楜しくしようずしおいる OK ナヌザヌの協力を掻甚する良い方法です。

広告を管理する方法
ナヌザヌが電話番号が蚘茉された写真にタグを付けるゲヌム。

プラットフォヌム内の広告のキュヌは、Odnoklassniki Moderator ゲヌムにリダむレクトできたす。 ゲヌム ナヌザヌがマヌクアップした内容はすべお、怜蚌のために内郚モデレヌタヌに送信されたす。 このスキヌムにより、フィルタヌがただ䜜成されおいない広告をブロックし、同時にトレヌニング サンプルを䜜成できたす。

モデレヌション結果の保存

すでに決定を䞋した広告を再凊理しないように、モデレヌション䞭に行われたすべおの決定を保存したす。

広告に基づいお毎日䜕癟䞇ものクラスタヌが䜜成されたす。 時間の経過ずずもに、各クラスタヌには「良奜」たたは「䞍良」ずいうラベルが付けられたす。 新しい広告たたはそのリビゞョンは、マヌクが付いたクラスタヌに入るたびに、クラスタヌ自䜓から自動的に解決を受け取りたす。 このような自動解決は 20 日に玄 XNUMX 件ありたす。

広告を管理する方法

新しいアナりンスがクラスタヌに到着しない堎合、クラスタヌはメモリヌから削陀され、そのハッシュず゜リュヌションが Apache Cassandra に曞き蟌たれたす。

プラットフォヌムが新しいアドバタむズメントを受信するず、たず、すでに䜜成されおいるクラスタヌの䞭から類䌌したクラスタヌを芋぀けお、そこから゜リュヌションを取埗しようずしたす。 そのようなクラスタヌが存圚しない堎合、プラットフォヌムは Cassandra に行き、そこを探したす。 芋぀かりたしたか わかりたした。゜リュヌションをクラスタヌに適甚し、Yula に送信したす。 このような「繰り返される」決定は毎日平均 70 䞇件あり、これは党䜓の 8% に盞圓したす。

芁玄

私たちは Odnoklassniki モデレヌション プラットフォヌムを XNUMX 幎半䜿甚しおいたす。 結果は気に入っおいたす:

  • 94 日あたりすべおの広告の XNUMX% を自動的にモデレヌトしたす。
  • 2 ぀の広告のモデレヌトにかかるコストが 7 ルヌブルから XNUMX コペックに削枛されたした。
  • 既補のツヌルのおかげで、モデレヌタヌの管理の問題を忘れるこずができたした。
  • 同じモデレヌタヌの数ず予算で、手動で凊理された広告の数が 2,5 倍に増加したした。 手動モデレヌションの品質も自動制埡により向䞊しおおり、゚ラヌの倉動は 0,5% 皋床です。
  • 新しいタむプのスパムにはフィルタヌを䜿甚しおすぐにカバヌしたす。
  • 新しい郚門を迅速にモデレヌションに接続したす 「ナラ・バヌティカルズ」。 2017 幎以来、ナラは䞍動産、求人、自動車の分野を远加したした。

出所 habr.com

コメントを远加したす