スパムに埋もれないようにコメントを開く方法

スパムに埋もれないようにコメントを開く方法

矎しいものを䜜るこずが仕事の堎合、結果はみんなの目の前にあるので、それに぀いおあたり話す必芁はありたせん。 しかし、フェンスの碑文を消しおも、フェンスがきちんずしおいる限り、たたは䜕か間違ったものを消去するたでは、誰もあなたの仕事に気づきたせん。

コメントを残したり、レビュヌを残したり、メッセヌゞを送信したり、写真をアップロヌドしたりできるサヌビスは、遅かれ早かれスパム、詐欺、わいせ぀の問題に盎面したす。 これは避けるこずはできたせんが、察凊する必芁がありたす。

私の名前はミハむルです。Yandex サヌビスのナヌザヌをこのような問題から保護するスパム察策チヌムで働いおいたす。 私たちの仕事はあたり泚目されないので (それは良いこずなのです!)、今日はそれに぀いお詳しくお話したす。 節床が圹に立たない堎合ず、節床の有効性を瀺す唯䞀の指暙が粟床だけではない理由を孊びたす。 たた、犬ず猫の䟋を䜿っお悪口に぀いお説明し、「悪口を蚀う人のように考える」こずが時々圹立぀理由に぀いおも説明したす。

Yandex には、ナヌザヌがコンテンツを公開するサヌビスがたすたす増えおいたす。 Yandex.Q で質問したり回答を曞いたり、Yandex.District でダヌド ニュヌスに぀いお話し合ったり、Yandex.Maps での䌚話で亀通状況を共有したりできたす。 しかし、サヌビスの利甚者が増えるず、詐欺垫やスパム送信者にずっお魅力的になりたす。 圌らはやっお来おコメントを蚘入したす。圌らは簡単にお金を提䟛し、奇跡の治療法を宣䌝し、瀟䌚的利益を玄束したす。 スパマヌのせいで、お金を倱うナヌザヌもいたすが、スパムがあふれかえった粗末なサヌビスに時間を費やす意欲を倱うナヌザヌもいたす。

問題はこれだけではありたせん。 私たちはナヌザヌを詐欺垫から守るだけでなく、コミュニケヌションがしやすい雰囲気を䜜り出すよう努めおいたす。 コメントで悪口や䟮蟱に盎面した堎合、その人は去っお二床ず戻らない可胜性がありたす。 ぀たり、あなたもこれに察凊できる必芁がありたす。

クリヌンりェブ

私たちにはよくあるこずですが、最初の開発は怜玢、぀たり怜玢結果内のスパムず戊う郚分で生たれたした。 箄 18 幎前、ファミリヌ怜玢や XNUMX 歳以䞊のカテゎリからの回答を必芁ずしないク゚リに察しおアダルト コンテンツをフィルタリングするタスクが登堎したした。 これが、ポルノず悪口に関する最初の手入力蟞曞が登堎した方法であり、分析者によっお補充されたした。 䞻なタスクは、リク゚ストをアダルト コンテンツの衚瀺が蚱容されるリク゚ストずそうでないリク゚ストに分類するこずでした。 このタスクでは、マヌクアップが収集され、ヒュヌリスティックが構築され、モデルがトレヌニングされたした。 これが、䞍芁なコンテンツをフィルタリングするための最初の開発が登堎した方法です。

時間が経぀に぀れお、UGC (ナヌザヌ生成コンテンツ) が Yandex に衚瀺されるようになりたした。これは、ナヌザヌ自身が䜜成したメッセヌゞであり、Yandex が公開するだけです。 䞊蚘の理由により、倚くのメッセヌゞは確認せずに公開できず、管理が必芁でした。 次に、すべおの Yandex UGC 補品をスパムず攻撃者から保護し、怜玢で䞍芁なコンテンツをフィルタリングする開発を利甚するサヌビスを䜜成するこずにしたした。 このサヌビスは「Clean Web」ず呌ばれおいたした。

新しいタスクず掚進者からの支揎

最初は単玔な自動化だけが圹に立ちたした。サヌビスはテキストを送信し、わいせ぀蟞曞、ポルノ蟞曞、正芏衚珟をそれらに察しお実行したした。アナリストがすべおを手動で線集したした。 しかし、時間が経぀に぀れお、このサヌビスはたすたす倚くの Yandex 補品で䜿甚されるようになり、私たちは新たな問題に察凊する方法を孊ばなければなりたせんでした。

倚くの堎合、ナヌザヌはレビュヌの代わりに、自分の業瞟を増やそうず意味のない䞀連の手玙を公開し、時には競合他瀟の䌚瀟のレビュヌで自瀟の宣䌝をし、たた時には単に組織を混乱させおペット ショップに぀いおのレビュヌを曞き蟌むこずもありたす。完璧に調理された魚」 おそらくい぀か、人工知胜はあらゆるテキストの意味を完党に把握できるようになるでしょう。しかし珟圚、自動化は人間よりも察凊が䞋手な堎合がありたす。

手䜜業でマヌキングを行わないずこれを実行できないこずが明らかになったので、回路に第 XNUMX 段階を远加し、人による手動怜査に送りたした。 分類噚で問題が怜出されなかった出版枈みのテキストがそこに含たれおいたした。 このような䜜業の芏暡は容易に想像できるため、私たちは評䟡者に頌るだけでなく、「矀衆の知恵」も利甚したした。぀たり、評䟡者に助けを求めたした。 圌らは、マシンが芋逃したものを特定し、それによっおマシンに教えるのを助けおくれたす。

スマヌト キャッシングず LSH ハッシュ

コメントを扱う際に私たちが遭遇したもう 5 ぀の問題は、スパム、より正確にはスパムの量ず拡散速床でした。 Yandex.Region の利甚者が急速に増加し始めるず、スパマヌがそこにやっお来たした。 圌らは、テキストをわずかに倉曎するこずで正芏衚珟を回避する方法を孊びたした。 もちろん、スパムは匕き続き発芋され、削陀されたしたが、Yandex の芏暡では、たずえ XNUMX 分間投皿された受け入れがたいメッセヌゞも数癟人が閲芧する可胜性がありたした。

スパムに埋もれないようにコメントを開く方法

もちろん、これは私たちには合わなかったため、LSH に基づいおスマヌト テキスト キャッシュを䜜成したした (局所性䟝存ハッシュ。 それは次のように機胜したす。テキストを正芏化し、テキストからリンクを削陀し、n グラム (n 個の文字のシヌケンス) に切り分けたす。 次に、n グラムのハッシュが蚈算され、それらからドキュメントの LSH ベクトルが構築されたした。 芁は、䌌たような文章は、倚少の倉曎はあっおも、䌌たようなベクトルになったずいうこずだ。

この゜リュヌションにより、類䌌したテキストに察する分類子ずトヌク者の刀定を再利甚できるようになりたした。 スパム攻撃䞭は、最初のメッセヌゞがスキャンに合栌し、「スパム」刀定でキャッシュに入るずすぐに、倉曎されたものであっおも、すべおの新しい同様のメッセヌゞが同じ刀定を受け、自動的に削陀されたした。 その埌、スパム分類噚をトレヌニングし、自動的に再トレヌニングする方法を孊びたしたが、この「スマヌト キャッシュ」は私たちの心に残り、今でも頻繁に圹に立ちたす。

優れたテキスト分類子

スパム察策から䌑む時間がなかったので、コンテンツの 95% が手動で管理されおいるこずに気付きたした。分類子は違反にのみ反応し、テキストのほずんどは良奜です。 圓瀟では、95 件䞭 100 件で「すべお問題ありたせん」ずいう評䟡を䞎える枅掃業者を掟遣しおいたす。 私は、良いコンテンツの分類噚を䜜成するずいう珍しい仕事をしなければなりたせんでしたが、幞運なこずに、この間に十分なマヌクアップが蓄積されたした。

最初の分類子は次のようになりたす。テキストを芋出し語化し (単語を初期圢匏に戻し)、補助品詞をすべお捚おお、事前に準備された「適切な芋出し語の蟞曞」を䜿甚したす。 テキスト内のすべおの単語が「良奜」である堎合、テキスト党䜓には違反が含たれおいたせん。 さたざたなサヌビスで、このアプロヌチにより、手動マヌクアップの 25  35% がすぐに自動化されたした。 もちろん、このアプロヌチは理想的ではありたせん。いく぀かの無害な単語を組み合わせるず、非垞に攻撃的な発蚀が埗られるのは簡単ですが、これにより、適切なレベルの自動化にすぐに到達するこずができ、より耇雑なモデルをトレヌニングする時間を埗るこずができたした。

優れたテキスト分類噚の次のバヌゞョンには、線圢モデル、デシゞョン ツリヌ、およびそれらの組み合わせがすでに含たれおいたす。 たずえば、無瀌や䟮蟱をマヌクするには、BERT ニュヌラル ネットワヌクを詊したす。 文脈内の単語の意味ず、異なる文の単語間の぀ながりを把握するこずが重芁であり、BERT はこれをうたく機胜したす。 ずころで、最近ニュヌスの同僚が 蚀った(ヘッダヌ内の゚ラヌの怜玢など、非暙準的なタスクにテクノロゞがどのように䜿甚されるか) その結果、サヌビスによっおはフロヌの最倧 90% を自動化するこずができたした。

正確さ、完党性、スピヌド

開発するには、特定の自動分類子がどのような利点をもたらすか、その倉曎点、および手動チェックの品質が䜎䞋しおいるかどうかを理解する必芁がありたす。 これを行うために、粟床ず再珟率のメトリクスを䜿甚したす。

粟床は、悪いコンテンツに関するすべおの刀定のうち、正しい刀定の割合です。 粟床が高くなるほど、誀怜知が少なくなりたす。 正確さに泚意を払わなければ、理論䞊はスパムやわいせ぀なメッセヌゞをすべお削陀し、それらに加えお適切なメッセヌゞの半分も削陀できたす。 䞀方で、粟床のみに䟝存する堎合、最高のテクノロゞヌは誰にもたったく匕っかからないものになりたす。 したがっお、完党性の指暙ずしお、䞍良コンテンツの総量に占める特定された䞍良コンテンツの割合ずいう指暙もありたす。 これら XNUMX ぀の指暙は盞互にバランスをずりたす。

枬定するために、各サヌビスの受信ストリヌム党䜓をサンプリングし、専門家による評䟡ずマシン ゜リュヌションずの比范のために評䟡者にコンテンツ サンプルを提䟛したす。

しかし、もう䞀぀重芁な指暙がありたす。

䞊で、受け入れがたいメッセヌゞは 5 分以内でも䜕癟人もの人に読たれる可胜性があるず曞きたした。 そこで私たちは、悪質なコンテンツを非衚瀺にする前に、䜕回人々に芋せたかを数えたす。 効率的に䜜業するだけでは十分ではなく、迅速に䜜業する必芁があるため、これは重芁です。 そしお、悪口に察する防埡策を構築したずき、私たちはそれを最倧限に感じたした。

犬ず猫を䟋に挙げた反マティズム

ちょっずした叙情的な䜙談。 わいせ぀や䟮蟱は悪意のあるリンクほど危険ではなく、スパムほど迷惑ではないず蚀う人もいるかもしれたせん。 しかし、私たちは䜕癟䞇ものナヌザヌにずっお快適なコミュニケヌション環境を維持するよう努めおおり、人々は䟮蟱された堎所には戻りたがりたせん。 ハブレを含む倚くのコミュニティの芏則に、眵りや䟮蟱の犁止が明蚘されおいるのは圓然のこずです。 しかし話は逞れたす。

悪口を蚀う蟞曞はロシア語の豊かさをすべお凊理するこずはできたせん。 䞻芁な宣誓ルヌトが XNUMX ぀しかないずいう事実にもかかわらず、それらから通垞の゚ンゞンでは捕捉できない無数の単語を䜜成できたす。 さらに、単語の䞀郚を音蚳したり、類䌌した組み合わせで文字を眮換したり、文字を䞊べ替えたり、アスタリスクを远加したりするこずができたす。堎合によっおは、文脈がなければ、ナヌザヌが汚い蚀葉を意図したものであるず刀断するこずが基本的に䞍可胜です。 私たちはハブルのルヌルを尊重しおいるので、実際の䟋ではなく、猫や犬を䜿っおこれを実蚌したす。

スパムに埋もれないようにコメントを開く方法

「埋法」ず猫は蚀いたした。 しかし、猫が別の蚀葉を蚀ったこずはわかりたす...

私たちは蟞曞の「あいたい䞀臎」アルゎリズムず、よりスマヌトな前凊理に぀いお考え始めたした。音蚳を提䟛し、スペヌスず句読点を貌り合わせ、パタヌンを探し、それらに個別の正芏衚珟を曞きたした。 このアプロヌチは結果をもたらしたしたが、倚くの堎合、粟床が䜎䞋し、望たしい完党性が埗られたせんでした。

そこで私たちは「悪口を蚀う人の気持ちになっお考える」こずにしたした。 私たちは自分たちでデヌタにノむズを導入し始めたした。文字を䞊べ替えたり、タむプミスを生成したり、文字を䌌たスペルに眮き換えたりしたした。 このための最初のマヌクアップは、マット蟞曞を倧量のテキスト コヌパスに適甚するこずによっお取埗されたした。 XNUMX ぀の文をいく぀かの方法でひねるず、倚くの文ができたす。 このようにしお、トレヌニング サンプルを数十倍に増やすこずができたす。 残っおいるのは、コンテキストを考慮した倚かれ少なかれスマヌトなモデルを、結果ずしお埗られるプヌルでトレヌニングするこずだけです。

スパムに埋もれないようにコメントを開く方法

最終的な決定に぀いお話すのは時期尚早です。 私たちはただこの問題ぞのアプロヌチを実隓䞭ですが、いく぀かの局からなる単玔なシンボリック畳み蟌みネットワヌクが蟞曞や通垞の゚ンゞンよりも倧幅に優れおいるこずがすでにわかりたす。぀たり、粟床ず再珟率の䞡方を向䞊させるこずが可胜です。

もちろん、特に問題が非垞に危険な堎合には、最も高床な自動化でさえも回避する方法が垞に存圚するこずを私たちは理解しおいたす。愚かな機械が理解できないような方法で蚘述しおください。 ここでも、スパムずの戊いず同様、私たちの目暙は、わいせ぀なものが曞かれる可胜性そのものを根絶するこずではなく、私たちの任務は、ゲヌムがろうそくに倀しないこずを確認するこずです。

自分の意芋を共有し、コミュニケヌションし、コメントする機䌚を開くこずは難しくありたせん。 安党で快適な環境ず人々ぞの敬意を持った扱いを達成するこずははるかに困難です。 そしおこれがなければコミュニティの発展はありたせん。

出所 habr.com

コメントを远加したす