Mail.ru Mail での機械孊習の操䜜

Mail.ru Mail での機械孊習の操䜜

Highload++ および DataFest Minsk 2019 での私のスピヌチに基づいおいたす。

今日、倚くの人にずっお、メヌルはオンラむン生掻に䞍可欠な郚分です。その助けを借りお、私たちはビゞネス通信を行い、財務、ホテルの予玄、泚文などに関連するあらゆる皮類の重芁な情報を保存したす。 2018 幎半ばに、メヌル開発の補品戊略を策定したした。珟代のメヌルはどうあるべきでしょうか?

メヌルは次のずおりです 頭いい぀たり、ナヌザヌが増え続ける情報をナビゲヌトし、最も䟿利な方法で情報をフィルタリングし、構造化し、提䟛できるようにするこずです。圌女はきっずそうでしょう 有甚を䜿甚するず、眰金の支払いなど、さたざたなタスクをメヌルボックス内で盎接解決できたす (残念ながら、私もこの機胜を䜿甚しおいたす)。そしおもちろん同時に、メヌルは情報を保護し、スパムを遮断し、ハッキングから保護する必芁がありたす。 安党な.

これらの分野では倚くの重芁な問題が定矩されおおり、その倚くは機械孊習を䜿甚しお効果的に解決できたす。ここでは、戊略の䞀郚ずしお開発された既存の機胜の䟋を、方向ごずに 1 ぀ず぀瀺したす。

  • スマヌトな返信。メヌルにはスマヌト返信機胜がありたす。ニュヌラル ネットワヌクは手玙の本文を分析し、その意味ず目的を理解し、その結果、肯定的、吊定的、䞭立ずいう 3 ぀の最も適切な応答オプションを提䟛したす。これにより、手玙に返信する時間を倧幅に節玄でき、暙準的ではない面癜い方法で返信するこずもよくありたす。
  • メヌルのグルヌプ化オンラむンストアでの泚文に関するもの。私たちはオンラむンで買い物をするこずが倚く、原則ずしお店舗は泚文ごずに耇数のメヌルを送信できたす。たずえば、最倧のサヌビスである AliExpress からは、29 回の泚文に察しお倧量の手玙が届き、最終的なケヌスではその数は最倧 XNUMX 通に達する可胜性があるず蚈算されたした。そこで、固有衚珟認識モデルを䜿甚しお、泚文番号を抜出したす。テキストからのその他の情報を取埗し、すべおの文字を XNUMX ぀のスレッドにグルヌプ化したす。泚文に関する基本情報も別のボックスに衚瀺されるため、このタむプの電子メヌルの凊理が容易になりたす。

    Mail.ru Mail での機械孊習の操䜜

  • 察詐欺。フィッシングは、特に危険なタむプの詐欺メヌルであり、攻撃者はこれを利甚しお金融情報 (ナヌザヌの銀行カヌドを含む) やログむン情報を取埗しようずしたす。このような文字は、芖芚的にも含めお、サヌビスによっお送信される実際の文字を暡倣したす。したがっお、Computer Vision の助けを借りお、倧䌁業 (Mail.ru、Sber、Alfa など) からのロゎずレタヌのデザむン スタむルを認識し、これをテキストやその他の機胜ずずもにスパムずフィッシングの分類子に考慮したす。 。

機械孊習

電子メヌル党般における機械孊習に぀いお少し説明したす。メヌルは高負荷のシステムです。1,5 䞇人の DAU ナヌザヌに察しお、30 日あたり平均 30 億通の文字が圓瀟のサヌバヌを通過したす。玄 XNUMX の機械孊習システムが、必芁な機胜をすべおサポヌトしおいたす。

各文字は分類パむプラむン党䜓を通過したす。たずスパムを遮断し、適切なメヌルを残したす。スパムの 95  99% は適切なフォルダにさえ到達しないため、ナヌザヌはスパム察策の働きに気づかないこずがよくありたす。スパム認識は私たちのシステムの非垞に重芁な郚分ですが、最も難しい郚分です。なぜなら、スパム察策の分野では防埡システムず攻撃システムの間で絶えず適応する必芁があり、それが私たちのチヌムにずっお゚ンゞニアリング䞊の継続的な課題ずなるからです。

次に、文字ず人間やロボットを分離したす。人々からのメヌルは最も重芁であるため、スマヌト リプラむなどの機胜を提䟛しおいたす。ロボットからの手玙は 2 ぀の郚分に分かれおいたす。取匕に関するもの - これらはサヌビスからの重芁な手玙 (たずえば、賌入やホテルの予玄の確認、財務に関するもの)、および情報に関するもの - これらはビゞネスの広告や割匕です。

私たちは、取匕メヌルは個人的な通信ず同等の重芁性を持っおいるず考えおいたす。私たちは泚文や航空刞の予玄に関する情報をすぐに芋぀ける必芁があり、これらの手玙を探すのに時間を費やすこずが倚いため、これらの手玙は手元にあるべきです。したがっお、䟿宜䞊、旅行、泚文、財務、チケット、登録、そしお最埌に眰金の 6 ぀の䞻芁カテゎリに自動的に分類されたす。

情報レタヌは最倧芏暡であり、おそらく重芁床は䜎いグルヌプですが、ナヌザヌがこのようなレタヌを読たなければ、ナヌザヌの生掻に重芁な倉化は䜕もないため、即時応答する必芁はありたせん。新しいむンタヌフェむスでは、゜ヌシャル ネットワヌクずニュヌスレタヌずいう 2 ぀のスレッドに折りたたたれおいるため、受信トレむが芖芚的にクリアされ、重芁なメッセヌゞのみが衚瀺されるようになりたす。

Mail.ru Mail での機械孊習の操䜜

搟取

システムの数が倚いず、運甚に倚くの困難が生じたす。結局のずころ、他の゜フトりェアず同様に、モデルも時間の経過ずずもに劣化したす。機胜が壊れたり、マシンが故障したり、コヌドが歪んだりするのです。さらに、デヌタは垞に倉化しおいたす。新しいデヌタが远加されたり、ナヌザヌの行動パタヌンが倉化したりするため、適切なサポヌトがなければモデルの動䜜は時間の経過ずずもにたすたす悪化したす。

機械孊習がナヌザヌの生掻に深く浞透すればするほど、゚コシステムに䞎える圱響は倧きくなり、その結果、垂堎参加者が受け取る可胜性のある経枈的損倱たたは利益も倧きくなるずいうこずを忘れおはなりたせん。したがっお、たすたす倚くの分野で、プレむダヌは ML アルゎリズムの動䜜に適応しおいたす (兞型的な䟋は、広告、怜玢、およびすでに述べたスパム察策です)。

たた、機械孊習タスクには特有の特城がありたす。システムに倉曎が加えられるず、たずえそれが軜埮であっおも、モデルに倚くの䜜業が発生する可胜性がありたす。぀たり、デヌタの操䜜、再トレヌニング、デプロむメントなど、数週間から数か月かかる堎合もありたす。したがっお、モデルが動䜜する環境の倉化が速ければ速いほど、その環境を維持するために必芁な劎力はより倚くなりたす。チヌムは倚くのシステムを䜜成し、それに満足しおいおも、そのメンテナンスにリ゜ヌスのほずんどすべおを費やし、新しいこずを行う機䌚がない堎合がありたす。私たちはスパム察策チヌムでそのような状況に遭遇したこずがありたす。そしお圌らは、サポヌトを自動化する必芁があるずいう明癜な結論を䞋したした。

オヌトメヌション

䜕が自動化できるのでしょうか?実際、ほがすべおです。私は機械孊習むンフラストラクチャを定矩する 4 ぀の領域を特定したした。

  • デヌタ収集;
  • 远加のトレヌニング。
  • 展開する;
  • テストずモニタリング。

環境が䞍安定で垞に倉化しおいる堎合、モデルの呚囲のむンフラストラクチャ党䜓がモデル自䜓よりもはるかに重芁であるこずがわかりたす。これは叀き良き線圢分類噚かもしれたせんが、適切な機胜を䞎えおナヌザヌから良いフィヌドバックを埗れば、あらゆる付加機胜を備えた最先端のモデルよりもはるかに優れた機胜を発揮したす。

フィヌドバックルヌプ

このサむクルは、デヌタ収集、远加のトレヌニング、展開を組み合わせたもので、実際にはモデル曎新サむクル党䜓です。どうしおそれが重芁ですかメヌル内の登録スケゞュヌルを確認しおください。

Mail.ru Mail での機械孊習の操䜜

機械孊習開発者は、ボットが電子メヌルに登録されるのを防ぐアンチボット モデルを実装したした。グラフは、実際のナヌザヌのみが残る倀たで䜎䞋したす。すべおが玠晎らしいですしかし 4 時間が経過するず、ボットがスクリプトを調敎し、すべおが通垞の状態に戻りたす。この実装では、開発者は機胜の远加ずモデルの再トレヌニングに 1 か月を費やしたしたが、スパマヌは 4 時間で適応できたした。

耐え難いほど苊痛にならず、埌ですべおをやり盎す必芁がないようにするには、最初にフィヌドバック ルヌプがどのようになるか、環境が倉化した堎合にどうするかを考えおおく必芁がありたす。デヌタの収集から始めたしょう。これがアルゎリズムの燃料ずなりたす。

デヌタ収集

最新のニュヌラル ネットワヌクにずっお、デヌタは倚ければ倚いほど良いこずは明らかであり、実際、デヌタは補品のナヌザヌによっお生成されたす。ナヌザヌはデヌタにマヌクを付けるこずで私たちを支揎できたすが、ナヌザヌはある時点でモデルの完成に飜きお別の補品に切り替えるため、これを悪甚するこずはできたせん。

最も䞀般的な間違いの 1 ぀は (ここでは Andrew Ng を参照したす)、テスト デヌタセットのメトリクスに焊点を圓おすぎお、ナヌザヌからのフィヌドバックに重点を眮かないこずです。ナヌザヌからのフィヌドバックは、実際には䜜業品質の䞻な尺床です。ナヌザヌのための補品。ナヌザヌがモデルの仕事を理解しなかったり、気に入らなかったりするず、すべおが台無しになりたす。

したがっお、ナヌザヌは垞に投祚できる必芁があり、フィヌドバック甚のツヌルが提䟛される必芁がありたす。金融に関連した手玙がメヌルボックスに届いたず考えられる堎合、それに「金融」ずマヌクを付け、ナヌザヌがクリックしおこれは金融ではないこずを瀺すボタンを描画する必芁がありたす。

フィヌドバックの質

ナヌザヌからのフィヌドバックの質に぀いお話したしょう。たず、あなたずナヌザヌは 1 ぀の抂念に異なる意味を入れるこずができたす。たずえば、あなたずプロダクト マネヌゞャヌは、「財務」ずは銀行からの手玙を意味するず考え、ナヌザヌは、おばあちゃんからの幎金に぀いおの手玙も財務を指すず考えたす。次に、䜕の論理もなしにボタンを抌すのが倧奜きなナヌザヌがいたす。第䞉に、ナヌザヌは結論を倧きく誀っおいる可胜性がありたす。私たちの実践における顕著な䟋は、分類子の実装です。 ナむゞェリアのスパム、非垞に面癜いタむプのスパムで、ナヌザヌはアフリカで突然芋぀かった遠い芪戚から数癟䞇ドルを受け取るよう求められたす。この分類子を実装した埌、これらのメヌルの「スパムではない」クリックをチェックしたずころ、その 80% がナむゞェリアのおいしいスパムであるこずが刀明したした。これは、ナヌザヌが非垞にだたされやすい可胜性があるこずを瀺唆しおいたす。

たた、ボタンは人間だけでなく、ブラりザのふりをするあらゆる皮類のボットによっおもクリックされる可胜性があるこずを忘れないでください。したがっお、生のフィヌドバックは孊習には良くありたせん。この情報を䜿っお䜕ができるでしょうか?

私たちは 2 ぀のアプロヌチを䜿甚したす。

  • リンクされた ML からのフィヌドバック。たずえば、オンラむンのアンチボット システムがあり、前述したように、限られた数の兆候に基づいお迅速な決定を䞋したす。そしお、事埌的に動䜜する 2 番目の遅いシステムがありたす。ナヌザヌやその行動などに関するより倚くのデヌタが含たれおいたす。その結果、最も倚くの情報に基づいた意思決定が行われ、より正確性ず完党性が高たりたす。これらのシステムの動䜜の違いをトレヌニング デヌタずしお最初のシステムに送信できたす。したがっお、より単玔なシステムは垞に、より耇雑なシステムのパフォヌマンスに近づこうずしたす。
  • クリック分類。各ナヌザヌのクリックを簡単に分類し、その有効性ず䜿いやすさを評䟡できたす。これは、スパム察策メヌルで、ナヌザヌ属性、履歎、送信者属性、テキスト自䜓、分類子の結果を䜿甚しお行われたす。その結果、ナヌザヌのフィヌドバックを怜蚌する自動システムが実珟したした。たた、再トレヌニングの必芁性がはるかに䜎くなるため、その䜜業が他のすべおのシステムの基瀎になる可胜性がありたす。䞍正確なデヌタに基づいおモデルをトレヌニングするず結果が䌎うため、このモデルの䞻な優先事項は粟床です。

デヌタをクリヌニングし、ML システムをさらにトレヌニングしおいる間、ナヌザヌのこずを忘れおはなりたせん。なぜなら、私たちにずっお、グラフ䞊の䜕千、䜕癟䞇もの゚ラヌは統蚈であり、ナヌザヌにずっおはすべおのバグが悲劇だからです。ナヌザヌは、フィヌドバックを受け取った埌、䜕らかの圢で補品の゚ラヌを受け入れなければならないずいう事実に加えお、将来的には同様の状況が排陀されるこずを期埅したす。したがっお、ナヌザヌに投祚の機䌚を䞎えるだけでなく、フィヌドバックのクリックごずに個人的なヒュヌリスティックを䜜成するなど、ML システムの動䜜を修正するこずも垞に䟡倀がありたす。メヌルの堎合、これはフィルタリング機胜などです。このナヌザヌの送信者ずタむトルによる手玙など。

たた、他のナヌザヌが同様の問題に悩たされないように、半自動モヌドたたは手動モヌドでサポヌトぞのレポヌトやリク゚ストに基づいおモデルを構築する必芁もありたす。

孊習のためのヒュヌリスティック

これらのヒュヌリスティックず束葉杖には 2 ぀の問題がありたす。 1 ぀目は、増え続ける束葉杖の数を長期にわたっお維持するのが難しいずいうこずです。たしおや、その品質や性胜を維持するのが難しいずいうこずです。 2 番目の問題は、゚ラヌが頻繁に発生するわけではなく、モデルをさらにトレヌニングするために数回クリックするだけでは十分ではないこずです。次のアプロヌチを適甚するず、これら 2 ぀の無関係な圱響を倧幅に䞭和できるように芋えたす。

  1. 䞀時的な束葉杖を䜜成したす。
  2. そこからモデルにデヌタを送信し、受け取ったデヌタも含めおモデル自䜓を定期的に曎新したす。もちろん、ここでは、トレヌニング セット内のデヌタの品質を䜎䞋させないように、ヒュヌリスティックの粟床が高いこずが重芁です。
  3. 次に、束葉杖が䜜動するようにモニタリングを蚭定したす。しばらくしお束葉杖が機胜しなくなり、モデルに完党に芆われた堎合は、安党に取り倖すこずができたす。珟圚、この問題が再び起こる可胜性は䜎いです。

したがっお、束葉杖の軍隊は非垞に圹立ちたす。重芁なこずは、圌らのサヌビスは緊急であり、氞続的なものではないずいうこずです。

远加トレヌニング

再トレヌニングは、ナヌザヌたたは他のシステムからのフィヌドバックの結果ずしお取埗された新しいデヌタを远加し、そのデヌタに基づいお既存のモデルをトレヌニングするプロセスです。远加のトレヌニングにはいく぀かの問題が発生する可胜性がありたす。

  1. モデルは远加のトレヌニングをサポヌトしおいないだけで、最初からのみ孊習する可胜性がありたす。
  2. 远加のトレヌニングが生産珟堎での䜜業の品質を確実に向䞊させるずは、自然界の本のどこにも曞かれおいたせん。倚くの堎合、その逆、぀たり悪化のみが起こりたす。
  3. 倉化は予枬できない堎合がありたす。これは、私たちが独自に特定したかなり埮劙な点です。 A/B テストで新しいモデルが珟圚のモデルず同様の結果を瀺したずしおも、それが同じように動䜜するこずを意味するわけではありたせん。圌らの䜜業はわずか 1% 異なる可胜性があり、それによっお新たな゚ラヌが発生したり、すでに修正された叀い゚ラヌが返されたりする可胜性がありたす。私たちもナヌザヌも、珟圚の゚ラヌに察凊する方法をすでに知っおいたすが、倚数の新しい゚ラヌが発生した堎合、ナヌザヌは予枬可胜な動䜜を期埅しおいるため、䜕が起こっおいるのか理解できない堎合もありたす。

したがっお、远加のトレヌニングで最も重芁なこずは、モデルが改善されおいるか、少なくずも悪化しおいないこずを確認するこずです。

远加のトレヌニングに぀いお話すずきに最初に思い浮かぶのは、アクティブ ラヌニングのアプロヌチです。これはどういう意味ですかたずえば、分類噚は電子メヌルが金融に関連しおいるかどうかを刀断し、その刀断境界の呚囲にラベル付きの䟋のサンプルを远加したす。これは、たずえば、倚くのフィヌドバックがあり、オンラむンでモデルをトレヌニングできる広告の堎合にうたく機胜したす。たた、フィヌドバックがほずんどない堎合は、本番デヌタの分垃に察しお非垞に偏ったサンプルが埗られるため、それに基づいお運甚䞭のモデルの動䜜を評䟡するこずは䞍可胜になりたす。

Mail.ru Mail での機械孊習の操䜜

実際、私たちの目暙は、叀いパタヌンや既知のモデルを保存し、新しいパタヌンを取埗するこずです。ここでは継続が重芁です。ロヌルアりトするために倚倧な劎力を費やしたモデルはすでに動䜜しおいるため、そのパフォヌマンスに集䞭できたす。

メヌルでは、ツリヌ、線圢、ニュヌラル ネットワヌクなど、さたざたなモデルが䜿甚されたす。それぞれに぀いお、独自の远加トレヌニング アルゎリズムを䜜成したす。远加のトレヌニングのプロセスでは、新しいデヌタだけでなく、倚くの堎合、以䞋のすべおのアルゎリズムで考慮される新しい特城も受け取りたす。

線圢モデル

ロゞスティック回垰があるずしたす。次のコンポヌネントから損倱モデルを䜜成したす。

  • 新しいデヌタの LogLoss。
  • 新しい特城の重みを正芏化したす (叀い特城には觊れたせん)。
  • たた、叀いパタヌンを保存するために叀いデヌタから孊習したす。
  • そしお、おそらく最も重芁なこずは、調和正則化を远加するこずです。これにより、基準に埓っお叀いモデルに察しお重みがあたり倉わらないこずが保蚌されたす。

各損倱コンポヌネントには係数があるため、盞互怜蚌を通じお、たたは補品芁件に基づいおタスクに最適な倀を遞択できたす。

Mail.ru Mail での機械孊習の操䜜

Деревья

デシゞョンツリヌに移りたしょう。ツリヌの远加トレヌニング甚に次のアルゎリズムをコンパむルしたした。

  1. 本番環境では、叀いデヌタセットでトレヌニングされた 100  300 本の朚のフォレストが実行されたす。
  2. 最埌に、M = 5 個を削陀し、2M = 10 個の新しいデヌタを远加したす。これはデヌタセット党䜓でトレヌニングされたすが、新しいデヌタの重みが高く、モデルの段階的な倉曎が圓然保蚌されたす。

明らかに、時間の経過ずずもに朚の数は倧幅に増加するため、タむミングに合わせお定期的に朚を枛らす必芁がありたす。これを行うために、珟圚広く普及しおいる知識蒞留 (KD) を䜿甚したす。その動䜜原理に぀いお簡単に説明したす。

  1. 珟圚の「耇雑な」モデルがありたす。これをトレヌニング デヌタ セットに察しお実行し、出力でクラスの確率分垃を取埗したす。
  2. 次に、クラス分垃をタヌゲット倉数ずしお䜿甚しおモデルの結果を繰り返すために、孊生モデル (この堎合はツリヌの数が少ないモデル) をトレヌニングしたす。
  3. ここで、デヌタ セット マヌクアップを䞀切䜿甚しおいないため、任意のデヌタを䜿甚できるこずに泚意するこずが重芁です。もちろん、戊闘ストリヌムからのデヌタ サンプルを孊生モデルのトレヌニング サンプルずしお䜿甚したす。したがっお、トレヌニング セットによっおモデルの粟床を保蚌でき、ストリヌム サンプルによっお本番分垃での同様のパフォヌマンスが保蚌され、トレヌニング セットの偏りが補償されたす。

Mail.ru Mail での機械孊習の操䜜

これら 2 ぀の手法 (ツリヌを远加し、ナレッゞ蒞留を䜿甚しおツリヌの数を定期的に枛らす) を組み合わせるこずで、新しいパタヌンの導入ず完党な継続性が保蚌されたす。

KD の助けを借りお、フィヌチャの削陀やギャップの凊理など、モデル フィヌチャに察しおさたざたな操䜜も実行したす。私たちの堎合、デヌタベヌスに保存されおいる重芁な統蚈的特城 (送信者、テキスト ハッシュ、URL など) が倚数ありたすが、これらは倱敗する傟向がありたす。もちろん、トレヌニング セットでは倱敗状況が発生しないため、モデルはそのようなむベントの展開に察応する準備ができおいたせん。そのような堎合、KD ず拡匵技術を組み合わせたす。デヌタの䞀郚をトレヌニングするずきに、必芁な特城を削陀たたはリセットし、元のラベル (珟圚のモデルの出力) を取埗したす。これにより、スチュヌデント モデルはこの分垃を繰り返すこずを孊習したす。 。

Mail.ru Mail での機械孊習の操䜜

より深刻なモデル操䜜が行われるほど、必芁なスレッド サンプルの割合が倧きくなるこずがわかりたした。

最も単玔な操䜜である特城の削陀には、フロヌのごく䞀郚のみが必芁です。倉曎される特城はいく぀かだけであり、珟圚のモデルは同じセットでトレヌニングされおいるため、違いは最小限です。モデルを簡玠化するには (ツリヌの数を数倍枛らす)、すでに 50 察 50 が必芁です。たた、モデルのパフォヌマンスに重倧な圱響を䞎える重芁な統蚈的特城が省略されおいる堎合、その䜜業を平準化するにはさらに倚くのフロヌが必芁です。党文字察応の脱萜防止モデルが新登堎。

Mail.ru Mail での機械孊習の操䜜

高速テキスト

FastText に移りたしょう。単語の衚珟 (埋め蟌み) は、単語自䜓ずそのすべおの文字 N グラム (通垞はトリグラム) の埋め蟌みの合蚈で構成されるこずを思い出しおください。かなり倚くのトリグラムが存圚する可胜性があるため、バケット ハッシュが䜿甚されたす。぀たり、空間党䜓を特定の固定ハッシュマップに倉換したす。結果ずしお、ワヌド数バケットあたりの内局の次元で重み行列が埗られたす。

さらにトレヌニングを重ねるず、単語やトリグラムなどの新しい蚘号が衚瀺されたす。 Facebook の暙準的なフォロヌアップ トレヌニングでは、重芁なこずは䜕も起こりたせん。クロス゚ントロピヌを持぀叀い重みのみが新しいデヌタで再トレヌニングされたす。したがっお、新しい機胜は䜿甚されたせん。もちろん、このアプロヌチには、運甚環境におけるモデルの予枬䞍可胜性に関連する䞊蚘のすべおの欠点がありたす。そのため、FastText を少し倉曎したした。すべおの新しい重み (ワヌドずトラむグラム) を远加し、クロス゚ントロピヌで行列党䜓を拡匵し、線圢モデルずの類掚により調和正則化を远加したす。これにより、叀い重みのわずかな倉化が保蚌されたす。

Mail.ru Mail での機械孊習の操䜜

CNN

畳み蟌みネットワヌクはもう少し耇雑です。 CNN で最埌の局が完成しおいる堎合は、もちろん調和正則化を適甚しお連続性を保蚌できたす。しかし、ネットワヌク党䜓の远加のトレヌニングが必芁な堎合、そのような正則化をすべおの局に適甚するこずはできなくなりたす。ただし、トリプレット損倱を通じお盞補的な埋め蟌みをトレヌニングするオプションがありたす (原著).

トリプルロス

フィッシング察策タスクを䟋ずしお、トリプレット損倱を䞀般的に芋おみたしょう。圓瀟のロゎだけでなく、他瀟のロゎのポゞティブな䟋ずネガティブな䟋も取り䞊げたす。最初のクラス間の距離を最小化し、2 番目のクラス間の距離を最倧化したす。クラスのコンパクト性を確保するために、小さなギャップを蚭けおこれを行いたす。

Mail.ru Mail での機械孊習の操䜜

ネットワヌクをさらにトレヌニングするず、蚈量空間は完党に倉化し、前の空間ず完党に互換性がなくなりたす。これはベクトルを䜿甚する問題では深刻な問題です。この問題を回避するには、トレヌニング䞭に叀い埋め蟌みを混ぜたす。

新しいデヌタをトレヌニング セットに远加し、モデルの 1 番目のバヌゞョンを最初からトレヌニングしおいたす。第 2 段階では、ネットワヌクをさらにトレヌニングしたす (埮調敎)。最初に最埌の局が完成し、次にネットワヌク党䜓のフリヌズが解陀されたす。トリプレットを構成するプロセスでは、トレヌニングされたモデルを䜿甚しお埋め蟌みの䞀郚のみを蚈算し、残りは叀いモデルを䜿甚しお蚈算したす。したがっお、远加のトレヌニングのプロセスで、蚈量空間 vXNUMX ず vXNUMX の互換性を確保したす。調和正則化のナニヌクなバヌゞョン。

Mail.ru Mail での機械孊習の操䜜

アヌキテクチャ党䜓

䟋ずしおアンチスパムを䜿甚するシステム党䜓を考えるず、モデルは分離されおおらず、盞互にネストされおいたす。写真、テキスト、その他の機胜を撮圱し、CNN ず Fast Text を䜿甚しお埋め蟌みを取埗したす。次に、埋め蟌みの䞊に分類子が適甚され、さたざたなクラス (文字の皮類、スパム、ロゎの存圚) のスコアが提䟛されたす。信号ず暙識はすでに最終決定を䞋すために暹林に入り始めおいたす。このスキヌムの個々の分類子により、すべおのデヌタを生の圢匏でデシゞョン ツリヌに入力するのではなく、システムの結果をより適切に解釈し、問題が発生した堎合にコンポヌネントをより具䜓的に再トレヌニングするこずが可胜になりたす。

Mail.ru Mail での機械孊習の操䜜

その結果、あらゆるレベルでの継続性が保蚌されたす。 CNN ず Fast Text の最䞋䜍レベルでは調和正則化を䜿甚し、䞭間の分類噚では確率分垃の䞀貫性を保぀ために調和正則化ずレヌト キャリブレヌションも䜿甚したす。そうですね、ツリヌ ブヌスティングは段階的にトレヌニングするか、知識の蒞留を䜿甚しおトレヌニングしたす。

䞀般に、このような入れ子になった機械孊習システムの維持は、䞋䜍レベルのコンポヌネントが䞊䜍のシステム党䜓の曎新に぀ながるため、通垞は面倒です。しかし、私たちの蚭定では各コンポヌネントがわずかに倉曎され、以前のコンポヌネントず互換性があるため、構造党䜓を再トレヌニングするこずなく、システム党䜓を郚分的に曎新でき、重倧なオヌバヌヘッドなしでサポヌトできたす。

展開する

デヌタ収集ずさたざたなタむプのモデルの远加トレヌニングに぀いお説明したので、本番環境ぞの展開に移りたす。

A/B テスト

前に述べたように、デヌタ収集の過皋で通垞は偏ったサンプルが埗られ、そこからモデルの実皌働パフォヌマンスを評䟡するこずは䞍可胜です。そのため、デプロむ時にはモデルを以前のバヌゞョンず比范しお実際にどうなっおいるのかを把握する、぀たりA/Bテストを実斜する必芁がありたす。実際、チャヌトの展開ず分析のプロセスは非垞に日垞的なものであり、簡単に自動化できたす。モデルの応答ずナヌザヌのフィヌドバックに関する利甚可胜なすべおの指暙を収集しながら、モデルをナヌザヌの 5%、30%、50%、100% に段階的に展開したす。重倧な倖れ倀の堎合は、モデルを自動的にロヌルバックしたす。その他の堎合は、十分な数のナヌザヌ クリックを収集した埌、パヌセンテヌゞを増やすこずを決定したす。その結果、新しいモデルは完党に自動的にナヌザヌの 50% に提䟛され、察象者党䜓ぞの展開は人によっお承認されたすが、このステップは自動化できたす。

ただし、A/B テスト プロセスには最適化の䜙地がありたす。実際のずころ、A/B テストは非垞に時間がかかり (私たちの堎合、フィヌドバックの量に応じお 6  24 時間かかりたす)、そのため非垞に費甚がかかり、リ゜ヌスも限られおいたす。さらに、本質的に A/B テスト党䜓の時間を短瞮するには、テストのフロヌの十分に高いパヌセンテヌゞが必芁です (統蚈的に有意なサンプルを集めおメトリクスを小さなパヌセンテヌゞで評䟡するには非垞に長い時間がかかる可胜性がありたす)。 A/B スロットの数は非垞に限られおいたす。明らかに、最も有望なモデルのみをテストする必芁があり、远加のトレヌニング プロセス䞭にかなり倚くのモデルを受け取りたす。

この問題を解決するために、A/B テストの成功を予枬する別の分類噚をトレヌニングしたした。これを行うために、トレヌニング セット、遅延セット、およびストリヌムからのサンプルに関する意思決定統蚈、粟床、再珟率、およびその他のメトリクスを特城ずしお取埗したす。たた、ヒュヌリスティックを䜿甚しおモデルを実皌働䞭の珟圚のモデルず比范し、モデルの耇雑さを考慮したす。これらすべおの機胜を䜿甚しお、テスト履歎でトレヌニングされた分類噚が候補モデル (この堎合は朚の森) を評䟡し、A/B テストでどれを䜿甚するかを決定したす。

Mail.ru Mail での機械孊習の操䜜

導入時点では、このアプロヌチにより、A/B テストの成功数を数倍に増やすこずができたした。

テストずモニタリング

奇劙なこずに、怜査やモニタリングは私たちの健康を害するものではなく、むしろ逆に健康を改善し、䞍必芁なストレスから解攟しおくれるのです。テストによっお障害を防ぐこずができ、監芖によっお障害を適時に怜出しおナヌザヌぞの圱響を軜枛できたす。

ここで、遅かれ早かれシステムは垞に間違いを犯すものであるこずを理解するこずが重芁です。これは、゜フトりェアの開発サむクルによるものです。システム開発の初期段階では、すべおが安定し、むノベヌションの䞻芁段階が完了するたで、垞に倚くのバグが発生したす。しかし、時間の経過ずずもに゚ントロピヌが増倧し、最初に説明した呚囲のコンポヌネントの劣化やデヌタの倉曎により、゚ラヌが再び発生したす。

ここで泚意したいのは、あらゆる機械孊習システムはラむフサむクル党䜓を通じお利益の芳点から怜蚎されるべきであるずいうこずです。以䞋のグラフは、たれなタむプのスパムを捕捉するシステムの動䜜䟋を瀺しおいたす (グラフの線はれロに近い)。ある日、誀っおキャッシュされた属性により、圌女はおかしくなっおしたいたした。幞運なこずに、異垞なトリガヌを監芖する機胜がなかったため、システムは意思決定の境界にある「スパム」フォルダヌに倧量の手玙を保存し始めたした。結果を修正したにもかかわらず、システムはすでに䜕床も間違いを犯しおいるため、5幎経っおも元が取れたせん。そしお、これはモデルのラむフサむクルの芳点から芋るず完党に倱敗です。

Mail.ru Mail での機械孊習の操䜜

したがっお、モニタリングのような単玔なこずがモデルの寿呜においお重芁になる可胜性がありたす。暙準的で明癜な指暙に加えお、モデルの応答ずスコアの分垃、および䞻芁な特城倀の分垃も考慮したす。 KL ダむバヌゞェンスを䜿甚するず、珟圚の分垃を過去の分垃ず比范したり、A/B テストの倀を残りのストリヌムず比范したりできるため、モデルの異垞に気づき、倉曎をタむムリヌにロヌルバックできたす。

ほずんどの堎合、システムの最初のバヌゞョンは、将来の監芖ずしお䜿甚する単玔なヒュヌリスティックたたはモデルを䜿甚しお起動されたす。たずえば、特定のオンラむン ストアの通垞のモデルず比范しお NER モデルを監芖し、それらず比范しお分類子のカバレッゞが䜎䞋しおいる堎合、その理由を理解したす。ヒュヌリスティックのもう 1 ぀の䟿利な䜿い方!

結果

この蚘事の重芁なアむデアをもう䞀床芋おみたしょう。

  • フィブデック。私たちは垞にナヌザヌのこずを考えおいたす。ナヌザヌが私たちの間違いをどのように受け止めるか、どのように報告できるか。ナヌザヌはモデルをトレヌニングするための玔粋なフィヌドバック源ではなく、補助的な ML システムの助けを借りおクリアする必芁があるこずを忘れないでください。ナヌザヌからの信号を収集できない堎合は、接続されたシステムなどの代替フィヌドバック源を探したす。
  • 远加トレヌニング。ここで重芁なのは継続性であるため、珟圚の生産モデルに䟝存したす。調和正則化や同様のトリックにより、新しいモデルが以前のモデルず倧きく倉わらないようにトレヌニングしたす。
  • 展開する。メトリクスに基づく自動デプロむメントにより、モデルの実装時間が倧幅に短瞮されたす。統蚈ず意思決定の分垃、ナヌザヌの転倒数を監芖するこずは、安らかな睡眠ず生産的な週末にずっお必須です。

これが、ML システムをより迅速に改善し、より迅速に垂堎に投入し、信頌性を高めおストレスを軜枛するのに圹立぀こずを願っおいたす。

出所 habr.com

コメントを远加したす