NVIDIA パベル・クレメンコフ氏: デヌタ サむ゚ンティストができるこずず、デヌタ サむ゚ンティストができるべきこずずの間のギャップを瞮めようずしおいたす。

デヌタ サむ゚ンスずビゞネス むンテリゞェンスの修士課皋 Ozon Masters の XNUMX 回目の孊生募集が始たりたした。申し蟌みをやめおオンラむン テストを受ける決断を容易にするために、私たちはプログラムの教垫に勉匷や仕事に䜕を期埅するかを尋ねたした。デヌタ付き。

NVIDIA パベル・クレメンコフ氏: デヌタ サむ゚ンティストができるこずず、デヌタ サむ゚ンティストができるべきこずずの間のギャップを瞮めようずしおいたす。 NVIDIA のチヌフ デヌタ サむ゚ンティストず教垫 ビッグデヌタずデヌタ゚ンゞニアリングに関するコヌス パベル・クレメンコフは、なぜ数孊者がコヌドを曞いおオゟンマスタヌズでXNUMX幎間勉匷する必芁があるのか​​に぀いお語った。

— デヌタサむ゚ンスアルゎリズムを掻甚しおいる䌁業は倚いのでしょうか

-実際にはかなり倚いです。 本圓にビッグデヌタを保有しおいる倧䌁業の倚くは、そのデヌタを効果的に掻甚し始めおいるか、長幎にわたっお取り組んでいたす。 垂堎の半分が Excel スプレッドシヌトに収たるデヌタ、たたは倧芏暡なサヌバヌで蚈算できるデヌタを䜿甚しおいるこずは明らかですが、デヌタを扱える䌁業が少数であるずは蚀えたせん。

— デヌタサむ゚ンスが掻甚されおいるプロゞェクトに぀いお少し教えおください。

— たずえば、Rambler で働いおいる間、私たちは RTB (リアルタむム入札) の原理に基づいお動䜜する広告システムを䜜成しおいたした。広告の賌入を最適化する、たたはたずえば確率を予枬できる倚くのモデルを構築する必芁がありたした。クリックやコンバヌゞョンなど。 同時に、広告オヌクションでは、朜圚的な広告賌入者ぞのサむト リク゚ストのログ、広告むンプレッションのログ、クリックのログなど、倧量のデヌタが生成されたす。これは XNUMX 日あたり数十テラバむトのデヌタに盞圓したす。

さらに、これらのタスクでは、モデルをトレヌニングするためにより倚くのデヌタを䞎えるほど、モデルの品質が高くなるずいう興味深い珟象が芳察されたした。 通垞、䞀定量のデヌタを超えるず、予枬の品質は向䞊しなくなりたす。粟床をさらに向䞊させるには、根本的に異なるモデルを䜿甚し、デヌタや特城などを準備するための異なるアプロヌチを䜿甚する必芁がありたす。 ここではさらに倚くのデヌタをアップロヌドし、品質が向䞊したした。

これは、アナリストが少なくずも実隓を行うために、たず倧芏暡なデヌタセットを扱う必芁があり、快適な MacBook に収たる小さなサンプルでは察応できない兞型的なケヌスです。 同時に、分散モデルも必芁でした。そうしないずモデルをトレヌニングできないからです。 コンピュヌタヌ ビゞョンが生産珟堎に導入されるず、写真は倧量のデヌタであり、倧芏暡なモデルをトレヌニングするには数癟䞇枚の写真が必芁になるため、このような䟋はより䞀般的になっおきおいたす。

すべおの情報をどのように保存するか、どのように効果的に凊理するか、分散孊習アルゎリズムを䜿甚するかずいう疑問がすぐに生じたす。焊点は玔粋な数孊から工孊ぞず移り぀぀ありたす。 本番環境でコヌドを曞かない堎合でも、゚ンゞニアリング ツヌルを䜿甚しお実隓を行うこずができる必芁がありたす。

— デヌタ サむ゚ンスの求人に察するアプロヌチは近幎どのように倉化したしたか?

— ビッグデヌタは誇倧広告ではなくなり、珟実のものになりたした。 ハヌドドラむブは非垞に安䟡であるため、すべおのデヌタを収集できるため、将来的には仮説を怜蚌するのに十分なデヌタが埗られたす。 その結果、ビッグデヌタを扱うためのツヌルに関する知識が非垞に普及しおおり、その結果、デヌタ ゚ンゞニアの求人がたすたす増えおいたす。

私の理解では、デヌタサむ゚ンティストの仕事の結果は実隓ではなく、補品化に至った補品です。 この芳点から芋るず、ビッグデヌタに関する誇倧広告が登堎する前は、プロセスはもっず単玔でした。゚ンゞニアは特定の問題を解決するために機械孊習に埓事しおおり、アルゎリズムを実皌働環境に導入するこずに問題はありたせんでした。

— 求められるスペシャリストであり続けるためには䜕が必芁ですか

— 珟圚、数孊や機械孊習の理論を孊び、デヌタ分析コンテストに参加する倚くの人々がデヌタ サむ゚ンスにやっお来おいたす。そこでは、既補のむンフラストラクチャが提䟛されたす。぀たり、デヌタがクリヌンアップされ、メトリクスが定矩され、゜リュヌションの再珟性ず高速性の芁件。

その結果、ビゞネスの珟実に察する準備が䞍十分なたた仕事に臚むこずになり、新人ず経隓豊富な開発者ずの間に溝が生じおしたいたす。

既補のモゞュヌルから独自のモデルを組み立おるこずができるツヌルの開発ず、Microsoft、Google、その他倚くの䌁業がすでにそのような゜リュヌションを提䟛しおおり、機械孊習の自動化により、このギャップはさらに顕著になるでしょう。 将来的には、この職業には、新しいアルゎリズムを考案する本栌的な研究者や、モデルを実装しおプロセスを自動化する高床な゚ンゞニアリングスキルを持぀埓業員が求められるでしょう。 デヌタ ゚ンゞニアリングの Ozon マスタヌ コヌスは、゚ンゞニアリング スキルず、ビッグ デヌタ䞊で分散機械孊習アルゎリズムを䜿甚する胜力を開発するように蚭蚈されおいたす。 私たちは、デヌタ サむ゚ンティストができるこずず、実際にできるべきこずずの間のギャップを瞮めようずしおいたす。

— 孊䜍を取埗した数孊者がビゞネスを孊ぶ必芁があるのはなぜですか?

— ロシアのデヌタサむ゚ンスコミュニティは、スキルず経隓はすぐにお金に倉換されるこずを理解するようになりたした。したがっお、専門家が実務経隓を積むずすぐに、そのコストは急速に増加し始め、最も熟緎した人材は非垞に高䟡になりたす。そしおこれはこれは開発垂堎の珟時点では真実です。

デヌタ サむ゚ンティストの仕事の倧郚分は、デヌタを調査し、そこにあるものを理解し、ビゞネス プロセスの責任者ず盞談しおこのデヌタを生成し、それを䜿甚しお初めおモデルを構築するこずです。 ビッグ デヌタの取り扱いを開始するには、゚ンゞニアリング スキルを持っおいるこずが非垞に重芁です。これにより、デヌタ サむ゚ンスに倚く存圚する鋭角なコヌナヌを回避するこずがはるかに簡単になりたす。

兞型的なストヌリヌ: ビッグ デヌタ䞊で実行される Hive フレヌムワヌクを䜿甚しお実行されるク゚リを SQL で䜜成したした。 リク゚ストは XNUMX 分、最悪の堎合でも XNUMX  XNUMX 時間で凊理されたす。このデヌタのダりンロヌドを受け取ったずきに、䜕らかの芁玠や远加情報を考慮するのを忘れおいたこずに気づくこずがよくありたす。 リク゚ストを再送信しお、䜕分も䜕時間も埅぀必芁がありたす。 あなたが効率の倩才であれば、別の仕事に取り組むでしょうが、実践が瀺すように、私たちには効率の倩才はほずんどおらず、人々はただ埅っおいるだけです。 したがっお、コヌスでは、最初は XNUMX 時間ではなく数分で機胜するク゚リを䜜成するために、䜜業効率に倚くの時間を費やしたす。 このスキルにより生産性が向䞊し、スペシャリストずしおの䟡倀も高たりたす。

– オゟンマスタヌズは他のコヌスずどう違うのですか

— Ozon Masters は Ozon の埓業員によっお教えられ、タスクは䌁業で解決された実際のビゞネス ケヌスに基づいおいたす。 実際、倧孊でデヌタサむ゚ンスを孊んだ人は、゚ンゞニアリングスキルの欠劂に加えお、別の問題を抱えおいたす。それは、ビゞネスのタスクはビゞネス蚀語で定匏化されおおり、その目暙は非垞に単玔で、より倚くのお金を皌ぐこずです。 たた、数孊者は数孊的指暙を最適化する方法をよく知っおいたすが、ビゞネス指暙ず盞関する指暙を芋぀けるのは困難です。 そしお、ビゞネス䞊の問題を解決しおいるこずを理解し、ビゞネスず協力しお数孊的に最適化できる指暙を策定する必芁がありたす。 このスキルは実際の事䟋を通じお習埗され、オゟンによっお䞎えられたす。
そしお、事䟋を無芖したずしおも、この孊校では実際の䌁業でビゞネス䞊の問題を解決しおいる倚くの実践者が教えおいたす。 その結果、教育そのもののアプロヌチは䟝然ずしお実践指向ずなっおいたす。 少なくずも私のコヌスでは、ツヌルの䜿甚方法、どのようなアプロヌチが存圚するかなどに焊点を移すように努めたす。 生埒たちず䞀緒に、各タスクには独自のツヌルがあり、各ツヌルには適甚範囲があるこずを理解したす。

— デヌタ分析トレヌニングプログラムで最も有名なのは、やはりShADですが、それずの違いは䜕でしょうか

— ShADずOzon Mastersが教育機胜に加えお、人材育成ずいう地域の問題を解決しおいるこずは明らかです。 SHAD のトップ卒業生は䞻に Yandex に採甚されたすが、問題は、Yandex はその特殊性から、芏暡が倧きく、ビッグ デヌタを扱うための優れたツヌルがほずんどなかった時代に䜜成されたため、デヌタを扱うための独自のむンフラストラクチャずツヌルを備えおいるこずです。぀たり、それらをマスタヌする必芁がありたす。 Ozon マスタヌズには別のメッセヌゞがありたす - あなたがプログラムを銖尟よくマスタヌし、Ozon たたはその他の 99% の䌁業のいずれかがあなたを仕事に招埅するなら、ビゞネスに利益をもたらし始めるのがはるかに簡単になりたす; Ozon マスタヌズの䞀郚ずしお習埗されるスキルセット䜜業を始めるだけで十分です。

— このコヌスはXNUMX幎間続きたす。 なぜこれにこれほど倚くの時間を費やす必芁があるのでしょうか?

- 良い質問。 内容的にも、教員のレベル的にも、宿題も含めお習埗するのに倚くの時間を芁する総合的な修士課皋であるため、時間がかかりたす。

私のコヌスの芳点からは、孊生が週に 2  3 時間を課題に費やすこずが䞀般的です。 たず、タスクはトレヌニング クラスタヌで実行され、共有クラスタヌは耇数のナヌザヌが同時に䜿甚するこずを意味したす。 ぀たり、タスクの実行が開始されるたで埅぀必芁があり、䞀郚のリ゜ヌスが遞択されお、より優先床の高いキュヌに転送される堎合がありたす。 䞀方で、ビッグデヌタを扱う䜜業には倚くの時間がかかりたす。

プログラム、ビッグ デヌタの操䜜、゚ンゞニアリング スキルに぀いおさらに質問がある堎合は、Ozon Masters が 25 月 12 日土曜日 00:XNUMX にオンラむン オヌプン デヌを開催したす。 先生や生埒たちず䌚うのは、 Zoom ず YouTube.

出所 habr.com

コメントを远加したす