ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ

みなさん、こんにちは。私の名前はアレクサンダヌです。デヌタの品質をチェックするデヌタ品質゚ンゞニアです。 この蚘事では、私がこれに至った経緯ず、2020 幎にこのテスト領域が波の頂点にあった理由に぀いお説明したす。

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ

グロヌバルトレンド

今日の䞖界は新たな技術革新を経隓しおおり、その䞀面ずしお、あらゆる皮類の䌁業が蓄積されたデヌタを䜿甚しお、売䞊、利益、PR ずいう独自のフラむホむヌルを掚進しおいたす。 今日、倚くの人々にずっお、良質な質の高いデヌタの存圚ず、それから収益を䞊げるこずができる熟緎した頭脳正しく凊理、芖芚化、機械孊習モデルの構築などが成功の鍵になっおいるようです。 15  20 幎前の倧䌁業が䞻にデヌタの蓄積ず収益化に集䞭的に取り組んでいたずしたら、今日ではほずんどすべおのたずもな人々がこれに携わっおいたす。

この点に関しお、数幎前、䞖界䞭の求人怜玢専甚ポヌタルがデヌタ サむ゚ンティストの求人でいっぱいになり始めたした。そのような専門家を雇えば、機械孊習のスヌパヌモデルを構築できるず誰もが確信しおいたからです。 、未来を予枬し、䌁業の「量子飛躍」を実珟したす。 時間が経぀に぀れお、このような専門家の手に枡ったすべおのデヌタがモデルのトレヌニングに適しおいるわけではないため、このアプロヌチがどこでも機胜するこずはほずんどないこずに人々は気づきたした。

そしお、デヌタ サむ゚ンティストからのリク゚ストが始たりたした。「あれやこれやからもっずデヌタを賌入したしょう...」、「十分なデヌタがありたせん...」、「もう少しデヌタが必芁です、できれば高品質のデヌタが必芁です...」 。 これらの芁求に基づいお、䜕らかのデヌタ セットを所有する䌁業間で数倚くのやり取りが構築され始めたした。 圓然のこずながら、これには、デヌタ ゜ヌスぞの接続、ダりンロヌド、完党にロヌドされたかどうかの確認など、このプロセスの技術的な組織化が必芁でした。そのようなプロセスの数は増加し始め、珟圚では別の皮類のプロセスが非垞に必芁になっおいたす。スペシャリスト - デヌタ品質゚ンゞニア - システム内のデヌタの流れ (デヌタ パむプラむン)、入出力におけるデヌタの品質を監芖し、その十分性、敎合性、その他の特性に぀いお結論を導き出す人。

デヌタ品質゚ンゞニアのトレンドは米囜からやっお来たした。米囜では、資本䞻矩の激動の時代の真っただ䞭で、デヌタをめぐる戊いに負ける぀もりは誰もありたせん。 以䞋に、米囜で最も人気のある XNUMX ぀の求人サむトのスクリヌンショットを瀺したす。 www.monster.com О www.dice.com — デヌタ品質ずデヌタ サむ゚ンティストずいうキヌワヌドを䜿甚しお受け取った求人掲茉数に関する 17 幎 2020 月 XNUMX 日時点のデヌタが衚瀺されたす。

www.monster.com

デヌタサむ゚ンティスト – 21416 件の求人
デヌタ品質 – 41104 件の求人

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ
ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ

www.dice.com

デヌタサむ゚ンティスト – 404 件の求人
デヌタ品質 – 2020 幎の求人情報

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ
ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ

明らかに、これらの職業は互いに競合するものではありたせん。 スクリヌンショットを䜿甚しお、デヌタ品質゚ンゞニアぞの芁求ずいう劎働垂堎の珟状を説明したかっただけです。珟圚、デヌタサむ゚ンティストよりもはるかに倚くの゚ンゞニアが必芁ずされおいたす。

2019 幎 XNUMX 月、EPAM は珟代の IT 垂堎のニヌズに応えお、デヌタ品質を別の業務に分離したした。 デヌタ品質゚ンゞニアは、日々の業務の䞭で、デヌタを管理し、新しい条件やシステムでの動䜜をチェックし、デヌタの関連性、その十分性ず関連性を監芖したす。 これらすべおを考慮するず、実際的な意味では、デヌタ品質゚ンゞニアは叀兞的な機胜テストにほずんど時間を費やしたせん。 しかし これはプロゞェクトによっお倧きく異なりたす (以䞋に䟋を瀺したす)。

デヌタ品質゚ンゞニアの責任は、デヌタベヌス テヌブル内の「ヌル、カりント、合蚈」の定期的な手動/自動チェックだけに限定されず、顧客のビゞネス ニヌズを深く理解し、それに応じお利甚可胜なデヌタを次のデヌタに倉換する胜力を必芁ずしたす。圹立぀ビゞネス情報。

デヌタ品質理論

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ

このような゚ンゞニアの圹割をより完党に想像するために、デヌタ品質ずは理論的に䜕なのかを理解しおみたしょう。

デヌタ品質 — デヌタ管理の段階の XNUMX ぀ (この䞖界党䜓に぀いおは、皆さんがご自身で勉匷できるよう残しおおきたす) であり、次の基準に埓っおデヌタを分析する責任がありたす。

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ
それぞれのポむント (理論的には「デヌタ ディメンション」ず呌ばれたす) を解読する必芁はないず思いたす。それらは図で非垞によく説明されおいたす。 ただし、テスト プロセス自䜓は、これらの機胜をテスト ケヌスに厳密にコピヌしおチェックするこずを意味するものではありたせん。 デヌタ品質では、他のタむプのテストず同様に、たず、ビゞネス䞊の意思決定を行うプロゞェクト参加者ず合意されたデヌタ品質芁件に基づいお構築する必芁がありたす。

デヌタ品質プロゞェクトに応じお、゚ンゞニアは、デヌタ品質の衚面的な評䟡を行う通垞の自動テスタヌから、䞊蚘の基準に埓っおデヌタの詳现なプロファむリングを実行する人たで、さたざたな圹割を実行できたす。

デヌタ管理、デヌタ品質、および関連プロセスの非垞に詳现な説明は、ずいう曞籍に詳しく説明されおいたす。 「DAMA-DMBOK: デヌタ管理知識䜓系: 第 2 版」。 このトピックの入門曞ずしお、この本を匷くお勧めしたす (蚘事の最埌にこの本ぞのリンクがありたす)。

私の話

IT 業界では、補品䌚瀟のゞュニア テスタヌから EPAM のリヌド デヌタ品質゚ンゞニアたで昇進したした。 箄 XNUMX 幎間テスタヌずしお働いた埌、回垰、機胜、ストレス、安定性、セキュリティ、UI など、あらゆる皮類のテストを完党に実行したずいう匷い確信を持ち、倚数のテスト ツヌルを詊したした。 Java、Scala、Python ずいう XNUMX ぀のプログラミング蚀語で同時に䜜業したした。

振り返っおみるず、なぜ私のスキルセットがこれほど倚様だったかがわかりたす。私は倧小を問わずデヌタドリブンのプロゞェクトに携わっおいたした。 これが、私を成長のためのツヌルず機䌚がたくさんある䞖界に導いおくれたものです。

新しい知識やスキルを埗るさたざたなツヌルや機䌚を理解するには、「デヌタず AI」の䞖界で最も人気のあるツヌルを瀺した䞋の図を芋おください。

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ
この皮の図は、゜フトりェア開発出身の有名なベンチャヌキャピタリストの XNUMX 人、マット タヌクによっお毎幎線集されおいたす。 ここ リンク 圌のブログず ベンチャヌキャピタル䌚瀟、そこで圌はパヌトナヌずしお働いおいたす。

私がプロゞェクトの唯䞀のテスタヌだったずき、たたは少なくずもプロゞェクトの開始時に、特に急速にプロずしお成長したした。 このような瞬間に、あなたはテストプロセス党䜓に責任を負わなければならず、埌退する機䌚はなく、前進するだけです。 最初は怖かったですが、今ではこのようなテストのすべおの利点が私にずっお明らかです。

  • コミュニケヌションの代理人、぀たりテスト マネヌゞャヌや他のテスタヌが存圚しないため、これたでにない方法でチヌム党䜓ずコミュニケヌションを始めるこずができたす。
  • プロゞェクトぞの没入感は信じられないほど深くなり、すべおのコンポヌネントに関する䞀般的および詳现な情報が埗られたす。
  • 開発者はあなたを「䜕をやっおいるのかわからないテスト担圓者」ずしおではなく、自動テストず、システムの特定のコンポヌネントに珟れるバグの予枬によっおチヌムに信じられないほどの利益をもたらす同等の人間ずしお芋おいたす。補品。
  • その結果、より効率的になり、資栌も向䞊し、需芁も高たりたす。

プロゞェクトが成長するに぀れお、100% の堎合、私は新しいテスタヌの指導者ずなり、圌らに教え、私自身が孊んだ知識を䌝えたした。 同時に、プロゞェクトによっおは、経営陣から垞に最高レベルの自動テストのスペシャリストが提䟛されるずは限らず、圌らに自動化のトレヌニングを行うか興味のある人向け、日垞の掻動で䜿甚するツヌルを䜜成する必芁がありたしたツヌルデヌタを生成しおシステムにロヌドするためのツヌル、負荷テスト/安定性テストを「迅速に」実行するためのツヌルなど。

具䜓的なプロゞェクトの䟋

残念ながら、守秘矩務があるため、私が携わったプロゞェクトに぀いお詳しく話すこずはできたせんが、あるプロゞェクトにおけるデヌタ品質゚ンゞニアの兞型的なタスクの䟋を玹介したす。

プロゞェクトの本質は、それに基づいお機械孊習モデルをトレヌニングするためのデヌタを準備するためのプラットフォヌムを実装するこずです。 顧客は米囜の倧手補薬䌚瀟でした。 技術的にはクラスタヌだった Kubernetes、に䞊昇 AWS EC2 耇数のマむクロサヌビスず、基瀎ずなる EPAM のオヌプン゜ヌス プロゞェクトを備えたむンスタンス - 軍団、特定の顧客のニヌズに適応した珟圚、プロゞェクトは オダフ。 ETL プロセスは次を䜿甚しお線成されたした。 ApacheAirflow からデヌタを移動したした セヌルスフォヌス の顧客システム AWS S3 バケツ。 次に、機械孊習モデルの Docker むメヌゞがプラットフォヌムにデプロむされ、新しいデヌタでトレヌニングされ、REST API むンタヌフェむスを䜿甚しお、ビゞネスにずっお興味深い予枬が生成され、特定の問題が解決されたした。

芖芚的には、すべおは次のように芋えたした。

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ
このプロゞェクトでは倚くの機胜テストが行​​われ、機胜開発のスピヌドずリリヌス サむクル (XNUMX 週間のスプリント) のペヌスを維持する必芁性を考慮するず、最も重芁なコンポヌネントのテストの自動化を盎ちに考える必芁がありたした。システム。 Kubernetes ベヌスのプラットフォヌム自䜓の倧郚分は、 ロボットフレヌムワヌク + Python ですが、それらのサポヌトず拡匵も必芁でした。 さらに、顧客の利䟿性を考慮しお、クラスタヌにデプロむされた機械孊習モデルを管理するための GUI ず、モデルのトレヌニングのためにデヌタを転送する必芁がある堎所ず堎所を指定する機胜が䜜成されたした。 この広範な远加には自動機胜テストの拡匵が䌎い、そのほずんどは REST API 呌び出しず少数の゚ンドツヌ゚ンド UI テストによっお行われたした。 このすべおの動きの赀道付近で、補品バヌゞョンの受け入れテストず次のリリヌスの受け入れに関する顧客ずのコミュニケヌションで玠晎らしい仕事をした手動テスタヌが加わりたした。 さらに、新しい専門家が到着したため、私たちの䜜業を文曞化し、すぐに自動化するのが困難であったいく぀かの非垞に重芁な手動チェックを远加するこずができたした。

そしお最埌に、プラットフォヌムずその䞊の GUI アドオンの安定性を達成した埌、Apache Airflow DAG を䜿甚しお ETL パむプラむンの構築を開始したした。 自動デヌタ品質チェックは、ETL プロセスの結果に基づいおデヌタをチェックする特別な Airflow DAG を䜜成するこずによっお実行されたした。 このプロゞェクトの䞀環ずしお、私たちは幞運なこずに、お客様が私たちがテストした匿名化されたデヌタセットぞのアクセスを提䟛しおくれたした。 デヌタの型ぞの準拠、壊れたデヌタの存圚、前埌のレコヌドの総数、集蚈のために ETL プロセスによっお行われた倉換の比范、列名の倉曎などをデヌタを XNUMX 行ず぀チェックしたした。 さらに、これらのチェックは、SalesForce に加えお、MySQL など、さたざたなデヌタ ゜ヌスに拡匵されたした。

最終的なデヌタ品質チェックはすでに S3 レベルで実行されおおり、デヌタはそこに保存され、機械孊習モデルのトレヌニングにすぐに䜿甚できるようになっおいたした。 S3 バケット䞊にある最終的な CSV ファむルからデヌタを取埗しお怜蚌するために、コヌドは次を䜿甚しお蚘述されたした。 boto3 クラむアント.

たた、デヌタの䞀郚を 3 ぀の SXNUMX バケットに保存し、䞀郚を別の SXNUMX バケットに保存するずいう顧客からの芁件もありたした。 たた、そのような䞊べ替えの信頌性をチェックするために远加のチェックを䜜成する必芁もありたした。

他のプロゞェクトから埗た䞀般的な経隓

デヌタ品質゚ンゞニアの最も䞀般的なアクティビティのリストの䟋:

  • 自動ツヌルを䜿甚しおテストデヌタ有効・無効・倧・小を準備したす。
  • 準備したデヌタセットを元の゜ヌスにアップロヌドし、䜿甚できる状態であるこずを確認したす。
  • 特定の蚭定セットを䜿甚しお、゜ヌス ストレヌゞから最終ストレヌゞたたは䞭間ストレヌゞたで䞀連のデヌタを凊理する ETL プロセスを起動したす (可胜であれば、ETL タスクの構成可胜なパラメヌタヌを蚭定したす)。
  • ETL プロセスによっお凊理されたデヌタの品質ずビゞネス芁件ぞの準拠を怜蚌したす。

同時に、チェックの䞻な焊点は、システム内のデヌタ フロヌが原則ずしお機胜し、完了に達したずいう事実 (これは機胜テストの䞀郚です) にのみ焊点を圓おるべきではなく、䞻に、システム内のデヌタ フロヌのチェックず怜蚌に重点を眮く必芁がありたす。予想される芁件ぞの準拠、異垞の特定など。

ツヌル

このようなデヌタ制埡の手法の XNUMX ぀は、デヌタ凊理の各段階でのチェヌン チェックの組織化、぀たり文献ではいわゆる「デヌタ チェヌン」、぀たり゜ヌスから最終䜿甚時点たでのデヌタの制埡です。 これらのタむプのチェックは、ほずんどの堎合、チェック甚 SQL ク゚リを䜜成するこずによっお実装されたす。 このようなク゚リは可胜な限り軜量であるべきであり、個々のデヌタ品質 (テヌブルのメタデヌタ、空癜行、NULL、構文゚ラヌ - チェックに必芁なその他の属性) をチェックする必芁があるこずは明らかです。

既補の (倉曎䞍可、わずかに倉曎可胜) デヌタ セットを䜿甚する回垰テストの堎合、自動テスト コヌドは、デヌタが品質に準拠しおいるかどうかをチェックするための既補のテンプレヌト (予期されるテヌブル メタデヌタの説明、倉曎可胜な行サンプル オブゞェクト) を保存できたす。テスト䞭にランダムに遞択されるなど。

たた、テスト䞭には、Apache Airflow などのフレヌムワヌクを䜿甚しお ETL テスト プロセスを䜜成する必芁がありたす。 Apache Spark あるいはブラックボックスのクラりド型ツヌルでも GCP デヌタ準備, GCP デヌタフロヌ 等々。 この状況により、テスト ゚ンゞニアは䞊蚘のツヌルの動䜜原理に没頭し、さらに効果的に機胜テスト (プロゞェクトの既存の ETL プロセスなど) を実行し、それらを䜿甚しおデヌタをチェックする必芁がありたす。 特に、Apache Airflow には、䞀般的な分析デヌタベヌスを操䜜するための既補のオペレヌタヌが甚意されおいたす。 GCP BigQuery。 その䜿甚の最も基本的な䟋はすでに抂説されおいたす ここでなので繰り返したせん。

既成の゜リュヌションを陀けば、独自の技術やツヌルを実装するこずを犁じおいる人はいたせん。 これはプロゞェクトにずっお有益であるだけでなく、デヌタ品質゚ンゞニア自身にずっおも有益であり、それによっおデヌタ品質゚ンゞニアの技術的芖野ずコヌディング スキルが向䞊したす。

実際のプロゞェクトでどのように機胜するか

「デヌタ チェヌン」、ETL、およびナビキタス チェックに関する最埌の段萜をわかりやすく瀺すのは、実際のプロゞェクトの XNUMX ぀による次のプロセスです。

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ

ここでは、有効、無効、混合などのさたざたなデヌタ (圓然、圓瀟が準備したもの) がシステムの入力「ファネル」に入り、フィルタリングされお䞭間ストレヌゞに到達し、再び䞀連の倉換を受けたす。これらは最終ストレヌゞに配眮され、そこから分析、デヌタ マヌトの構築、ビゞネス むンサむトの怜玢が実行されたす。 このようなシステムでは、ETL プロセスの動䜜を機胜的にチェックするこずなく、倉換前埌のデヌタの品質ず分析ぞの出力に重点を眮きたす。

䞊蚘を芁玄するず、私が働いおいた堎所に関係なく、私が関わったデヌタ プロゞェクトには次のような特城がありたした。

  • 自動化を通じおのみ、いく぀かのケヌスをテストし、ビゞネスに受け入れられるリリヌス サむクルを達成できたす。
  • このようなプロゞェクトのテスタヌは、各参加者に倧きな利益 (テストの迅速化、デヌタ サむ゚ンティストからの優れたデヌタ、初期段階での欠陥の特定) をもたらすため、チヌムの䞭で最も尊敬されるメンバヌの XNUMX 人です。
  • 独自のハヌドりェアで䜜業するかクラりドで䜜業するかは関係ありたせん。すべおのリ゜ヌスは、Hortonworks、Cloudera、Mesos、Kubernetes などのクラスタヌに抜象化されたす。
  • プロゞェクトはマむクロサヌビス アプロヌチに基づいお構築されおおり、分散コンピュヌティングず䞊列コンピュヌティングが䞻流です。

デヌタ品質の分野でテストを行う堎合、テスト専門家は専門的な焊点を補品のコヌドず䜿甚するツヌルに移すこずに泚意しおください。

デヌタ品質テストの特城

さらに、私自身ずしおは、デヌタ (ビッグ デヌタ) プロゞェクト (システム) およびその他の分野におけるテストの特城ずしお、以䞋の点を特定したした (これらは非垞に䞀般的で完党に䞻芳的なものであるこずを盎ちに留保したす)。

ビッグデヌタずスモヌルデヌタのテスタヌ: トレンド、理論、私のストヌリヌ

䟿利なリンク集

  1. 理論 DAMA-DMBOK: デヌタ管理知識䜓系: 第 2 版.
  2. トレヌニング・センタヌ EPAM 
  3. 初心者のデヌタ品質゚ンゞニアに掚奚される資料:
    1. Stepik の無料コヌス: ãƒ‡ãƒŒã‚¿ãƒ™ãƒŒã‚¹ã®æŠ‚芁
    2. LinkedIn ラヌニングに関するコヌス: ãƒ‡ãƒŒã‚¿ サむ゚ンスの基瀎: デヌタ ゚ンゞニアリング.
    3. 蚘事
    4. ビデオ

たずめ

デヌタ品質 これは非垞に若い有望な方向性であり、その䞀郚になるこずはスタヌトアップの䞀郚になるこずを意味したす。 Data Quality に入るず、倚くの最新の需芁の高いテクノロゞを掻甚するこずになりたすが、最も重芁なこずは、アむデアを生み出し、実装するための膚倧な機䌚が開かれるこずです。 継続的改善のアプロヌチをプロゞェクトだけでなく自分自身にも掻甚し、スペシャリストずしお継続的に成長できるようになりたす。

出所 habr.com

コメントを远加したす