過去 XNUMX 年間、私はプロジェクト マネージャーとして働いてきました (仕事ではコードを書きません)。これは当然、技術的なバックエンドに悪影響を及ぼします。 私は技術的なギャップを埋めて、データ エンジニアの職業に就くことを決意しました。 データ エンジニアの中核となるスキルは、データ ウェアハウスを設計、構築、保守する能力です。
トレーニング計画を立てましたが、それは私だけでなく役に立つと思います。 自習コースを中心としたプランです。 ロシア語の無料コースが優先されます。
セクション:
- アルゴリズムとデータ構造。 重要なセクション。 それを学べば、他のこともすべてうまくいくでしょう。 コードを実際に手に取り、基本的な構造とアルゴリズムを使用することが重要です。
- データベースとデータ ウェアハウス、ビジネス インテリジェンス。 私たちはアルゴリズムからデータの保存と処理に移行しています。
- Hadoop とビッグデータ。 データベースがハード ドライブに含まれていない場合、またはデータを分析する必要があるが Excel でデータを読み込めなくなった場合、大きなデータが始まります。 私の意見では、前の XNUMX つのセクションを深く検討した後でのみ、このセクションに進む必要があります。
アルゴリズムとデータ構造
私の計画には、数学とアルゴリズムの基礎を繰り返す Python の学習が含まれていました。
データベースとデータ ウェアハウス、ビジネス インテリジェンス
- 書籍: Martin Kleppman - 高負荷のアプリケーション。 プログラミング、スケーリング、サポート。 この本では、さまざまなデータ モデルがどのように機能するか、内部からの実装、タスクに応じた制限と選択肢について説明します。
データベースの概要 DBMS を詳しく見る 非リレーショナル データベースの概要
データ ウェアハウス、ETL、OLAP キューブの構築に関連するトピックはツールに大きく依存しているため、このドキュメントではコースへのリンクを提供しません。 特定の企業で特定のプロジェクトに取り組む場合には、このようなシステムを研究することをお勧めします。 ETL について詳しく知りたい場合は、次のことを試してください。
私の意見では、最新の Data Vault 設計方法論を研究することが重要です
エンド ユーザー向けのビジネス インテリジェンス ツールに慣れるには、レポート、ダッシュボード、ミニ データ ウェアハウスの無料デザイナーである Power BI Desktop を使用できます。 教材:
Hadoopとビッグデータ
- サードパーティのライブラリを使用せずに、MapReduce の独立した実装から始める必要があります。 これにより、将来的にはマルチスレッド実装をより深く理解できるようになります。 Python での優れた例が説明されています
ここで . ハドゥープ。 大量のデータを処理するシステム。 ビッグデータエンジニアリングの概要
まとめ
学んだことすべてが仕事に応用できるわけではありません。 したがって、新しい知識を応用しようとする卒業プロジェクトが必要です。
計画にはデータ分析と機械学習に関連するトピックはありません。 これはデータ サイエンティストという職業にさらに当てはまります。 AWS クラウド、Azure に関する話題もありません。 これらのテーマは、プラットフォームの選択に大きく依存します。
コミュニティへの質問:
私のレベリング計画はどの程度適切ですか? 何を削除または追加しますか?
論文としてどのようなプロジェクトをお勧めしますか?
出所: habr.com