Nivelačný plán na získanie profesie Dátový inžinier

Posledných osem rokov pracujem ako projektový manažér (nepíšem kód v práci), čo prirodzene negatívne ovplyvňuje môj technologický backend. Rozhodol som sa zaplniť svoju technologickú medzeru a získať povolanie dátového inžiniera. Základnou zručnosťou dátového inžiniera je schopnosť navrhovať, budovať a udržiavať dátové sklady.

Urobil som si tréningový plán, myslím, že sa bude hodiť nielen mne. Plán je zameraný na samoštúdium. Prednosť majú bezplatné kurzy ruštiny.

Sekcie:

  • Algoritmy a dátové štruktúry. Kľúčová časť. Naučte sa to a všetko ostatné bude tiež fungovať. Je dôležité dostať kód do rúk a použiť základné štruktúry a algoritmy.
  • Databázy a dátové sklady, Business Intelligence. Prechádzame od algoritmov k ukladaniu a spracovaniu údajov.
  • Hadoop a veľké dáta. Keď databáza nie je zahrnutá na pevnom disku alebo keď je potrebné analyzovať údaje, ale Excel ich už nemôže načítať, začnú sa veľké údaje. K tejto časti je podľa mňa potrebné pristúpiť až po hlbokom preštudovaní dvoch predchádzajúcich.

Algoritmy a dátové štruktúry

Do môjho plánu som zaradil učenie Pythonu, zopakovanie si základov matematiky a algoritmizácie.

Databázy a dátové sklady, Business Intelligence

Témy súvisiace s budovaním dátových skladov, ETL, OLAP kociek sú veľmi závislé od nástrojov, preto v tomto dokumente neuvádzam odkazy na kurzy. Takéto systémy je vhodné naštudovať pri práci na konkrétnom projekte v konkrétnej firme. Pre zoznámenie sa s ETL môžete vyskúšať Talent alebo Airflow.

Podľa mňa je dôležité naštudovať si modernú metodiku návrhu Data Vault odkaz 1, odkaz 2. A najlepší spôsob, ako sa to naučiť, je vziať si to a implementovať to na jednoduchom príklade. Na GitHub je niekoľko príkladov implementácie Data Vault odkaz. Kniha Moderný dátový sklad: Modelovanie agilného dátového skladu s dátovým trezorom od Hansa Hultgrena.

Na zoznámenie sa s nástrojmi Business Intelligence pre koncových používateľov môžete využiť bezplatného návrhára zostáv, dashboardov, mini dátových skladov Power BI Desktop. Vzdelávacie materiály: odkaz 1, odkaz 2.

Hadoop a veľké dáta

Záver

Nie všetko, čo sa naučíte, sa dá uplatniť v práci. Preto potrebujete maturitný projekt, v ktorom sa pokúsite uplatniť nové poznatky.

V pláne nie sú žiadne témy súvisiace s analýzou údajov a strojovým učením. to platí skôr pre profesiu Data Scientist. Neexistujú ani žiadne témy súvisiace s cloudmi AWS, Azure. tieto témy veľmi závisia od výberu platformy.

Otázky pre komunitu:
Aký primeraný je môj plán na vyrovnanie? Čo odstrániť alebo pridať?
Aký projekt by ste odporučili ako diplomovú prácu?

Zdroj: hab.com

Pridať komentár