Nivelačný plán na získanie profesie Dátový inžinier
Posledných osem rokov pracujem ako projektový manažér (nepíšem kód v práci), čo prirodzene negatívne ovplyvňuje môj technologický backend. Rozhodol som sa zaplniť svoju technologickú medzeru a získať povolanie dátového inžiniera. Základnou zručnosťou dátového inžiniera je schopnosť navrhovať, budovať a udržiavať dátové sklady.
Urobil som si tréningový plán, myslím, že sa bude hodiť nielen mne. Plán je zameraný na samoštúdium. Prednosť majú bezplatné kurzy ruštiny.
Sekcie:
Algoritmy a dátové štruktúry. Kľúčová časť. Naučte sa to a všetko ostatné bude tiež fungovať. Je dôležité dostať kód do rúk a použiť základné štruktúry a algoritmy.
Databázy a dátové sklady, Business Intelligence. Prechádzame od algoritmov k ukladaniu a spracovaniu údajov.
Hadoop a veľké dáta. Keď databáza nie je zahrnutá na pevnom disku alebo keď je potrebné analyzovať údaje, ale Excel ich už nemôže načítať, začnú sa veľké údaje. K tejto časti je podľa mňa potrebné pristúpiť až po hlbokom preštudovaní dvoch predchádzajúcich.
Algoritmy a dátové štruktúry
Do môjho plánu som zaradil učenie Pythonu, zopakovanie si základov matematiky a algoritmizácie.
Kniha: Martin Kleppman - Vysoko načítané aplikácie. Programovanie, škálovanie, podpora. Kniha popisuje, ako fungujú rôzne dátové modely, ich implementácia zvnútra, obmedzenia a voľby v závislosti od úlohy.
Témy súvisiace s budovaním dátových skladov, ETL, OLAP kociek sú veľmi závislé od nástrojov, preto v tomto dokumente neuvádzam odkazy na kurzy. Takéto systémy je vhodné naštudovať pri práci na konkrétnom projekte v konkrétnej firme. Pre zoznámenie sa s ETL môžete vyskúšať Talent alebo Airflow.
Podľa mňa je dôležité naštudovať si modernú metodiku návrhu Data Vault odkaz 1, odkaz 2. A najlepší spôsob, ako sa to naučiť, je vziať si to a implementovať to na jednoduchom príklade. Na GitHub je niekoľko príkladov implementácie Data Vault odkaz. Kniha Moderný dátový sklad: Modelovanie agilného dátového skladu s dátovým trezorom od Hansa Hultgrena.
Na zoznámenie sa s nástrojmi Business Intelligence pre koncových používateľov môžete využiť bezplatného návrhára zostáv, dashboardov, mini dátových skladov Power BI Desktop. Vzdelávacie materiály: odkaz 1, odkaz 2.
Hadoop a veľké dáta
Musíte začať s nezávislou implementáciou MapReduce bez knižníc tretích strán. To umožní lepšie pochopenie viacvláknových implementácií v budúcnosti. Je opísaný vynikajúci príklad v Pythone tu.
Nie všetko, čo sa naučíte, sa dá uplatniť v práci. Preto potrebujete maturitný projekt, v ktorom sa pokúsite uplatniť nové poznatky.
V pláne nie sú žiadne témy súvisiace s analýzou údajov a strojovým učením. to platí skôr pre profesiu Data Scientist. Neexistujú ani žiadne témy súvisiace s cloudmi AWS, Azure. tieto témy veľmi závisia od výberu platformy.
Otázky pre komunitu:
Aký primeraný je môj plán na vyrovnanie? Čo odstrániť alebo pridať?
Aký projekt by ste odporučili ako diplomovú prácu?