Plan de nivelare pentru obținerea profesiei de Inginer de date
În ultimii opt ani am lucrat ca manager de proiect (nu scriu cod la locul de muncă), ceea ce în mod firesc îmi afectează negativ backend-ul tehnologic. Am decis să-mi închid decalajul tehnologic și să obțin profesia de inginer de date. Abilitatea de bază a unui inginer de date este abilitatea de a proiecta, construi și întreține depozite de date.
Mi-am facut un plan de antrenament, cred ca va fi de folos nu numai mie. Planul este axat pe cursuri de auto-studiu. Se acordă prioritate cursurilor gratuite în limba rusă.
Secțiuni:
Algoritmi și structuri de date. Secțiunea cheie. Învață-l și totul se va rezolva. Este important să puneți mâna pe cod și să utilizați structurile și algoritmii de bază.
Baze de date și depozite de date, Business Intelligence. Trecem de la algoritmi la stocarea și procesarea datelor.
Hadoop și Big Data. Când baza de date nu este inclusă pe hard disk, sau când datele trebuie analizate, dar Excel nu le mai poate încărca, încep datele mari. În opinia mea, este necesar să trecem la această secțiune numai după un studiu profund al celor două anterioare.
Algoritmi și structuri de date
În planul meu, am inclus învățarea Python, repetând elementele de bază ale matematicii și algoritmizării.
Baze de date și depozite de date, Business Intelligence
Carte: Martin Kleppman - Aplicații foarte încărcate. Programare, scalare, suport. Cartea descrie modul în care funcționează diferite modele de date, implementarea lor din interior, limitările și opțiunile în funcție de sarcină.
Subiectele legate de construirea de depozite de date, cuburile ETL, OLAP sunt foarte dependente de instrumente, așa că nu dau link-uri către cursuri în acest document. Este recomandabil să studiați astfel de sisteme atunci când lucrați la un anumit proiect într-o anumită companie. Pentru cunoștință cu ETL, puteți încerca Talend sau Debit de aer.
În opinia mea, este important să studiem metodologia modernă de proiectare Data Vault link 1, link 2. Și cel mai bun mod de a o învăța este să o luați și să o implementați cu un exemplu simplu. Există mai multe exemple de implementare Data Vault pe GitHub legătură. Cartea Modern Data Warehouse: Modelarea Agile Data Warehouse cu Data Vault de Hans Hultgren.
Pentru a vă familiariza cu instrumentele de Business Intelligence pentru utilizatorii finali, puteți utiliza designerul gratuit de rapoarte, tablouri de bord, mini depozite de date Power BI Desktop. Materiale educative: link 1, link 2.
Hadoop și Big Data
Trebuie să începeți cu o implementare independentă a MapReduce fără biblioteci terțe. Acest lucru va permite o mai bună înțelegere a implementărilor multithreaded în viitor. Este descris un exemplu excelent în Python aici.
Nu tot ceea ce înveți poate fi aplicat la locul de muncă. Prin urmare, ai nevoie de un proiect de absolvire în care vei încerca să aplici noi cunoștințe.
Nu există subiecte legate de analiza datelor și Machine Learning în plan. acest lucru se aplică mai mult profesiei de Data Scientist. De asemenea, nu există subiecte legate de nori AWS, Azure. aceste teme depind foarte mult de alegerea platformei.
Întrebări adresate comunității:
Cât de adecvat este planul meu de nivelare? Ce să eliminați sau să adăugați?
Ce proiect ați recomanda ca teză?