Nolīdzināšanas plāns profesijas Datu inženieris iegūšanai
Pēdējos astoņus gadus strādāju par projektu vadītāju (darbā kodu nerakstu), kas, protams, negatīvi ietekmē manu tehnoloģisko aizmuguri. Nolēmu likvidēt savu tehnoloģisko robu un iegūt datu inženiera profesiju. Datu inženiera pamatprasme ir spēja projektēt, veidot un uzturēt datu noliktavas.
Sastādīju treniņu plānu, domāju, ka noderēs ne tikai man. Plāns orientēts uz pašmācības kursiem. Priekšroka tiek dota bezmaksas kursiem krievu valodā.
Sadaļas:
Algoritmi un datu struktūras. Atslēgu sadaļa. Apgūstiet to, un arī viss pārējais izdosies. Ir svarīgi iepazīties ar kodu un izmantot pamata struktūras un algoritmus.
Datu bāzes un datu noliktavas, biznesa inteliģence. Mēs pārejam no algoritmiem uz datu glabāšanu un apstrādi.
Hadoop un lielie dati. Kad datu bāze nav iekļauta cietajā diskā vai ja dati ir jāanalizē, bet Excel tos vairs nevar ielādēt, sākas liela datu apjoma izveide. Manuprāt, ir nepieciešams pāriet uz šo sadaļu tikai pēc divu iepriekšējo padziļinātas izpētes.
Algoritmi un datu struktūras
Savā plānā es iekļāvu Python apguvi, atkārtojot matemātikas un algoritmizācijas pamatus.
Datu bāzes un datu noliktavas, biznesa inteliģence
Grāmata: Martin Kleppman - Ļoti noslogotas aplikācijas. Programmēšana, mērogošana, atbalsts. Grāmatā aprakstīts, kā darbojas dažādi datu modeļi, to ieviešana no iekšpuses, ierobežojumi un izvēles atkarībā no uzdevuma.
Tēmas, kas saistītas ar datu noliktavu, ETL, OLAP kubu veidošanu, ir ļoti atkarīgas no rīkiem, tāpēc šajā dokumentā saites uz kursiem nedodu. Šādas sistēmas vēlams izpētīt, strādājot pie konkrēta projekta konkrētā uzņēmumā. Iepazans ar ETL var pamēģināt Talents vai Airflow.
Manuprāt, ir svarīgi izpētīt mūsdienu Data Vault projektēšanas metodiku saite 1, saite 2. Un labākais veids, kā to iemācīties, ir ņemt to un īstenot ar vienkāršu piemēru. Vietnē GitHub ir vairāki Data Vault ieviešanas piemēri saite. Mūsdienu datu noliktavas grāmata: Agile Data Warehouse modelēšana ar datu glabātuvi, Hans Hultgren.
Lai iepazītos ar biznesa inteliģences rīkiem gala lietotājiem, varat izmantot bezmaksas atskaišu, informācijas paneļu, mini datu noliktavu noformētāju Power BI Desktop. Mācību materiāli: saite 1, saite 2.
Hadoop un lielie dati
Jums jāsāk ar neatkarīgu MapReduce ieviešanu bez trešo pušu bibliotēkām. Tas ļaus labāk izprast daudzpavedienu implementācijas nākotnē. Ir aprakstīts lielisks Python piemērs šeit.
Ne visu, ko iemācies, var pielietot darbā. Tāpēc ir nepieciešams izlaiduma projekts, kurā centīsies pielietot jaunas zināšanas.
Plānā nav nevienas tēmas, kas saistītas ar datu analīzi un mašīnmācīšanos. tas vairāk attiecas uz datu zinātnieka profesiju. Nav arī tēmu saistībā ar AWS mākoņiem, Azure. šīs tēmas ir ļoti atkarīgas no platformas izvēles.
Jautājumi sabiedrībai:
Cik adekvāts ir mans izlīdzināšanas plāns? Ko noņemt vai pievienot?
Kādu projektu jūs ieteiktu kā diplomdarbu?