Viimased kaheksa aastat olen töötanud projektijuhina (tööl ma koodi ei kirjuta), mis loomulikult mõjutab minu tehnoloogilist tausta negatiivselt. Otsustasin oma tehnoloogilise lünga täita ja omandada andmeinseneri elukutse. Andmeinseneri põhioskus on andmeladude kavandamise, ehitamise ja hooldamise oskus.
Tegin treeningplaani, arvan, et see on kasulik mitte ainult mulle. Kavas on keskendunud iseõppimiskursustele. Eelistatakse tasuta vene keele kursusi.
Sektsioonid:
Algoritmid ja andmestruktuurid. Võtmeosa. Õppige seda ja kõik muu saab ka korda. Oluline on koodile käed külge panna ning kasutada põhilisi struktuure ja algoritme.
Andmebaasid ja andmelaod, Business Intelligence. Liigume algoritmidelt andmete salvestamise ja töötlemise poole.
Hadoop ja suurandmed. Kui andmebaasi pole kõvakettal või kui andmeid on vaja analüüsida, kuid Excel ei saa neid enam laadida, alustatakse suurte andmetega. Minu arvates on vaja selle lõigu juurde minna alles pärast kahe eelneva põhjalikku uurimist.
Algoritmid ja andmestruktuurid
Kavas oli Pythoni õppimine, matemaatika põhitõdede kordamine ja algoritmiseerimine.
Raamat: Martin Kleppman - Väga koormatud rakendused. Programmeerimine, skaleerimine, tugi. Raamatus kirjeldatakse erinevate andmemudelite toimimist, nende rakendamist seestpoolt, piiranguid ja valikuid sõltuvalt ülesandest.
Andmeladude, ETL-i, OLAP-i kuubikute ehitamisega seotud teemad sõltuvad suuresti tööriistadest, mistõttu ma ei anna selles dokumendis kursuste linke. Selliseid süsteeme on soovitav uurida konkreetses ettevõttes konkreetse projekti kallal töötades. ETLiga tutvumiseks võib proovida Talend või Õhuvool.
Minu arvates on oluline uurida kaasaegset Data Vaulti disainimetoodikat link 1, link 2. Ja parim viis selle õppimiseks on võtta see ette ja rakendada seda lihtsa näite abil. GitHubis on mitu Data Vaulti rakendamise näidet link. Kaasaegse andmelao raamat: Hans Hultgreni agiilse andmelao modelleerimine andmehoidla abil.
Lõppkasutajatele mõeldud ärianalüüsi tööriistadega tutvumiseks saate kasutada tasuta aruannete, armatuurlaudade, mini-andmeladude kujundajat Power BI Desktop. Õppematerjalid: link 1, link 2.
Hadoop ja suurandmed
Peate alustama MapReduce'i iseseisvast juurutamisest ilma kolmandate osapoolte teekideta. See võimaldab tulevikus paremini mõista mitme lõimega rakendusi. Kirjeldatakse suurepärast näidet Pythonis siin.
Kõike õpitut ei saa tööl rakendada. Seetõttu vajate lõputööd, milles proovite uusi teadmisi rakendada.
Andmeanalüüsi ja masinõppega seotud teemasid plaanis ei ole. see kehtib rohkem andmeteadlase elukutse kohta. Samuti pole AWS-i pilvedega, Azure'iga seotud teemasid. need teemad sõltuvad suuresti platvormi valikust.
Küsimused kogukonnale:
Kui piisav on minu tasandusplaan? Mida eemaldada või lisada?
Millist projekti soovitaksite lõputööks?