לעוועלינג פּלאַן פֿאַר באקומען די פאַך דאַטאַ ינזשעניר
Последние восемь лет я работаю руководителем проектов (не пишу код на работе), что естественно негативно влияет на мой технологический бекэнд. Я решил сократить своё технологическое отставание и получить профессию Data engineer. Основной навык Data engineer — способность разрабатывать, строить и поддерживать хранилища данных.
Составил план обучения, думаю он будет полезен не только для меня. План ориентирован на самостоятельное изучение курсов. Приоритет отдается бесплатным курсам на русском языке.
סעקציעס:
Алгоритмы и структуры данных. Ключевой раздел. Изучишь его — всё остальное тоже получится. Важно набить руку в написании кода и использовании основных структур и алгоритмов.
Базы и хранилища данных, Business Intelligence. От алгоритмов переходим в хранению и обработке данных.
Hadoop and Big Data. Когда база не входит на винчестер, или когда данные нужно анализировать, но Excel уже не может их загрузить начинаются большие данные. На мой взгляд, переходить к этому разделу нужно только после глубокого изучения двух предыдущих.
אַלגערידאַמז און דאַטן סטראַקטשערז
В свой план я включил изучение Python, повторение основ математики и алгоритмизации.
Книга: Мартин Клеппман — Высоконагруженные приложения. Программирование, масштабирование, поддержка. Книга описывает как работают разные модели данных, их реализацию изнутри, ограничения и выбор в зависимости от задачи.
Темы связанные с построением хранилищ данных, ETL, OLAP-кубов сильно зависят от инструментов, поэтому в этом документе не даю ссылок на курсы. Целесообразно изучать такие системы при работе над конкретным проектом в конкретной компании. Для знакомство с ETL можно попробовать טאַלענד אָדער אַירפלאָוו.
На мой взгляд, важно изучать современную методологию проектирования хранилищ данных Data Vault 1 לינק, 2 לינק. И лучший способ изучить его — взять и реализовать на простом примере. На GitHub есть несколько примеров реализации Data Vault רונג. Современная книга по хранилищам данных: Modeling the Agile Data Warehouse with Data Vault by Hans Hultgren.
Для знакомства с инструментами Business Intelligence для конечных пользователей можно использовать бесплатный конструктор отчетов, дашбордов, мини хранилищ данных Power BI Desktop. Обучающие материалы: 1 לינק, 2 לינק.
Hadoop and Big Data
Начать нужно с самостоятельной реализации MapReduce без сторонних библиотек. Это позволит в будущем лучше понимать многопоточные реализации. Отличный пример на Python описан דאָ.
Не всё из того что изучаешь получается применять на работе. Поэтому необходим дипломный проект, в котором ты попробуешь применить новые знания.
В плане нет тем связанных с анализом данных и Machine Learning, т.к. это больше относится к профессии Data Scientist. Также нет тем связанных с облаками AWS, Azure т.к. эти темы сильно зависят от выбора платформы.
Вопросы к сообществу:
Насколько адекватен мой план прокачки? Что убрать или добавить?
Какой проект посоветуете в качестве дипломной работы?