Prohoster > Blog > quản lý > Kế hoạch san lấp mặt bằng để có được nghề Kỹ sư dữ liệu
Kế hoạch san lấp mặt bằng để có được nghề Kỹ sư dữ liệu
Trong tám năm qua, tôi đã làm việc với tư cách là người quản lý dự án (tôi không viết mã tại nơi làm việc), điều này đương nhiên ảnh hưởng tiêu cực đến phần phụ trợ công nghệ của tôi. Tôi quyết định thu hẹp khoảng cách công nghệ của mình và nhận nghề Kỹ sư dữ liệu. Kỹ năng cốt lõi của Kỹ sư dữ liệu là khả năng thiết kế, xây dựng và duy trì kho dữ liệu.
Tôi đã lập một kế hoạch đào tạo, tôi nghĩ rằng nó sẽ hữu ích không chỉ cho tôi. Kế hoạch tập trung vào các khóa học tự học. Ưu tiên cho các khóa học miễn phí bằng tiếng Nga.
Các phần:
Các thuật toán và cấu trúc dữ liệu. Phần chính. Tìm hiểu nó và mọi thứ khác cũng sẽ diễn ra. Điều quan trọng là bạn phải nắm được mã và sử dụng các cấu trúc và thuật toán cơ bản.
Cơ sở dữ liệu và kho dữ liệu, Business Intelligence. Chúng tôi đang chuyển từ thuật toán sang lưu trữ và xử lý dữ liệu.
Hadoop và Dữ liệu lớn. Khi cơ sở dữ liệu không được đưa vào ổ cứng hoặc khi dữ liệu cần được phân tích nhưng Excel không thể tải chúng nữa, dữ liệu lớn sẽ bắt đầu. Theo tôi, chỉ cần tiến hành phần này sau khi nghiên cứu sâu về hai phần trước.
Thuật toán và cấu trúc dữ liệu
Trong kế hoạch của mình, tôi bao gồm việc học Python, lặp lại những kiến thức cơ bản về toán học và thuật toán hóa.
Cơ sở dữ liệu và kho dữ liệu, Business Intelligence
Sách: Martin Kleppman - Các ứng dụng được tải cao. Lập trình, nhân rộng, hỗ trợ. Cuốn sách mô tả cách thức hoạt động của các mô hình dữ liệu khác nhau, cách triển khai chúng từ bên trong, các hạn chế và lựa chọn tùy thuộc vào nhiệm vụ.
Các chủ đề liên quan đến xây dựng kho dữ liệu, ETL, OLAP cube phụ thuộc nhiều vào các công cụ nên tôi không đưa link các khóa học trong tài liệu này. Nên nghiên cứu các hệ thống như vậy khi làm việc trên một dự án cụ thể trong một công ty cụ thể. Để làm quen với ETL, bạn có thể thử Tài năng hoặc Luồng khí.
Theo tôi, điều quan trọng là phải nghiên cứu phương pháp thiết kế Data Vault hiện đại liên kết 1, liên kết 2. Và cách tốt nhất để học nó là lấy nó và thực hiện nó với một ví dụ đơn giản. Có một số ví dụ triển khai Data Vault trên GitHub liên kết. Cuốn sách Kho dữ liệu hiện đại: Lập mô hình kho dữ liệu linh hoạt với Data Vault của Hans Hultgren.
Để làm quen với các công cụ Business Intelligence dành cho người dùng cuối, bạn có thể sử dụng trình thiết kế báo cáo, bảng điều khiển, kho dữ liệu mini miễn phí Power BI Desktop. Tài liệu giáo dục: liên kết 1, liên kết 2.
Hadoop và Dữ liệu lớn
Bạn cần bắt đầu với việc triển khai MapReduce độc lập mà không cần thư viện của bên thứ ba. Điều này sẽ cho phép hiểu rõ hơn về triển khai đa luồng trong tương lai. Một ví dụ tuyệt vời trong Python được mô tả đây.
Không phải mọi thứ bạn học đều có thể áp dụng vào công việc. Vì vậy, bạn cần một đồ án tốt nghiệp trong đó bạn sẽ cố gắng áp dụng những kiến thức mới.
Không có chủ đề nào liên quan đến phân tích dữ liệu và Học máy trong kế hoạch. điều này áp dụng nhiều hơn cho nghề Nhà khoa học dữ liệu. Cũng không có chủ đề nào liên quan đến đám mây AWS, Azure. những chủ đề này phụ thuộc nhiều vào việc lựa chọn nền tảng.
Câu hỏi cho cộng đồng:
Làm thế nào đầy đủ là kế hoạch san lấp mặt bằng của tôi? Những gì để loại bỏ hoặc thêm?
Dự án nào bạn muốn giới thiệu như một luận án?