Theo
Tôi đã phân tích các vị trí tuyển dụng cho vị trí kỹ sư dữ liệu vào tháng 2020 năm XNUMX để hiểu kỹ năng công nghệ nào phổ biến nhất. Sau đó, tôi so sánh kết quả với số liệu thống kê về vị trí tuyển dụng cho vị trí nhà khoa học dữ liệu - và một số khác biệt thú vị đã xuất hiện.
Không cần mở đầu nhiều, đây là mười công nghệ hàng đầu được đề cập thường xuyên nhất trong các tin tuyển dụng:
Đề cập đến công nghệ trong các vị trí tuyển dụng cho vị trí kỹ sư dữ liệu năm 2020
Trách nhiệm của kỹ sư dữ liệu
Ngày nay, công việc mà các kỹ sư dữ liệu làm có tầm quan trọng rất lớn đối với các tổ chức - đây là những người chịu trách nhiệm lưu trữ thông tin và đưa nó về dạng mà các nhân viên khác có thể làm việc với nó. Kỹ sư dữ liệu xây dựng các quy trình để truyền phát hoặc xử lý dữ liệu hàng loạt từ nhiều nguồn. Sau đó, các đường ống thực hiện các hoạt động trích xuất, chuyển đổi và tải (nói cách khác là các quy trình ETL), làm cho dữ liệu phù hợp hơn để sử dụng tiếp. Sau đó, dữ liệu được gửi đến các nhà phân tích và nhà khoa học dữ liệu để xử lý sâu hơn. Cuối cùng, dữ liệu kết thúc hành trình của nó trong bảng thông tin, báo cáo và mô hình học máy.
Tôi đang tìm kiếm thông tin cho phép tôi đưa ra kết luận về những công nghệ nào đang được yêu cầu nhiều nhất trong công việc của một kỹ sư dữ liệu vào lúc này.
Phương pháp
Tôi đã thu thập thông tin từ ba trang tìm kiếm việc làm −
Đối với mỗi từ khóa, tôi đã tính tỷ lệ phần trăm lượt truy cập từ tổng số văn bản trên từng trang web một cách riêng biệt và sau đó tính mức trung bình cho ba nguồn.
Những phát hiện
Dưới đây là XNUMX thuật ngữ kỹ thuật dữ liệu kỹ thuật có điểm cao nhất trên cả ba trang web việc làm.
Và đây là những con số tương tự, nhưng được trình bày dưới dạng bảng:
Hãy đi theo thứ tự.
Đánh giá kết quả
Cả SQL và Python đều xuất hiện ở hơn XNUMX/XNUMX số cơ hội việc làm được đánh giá. Hai công nghệ này có ý nghĩa để nghiên cứu đầu tiên.
Spark được nhắc đến trong khoảng một nửa số vị trí tuyển dụng.
AWS xuất hiện trong khoảng 45% tin tuyển dụng. Nó là một nền tảng điện toán đám mây do Amazon sản xuất; nó có thị phần lớn nhất trong số tất cả các nền tảng đám mây.
Tiếp theo là Java và Hadoop - hơn 40% cho người anh em của họ.
Giống như đang cưỡi trên cỗ máy thời gian
Sau đó, chúng ta thấy Hive, Scala, Kafka và NoSQL - mỗi công nghệ này đều được đề cập trong XNUMX/XNUMX số vị trí tuyển dụng đã gửi. Apache Hive là một phần mềm kho dữ liệu “giúp dễ dàng đọc, ghi và quản lý các tập dữ liệu lớn nằm trong các cửa hàng phân tán bằng SQL”.
So sánh với các điều khoản trong vị trí tuyển dụng của nhà khoa học dữ liệu
Dưới đây là XNUMX thuật ngữ công nghệ phổ biến nhất đối với các nhà tuyển dụng về khoa học dữ liệu. Tôi lấy danh sách này theo cách tương tự như mô tả ở trên về kỹ thuật dữ liệu.
Đề cập đến công nghệ trong các vị trí tuyển dụng cho vị trí nhà khoa học dữ liệu năm 2020
Nếu nói về tổng số, so với đợt tuyển dụng đã xem xét trước đó, số vị trí tuyển dụng nhiều hơn 28% (12 so với 013). Hãy xem những công nghệ nào ít phổ biến hơn ở các vị trí tuyển dụng dành cho nhà khoa học dữ liệu so với kỹ sư dữ liệu.
Phổ biến hơn trong kỹ thuật dữ liệu
Biểu đồ bên dưới hiển thị các từ khóa có mức chênh lệch trung bình lớn hơn 10% hoặc nhỏ hơn -10%.
Sự khác biệt lớn nhất về tần suất từ khóa giữa kỹ sư dữ liệu và nhà khoa học dữ liệu
AWS cho thấy mức tăng đáng kể nhất: trong lĩnh vực kỹ thuật dữ liệu, nó xuất hiện thường xuyên hơn 25% so với lĩnh vực khoa học dữ liệu (tương ứng khoảng 45% và 20% tổng số vị trí tuyển dụng). Sự khác biệt là đáng chú ý!
Đây là cùng một dữ liệu được trình bày hơi khác - trong biểu đồ, các kết quả cho cùng một từ khóa trong các vị trí tuyển dụng cho vị trí kỹ sư dữ liệu và nhà khoa học dữ liệu được đặt cạnh nhau.
Sự khác biệt lớn nhất về tần suất từ khóa giữa kỹ sư dữ liệu và nhà khoa học dữ liệu
Bước nhảy vọt lớn tiếp theo mà tôi ghi nhận là ở Spark - một kỹ sư dữ liệu thường phải làm việc với dữ liệu lớn.
Ít phổ biến hơn trong kỹ thuật dữ liệu
Bây giờ hãy xem những công nghệ nào ít phổ biến hơn trong các vị trí tuyển dụng kỹ sư dữ liệu.
Sự sụt giảm mạnh nhất so với ngành khoa học dữ liệu xảy ra vào năm
Có nhu cầu về cả kỹ thuật dữ liệu và khoa học dữ liệu
Cần lưu ý rằng tám trong số mười vị trí đầu tiên ở cả hai bộ đều giống nhau. SQL, Python, Spark, AWS, Java, Hadoop, Hive và Scala đã lọt vào top XNUMX cho cả ngành kỹ thuật dữ liệu và khoa học dữ liệu. Trong biểu đồ bên dưới, bạn có thể thấy XNUMX công nghệ phổ biến nhất trong số các nhà tuyển dụng kỹ sư dữ liệu và bên cạnh đó là tỷ lệ tuyển dụng cho các nhà khoa học dữ liệu.
Khuyến nghị
Nếu bạn muốn tham gia vào lĩnh vực kỹ thuật dữ liệu, tôi khuyên bạn nên nắm vững các công nghệ sau - tôi liệt kê chúng theo thứ tự ưu tiên gần đúng.
Tìm hiểu SQL. Tôi nghiêng về PostgreSQL vì nó là nguồn mở, rất phổ biến trong cộng đồng và đang trong giai đoạn phát triển. Bạn có thể học cách sử dụng ngôn ngữ từ cuốn sách SQL đáng nhớ của tôi - phiên bản thử nghiệm của nó đã có sẵn
Thành thạo Python, ngay cả khi không ở cấp độ khó nhất. My Memorable Python được thiết kế dành riêng cho người mới bắt đầu. Nó có thể được mua tại
Khi bạn đã quen thuộc với Python, hãy chuyển sang pandas, thư viện Python được sử dụng để làm sạch và xử lý dữ liệu. Nếu bạn đang muốn làm việc trong một công ty yêu cầu khả năng viết bằng Python (và đây là phần lớn trong số họ), bạn có thể chắc chắn rằng kiến thức về gấu trúc sẽ được mặc định thừa nhận. Tôi hiện đang hoàn thiện hướng dẫn giới thiệu về cách làm việc với gấu trúc - bạn có thể
Bậc thầy AWS. Nếu muốn trở thành kỹ sư dữ liệu, bạn không thể thiếu nền tảng đám mây và AWS là nền tảng phổ biến nhất trong số đó. Khóa học đã giúp tôi rất nhiều
Nếu bạn đã hoàn thành toàn bộ danh sách này và muốn phát triển hơn nữa trong mắt nhà tuyển dụng với tư cách là kỹ sư dữ liệu, tôi khuyên bạn nên thêm Apache Spark để làm việc với dữ liệu lớn. Mặc dù nghiên cứu của tôi về các vị trí tuyển dụng nhà khoa học dữ liệu cho thấy sự quan tâm ngày càng giảm, nhưng trong số các kỹ sư dữ liệu, nó vẫn xuất hiện ở hầu hết các vị trí tuyển dụng thứ hai.
Cuối cùng
Tôi hy vọng bạn thấy phần tổng quan này hữu ích về các công nghệ được yêu cầu nhiều nhất dành cho kỹ sư dữ liệu. Nếu bạn đang thắc mắc công việc phân tích diễn ra như thế nào, hãy đọc
Nguồn: www.habr.com