Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Theo thống kê 2019, kỹ sư dữ liệu hiện là một nghề có nhu cầu ngày càng tăng nhanh hơn bất kỳ nghề nào khác. Kỹ sư dữ liệu đóng một vai trò quan trọng trong một tổ chức - tạo và duy trì các đường dẫn và cơ sở dữ liệu được sử dụng để xử lý, chuyển đổi và lưu trữ dữ liệu. Người làm nghề này trước hết cần có những kỹ năng gì? Danh sách này có khác với những gì được yêu cầu đối với các nhà khoa học dữ liệu không? Bạn sẽ tìm hiểu về tất cả điều này từ bài viết của tôi.

Tôi đã phân tích các vị trí tuyển dụng cho vị trí kỹ sư dữ liệu vào tháng 2020 năm XNUMX để hiểu kỹ năng công nghệ nào phổ biến nhất. Sau đó, tôi so sánh kết quả với số liệu thống kê về vị trí tuyển dụng cho vị trí nhà khoa học dữ liệu - và một số khác biệt thú vị đã xuất hiện.

Không cần mở đầu nhiều, đây là mười công nghệ hàng đầu được đề cập thường xuyên nhất trong các tin tuyển dụng:

Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Đề cập đến công nghệ trong các vị trí tuyển dụng cho vị trí kỹ sư dữ liệu năm 2020

Hãy tìm ra nó.

Trách nhiệm của kỹ sư dữ liệu

Ngày nay, công việc mà các kỹ sư dữ liệu làm có tầm quan trọng rất lớn đối với các tổ chức - đây là những người chịu trách nhiệm lưu trữ thông tin và đưa nó về dạng mà các nhân viên khác có thể làm việc với nó. Kỹ sư dữ liệu xây dựng các quy trình để truyền phát hoặc xử lý dữ liệu hàng loạt từ nhiều nguồn. Sau đó, các đường ống thực hiện các hoạt động trích xuất, chuyển đổi và tải (nói cách khác là các quy trình ETL), làm cho dữ liệu phù hợp hơn để sử dụng tiếp. Sau đó, dữ liệu được gửi đến các nhà phân tích và nhà khoa học dữ liệu để xử lý sâu hơn. Cuối cùng, dữ liệu kết thúc hành trình của nó trong bảng thông tin, báo cáo và mô hình học máy.

Tôi đang tìm kiếm thông tin cho phép tôi đưa ra kết luận về những công nghệ nào đang được yêu cầu nhiều nhất trong công việc của một kỹ sư dữ liệu vào lúc này.

Phương pháp

Tôi đã thu thập thông tin từ ba trang tìm kiếm việc làm − Đơn giản là, Thật и Quái vật và xem xét những từ khóa nào xuất hiện cùng với “kỹ sư dữ liệu” trong văn bản về các vị trí tuyển dụng nhắm đến cư dân Hoa Kỳ. Đối với nhiệm vụ này, tôi đã sử dụng hai thư viện Python - yêu cầu и Súp đẹp. Trong số các từ khóa, tôi bao gồm cả những từ khóa có trong danh sách trước đó để phân tích các vị trí tuyển dụng cho vị trí nhà khoa học dữ liệu và những từ khóa mà tôi đã chọn thủ công khi đọc lời mời làm việc cho kỹ sư dữ liệu. LinkedIn không được đưa vào danh sách các nguồn vì tôi đã bị cấm ở đó sau nỗ lực thu thập dữ liệu cuối cùng.

Đối với mỗi từ khóa, tôi đã tính tỷ lệ phần trăm lượt truy cập từ tổng số văn bản trên từng trang web một cách riêng biệt và sau đó tính mức trung bình cho ba nguồn.

Những phát hiện

Dưới đây là XNUMX thuật ngữ kỹ thuật dữ liệu kỹ thuật có điểm cao nhất trên cả ba trang web việc làm.

Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Và đây là những con số tương tự, nhưng được trình bày dưới dạng bảng:

Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Hãy đi theo thứ tự.

Đánh giá kết quả

Cả SQL và Python đều xuất hiện ở hơn XNUMX/XNUMX số cơ hội việc làm được đánh giá. Hai công nghệ này có ý nghĩa để nghiên cứu đầu tiên. Python là ngôn ngữ lập trình rất phổ biến được sử dụng để làm việc với dữ liệu, tạo trang web và viết tập lệnh. SQL là viết tắt của Ngôn ngữ truy vấn có cấu trúc; nó liên quan đến một tiêu chuẩn được thực hiện bởi một nhóm ngôn ngữ và được sử dụng để lấy dữ liệu từ cơ sở dữ liệu quan hệ. Nó xuất hiện từ lâu và đã được chứng minh là có khả năng chống chịu cao.

Spark được nhắc đến trong khoảng một nửa số vị trí tuyển dụng. Apache Spark là một “công cụ phân tích dữ liệu lớn hợp nhất với các mô-đun tích hợp để phát trực tuyến, SQL, học máy và xử lý đồ thị”. Nó đặc biệt phổ biến với những người làm việc với cơ sở dữ liệu lớn.

AWS xuất hiện trong khoảng 45% tin tuyển dụng. Nó là một nền tảng điện toán đám mây do Amazon sản xuất; nó có thị phần lớn nhất trong số tất cả các nền tảng đám mây.
Tiếp theo là Java và Hadoop - hơn 40% cho người anh em của họ. Java là một ngôn ngữ được sử dụng rộng rãi, đã được thử nghiệm trên chiến trường Khảo sát nhà phát triển Stack Overflow năm 2019 được trao vị trí thứ mười trong số các ngôn ngữ gây kinh hoàng cho các lập trình viên. Ngược lại, Python là ngôn ngữ được yêu thích thứ hai. Ngôn ngữ Java được điều hành bởi Oracle và mọi thứ bạn cần biết về nó có thể được hiểu từ ảnh chụp màn hình này của trang chính thức từ tháng 2020 năm XNUMX.

Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Giống như đang cưỡi trên cỗ máy thời gian
Apache Hadoop sử dụng mô hình lập trình MapReduce với các cụm máy chủ cho dữ liệu lớn. Hiện nay mô hình này ngày càng bị bỏ rơi.

Sau đó, chúng ta thấy Hive, Scala, Kafka và NoSQL - mỗi công nghệ này đều được đề cập trong XNUMX/XNUMX số vị trí tuyển dụng đã gửi. Apache Hive là một phần mềm kho dữ liệu “giúp dễ dàng đọc, ghi và quản lý các tập dữ liệu lớn nằm trong các cửa hàng phân tán bằng SQL”. Scala – một ngôn ngữ lập trình được sử dụng tích cực khi làm việc với dữ liệu lớn. Đặc biệt, Spark được tạo ra ở Scala. Trong bảng xếp hạng các ngôn ngữ đáng sợ đã được đề cập, Scala đứng thứ XNUMX. Kafka Apache – một nền tảng phân tán để xử lý tin nhắn truyền phát. Rất phổ biến như một phương tiện truyền dữ liệu.

cơ sở dữ liệu NoSQL tương phản với SQL. Chúng khác nhau ở chỗ chúng không có quan hệ, không có cấu trúc và có thể mở rộng theo chiều ngang. NoSQL đã trở nên phổ biến, nhưng cơn sốt về cách tiếp cận này, thậm chí đến mức có những lời tiên tri rằng nó sẽ thay thế SQL trở thành mô hình lưu trữ thống trị, dường như đã kết thúc.

So sánh với các điều khoản trong vị trí tuyển dụng của nhà khoa học dữ liệu

Dưới đây là XNUMX thuật ngữ công nghệ phổ biến nhất đối với các nhà tuyển dụng về khoa học dữ liệu. Tôi lấy danh sách này theo cách tương tự như mô tả ở trên về kỹ thuật dữ liệu.

Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Đề cập đến công nghệ trong các vị trí tuyển dụng cho vị trí nhà khoa học dữ liệu năm 2020

Nếu nói về tổng số, so với đợt tuyển dụng đã xem xét trước đó, số vị trí tuyển dụng nhiều hơn 28% (12 so với 013). Hãy xem những công nghệ nào ít phổ biến hơn ở các vị trí tuyển dụng dành cho nhà khoa học dữ liệu so với kỹ sư dữ liệu.

Phổ biến hơn trong kỹ thuật dữ liệu

Biểu đồ bên dưới hiển thị các từ khóa có mức chênh lệch trung bình lớn hơn 10% hoặc nhỏ hơn -10%.

Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Sự khác biệt lớn nhất về tần suất từ ​​khóa giữa kỹ sư dữ liệu và nhà khoa học dữ liệu

AWS cho thấy mức tăng đáng kể nhất: trong lĩnh vực kỹ thuật dữ liệu, nó xuất hiện thường xuyên hơn 25% so với lĩnh vực khoa học dữ liệu (tương ứng khoảng 45% và 20% tổng số vị trí tuyển dụng). Sự khác biệt là đáng chú ý!

Đây là cùng một dữ liệu được trình bày hơi khác - trong biểu đồ, các kết quả cho cùng một từ khóa trong các vị trí tuyển dụng cho vị trí kỹ sư dữ liệu và nhà khoa học dữ liệu được đặt cạnh nhau.

Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Sự khác biệt lớn nhất về tần suất từ ​​khóa giữa kỹ sư dữ liệu và nhà khoa học dữ liệu

Bước nhảy vọt lớn tiếp theo mà tôi ghi nhận là ở Spark - một kỹ sư dữ liệu thường phải làm việc với dữ liệu lớn. Kafka cũng tăng 20%, tức là gần gấp 15 lần so với kết quả của vị trí tuyển dụng nhà khoa học dữ liệu. Truyền dữ liệu là một trong những trách nhiệm chính của kỹ sư dữ liệu. Cuối cùng, số lượng đề cập trong lĩnh vực kỹ thuật dữ liệu cho Java, NoSQL, Redshift, SQL và Hadoop cao hơn XNUMX%.

Ít phổ biến hơn trong kỹ thuật dữ liệu

Bây giờ hãy xem những công nghệ nào ít phổ biến hơn trong các vị trí tuyển dụng kỹ sư dữ liệu.
Sự sụt giảm mạnh nhất so với ngành khoa học dữ liệu xảy ra vào năm R: ở đó anh ấy xuất hiện trong khoảng 56% số vị trí tuyển dụng, ở đây - chỉ ở 17%. Ấn tượng. R là ngôn ngữ lập trình được các nhà khoa học và thống kê ưa chuộng và là ngôn ngữ đáng sợ thứ tám trên thế giới.

SAS cũng được tìm thấy ở các vị trí tuyển dụng cho vị trí kỹ sư dữ liệu ít thường xuyên hơn - mức chênh lệch là 14%. SAS là ngôn ngữ độc quyền được thiết kế để làm việc với số liệu thống kê và dữ liệu. Điểm thú vị: đánh giá qua kết quả nghiên cứu của tôi về cơ hội việc làm cho các nhà khoa học dữ liệu, gần đây nó đã mất đi rất nhiều vị thế—nhiều hơn bất kỳ công nghệ nào khác.

Có nhu cầu về cả kỹ thuật dữ liệu và khoa học dữ liệu

Cần lưu ý rằng tám trong số mười vị trí đầu tiên ở cả hai bộ đều giống nhau. SQL, Python, Spark, AWS, Java, Hadoop, Hive và Scala đã lọt vào top XNUMX cho cả ngành kỹ thuật dữ liệu và khoa học dữ liệu. Trong biểu đồ bên dưới, bạn có thể thấy XNUMX công nghệ phổ biến nhất trong số các nhà tuyển dụng kỹ sư dữ liệu và bên cạnh đó là tỷ lệ tuyển dụng cho các nhà khoa học dữ liệu.

Những kỹ năng được yêu cầu cao nhất trong nghề kỹ sư dữ liệu

Khuyến nghị

Nếu bạn muốn tham gia vào lĩnh vực kỹ thuật dữ liệu, tôi khuyên bạn nên nắm vững các công nghệ sau - tôi liệt kê chúng theo thứ tự ưu tiên gần đúng.

Tìm hiểu SQL. Tôi nghiêng về PostgreSQL vì nó là nguồn mở, rất phổ biến trong cộng đồng và đang trong giai đoạn phát triển. Bạn có thể học cách sử dụng ngôn ngữ từ cuốn sách SQL đáng nhớ của tôi - phiên bản thử nghiệm của nó đã có sẵn đây.

Thành thạo Python, ngay cả khi không ở cấp độ khó nhất. My Memorable Python được thiết kế dành riêng cho người mới bắt đầu. Nó có thể được mua tại đàn bà gan dạ, bản sao điện tử hoặc vật lý, bạn chọn hoặc tải xuống ở định dạng pdf hoặc epub trên trang web này.

Khi bạn đã quen thuộc với Python, hãy chuyển sang pandas, thư viện Python được sử dụng để làm sạch và xử lý dữ liệu. Nếu bạn đang muốn làm việc trong một công ty yêu cầu khả năng viết bằng Python (và đây là phần lớn trong số họ), bạn có thể chắc chắn rằng kiến ​​​​thức về gấu trúc sẽ được mặc định thừa nhận. Tôi hiện đang hoàn thiện hướng dẫn giới thiệu về cách làm việc với gấu trúc - bạn có thể đăng kýđể không bỏ lỡ thời điểm ra mắt.

Bậc thầy AWS. Nếu muốn trở thành kỹ sư dữ liệu, bạn không thể thiếu nền tảng đám mây và AWS là nền tảng phổ biến nhất trong số đó. Khóa học đã giúp tôi rất nhiều Học viện Linuxkhi tôi đang học kỹ thuật dữ liệu trên Google Cloud, Tôi nghĩ rằng họ cũng sẽ có tài liệu tốt trên AWS.

Nếu bạn đã hoàn thành toàn bộ danh sách này và muốn phát triển hơn nữa trong mắt nhà tuyển dụng với tư cách là kỹ sư dữ liệu, tôi khuyên bạn nên thêm Apache Spark để làm việc với dữ liệu lớn. Mặc dù nghiên cứu của tôi về các vị trí tuyển dụng nhà khoa học dữ liệu cho thấy sự quan tâm ngày càng giảm, nhưng trong số các kỹ sư dữ liệu, nó vẫn xuất hiện ở hầu hết các vị trí tuyển dụng thứ hai.

Cuối cùng

Tôi hy vọng bạn thấy phần tổng quan này hữu ích về các công nghệ được yêu cầu nhiều nhất dành cho kỹ sư dữ liệu. Nếu bạn đang thắc mắc công việc phân tích diễn ra như thế nào, hãy đọc bài viết khác của tôi. Chúc mừng kỹ thuật!

Nguồn: www.habr.com

Thêm một lời nhận xét