Chương trình thường trú của Yandex hoặc Cách một người hỗ trợ có kinh nghiệm có thể trở thành Kỹ sư ML

Chương trình thường trú của Yandex hoặc Cách một người hỗ trợ có kinh nghiệm có thể trở thành Kỹ sư ML

Yandex đang mở chương trình cư trú về học máy dành cho các nhà phát triển phụ trợ có kinh nghiệm. Nếu bạn đã viết nhiều bằng C++/Python và muốn áp dụng kiến ​​thức này vào ML, thì chúng tôi sẽ dạy bạn cách thực hiện nghiên cứu thực tế và cung cấp những người cố vấn có kinh nghiệm. Bạn sẽ làm việc trên các dịch vụ chính của Yandex và đạt được các kỹ năng trong các lĩnh vực như mô hình tuyến tính và tăng cường độ dốc, hệ thống đề xuất, mạng thần kinh để phân tích hình ảnh, văn bản và âm thanh. Bạn cũng sẽ tìm hiểu cách đánh giá chính xác các mô hình của mình bằng cách sử dụng các số liệu ngoại tuyến và trực tuyến.

Thời lượng của chương trình là một năm, trong thời gian đó những người tham gia sẽ làm việc trong bộ phận nghiên cứu và trí tuệ máy của Yandex, cũng như tham dự các bài giảng và hội thảo. Việc tham gia được trả phí và bao gồm công việc toàn thời gian: 40 giờ mỗi tuần, bắt đầu từ ngày 1 tháng XNUMX năm nay. Các ứng dụng hiện đang mở và sẽ kéo dài đến ngày 1 tháng XNUMX. 

Và bây giờ chi tiết hơn - về loại đối tượng mà chúng tôi đang chờ đợi, quy trình làm việc sẽ như thế nào và nói chung, làm thế nào một chuyên gia phụ trợ có thể chuyển sang nghề nghiệp trong ML.

Tiêu điểm

Nhiều công ty có Chương trình cư trú, chẳng hạn như Google và Facebook. Chúng chủ yếu nhắm đến các chuyên gia cấp cơ sở và cấp trung, những người đang cố gắng tiến một bước tới nghiên cứu ML. Chương trình của chúng tôi dành cho một đối tượng khác. Chúng tôi mời các nhà phát triển phụ trợ đã có đủ kinh nghiệm và biết chắc chắn rằng trong năng lực của mình, họ cần chuyển sang ML, để đạt được các kỹ năng thực tế - chứ không phải kỹ năng của một nhà khoa học - trong việc giải quyết các vấn đề về máy học công nghiệp. Điều này không có nghĩa là chúng tôi không hỗ trợ các nhà nghiên cứu trẻ. Chúng tôi đã tổ chức một chương trình riêng cho họ - phần thưởng được đặt theo tên của Ilya Segalovich, điều này cũng cho phép bạn làm việc ở Yandex.

Cư dân sẽ làm việc ở đâu?

Tại Khoa Nghiên cứu và Trí tuệ Máy móc, chúng tôi tự phát triển các ý tưởng dự án. Nguồn cảm hứng chính là các tài liệu khoa học, các bài báo và xu hướng trong cộng đồng nghiên cứu. Tôi và các đồng nghiệp phân tích những gì chúng tôi đọc, xem xét cách chúng tôi có thể cải thiện hoặc mở rộng các phương pháp do các nhà khoa học đề xuất. Đồng thời, mỗi chúng ta đều tính đến lĩnh vực kiến ​​thức và sở thích của mình, xây dựng nhiệm vụ dựa trên những lĩnh vực mà mình cho là quan trọng. Ý tưởng cho một dự án thường được nảy sinh từ sự giao thoa giữa kết quả nghiên cứu bên ngoài và năng lực của bản thân.

Hệ thống này tốt vì nó giải quyết phần lớn các vấn đề công nghệ của dịch vụ Yandex ngay cả trước khi chúng phát sinh. Khi một dịch vụ gặp vấn đề, đại diện của dịch vụ đó sẽ đến gặp chúng tôi, rất có thể sẽ sử dụng các công nghệ mà chúng tôi đã chuẩn bị sẵn, tất cả những gì còn lại là áp dụng chính xác vào sản phẩm. Nếu điều gì đó chưa sẵn sàng, ít nhất chúng ta sẽ nhanh chóng nhớ ra nơi chúng ta có thể “bắt đầu đào” và bài viết nào cần tìm giải pháp. Như chúng ta đã biết, phương pháp khoa học là đứng trên vai người khổng lồ.

phải làm gì

Tại Yandex - và thậm chí cụ thể là trong ban quản lý của chúng tôi - tất cả các lĩnh vực ML có liên quan đều đang được phát triển. Mục tiêu của chúng tôi là cải thiện chất lượng của nhiều loại sản phẩm và đây là động lực để thử nghiệm mọi thứ mới. Ngoài ra, các dịch vụ mới xuất hiện thường xuyên. Vì vậy, chương trình bài giảng chứa tất cả các lĩnh vực chính (đã được chứng minh rõ ràng) của học máy trong phát triển công nghiệp. Khi biên soạn phần khóa học của mình, tôi đã sử dụng kinh nghiệm giảng dạy của mình tại Trường Phân tích Dữ liệu, cũng như tài liệu và công việc của các giáo viên SHAD khác. Tôi biết rằng các đồng nghiệp của tôi cũng làm như vậy.

Trong những tháng đầu tiên, việc đào tạo theo chương trình khóa học sẽ chiếm khoảng 30% thời gian làm việc của bạn, sau đó là khoảng 10%. Tuy nhiên, điều quan trọng là phải hiểu rằng làm việc với chính các mô hình ML sẽ tiếp tục mất ít thời gian hơn khoảng bốn lần so với tất cả các quy trình liên quan. Chúng bao gồm chuẩn bị phần phụ trợ, nhận dữ liệu, viết quy trình để xử lý trước dữ liệu, tối ưu hóa mã, thích ứng với phần cứng cụ thể, v.v. Kỹ sư ML, nếu bạn muốn, là một nhà phát triển toàn diện (chỉ tập trung nhiều hơn vào học máy) , có khả năng giải quyết một vấn đề từ đầu đến cuối. Ngay cả với một mô hình được tạo sẵn, bạn có thể sẽ cần thực hiện thêm một số hành động: song song hóa việc thực thi nó trên một số máy, chuẩn bị triển khai dưới dạng bộ điều khiển, thư viện hoặc các thành phần của chính dịch vụ.

Sự lựa chọn của sinh viên
Nếu bạn có ấn tượng rằng tốt hơn hết bạn nên trở thành một kỹ sư ML bằng cách trước tiên làm việc với tư cách là nhà phát triển phụ trợ, thì điều này không đúng. Đăng ký vào cùng một ShAD mà không có kinh nghiệm thực tế trong việc phát triển dịch vụ, học tập và trở nên cực kỳ có nhu cầu trên thị trường là một lựa chọn tuyệt vời. Nhiều chuyên gia Yandex đã đạt được vị trí hiện tại theo cách này. Nếu bất kỳ công ty nào sẵn sàng mời bạn làm việc trong lĩnh vực ML ngay sau khi tốt nghiệp, có lẽ bạn cũng nên chấp nhận lời đề nghị đó. Hãy cố gắng vào một đội tốt với một người cố vấn giàu kinh nghiệm và sẵn sàng học hỏi nhiều điều.

Điều gì thường ngăn cản bạn thực hiện ML?

Nếu một người hỗ trợ mong muốn trở thành kỹ sư ML, anh ta có thể chọn một trong hai lĩnh vực phát triển - mà không cần tính đến chương trình cư trú.

Đầu tiên, hãy học như một phần của khóa học giáo dục nào đó. Những bài học Coursera sẽ đưa bạn đến gần hơn với việc hiểu các kỹ thuật cơ bản, nhưng để đắm mình vào nghề ở mức độ vừa đủ, bạn cần phải dành nhiều thời gian hơn cho nó. Ví dụ, tốt nghiệp từ ShAD. Trong những năm qua, ShAD đã có số lượng khóa học khác nhau trực tiếp về học máy - trung bình là khoảng XNUMX khóa học. Mỗi người trong số họ đều thực sự quan trọng và hữu ích, kể cả theo ý kiến ​​​​của sinh viên tốt nghiệp. 

Thứ hai, bạn có thể tham gia vào các dự án chiến đấu mà bạn cần triển khai thuật toán ML này hoặc thuật toán ML khác. Tuy nhiên, có rất ít dự án như vậy trên thị trường phát triển CNTT: học máy không được sử dụng trong hầu hết các nhiệm vụ. Ngay cả ở những ngân hàng đang tích cực khám phá các cơ hội liên quan đến ML, chỉ một số ít tham gia vào phân tích dữ liệu. Nếu bạn không thể tham gia một trong những đội này, lựa chọn duy nhất của bạn là bắt đầu dự án của riêng mình (trong đó, rất có thể, bạn sẽ đặt ra thời hạn của riêng mình và điều này ít liên quan đến các nhiệm vụ sản xuất chiến đấu) hoặc bắt đầu cạnh tranh trên Kaggle.

Thật vậy, hãy hợp tác với các thành viên khác trong cộng đồng và thử sức mình trong các cuộc thi tương đối dễ dàng - đặc biệt nếu bạn củng cố các kỹ năng của mình bằng khóa đào tạo và các khóa học được đề cập trên Coursera. Mỗi cuộc thi đều có thời hạn - nó sẽ là động lực cho bạn và chuẩn bị cho bạn một hệ thống tương tự ở các công ty CNTT. Đây là một cách hay - tuy nhiên, nó cũng hơi khác so với các quy trình thực tế. Trên Kaggle, bạn được cung cấp dữ liệu đã được xử lý trước, mặc dù không phải lúc nào cũng hoàn hảo; không đề nghị suy nghĩ về sự đóng góp cho sản phẩm; và quan trọng nhất là họ không yêu cầu giải pháp phù hợp với sản xuất. Các thuật toán của bạn có thể sẽ hoạt động và có độ chính xác cao, nhưng các mô hình và mã của bạn sẽ giống như Frankenstein được ghép lại với nhau từ các phần khác nhau - trong một dự án sản xuất, toàn bộ cấu trúc sẽ hoạt động quá chậm, sẽ khó cập nhật và mở rộng (ví dụ: thuật toán ngôn ngữ và giọng nói sẽ luôn được viết lại một phần khi ngôn ngữ phát triển). Các công ty quan tâm đến thực tế là công việc được liệt kê có thể được thực hiện không chỉ bởi chính bạn (rõ ràng là bạn, với tư cách là tác giả của giải pháp, có thể thực hiện việc này) mà còn bởi bất kỳ đồng nghiệp nào của bạn. Sự khác biệt giữa lập trình thể thao và công nghiệp được thảo luận многоvà Kaggle đào tạo chính xác các “vận động viên” - ngay cả khi điều đó làm rất tốt, cho phép họ tích lũy một số kinh nghiệm.

Tôi đã mô tả hai hướng phát triển có thể xảy ra - đào tạo thông qua các chương trình giáo dục và đào tạo “trong chiến đấu”, chẳng hạn như trên Kaggle. Chương trình cư trú là sự kết hợp của hai phương pháp này. Các bài giảng và hội thảo ở cấp độ ShAD cũng như các dự án thực sự mang tính chiến đấu đang chờ đợi bạn.

Nguồn: www.habr.com

Thêm một lời nhận xét