Pavel Klemenkov, NVIDIA: Chúng tôi đang cố gắng thu hẹp khoảng cách giữa những gì một nhà khoa học dữ liệu có thể làm và những gì anh ta nên làm

Đợt tuyển sinh thứ hai của chương trình thạc sĩ về khoa học dữ liệu và trí tuệ kinh doanh Ozon Masters đã bắt đầu - và để giúp bạn quyết định rời khỏi đơn đăng ký và làm bài kiểm tra trực tuyến dễ dàng hơn, chúng tôi đã hỏi các giáo viên của chương trình về những gì mong đợi khi học tập và làm việc với dữ liệu.

Pavel Klemenkov, NVIDIA: Chúng tôi đang cố gắng thu hẹp khoảng cách giữa những gì một nhà khoa học dữ liệu có thể làm và những gì anh ta nên làm Nhà khoa học dữ liệu trưởng NVIDIA và giáo viên các khóa học về Dữ liệu lớn và Kỹ thuật dữ liệu Pavel Klemenkov nói về lý do tại sao các nhà toán học cần viết mã và học tại Ozon Masters trong hai năm.

— Có nhiều công ty sử dụng thuật toán khoa học dữ liệu không?

- Thực ra là khá nhiều. Khá nhiều công ty lớn có dữ liệu thực sự lớn đang bắt đầu làm việc với nó một cách hiệu quả hoặc đã làm việc với nó trong một thời gian dài. Rõ ràng, một nửa thị trường sử dụng dữ liệu có thể nhét vừa bảng tính Excel hoặc có thể tính toán trên máy chủ lớn, nhưng không thể nói rằng chỉ có một số ít doanh nghiệp có thể làm việc với dữ liệu.

— Hãy cho chúng tôi biết một chút về các dự án sử dụng khoa học dữ liệu.

— Ví dụ: khi làm việc tại Rambler, chúng tôi đã tạo ra một hệ thống quảng cáo hoạt động dựa trên nguyên tắc RTB (Đặt giá thầu theo thời gian thực) - chúng tôi cần xây dựng nhiều mô hình có thể tối ưu hóa việc mua quảng cáo hoặc, chẳng hạn, có thể dự đoán xác suất của một nhấp chuột, chuyển đổi, v.v. Đồng thời, một cuộc đấu giá quảng cáo tạo ra nhiều dữ liệu: nhật ký yêu cầu trang web tới người mua quảng cáo tiềm năng, nhật ký hiển thị quảng cáo, nhật ký nhấp chuột - đây là hàng chục terabyte dữ liệu mỗi ngày.

Hơn nữa, đối với những nhiệm vụ này, chúng tôi đã quan sát thấy một hiện tượng thú vị: bạn cung cấp càng nhiều dữ liệu để huấn luyện mô hình thì chất lượng của mô hình càng cao. Thông thường, sau một lượng dữ liệu nhất định, chất lượng dự báo sẽ ngừng cải thiện và để cải thiện hơn nữa độ chính xác, bạn cần sử dụng một mô hình khác về cơ bản, một cách tiếp cận khác để chuẩn bị dữ liệu, tính năng, v.v. Ở đây chúng tôi đã tải lên nhiều dữ liệu hơn và chất lượng đã tăng lên.

Đây là một trường hợp điển hình mà trước tiên, các nhà phân tích phải làm việc với các tập dữ liệu lớn để ít nhất tiến hành một thử nghiệm và không thể thực hiện được với một mẫu nhỏ vừa với một chiếc MacBook ấm cúng. Đồng thời, chúng tôi cần các mô hình phân tán, vì nếu không thì chúng tôi không thể đào tạo được. Với việc đưa thị giác máy tính vào sản xuất, những ví dụ như vậy ngày càng trở nên phổ biến hơn, vì hình ảnh là một lượng lớn dữ liệu và để huấn luyện một mô hình lớn, cần có hàng triệu bức ảnh.

Câu hỏi ngay lập tức được đặt ra: làm thế nào để lưu trữ tất cả thông tin này, làm thế nào để xử lý nó một cách hiệu quả, làm thế nào để sử dụng các thuật toán học tập phân tán - trọng tâm là chuyển từ toán học thuần túy sang kỹ thuật. Ngay cả khi bạn không viết mã trong quá trình sản xuất, bạn vẫn cần có khả năng làm việc với các công cụ kỹ thuật để tiến hành thử nghiệm.

— Cách tiếp cận các vị trí tuyển dụng về khoa học dữ liệu đã thay đổi như thế nào trong những năm gần đây?

— Dữ liệu lớn đã không còn là sự cường điệu và đã trở thành hiện thực. Ổ cứng khá rẻ, điều đó có nghĩa là có thể thu thập tất cả dữ liệu để trong tương lai có đủ dữ liệu để kiểm tra bất kỳ giả thuyết nào. Do đó, kiến ​​thức về các công cụ làm việc với dữ liệu lớn đang trở nên rất phổ biến và do đó, ngày càng có nhiều vị trí tuyển dụng cho kỹ sư dữ liệu xuất hiện.

Theo hiểu biết của tôi, kết quả công việc của nhà khoa học dữ liệu không phải là một thử nghiệm mà là một sản phẩm đã được đưa vào sản xuất. Và chỉ từ quan điểm này, trước khi có sự cường điệu về dữ liệu lớn, quy trình này đơn giản hơn: các kỹ sư đã tham gia vào học máy để giải quyết các vấn đề cụ thể và không gặp vấn đề gì khi đưa thuật toán vào sản xuất.

— Cần điều gì để vẫn là một chuyên gia được săn đón?

— Giờ đây, nhiều người đã đến với khoa học dữ liệu, họ đã nghiên cứu toán học, lý thuyết về học máy và tham gia các cuộc thi phân tích dữ liệu, nơi cung cấp cơ sở hạ tầng sẵn sàng: dữ liệu được làm sạch, số liệu được xác định và không có yêu cầu để giải pháp có thể lặp lại và nhanh chóng.

Kết quả là, các chàng trai đến làm việc mà không chuẩn bị sẵn sàng cho thực tế kinh doanh và tạo ra khoảng cách giữa những người mới và những nhà phát triển có kinh nghiệm.

Với sự phát triển của các công cụ cho phép bạn lắp ráp mô hình của riêng mình từ các mô-đun làm sẵn - và Microsoft, Google và nhiều hãng khác đã có các giải pháp như vậy - và việc tự động hóa máy học, khoảng cách này sẽ càng trở nên rõ ràng hơn. Trong tương lai, nghề này sẽ cần những nhà nghiên cứu nghiêm túc, những người đưa ra các thuật toán mới và những nhân viên có kỹ năng kỹ thuật phát triển, những người sẽ triển khai các mô hình và tự động hóa các quy trình. Khóa học Ozon Masters về kỹ thuật dữ liệu được thiết kế để phát triển các kỹ năng kỹ thuật và khả năng sử dụng các thuật toán học máy phân tán trên dữ liệu lớn. Chúng tôi đang cố gắng thu hẹp khoảng cách giữa những gì một nhà khoa học dữ liệu có thể làm và những gì anh ta có thể làm trong thực tế.

— Tại sao một nhà toán học có bằng tốt nghiệp lại nên đi học kinh doanh?

— Cộng đồng khoa học dữ liệu Nga đã hiểu rằng kỹ năng và kinh nghiệm được chuyển đổi thành tiền rất nhanh chóng, do đó, ngay khi một chuyên gia có kinh nghiệm thực tế, chi phí của anh ta bắt đầu tăng rất nhanh, những người có tay nghề cao nhất cũng rất đắt - và điều này là đúng ở thời điểm thị trường phát triển hiện nay.

Phần lớn công việc của nhà khoa học dữ liệu là đi sâu vào dữ liệu, hiểu những gì nằm ở đó, tham khảo ý kiến ​​​​của những người chịu trách nhiệm về quy trình kinh doanh và tạo ra dữ liệu này - sau đó chỉ sử dụng dữ liệu đó để xây dựng mô hình. Để bắt đầu làm việc với dữ liệu lớn, điều cực kỳ quan trọng là phải có kỹ năng kỹ thuật - điều này giúp bạn dễ dàng tránh được các góc nhọn, vốn có rất nhiều trong khoa học dữ liệu.

Một câu chuyện điển hình: bạn đã viết một truy vấn bằng SQL được thực thi bằng khung Hive chạy trên dữ liệu lớn. Yêu cầu được xử lý trong mười phút, trong trường hợp xấu nhất - trong một hoặc hai giờ và thông thường, khi bạn nhận được các bản tải xuống dữ liệu này, bạn nhận ra rằng mình đã quên tính đến một số yếu tố hoặc thông tin bổ sung. Bạn phải gửi lại yêu cầu và đợi những phút và giờ này. Nếu bạn là một thiên tài về hiệu quả, bạn sẽ đảm nhận một nhiệm vụ khác, nhưng, như thực tế cho thấy, chúng ta có rất ít thiên tài về hiệu quả và mọi người chỉ đang chờ đợi. Vì vậy, trong các khóa học, chúng tôi sẽ dành nhiều thời gian để nâng cao hiệu quả công việc để ban đầu có thể viết các truy vấn hoạt động không phải trong hai giờ mà trong vài phút. Kỹ năng này giúp tăng năng suất và cùng với đó là giá trị của một chuyên gia.

– Ozon Masters khác với các khóa học khác như thế nào?

— Ozon Masters được giảng dạy bởi các nhân viên của Ozon và các nhiệm vụ dựa trên các trường hợp kinh doanh thực tế được giải quyết trong các công ty. Trên thực tế, ngoài việc thiếu kỹ năng kỹ thuật, một người học khoa học dữ liệu ở trường đại học còn gặp một vấn đề khác: nhiệm vụ của một doanh nghiệp được xây dựng bằng ngôn ngữ kinh doanh và mục tiêu của nó khá đơn giản: kiếm được nhiều tiền hơn. Và một nhà toán học biết rõ cách tối ưu hóa các số liệu toán học - nhưng việc tìm ra một chỉ báo tương quan với số liệu kinh doanh là rất khó. Và bạn cần hiểu rằng bạn đang giải quyết một vấn đề kinh doanh và cùng với doanh nghiệp xây dựng các số liệu có thể được tối ưu hóa về mặt toán học. Kỹ năng này có được thông qua các trường hợp thực tế và chúng được cung cấp bởi Ozon.
Và ngay cả khi chúng ta bỏ qua các trường hợp, ngôi trường vẫn được giảng dạy bởi nhiều học viên giải quyết các vấn đề kinh doanh trong các công ty thực tế. Kết quả là, cách tiếp cận giảng dạy vẫn thiên về thực hành hơn. Ít nhất trong khóa học của mình, tôi sẽ cố gắng chuyển trọng tâm sang cách sử dụng các công cụ, những phương pháp tiếp cận hiện có, v.v. Cùng với học sinh, chúng ta sẽ hiểu rằng mỗi nhiệm vụ đều có công cụ riêng và mỗi công cụ đều có phạm vi ứng dụng riêng.

— Tất nhiên, chương trình đào tạo phân tích dữ liệu nổi tiếng nhất là ShAD – chính xác thì sự khác biệt giữa nó là gì?

— Rõ ràng là ShAD và Ozon Masters, ngoài chức năng giáo dục, còn giải quyết được vấn đề đào tạo nhân sự của địa phương. Những sinh viên tốt nghiệp SHAD hàng đầu chủ yếu được tuyển dụng vào Yandex, nhưng điều đáng chú ý là Yandex, do tính đặc thù của nó - và nó rất lớn và được tạo ra khi có rất ít công cụ tốt để làm việc với dữ liệu lớn - có cơ sở hạ tầng và công cụ riêng để làm việc với dữ liệu , có nghĩa là bạn sẽ phải thành thạo chúng. Ozon Masters có một thông điệp khác - nếu bạn đã thành công trong việc thành thạo chương trình và Ozon hoặc một trong 99% công ty khác mời bạn làm việc, việc bắt đầu mang lại lợi ích cho doanh nghiệp sẽ dễ dàng hơn nhiều; bộ kỹ năng có được khi tham gia Ozon Masters sẽ đủ để bắt đầu làm việc.

- Khóa học kéo dài hai năm. Tại sao bạn cần phải dành nhiều thời gian cho việc này?

- Câu hỏi hay. Phải mất nhiều thời gian, vì xét về nội dung và trình độ giảng viên, đây là chương trình thạc sĩ không thể thiếu, đòi hỏi nhiều thời gian để nắm vững, bao gồm cả bài tập về nhà.

Từ quan điểm khóa học của tôi, việc mong đợi một sinh viên dành 2-3 giờ một tuần cho bài tập là điều bình thường. Đầu tiên, các nhiệm vụ được thực hiện trên một cụm đào tạo và bất kỳ cụm chia sẻ nào đều ngụ ý rằng có nhiều người sử dụng nó đồng thời. Nghĩa là, bạn sẽ phải đợi tác vụ bắt đầu thực thi; một số tài nguyên có thể được chọn và chuyển sang hàng đợi có mức độ ưu tiên cao hơn. Mặt khác, bất kỳ công việc nào với dữ liệu lớn đều mất rất nhiều thời gian.

Nếu bạn có thêm bất kỳ câu hỏi nào về chương trình, làm việc với dữ liệu lớn hoặc kỹ năng kỹ thuật, Ozon Masters sẽ có ngày khai mạc trực tuyến vào Thứ Bảy, ngày 25 tháng 12 lúc 00:XNUMX. Chúng tôi gặp gỡ các giáo viên và học sinh trong ZoomYouTube.

Nguồn: www.habr.com

Thêm một lời nhận xét