Tại sao nhóm Khoa học dữ liệu cần những người tổng quát chứ không phải chuyên gia

Tại sao nhóm Khoa học dữ liệu cần những người tổng quát chứ không phải chuyên gia
HÌNH ẢNH HIROSHI WATANABE/GETTY

Trong Sự giàu có của các quốc gia, Adam Smith cho thấy sự phân công lao động trở thành nguồn lực chính để tăng năng suất như thế nào. Một ví dụ là dây chuyền lắp ráp của một nhà máy ghim: “Một công nhân kéo dây, một người làm thẳng, người thứ ba cắt, người thứ tư mài đầu, người thứ năm mài đầu kia cho vừa với đầu”. Nhờ chuyên môn hóa tập trung vào các chức năng cụ thể, mỗi nhân viên trở thành một chuyên gia có trình độ cao trong nhiệm vụ hẹp của mình, điều này giúp tăng hiệu quả của quy trình. Sản lượng trên mỗi công nhân tăng lên nhiều lần và nhà máy trở nên hiệu quả hơn trong việc sản xuất ghim.

Sự phân công lao động theo chức năng này đã ăn sâu vào tâm trí chúng tôi cho đến tận ngày nay đến nỗi chúng tôi đã nhanh chóng tổ chức các nhóm của mình cho phù hợp. Khoa học dữ liệu cũng không ngoại lệ. Khả năng kinh doanh thuật toán phức tạp đòi hỏi nhiều chức năng công việc, vì vậy các công ty thường tạo ra các nhóm chuyên gia: nhà nghiên cứu, kỹ sư dữ liệu, kỹ sư máy học, nhà khoa học nguyên nhân và kết quả, v.v. Công việc của các chuyên gia được người quản lý sản phẩm điều phối với việc chuyển giao các chức năng theo cách giống như một nhà máy ghim: “một người nhận dữ liệu, người khác lập mô hình, người thứ ba thực hiện, người thứ tư đo lường”, v.v.

Than ôi, chúng ta không nên tối ưu hóa nhóm Khoa học dữ liệu của mình để cải thiện năng suất. Tuy nhiên, bạn làm điều này khi bạn hiểu những gì bạn đang sản xuất: ghim hoặc thứ gì khác và chỉ cần cố gắng tăng hiệu quả. Mục đích của dây chuyền lắp ráp là hoàn thành một nhiệm vụ. Chúng tôi biết chính xác những gì chúng tôi muốn - ghim (như trong ví dụ của Smith), nhưng bất kỳ sản phẩm hoặc dịch vụ nào cũng có thể được đề cập trong đó các yêu cầu mô tả đầy đủ tất cả các khía cạnh của sản phẩm và hành vi của nó. Vai trò của nhân viên là thực hiện các yêu cầu này một cách hiệu quả nhất có thể.

Nhưng mục tiêu của Khoa học dữ liệu không phải là hoàn thành nhiệm vụ. Đúng hơn, mục tiêu là khám phá và phát triển các cơ hội kinh doanh mới mạnh mẽ. Các sản phẩm và dịch vụ thuật toán như hệ thống khuyến nghị, tương tác với khách hàng, phân loại sở thích về kiểu dáng, kích cỡ, thiết kế quần áo, tối ưu hóa hậu cần, phát hiện xu hướng theo mùa và nhiều thứ khác không thể được phát triển trước. Họ phải được nghiên cứu. Không có bản thiết kế nào để nhân rộng, đây là những khả năng mới với sự không chắc chắn cố hữu. Các hệ số, mô hình, loại mô hình, siêu tham số, tất cả các yếu tố cần thiết phải được học thông qua thử nghiệm, thử và sai cũng như lặp lại. Với chân, việc đào tạo và thiết kế được thực hiện trước khi sản xuất. Với Khoa học dữ liệu, bạn học như cách bạn làm chứ không phải trước đó.

Trong một nhà máy sản xuất ghim, khi việc đào tạo được đặt lên hàng đầu, chúng tôi không mong đợi cũng như không muốn công nhân ứng biến bất kỳ tính năng nào của sản phẩm ngoài việc nâng cao hiệu quả sản xuất. Nhiệm vụ chuyên biệt hóa có ý nghĩa vì nó dẫn đến hiệu quả của quy trình và tính nhất quán trong sản xuất (không làm thay đổi sản phẩm cuối cùng).

Nhưng khi sản phẩm vẫn đang phát triển và mục tiêu là đào tạo thì việc chuyên môn hóa sẽ cản trở mục tiêu của chúng tôi trong các trường hợp sau:

1. Nó làm tăng chi phí điều phối.

Tức là những chi phí đó tích lũy trong thời gian giao tiếp, thảo luận, biện minh và sắp xếp thứ tự ưu tiên cho công việc cần thực hiện. Những chi phí này có quy mô siêu tuyến tính với số lượng người tham gia. (Như J. Richard Hackman đã dạy chúng ta, số mối quan hệ r tăng tương tự như hàm số của số hạng n theo phương trình này: r = (n^2-n)/2. Và mỗi mối quan hệ bộc lộ một lượng nào đó của mối quan hệ chi phí.) Khi các nhà khoa học dữ liệu được tổ chức theo chức năng, ở mọi giai đoạn, với mọi thay đổi, mọi bàn giao, v.v., cần có nhiều chuyên gia, điều này làm tăng chi phí điều phối. Ví dụ: những người lập mô hình thống kê muốn thử nghiệm các tính năng mới sẽ phải phối hợp với các kỹ sư dữ liệu, những người thêm vào tập dữ liệu mỗi khi họ muốn thử điều gì đó mới. Tương tự như vậy, mỗi mô hình mới được đào tạo có nghĩa là nhà phát triển mô hình sẽ cần người phối hợp để đưa mô hình đó vào sản xuất. Chi phí điều phối đóng vai trò như một cái giá cho việc lặp lại, khiến chúng trở nên khó khăn và tốn kém hơn và có nhiều khả năng khiến nghiên cứu bị bỏ dở. Điều này có thể cản trở việc học tập.

2. Nó làm cho thời gian chờ đợi trở nên khó khăn.

Thậm chí còn khó khăn hơn cả chi phí điều phối là thời gian bị mất giữa các ca làm việc. Trong khi chi phí điều phối thường được tính bằng giờ - thời gian tiến hành các cuộc họp, thảo luận, đánh giá thiết kế - thì thời gian chờ đợi thường được tính bằng ngày, tuần hoặc thậm chí vài tháng! Lịch trình của các chuyên gia chức năng rất khó cân bằng vì mỗi chuyên gia phải được phân bổ trên nhiều dự án. Một cuộc họp kéo dài một giờ để thảo luận về những thay đổi có thể mất hàng tuần để quy trình làm việc trôi chảy. Và sau khi thống nhất những thay đổi, cần phải tự mình lên kế hoạch cho công việc thực tế trong bối cảnh còn rất nhiều dự án khác chiếm thời gian làm việc của các chuyên gia. Công việc liên quan đến sửa mã hoặc nghiên cứu chỉ mất vài giờ hoặc vài ngày để hoàn thành có thể mất nhiều thời gian hơn trước khi có sẵn tài nguyên. Cho đến lúc đó, việc lặp lại và học tập bị đình chỉ.

3. Nó thu hẹp bối cảnh.

Sự phân công lao động có thể hạn chế việc học tập một cách giả tạo bằng cách khen thưởng những người vẫn theo đuổi chuyên môn của họ. Ví dụ, một nhà khoa học nghiên cứu phải ở trong phạm vi chức năng của mình sẽ tập trung sức lực vào việc thử nghiệm các loại thuật toán khác nhau: hồi quy, mạng lưới thần kinh, rừng ngẫu nhiên, v.v. Tất nhiên, những lựa chọn thuật toán tốt có thể dẫn đến những cải tiến gia tăng, nhưng thông thường sẽ thu được nhiều lợi ích hơn từ các hoạt động khác, chẳng hạn như tích hợp các nguồn dữ liệu mới. Tương tự như vậy, nó sẽ giúp phát triển một mô hình khai thác mọi khả năng giải thích vốn có của dữ liệu. Tuy nhiên, sức mạnh của nó có thể nằm ở việc thay đổi hàm mục tiêu hoặc nới lỏng một số ràng buộc nhất định. Điều này khó có thể nhìn thấy hoặc thực hiện được khi công việc của cô ấy bị hạn chế. Bởi vì một nhà khoa học kỹ thuật chuyên tối ưu hóa các thuật toán, anh ta ít có khả năng làm bất cứ điều gì khác, ngay cả khi nó mang lại lợi ích đáng kể.

Để đặt tên cho các dấu hiệu xuất hiện khi nhóm khoa học dữ liệu hoạt động như nhà máy ghim (ví dụ: trong các cập nhật trạng thái đơn giản): “chờ thay đổi đường dẫn dữ liệu” và “chờ tài nguyên ML Eng” là những yếu tố chặn phổ biến. Tuy nhiên, tôi tin rằng ảnh hưởng nguy hiểm hơn là những gì bạn không nhận ra, bởi bạn không thể hối tiếc về những gì mình chưa biết. Việc thực hiện hoàn hảo và sự tự mãn có được từ việc đạt được hiệu quả của quy trình có thể che giấu sự thật rằng các tổ chức không nhận thức được những lợi ích đào tạo mà họ đang bỏ lỡ.

Tất nhiên, giải pháp cho vấn đề này là loại bỏ phương pháp ghim gốc. Để khuyến khích học tập và lặp lại, vai trò của nhà khoa học dữ liệu phải chung chung nhưng có trách nhiệm rộng rãi, độc lập với chức năng kỹ thuật, tức là tổ chức các nhà khoa học dữ liệu sao cho họ được tối ưu hóa cho việc học. Điều này có nghĩa là thuê “chuyên gia toàn diện”—các chuyên gia tổng quát có thể thực hiện nhiều chức năng khác nhau, từ ý tưởng đến lập mô hình, triển khai đến đo lường. Điều quan trọng cần lưu ý là tôi không gợi ý rằng việc tuyển dụng nhân tài toàn diện sẽ làm giảm số lượng nhân viên. Đúng hơn, tôi sẽ đơn giản giả định rằng khi chúng được tổ chức khác nhau, động cơ của chúng sẽ phù hợp hơn với lợi ích học tập và hiệu suất. Ví dụ: giả sử bạn có một nhóm gồm ba người với ba kỹ năng kinh doanh. Trong một nhà máy sản xuất ghim, mỗi kỹ thuật viên sẽ dành một phần ba thời gian của mình cho mỗi công việc vì không ai khác có thể làm công việc của mình. Trong một nhóm đầy đủ, mỗi nhà tổng hợp hoàn toàn dành riêng cho toàn bộ quy trình kinh doanh, mở rộng quy mô và đào tạo.

Khi có ít người hỗ trợ chu trình sản xuất hơn, sự phối hợp sẽ giảm đi. Người tổng quát di chuyển linh hoạt giữa các tính năng, mở rộng đường dẫn dữ liệu để thêm nhiều dữ liệu hơn, thử các tính năng mới trong mô hình, triển khai các phiên bản mới vào sản xuất để đo lường nhân quả và lặp lại các bước nhanh chóng khi có ý tưởng mới. Tất nhiên, toa xe ga thực hiện các chức năng khác nhau một cách tuần tự chứ không phải song song. Rốt cuộc chỉ có một người mà thôi. Tuy nhiên, việc hoàn thành một nhiệm vụ thường chỉ mất một phần nhỏ thời gian cần thiết để truy cập vào một tài nguyên chuyên biệt khác. Vì vậy, thời gian lặp lại giảm đi.

Người tổng quát của chúng tôi có thể không có kỹ năng như một chuyên gia trong một chức năng công việc cụ thể, nhưng chúng tôi không cố gắng hoàn thiện chức năng hoặc những cải tiến nhỏ dần dần. Thay vào đó, chúng tôi cố gắng học hỏi và khám phá ngày càng nhiều thách thức nghề nghiệp với tác động dần dần. Với bối cảnh tổng thể cho một giải pháp hoàn chỉnh, anh nhìn thấy những cơ hội mà một chuyên gia sẽ bỏ lỡ. Anh ấy có nhiều ý tưởng hơn và nhiều khả năng hơn. Anh ấy cũng thất bại. Tuy nhiên, cái giá của sự thất bại là thấp và lợi ích của việc học tập lại cao. Sự bất đối xứng này thúc đẩy việc lặp lại nhanh chóng và khen thưởng cho việc học tập.

Điều quan trọng cần lưu ý là mức độ tự chủ và đa dạng kỹ năng dành cho các nhà khoa học toàn diện phần lớn phụ thuộc vào độ mạnh mẽ của nền tảng dữ liệu để làm việc. Nền tảng dữ liệu được thiết kế tốt sẽ giúp các nhà khoa học dữ liệu thoát khỏi sự phức tạp của quá trình chứa, xử lý phân tán, chuyển đổi dự phòng tự động và các khái niệm điện toán nâng cao khác. Ngoài khả năng trừu tượng hóa, một nền tảng dữ liệu mạnh mẽ có thể cung cấp khả năng kết nối liền mạch với cơ sở hạ tầng thử nghiệm, tự động hóa việc giám sát và cảnh báo, cho phép tự động điều chỉnh quy mô và trực quan hóa các kết quả thuật toán cũng như gỡ lỗi. Các thành phần này được thiết kế và xây dựng bởi các kỹ sư nền tảng dữ liệu, nghĩa là chúng không được chuyển từ nhà khoa học dữ liệu sang nhóm phát triển nền tảng dữ liệu. Chuyên gia Khoa học dữ liệu là người chịu trách nhiệm về tất cả mã được sử dụng để chạy nền tảng.

Tôi cũng đã từng quan tâm đến việc phân công lao động theo chức năng bằng cách sử dụng hiệu quả của quy trình, nhưng qua quá trình thử và sai (không có cách nào tốt hơn để học), tôi phát hiện ra rằng các vai trò điển hình tạo điều kiện thuận lợi hơn cho việc học tập và đổi mới cũng như cung cấp các thước đo phù hợp: khám phá và xây dựng nhiều cơ hội kinh doanh hơn là cách tiếp cận chuyên biệt. (Một cách hiệu quả hơn để tìm hiểu về phương pháp tổ chức này hơn là thử và sai mà tôi đã trải qua là đọc cuốn sách Hợp tác nhóm của Amy Edmondson: Cách các tổ chức học hỏi, đổi mới và cạnh tranh trong nền kinh tế tri thức).

Có một số giả định quan trọng có thể làm cho phương pháp tổ chức này ít nhiều đáng tin cậy ở một số công ty. Quá trình lặp lại làm giảm chi phí thử và sai. Nếu chi phí sai sót cao, bạn có thể muốn giảm chúng (nhưng điều này không được khuyến khích cho các ứng dụng y tế hoặc sản xuất). Ngoài ra, nếu bạn đang xử lý hàng petabyte hoặc exabyte dữ liệu, có thể cần phải có chuyên môn về kỹ thuật dữ liệu. Tương tự như vậy, nếu việc duy trì khả năng kinh doanh trực tuyến và tính sẵn có của chúng quan trọng hơn việc cải thiện chúng, thì sự xuất sắc về mặt chức năng có thể lấn át việc học tập. Cuối cùng, mô hình full stack dựa vào ý kiến ​​của những người biết về nó. Họ không phải là kỳ lân; bạn có thể tìm thấy chúng hoặc tự chuẩn bị chúng. Tuy nhiên, họ đang có nhu cầu cao và việc thu hút cũng như giữ chân họ sẽ đòi hỏi mức lương cạnh tranh, giá trị doanh nghiệp mạnh mẽ và công việc đầy thử thách. Hãy chắc chắn rằng văn hóa công ty của bạn có thể hỗ trợ điều này.

Ngay cả với tất cả những gì đã nói, tôi tin rằng mô hình ngăn xếp đầy đủ cung cấp các điều kiện khởi đầu tốt nhất. Hãy bắt đầu với chúng và sau đó chỉ tiến tới phân công lao động theo chức năng một cách có ý thức khi thực sự cần thiết.

Có những nhược điểm khác của chuyên môn hóa chức năng. Điều này có thể dẫn tới sự mất trách nhiệm và thụ động của người lao động. Bản thân Smith cũng chỉ trích sự phân công lao động, cho rằng nó dẫn đến sự cạn kiệt tài năng, tức là làm suy yếu tài năng. người lao động trở nên thiếu hiểu biết và rút lui vì vai trò của họ bị giới hạn ở một số nhiệm vụ lặp đi lặp lại. Mặc dù chuyên môn hóa có thể mang lại hiệu quả cho quy trình nhưng nó ít có khả năng truyền cảm hứng cho người lao động.

Đổi lại, các vai trò đa năng cung cấp tất cả những điều thúc đẩy sự hài lòng trong công việc: quyền tự chủ, khả năng làm chủ và mục đích. Tự chủ là họ không phụ thuộc vào bất cứ điều gì để đạt được thành công. Sự làm chủ nằm ở lợi thế cạnh tranh mạnh mẽ. Và ý thức về mục đích nằm ở cơ hội có tác động đến hoạt động kinh doanh mà họ tạo ra. Nếu chúng ta có thể khiến mọi người hào hứng với công việc của họ và có tác động lớn đến công ty thì mọi thứ khác sẽ đâu vào đấy.

Nguồn: www.habr.com

Thêm một lời nhận xét