چرا تیم های علم داده به متخصصان عمومی نیاز دارند، نه متخصصان

چرا تیم های علم داده به متخصصان عمومی نیاز دارند، نه متخصصان
هیروشی WATANABE/GETTY IMAGES

در ثروت ملل، آدام اسمیت نشان می دهد که چگونه تقسیم کار به منبع اصلی افزایش بهره وری تبدیل می شود. یک مثال خط مونتاژ یک کارخانه پین ​​است: "یک کارگر سیم را می کشد، دیگری آن را صاف می کند، سومی آن را برش می دهد، چهارمی انتهای آن را تیز می کند، کارگر پنجمی سر دیگر را آسیاب می کند تا سرش مناسب باشد." به لطف تخصص متمرکز بر عملکردهای خاص، هر کارمند به یک متخصص بسیار ماهر در کار باریک خود تبدیل می شود که منجر به افزایش کارایی فرآیند می شود. خروجی به ازای هر کارگر چندین برابر افزایش می یابد و کارخانه در تولید پین کارآمدتر می شود.

این تقسیم کار بر اساس عملکرد حتی امروز آنقدر در ذهن ما جا افتاده است که به سرعت تیم های خود را بر اساس آن سازماندهی کردیم. علم داده نیز از این قاعده مستثنی نیست. قابلیت های پیچیده کسب و کار الگوریتمی به عملکردهای کاری متعددی نیاز دارند، بنابراین شرکت ها معمولاً تیم هایی از متخصصان را ایجاد می کنند: محققان، مهندسان داده، مهندسان یادگیری ماشین، دانشمندان علت و معلولی و غیره. کار متخصصان توسط مدیر محصول با انتقال عملکردها به روشی شبیه کارخانه پین ​​هماهنگ می شود: "یک نفر داده ها را دریافت می کند ، دیگری آن را مدل می کند ، سومی آن را اجرا می کند ، چهارمی اقدامات" و غیره.

افسوس، ما نباید تیم های علم داده خود را برای بهبود بهره وری بهینه سازی کنیم. با این حال، زمانی این کار را انجام می‌دهید که بفهمید چه چیزی تولید می‌کنید: پین یا چیز دیگری، و صرفاً برای افزایش کارایی تلاش می‌کنید. هدف از خطوط مونتاژ تکمیل یک کار است. ما دقیقاً می دانیم که چه چیزی می خواهیم - پین ها (مانند مثال اسمیت)، اما هر محصول یا خدماتی را می توان ذکر کرد که در آن الزامات به طور کامل تمام جنبه های محصول و رفتار آن را توصیف می کند. نقش کارکنان این است که این الزامات را تا حد امکان به نحو احسن برآورده کنند.

اما هدف علم داده تکمیل وظایف نیست. در عوض، هدف کشف و توسعه فرصت‌های تجاری جدید قوی است. محصولات و خدمات الگوریتمی مانند سیستم های توصیه، تعامل با مشتری، طبقه بندی ترجیحات سبک، اندازه، طراحی لباس، بهینه سازی لجستیک، تشخیص روند فصلی و بسیاری موارد دیگر از قبل قابل توسعه نیستند. آنها باید مطالعه شوند. هیچ طرحی برای تکرار وجود ندارد، اینها امکانات جدیدی با عدم قطعیت ذاتی هستند. ضرایب، مدل‌ها، انواع مدل‌ها، فراپارامترها، همه عناصر لازم را باید از طریق آزمایش، آزمون و خطا و تکرار آموخت. با پین، آموزش و طراحی قبل از تولید انجام می شود. با علم داده، همانطور که یاد می گیرید، نه قبل از آن.

در کارخانه پین، زمانی که آموزش در اولویت قرار می گیرد، ما نه انتظار داریم و نه می خواهیم که کارگران در مورد هیچ ویژگی محصول بداهه گویی کنند، جز بهبود کارایی تولید. وظایف تخصصی منطقی است زیرا منجر به کارایی فرآیند و ثبات تولید (بدون تغییر در محصول نهایی) می شود.

اما زمانی که محصول هنوز در حال توسعه است و هدف آموزش است، تخصص در موارد زیر با اهداف ما تداخل دارد:

1. هزینه های هماهنگی را افزایش می دهد.

یعنی آن هزینه هایی که در طول زمان صرف شده برای برقراری ارتباط، بحث، توجیه و اولویت بندی کاری که باید انجام شود، جمع می شود. این هزینه ها به صورت فوق خطی با تعداد افراد درگیر مقیاس می شوند. (همانطور که جی ریچارد هکمن به ما آموخت، تعداد روابط r به طور مشابه با تابع تعداد عبارت n مطابق با این معادله رشد می کند: r = (n^2-n)/2. و هر رابطه مقداری از رابطه هزینه.) وقتی دانشمندان داده بر اساس عملکرد سازماندهی می شوند، در هر مرحله، با هر تغییر، هر تحویل و غیره، متخصصان زیادی مورد نیاز هستند که هزینه های هماهنگی را افزایش می دهد. برای مثال، مدل‌سازان آماری که می‌خواهند ویژگی‌های جدید را آزمایش کنند، باید با مهندسان داده هماهنگ شوند که هر بار که می‌خواهند چیز جدیدی را امتحان کنند، به مجموعه داده‌ها اضافه می‌کنند. به همین ترتیب، هر مدل جدید آموزش داده شده به این معنی است که توسعه‌دهنده مدل به کسی نیاز دارد که با او هماهنگ شود تا آن را به تولید برساند. هزینه‌های هماهنگی به‌عنوان قیمتی برای تکرار عمل می‌کنند و آن‌ها را دشوارتر و گران‌تر می‌کنند و به احتمال زیاد باعث رها شدن مطالعه می‌شوند. این ممکن است در یادگیری اختلال ایجاد کند.

2. زمان انتظار را سخت می کند.

حتی ترسناک تر از هزینه های هماهنگی، زمان از دست رفته بین شیفت های کاری است. در حالی که هزینه‌های هماهنگی معمولاً بر حسب ساعت اندازه‌گیری می‌شوند - مدت زمانی که برای انجام جلسات، بحث‌ها، بررسی‌های طراحی لازم است - زمان انتظار معمولاً بر حسب روز، هفته یا حتی ماه اندازه‌گیری می‌شود! متعادل کردن برنامه های متخصصان عملکردی دشوار است زیرا هر متخصص باید در چندین پروژه توزیع شود. یک جلسه یک ساعته برای بحث در مورد تغییرات ممکن است هفته ها طول بکشد تا روند کار هموار شود. و پس از توافق بر روی تغییرات، لازم است که خود کار واقعی در چارچوب بسیاری از پروژه های دیگر که زمان کار متخصصان را اشغال می کند، برنامه ریزی شود. کارهای مربوط به اصلاح کد یا تحقیقی که تکمیل آن فقط چند ساعت یا چند روز طول می کشد، ممکن است قبل از در دسترس قرار گرفتن منابع بسیار بیشتر طول بکشد. تا آن زمان، تکرار و یادگیری به حالت تعلیق درآمده است.

3. زمینه را محدود می کند.

تقسیم کار می تواند به طور مصنوعی یادگیری را با پاداش دادن به افراد برای باقی ماندن در تخصص خود محدود کند. به عنوان مثال، یک دانشمند محقق که باید در محدوده عملکرد خود باقی بماند، انرژی خود را روی آزمایش انواع مختلف الگوریتم‌ها متمرکز می‌کند: رگرسیون، شبکه‌های عصبی، جنگل تصادفی و غیره. البته، انتخاب الگوریتم‌های خوب می‌تواند منجر به بهبودهای تدریجی شود، اما معمولاً از فعالیت‌های دیگر، مانند یکپارچه‌سازی منابع داده جدید، چیزهای بیشتری می‌توان به دست آورد. به همین ترتیب، به توسعه مدلی کمک می‌کند که از هر ذره قدرت توضیحی ذاتی داده‌ها بهره‌برداری کند. با این حال، قدرت آن ممکن است در تغییر تابع هدف یا کاهش محدودیت‌های خاص باشد. وقتی کار او محدود است دیدن یا انجام این کار دشوار است. از آنجایی که یک دانشمند فنی در بهینه‌سازی الگوریتم‌ها تخصص دارد، احتمال انجام کار دیگری، حتی اگر مزایای قابل توجهی داشته باشد، بسیار کمتر است.

برای نام‌گذاری نشانه‌هایی که زمانی که تیم‌های علم داده به‌عنوان کارخانه پین ​​عمل می‌کنند ظاهر می‌شوند (به عنوان مثال، در به‌روزرسانی‌های ساده وضعیت): «انتظار برای تغییرات خط لوله داده» و «انتظار برای منابع ML Eng» مسدودکننده‌های رایج هستند. با این حال، من معتقدم که تأثیر خطرناک‌تر چیزی است که شما متوجه آن نمی‌شوید، زیرا نمی‌توانید از چیزی که قبلاً نمی‌دانید پشیمان شوید. اجرای بی عیب و نقص و رضایت حاصل از دستیابی به کارایی فرآیند می تواند این حقیقت را پنهان کند که سازمان ها از مزایای یادگیری که از دست می دهند آگاه نیستند.

راه حل این مشکل البته رهایی از روش پین کارخانه ای است. برای تشویق یادگیری و تکرار، نقش‌های دانشمند داده باید عمومی باشد، اما با مسئولیت‌های گسترده مستقل از عملکرد فنی، یعنی سازماندهی دانشمندان داده به گونه‌ای که برای یادگیری بهینه شوند. این به معنای استخدام "متخصصان تمام پشته" است - متخصصان عمومی که می توانند عملکردهای مختلفی را انجام دهند، از مفهوم تا مدل سازی، اجرا تا اندازه گیری. توجه به این نکته مهم است که من پیشنهاد نمی کنم که استخدام استعدادهای کامل باید تعداد کارمندان را کاهش دهد. در عوض، من به سادگی فرض خواهم کرد که وقتی آنها به طور متفاوتی سازماندهی شوند، انگیزه های آنها بهتر با مزایای یادگیری و عملکرد هماهنگ می شود. به عنوان مثال، فرض کنید یک تیم سه نفره با سه مهارت تجاری دارید. در یک کارخانه پین، هر تکنسین یک سوم از وقت خود را به هر کار اختصاص می دهد، زیرا هیچ کس دیگری نمی تواند کار او را انجام دهد. در یک پشته کامل، هر متخصص به طور کامل به کل فرآیند کسب و کار، افزایش مقیاس و آموزش اختصاص دارد.

با حمایت افراد کمتر از چرخه تولید، هماهنگی کاهش می یابد. کلی گرا به طور روان بین ویژگی ها حرکت می کند، خط لوله داده را گسترش می دهد تا داده های بیشتری را اضافه کند، ویژگی های جدید را در مدل ها امتحان می کند، نسخه های جدید را برای تولید برای اندازه گیری های علّی به کار می گیرد، و مراحل را به همان سرعتی که ایده های جدید مطرح می شود تکرار می کند. البته استیشن واگن عملکردهای مختلفی را به صورت متوالی و نه موازی انجام می دهد. بالاخره فقط یک نفر است. با این حال، تکمیل یک کار معمولاً تنها کسری از زمان لازم برای دسترسی به یک منبع تخصصی دیگر را می طلبد. بنابراین، زمان تکرار کاهش می یابد.

متخصص عمومی ما ممکن است به اندازه یک متخصص در یک عملکرد شغلی خاص ماهر نباشد، اما ما برای کمال عملکردی یا بهبودهای تدریجی کوچک تلاش نمی کنیم. در عوض، ما در تلاش برای یادگیری و کشف چالش های حرفه ای بیشتر و بیشتر با تاثیر تدریجی هستیم. با زمینه ای جامع برای یک راه حل کامل، او فرصت هایی را می بیند که یک متخصص از دست می دهد. او ایده های بیشتری دارد و امکانات بیشتری دارد. او هم شکست می خورد. با این حال، هزینه شکست کم و مزایای یادگیری زیاد است. این عدم تقارن باعث افزایش تکرار سریع و پاداش یادگیری می شود.

توجه به این نکته مهم است که میزان استقلال و تنوع مهارتی که در اختیار دانشمندان کامل قرار می‌گیرد تا حد زیادی به استحکام پلتفرم داده‌ای که روی آن کار می‌کنند بستگی دارد. یک پلت فرم داده به خوبی طراحی شده، دانشمندان داده را از پیچیدگی‌های کانتینری‌سازی، پردازش توزیع‌شده، خطای خودکار و سایر مفاهیم پیشرفته محاسباتی انتزاعی می‌کند. علاوه بر انتزاع، یک پلت فرم داده قوی می تواند اتصال یکپارچه به زیرساخت های آزمایشی، نظارت و هشدار خودکار، مقیاس بندی خودکار و تجسم نتایج الگوریتمی و اشکال زدایی را فراهم کند. این اجزا توسط مهندسان پلتفرم داده طراحی و ساخته شده اند، به این معنی که از دانشمند داده به تیم توسعه پلت فرم داده منتقل نمی شوند. این متخصص علوم داده است که مسئول تمام کدهای مورد استفاده برای اجرای پلت فرم است.

من نیز زمانی علاقه مند به تقسیم کارکردی کار با استفاده از کارایی فرآیند بودم، اما از طریق آزمون و خطا (راه بهتری برای یادگیری وجود ندارد)، متوجه شدم که نقش های معمولی یادگیری و نوآوری را بهتر تسهیل می کنند و معیارهای مناسب را ارائه می دهند: کشف و ایجاد فرصت های تجاری بسیار بیشتر از رویکرد تخصصی. (یک راه مؤثرتر برای یادگیری در مورد این رویکرد سازمان‌دهی نسبت به آزمون و خطای که انجام دادم، خواندن کتاب همکاری تیمی امی ادمونسون است: سازمان‌ها چگونه یاد می‌گیرند، نوآوری می‌کنند و در اقتصاد دانش رقابت می‌کنند).

برخی از مفروضات مهم وجود دارد که ممکن است این رویکرد را برای سازماندهی کم و بیش قابل اعتماد در برخی شرکت ها کند. فرآیند تکرار هزینه آزمون و خطا را کاهش می دهد. اگر هزینه خطا زیاد است، ممکن است بخواهید آنها را کاهش دهید (اما این برای کاربردهای پزشکی یا ساخت توصیه نمی شود). علاوه بر این، اگر با پتابایت یا اگزابایت داده سروکار دارید، ممکن است به تخصص در مهندسی داده نیاز باشد. به همین ترتیب، اگر حفظ قابلیت‌های کسب‌وکار آنلاین و در دسترس بودن آن‌ها مهم‌تر از بهبود آنها باشد، تعالی عملکردی ممکن است بر یادگیری برتری داشته باشد. در نهایت، مدل فول استک به نظرات افرادی که در مورد آن می دانند متکی است. آنها تک شاخ نیستند. می توانید آنها را پیدا کنید یا خودتان آنها را تهیه کنید. با این حال، تقاضای زیادی برای آنها وجود دارد و جذب و حفظ آنها مستلزم جبران خسارت رقابتی، ارزش های شرکتی قوی و کار چالش برانگیز است. اطمینان حاصل کنید که فرهنگ شرکت شما می تواند از این امر پشتیبانی کند.

حتی با همه آنچه گفته شد، من معتقدم که مدل فول استک بهترین شرایط شروع را فراهم می کند. با آنها شروع کنید، و سپس آگاهانه به سمت یک تقسیم کار عملکردی تنها در صورت لزوم حرکت کنید.

معایب دیگری نیز برای تخصص عملکردی وجود دارد. این می تواند منجر به از دست دادن مسئولیت و انفعال در سمت کارگران شود. خود اسمیت از تقسیم کار انتقاد می کند و پیشنهاد می کند که این تقسیم کار منجر به کمرنگ شدن استعداد می شود. کارگران نادان و گوشه گیر می شوند زیرا نقش آنها به چند کار تکراری محدود می شود. در حالی که تخصص ممکن است کارایی فرآیند را فراهم کند، احتمال کمتری دارد که الهام بخش کارگران باشد.

به نوبه خود، نقش های همه کاره همه چیزهایی را که باعث رضایت شغلی می شوند فراهم می کنند: استقلال، تسلط و هدف. خودمختاری این است که آنها برای رسیدن به موفقیت به هیچ چیز وابسته نیستند. تسلط در مزیت های رقابتی قوی نهفته است. و احساس هدف در فرصتی برای تأثیرگذاری بر کسب و کاری که ایجاد می کنند نهفته است. اگر بتوانیم مردم را در مورد کارشان هیجان زده کنیم و تأثیر زیادی روی شرکت بگذاریم، آنگاه همه چیز سر جای خودش قرار خواهد گرفت.

منبع: www.habr.com

اضافه کردن نظر