Miért van szükségük az adattudományi csapatoknak generalistákra, nem pedig szakemberekre

Miért van szükségük az adattudományi csapatoknak generalistákra, nem pedig szakemberekre
HIROSHI WATANABE/GETTY IMAGES

Adam Smith a The Wealth of Nations-ben bemutatja, hogy a munkamegosztás hogyan válik a termelékenység növekedésének fő forrásává. Példa erre egy csapgyár szerelősora: „Az egyik munkás húzza a drótot, egy másik megigazítja, a harmadik elvágja, a negyedik a végét élezi, az ötödik csiszolja a másik végét, hogy illeszkedjen a fejhez.” A konkrét funkciókra koncentráló specializációnak köszönhetően minden dolgozó a szűk feladatkörében magasan kvalifikált szakemberré válik, ami a folyamatok hatékonyságának növekedéséhez vezet. Az egy dolgozóra jutó termelés sokszorosára nő, és a gyár hatékonyabbá válik a csapok előállításában.

Ez a funkcionalitás szerinti munkamegosztás ma is annyira beleivódott a fejünkbe, hogy gyorsan ennek megfelelően szerveztük csapatainkat. Az adattudomány sem kivétel. Az összetett algoritmikus üzleti lehetőségek több munkafunkciót igényelnek, ezért a vállalatok általában szakértői csoportokat hoznak létre: kutatókból, adatmérnökökből, gépi tanulási mérnökökből, ok-okozati tudósokból stb. A szakemberek munkáját a termékmenedzser koordinálja a funkciók átadásával, gombostűgyárhoz hasonló módon: „az egyik ember fogadja az adatokat, a másik modellezi, a harmadik végrehajtja, a negyedik mér” stb.

Sajnos nem szabad Data Science csapatainkat a termelékenység javítása érdekében optimalizálnunk. Ezt azonban akkor teszi, ha megérti, mit termel: csapokat vagy valami mást, és egyszerűen a hatékonyság növelésére törekszik. A szerelősorok célja egy feladat elvégzése. Pontosan tudjuk, mit akarunk – tűket (mint Smith példájában), de minden olyan termék vagy szolgáltatás megemlíthető, amelyben a követelmények teljes mértékben leírják a termék és viselkedésének minden aspektusát. A munkavállalók feladata, hogy ezeket a követelményeket a lehető leghatékonyabban teljesítsék.

A Data Science célja azonban nem a feladatok elvégzése. Inkább az erős új üzleti lehetőségek feltárása és fejlesztése a cél. Az olyan algoritmikus termékeket és szolgáltatásokat, mint az ajánlórendszerek, a vásárlói interakciók, a stíluspreferenciák osztályozása, a méretezés, a ruhatervezés, a logisztikai optimalizálás, a szezonális trendek észlelése és még sok más, nem lehet előre fejleszteni. Tanulmányozni kell őket. Nincsenek reprodukálandó tervrajzok, ezek új lehetőségek, amelyek eredendően bizonytalanok. Az együtthatókat, modelleket, modelltípusokat, hiperparamétereket, minden szükséges elemet kísérletezéssel, próbálkozással és ismétléssel kell megtanulni. A csapokkal a betanítás és a tervezés a gyártás előtt történik. A Data Science segítségével úgy tanul, ahogyan tanul, nem korábban.

Egy tűgyárban, amikor a képzés az első, nem várjuk el, és nem is akarjuk a dolgozóktól, hogy a termelés hatékonyságának javításán kívül a termék bármely jellemzőjén rögtönözzenek. A feladatok specializálásának van értelme, mert ez a folyamat hatékonyságához és a gyártási konzisztenciához vezet (a végtermék változtatása nélkül).

De amikor a termék még fejlesztés alatt áll, és a cél a képzés, a specializáció a következő esetekben akadályozza céljainkat:

1. Növeli a koordinációs költségeket.

Vagyis azokat a költségeket, amelyek a kommunikációra, a megbeszélésre, az elvégzendő munka indokolására és rangsorolására fordított idő alatt halmozódnak fel. Ezek a költségek szuperlineárisan skálázódnak az érintett személyek számával. (Ahogyan J. Richard Hackman tanította, az r kapcsolatok száma hasonlóan növekszik, mint az n tagok számának függvénye ezen egyenlet szerint: r = (n^2-n)/2. És minden összefüggés felfedi a költségviszony.) Amikor az adattudósokat funkció szerint szervezik, minden szakaszban, minden változtatásnál, minden átadásnál stb., sok szakemberre van szükség, ami növeli a koordinációs költségeket. Például azoknak a statisztikai modellezőknek, akik új funkciókkal szeretnének kísérletezni, egyeztetniük kell az adatmérnökökkel, akik minden alkalommal kiegészítik az adatkészleteket, amikor valami újat szeretnének kipróbálni. Hasonlóképpen, minden új modell betanítása azt jelenti, hogy a modellfejlesztőnek szüksége lesz valakire, akivel egyeztetnie kell a gyártásba helyezést. A koordinációs költségek az iteráció áraként működnek, ami nehezebbé és drágábbá teszi azokat, és nagyobb valószínűséggel a vizsgálat félbehagyását eredményezi. Ez zavarhatja a tanulást.

2. Megnehezíti a várakozási időt.

A koordinációs költségeknél is ijesztőbb a műszakok közötti időveszteség. Míg a koordinációs költségeket általában órákban mérik - az értekezletek, megbeszélések, tervezési áttekintések lebonyolításához szükséges időt -, addig a várakozási időt általában napokban, hetekben vagy akár hónapokban mérik! A funkcionális szakemberek ütemtervét nehéz kiegyensúlyozni, mivel minden szakembert több projekt között kell elosztani. Egy egyórás megbeszélés a változások megvitatására hetekig is eltarthat, amíg a munkafolyamat simábbá válik. A változtatások egyeztetése után pedig magát a tényleges munkát kell megtervezni számos egyéb, a szakemberek munkaidejét lefoglaló projekttel összefüggésben. A csak néhány órát vagy napot igénybe vevő kódjavításokat vagy kutatásokat magában foglaló munka sokkal tovább tart, mielőtt az erőforrások elérhetővé válnak. Addig az iteráció és a tanulás felfüggesztve.

3. Szűkíti a kontextust.

A munkamegosztás mesterségesen korlátozhatja a tanulást azáltal, hogy jutalmazza az embereket a szakterületükön maradásért. Például egy kutató, akinek funkcionalitása hatókörén belül kell maradnia, energiáját különböző típusú algoritmusokkal való kísérletezésre összpontosítja: regresszió, neurális hálózatok, véletlenszerű erdő stb. Természetesen a jó algoritmusválasztás fokozatos fejlesztéseket eredményezhet, de jellemzően sokkal többet nyerhetünk más tevékenységekből, például új adatforrások integrálásával. Hasonlóképpen segít egy olyan modell kidolgozásában, amely az adatokban rejlő minden magyarázó erőt kihasznál. Erőssége azonban a célfüggvény megváltoztatásában vagy bizonyos korlátok lazításában rejlik. Ezt nehéz észrevenni vagy megtenni, ha a munkája korlátozott. Mivel egy műszaki tudós az algoritmusok optimalizálására specializálódott, sokkal kevésbé valószínű, hogy bármi mást csinál, még akkor is, ha az jelentős előnyökkel jár.

Hogy nevezzük azokat a jeleket, amelyek akkor jelennek meg, amikor az adattudományi csapatok tűgyárként működnek (például egyszerű állapotfrissítéseknél): „várakozik az adatfolyam változásaira” és a „várakozás az ML Eng erőforrásokra” gyakori blokkolók. Úgy gondolom azonban, hogy a veszélyesebb befolyás az, amit nem veszel észre, mert nem tudod megbánni azt, amit még nem tudsz. A hibátlan végrehajtás és a folyamatok hatékonyságának eléréséből adódó önelégültség elfedheti azt az igazságot, hogy a szervezetek nincsenek tisztában a tanulási előnyökkel, amelyekből elszalasztanak.

A probléma megoldása természetesen az, hogy megszabadulunk a gyári tűs módszertől. A tanulás és az iteráció ösztönzése érdekében az adattudós szerepkörnek általánosnak kell lennie, de a műszaki funkciótól független széles körű felelősséggel, azaz úgy kell megszervezni az adatkutatókat, hogy azok tanulásra optimalizálva legyenek. Ez azt jelenti, hogy „full stack specialistákat” kell felvenni – általános szakembereket, akik különféle funkciókat látnak el, az ötlettől a modellezésig, a megvalósítástól a mérésig. Fontos megjegyezni, hogy nem azt javaslom, hogy a teljes tehetségek felvétele csökkentse az alkalmazottak számát. Inkább egyszerűen azt feltételezem, hogy ha másképpen szervezik őket, akkor ösztönzőik jobban illeszkednek a tanulási és teljesítménybeli előnyökhöz. Tegyük fel például, hogy van egy három fős csapata, akik három üzleti ismeretekkel rendelkeznek. A tűgyárban minden technikus ideje egyharmadát minden munkafeladatra fordítja, mivel senki más nem tudja elvégezni a munkáját. Egy teljes halomban minden generalista teljes mértékben elkötelezett a teljes üzleti folyamat, a bővítés és a képzés iránt.

Mivel kevesebb ember támogatja a termelési ciklust, csökken a koordináció. A generalista gördülékenyen mozog a funkciók között, kibővíti az adatfolyamot, hogy több adatot adjon hozzá, új funkciókat próbál ki a modellekben, új verziókat telepít az oksági mérésekhez, és megismétli a lépéseket, amint új ötletek merülnek fel. Természetesen a kombi szekvenciálisan és nem párhuzamosan látja el a különböző funkciókat. Végül is csak egy emberről van szó. Egy feladat elvégzése azonban általában csak a töredékét vesz igénybe egy másik speciális erőforrás eléréséhez szükséges időnek. Tehát az iterációs idő csökken.

Generalistánk nem biztos, hogy olyan képzett, mint egy adott munkakör szakembere, de nem törekszünk a funkcionális tökéletességre vagy a kisebb fokozatos fejlesztésekre. Inkább arra törekszünk, hogy fokozatosan tanuljunk és fedezzünk fel egyre több szakmai kihívást. A teljes megoldás holisztikus kontextusában olyan lehetőségeket lát, amelyeket egy szakember elszalasztana. Több ötlete és lehetősége van. Neki is kudarcot vall. A kudarc költsége azonban alacsony, és a tanulás előnyei magasak. Ez az aszimmetria elősegíti a gyors iterációt és jutalmazza a tanulást.

Fontos megjegyezni, hogy a teljes körű tudósok számára biztosított autonómia és képességek sokfélesége nagymértékben függ az adatplatform robusztusságától, amelyen dolgozni. Egy jól megtervezett adatplatform elvonatkoztatja az adattudósokat a konténerezés, az elosztott feldolgozás, az automatikus feladatátvétel és más fejlett számítási koncepciók bonyolultságától. Az absztrakción kívül egy robusztus adatplatform zökkenőmentes kapcsolatot biztosít a kísérleti infrastruktúrával, automatizálja a megfigyelést és a riasztást, lehetővé teszi az algoritmikus eredmények automatikus skálázását és megjelenítését, valamint a hibakeresést. Ezeket az összetevőket az adatplatform-mérnökök tervezték és építették, vagyis nem adják át őket az adattudóstól az adatplatform-fejlesztő csapathoz. A Data Science szakértője a felelős a platform futtatásához használt összes kódért.

Valaha engem is érdekelt a folyamathatékonyságot használó funkcionális munkamegosztás, de próbálgatással (nincs jobb módja a tanulásnak) rájöttem, hogy a tipikus szerepkörök jobban megkönnyítik a tanulást és az innovációt, és megfelelő mérőszámokat adnak: felfedezni és sokkal több üzleti lehetőség megteremtése, mint a speciális megközelítés. (A szervezés e megközelítésének megismerésének hatékonyabb módja, mint az általam átélt próba és hiba, ha elolvassa Amy Edmondson Team Collaboration: How Organations Learn, Innovate and Compete in the Knowledge Economy című könyvét).

Vannak olyan fontos feltételezések, amelyek bizonyos vállalatoknál többé-kevésbé megbízhatóvá tehetik ezt a szervezési megközelítést. Az iterációs folyamat csökkenti a próba és hiba költségeit. Ha a hiba költsége magas, érdemes lehet csökkenteni azokat (de ez nem ajánlott orvosi alkalmazásokhoz vagy gyártáshoz). Ezen túlmenően, ha petabájtokkal vagy exabájtokkal foglalkozik, szükség lehet adatkezelési szakosodásra. Hasonlóképpen, ha az online üzleti képességek és elérhetőségük fenntartása fontosabb, mint fejlesztésük, a funkcionális kiválóság megelőzheti a tanulást. Végül a teljes veremmodell a róla tudó emberek véleményére támaszkodik. Nem egyszarvúak; megtalálhatja vagy elkészítheti saját maga. Azonban nagy kereslet van rájuk, vonzásuk és megtartásuk versenyképes javadalmazást, erős vállalati értékeket és kihívásokkal teli munkát igényel. Győződjön meg arról, hogy vállalati kultúrája támogatja ezt.

Mindezek ellenére úgy gondolom, hogy a full stack modell biztosítja a legjobb indulási feltételeket. Kezdje velük, majd tudatosan csak akkor haladjon a funkcionális munkamegosztás felé, ha feltétlenül szükséges.

A funkcionális specializációnak más hátrányai is vannak. Ez a munkavállalók felelősségének elvesztéséhez és passzivitásához vezethet. Smith maga is bírálja a munkamegosztást, arra utalva, hogy az a tehetség eltompulásához vezet, i.e. a dolgozók tudatlanokká és visszahúzódóvá válnak, mivel szerepük néhány ismétlődő feladatra korlátozódik. Bár a specializáció folyamathatékonyságot biztosíthat, kevésbé valószínű, hogy inspirálja a dolgozókat.

A sokoldalú szerepek viszont mindazt biztosítják, ami a munkával való elégedettséghez vezet: autonómiát, mesterséget és célt. Az autonómia az, hogy nem függnek semmitől a siker eléréséhez. Az elsajátítás erős versenyelőnyökben rejlik. A céltudat pedig abban rejlik, hogy lehetõségük van hatással lenni az általuk létrehozott vállalkozásra. Ha sikerül felkelteni az embereket a munkájukkal kapcsolatban, és nagy hatással lehetünk a cégre, akkor minden más a helyére kerül.

Forrás: will.com

Hozzászólás