Warum Data-Science-Teams Generalisten brauchen, keine Spezialisten

Warum Data-Science-Teams Generalisten brauchen, keine Spezialisten
HIROSHI WATANABE/GETTY IMAGES

In „The Wealth of Nations“ zeigt Adam Smith, wie die Arbeitsteilung zur Hauptquelle gesteigerter Produktivität wird. Ein Beispiel ist das Fließband einer Stiftfabrik: „Ein Arbeiter zieht den Draht, ein anderer richtet ihn gerade, ein dritter schneidet ihn ab, ein vierter schärft das Ende, ein fünfter schleift das andere Ende, damit es an den Kopf passt.“ Dank der auf bestimmte Funktionen fokussierten Spezialisierung wird jeder Mitarbeiter zu einem hochqualifizierten Spezialisten für seine enge Aufgabe, was zu einer erhöhten Prozesseffizienz führt. Der Output pro Arbeiter steigt um ein Vielfaches und die Fabrik wird effizienter bei der Produktion von Stecknadeln.

Diese Arbeitsteilung nach Funktionalität ist bis heute so tief in unseren Köpfen verankert, dass wir unsere Teams schnell entsprechend organisiert haben. Data Science ist keine Ausnahme. Komplexe algorithmische Geschäftsfunktionen erfordern mehrere Arbeitsfunktionen, daher bilden Unternehmen in der Regel Teams aus Spezialisten: Forscher, Dateningenieure, Ingenieure für maschinelles Lernen, Ursache-Wirkungs-Wissenschaftler und so weiter. Die Arbeit der Spezialisten wird vom Produktmanager mit der Funktionsübergabe nach dem Vorbild einer Stecknadelfabrik koordiniert: „Einer empfängt die Daten, ein anderer modelliert sie, ein Dritter führt sie aus, ein Vierter misst“ und so weiter.

Leider sollten wir unsere Data-Science-Teams nicht optimieren, um die Produktivität zu verbessern. Sie tun dies jedoch, wenn Sie verstehen, was Sie produzieren: Stifte oder etwas anderes, und einfach danach streben, die Effizienz zu steigern. Der Zweck von Montagelinien besteht darin, eine Aufgabe zu erledigen. Wir wissen genau, was wir wollen – Pins (wie in Smiths Beispiel), aber jedes Produkt oder jede Dienstleistung kann erwähnt werden, bei dem die Anforderungen alle Aspekte des Produkts und seines Verhaltens vollständig beschreiben. Die Aufgabe der Mitarbeiter besteht darin, diese Anforderungen möglichst effizient zu erfüllen.

Das Ziel von Data Science besteht jedoch nicht darin, Aufgaben zu erledigen. Das Ziel besteht vielmehr darin, starke neue Geschäftsmöglichkeiten zu erkunden und zu entwickeln. Algorithmische Produkte und Dienstleistungen wie Empfehlungssysteme, Kundeninteraktionen, Klassifizierung von Stilpräferenzen, Größen, Kleidungsdesign, Logistikoptimierung, saisonale Trenderkennung und vieles mehr können nicht im Voraus entwickelt werden. Sie müssen studiert werden. Es gibt keine zu replizierenden Blaupausen, es handelt sich um neue Möglichkeiten mit inhärenter Unsicherheit. Koeffizienten, Modelle, Modelltypen, Hyperparameter, alle notwendigen Elemente müssen durch Experimentieren, Versuch und Irrtum und Wiederholung erlernt werden. Bei Pins erfolgen Schulung und Design vor der Produktion. Mit Data Science lernen Sie so, wie Sie es tun, nicht vorher.

Wenn in einer Stecknadelfabrik die Schulung an erster Stelle steht, erwarten und wollen wir von den Arbeitern weder, dass sie an irgendeiner Funktion des Produkts improvisieren, außer um die Produktionseffizienz zu verbessern. Die Spezialisierung von Aufgaben ist sinnvoll, da sie zu Prozesseffizienz und Produktionskonsistenz führt (ohne Änderungen am Endprodukt).

Aber wenn sich das Produkt noch in der Entwicklung befindet und das Ziel die Schulung ist, beeinträchtigt die Spezialisierung unsere Ziele in den folgenden Fällen:

1. Es erhöht die Koordinationskosten.

Das sind die Kosten, die während der Zeit anfallen, die für die Kommunikation, Diskussion, Begründung und Priorisierung der zu erledigenden Arbeit aufgewendet wird. Diese Kosten skalieren superlinear mit der Anzahl der beteiligten Personen. (Wie uns J. Richard Hackman gelehrt hat, wächst die Anzahl der Beziehungen r ähnlich wie die Funktion der Anzahl der Terme n gemäß dieser Gleichung: r = (n^2-n)/2. Und jede Beziehung offenbart einen gewissen Betrag davon Kostenverhältnis.) Wenn Datenwissenschaftler nach Funktionen organisiert sind, sind in jeder Phase, bei jeder Änderung, bei jeder Übergabe usw. viele Spezialisten erforderlich, was die Koordinationskosten erhöht. Statistische Modellierer, die beispielsweise mit neuen Funktionen experimentieren möchten, müssen sich mit Dateningenieuren abstimmen, die die Datensätze jedes Mal ergänzen, wenn sie etwas Neues ausprobieren möchten. Ebenso bedeutet jedes trainierte neue Modell, dass der Modellentwickler jemanden benötigt, mit dem er sich abstimmen kann, um es in Produktion zu bringen. Koordinationskosten stellen einen Preis für die Iteration dar, was sie schwieriger und teurer macht und eher dazu führt, dass die Studie abgebrochen wird. Dies kann das Lernen beeinträchtigen.

2. Es erschwert die Wartezeit.

Noch beängstigender als die Koordinationskosten ist der Zeitverlust zwischen den Arbeitsschichten. Während Koordinationskosten normalerweise in Stunden gemessen werden – der Zeit, die für die Durchführung von Besprechungen, Diskussionen und Entwurfsprüfungen benötigt wird –, wird die Wartezeit normalerweise in Tagen, Wochen oder sogar Monaten gemessen! Es ist schwierig, die Zeitpläne der Fachspezialisten auszubalancieren, da jeder Spezialist auf mehrere Projekte verteilt sein muss. Ein einstündiges Meeting zur Besprechung von Änderungen kann Wochen dauern, bis der Arbeitsablauf reibungslos verläuft. Und nach der Einigung über die Änderungen gilt es, die eigentliche Arbeit im Kontext vieler anderer Projekte zu planen, die die Arbeitszeit von Spezialisten in Anspruch nehmen. Arbeiten mit Codekorrekturen oder Recherchen, die nur wenige Stunden oder Tage in Anspruch nehmen, können viel länger dauern, bis Ressourcen verfügbar sind. Bis dahin sind Iteration und Lernen ausgesetzt.

3. Es engt den Kontext ein.

Die Arbeitsteilung kann das Lernen künstlich einschränken, indem sie Menschen dafür belohnt, in ihrem Fachgebiet zu bleiben. Beispielsweise wird ein Forscher, der innerhalb seines Funktionsumfangs bleiben muss, seine Energie auf das Experimentieren mit verschiedenen Arten von Algorithmen konzentrieren: Regression, neuronale Netze, Random Forest und so weiter. Natürlich kann die Wahl eines guten Algorithmus zu inkrementellen Verbesserungen führen, aber in der Regel lässt sich durch andere Aktivitäten, wie beispielsweise die Integration neuer Datenquellen, noch viel mehr gewinnen. Ebenso wird es dabei helfen, ein Modell zu entwickeln, das jede noch so kleine Erklärungskraft der Daten ausnutzt. Ihre Stärke kann jedoch darin liegen, die Zielfunktion zu ändern oder bestimmte Einschränkungen zu lockern. Dies ist schwer zu sehen oder zu tun, wenn ihre Arbeit begrenzt ist. Da sich ein technischer Wissenschaftler auf die Optimierung von Algorithmen spezialisiert hat, ist es viel unwahrscheinlicher, dass er etwas anderes tut, selbst wenn es erhebliche Vorteile bringt.

Um die Anzeichen zu nennen, die auftreten, wenn Data-Science-Teams als Pin-Fabriken fungieren (z. B. bei einfachen Statusaktualisierungen): „Warten auf Änderungen der Datenpipeline“ und „Warten auf ML Eng-Ressourcen“ sind häufige Blockaden. Allerdings glaube ich, dass der gefährlichere Einfluss darin liegt, was man nicht bemerkt, weil man nicht bereuen kann, was man nicht schon weiß. Eine einwandfreie Ausführung und die Selbstgefälligkeit, die sich aus der Erzielung von Prozesseffizienz ergibt, können die Tatsache verschleiern, dass Unternehmen sich der Lernvorteile, die ihnen entgehen, nicht bewusst sind.

Die Lösung für dieses Problem besteht natürlich darin, die werkseitige Pin-Methode abzuschaffen. Um das Lernen und die Iteration zu fördern, sollten die Rollen von Datenwissenschaftlern generisch sein, aber weitreichende Verantwortlichkeiten unabhängig von der technischen Funktion aufweisen, d. h. Datenwissenschaftler sollten so organisiert sein, dass sie für das Lernen optimiert sind. Das bedeutet, „Full-Stack-Spezialisten“ einzustellen – allgemeine Spezialisten, die eine Vielzahl von Funktionen übernehmen können, vom Konzept über die Modellierung und die Implementierung bis hin zur Messung. Es ist wichtig anzumerken, dass ich nicht behaupte, dass die Einstellung von Full-Stack-Talenten die Anzahl der Mitarbeiter reduzieren sollte. Ich gehe vielmehr einfach davon aus, dass ihre Anreize besser auf die Lern- und Leistungsvorteile abgestimmt sind, wenn sie anders organisiert sind. Nehmen wir zum Beispiel an, Sie haben ein Team aus drei Personen mit drei Geschäftskenntnissen. In einer Stecknadelfabrik wird jeder Techniker ein Drittel seiner Zeit für jede Arbeitsaufgabe aufwenden, da niemand sonst seine Arbeit erledigen kann. Bei einem Full-Stack widmet sich jeder Generalist voll und ganz dem gesamten Geschäftsprozess, der Skalierung und der Schulung.

Da weniger Personen den Produktionszyklus unterstützen, verringert sich die Koordination. Der Generalist bewegt sich fließend zwischen Funktionen, erweitert die Datenpipeline, um mehr Daten hinzuzufügen, probiert neue Funktionen in Modellen aus, stellt neue Versionen für kausale Messungen in der Produktion bereit und wiederholt Schritte, sobald neue Ideen auftauchen. Natürlich erfüllt der Kombi verschiedene Funktionen nacheinander und nicht parallel. Schließlich ist es nur eine Person. Allerdings nimmt die Erledigung einer Aufgabe in der Regel nur einen Bruchteil der Zeit in Anspruch, die für den Zugriff auf eine andere spezialisierte Ressource erforderlich wäre. Die Iterationszeit verkürzt sich also.

Unser Generalist ist möglicherweise nicht so kompetent wie ein Spezialist in einer bestimmten Arbeitsfunktion, aber wir streben nicht nach funktionaler Perfektion oder kleinen inkrementellen Verbesserungen. Vielmehr streben wir danach, immer mehr berufliche Herausforderungen mit schrittweiser Wirkung zu lernen und zu entdecken. Mit einem ganzheitlichen Kontext für eine Gesamtlösung sieht er Chancen, die einem Spezialisten entgehen würden. Er hat mehr Ideen und mehr Möglichkeiten. Auch er scheitert. Allerdings sind die Kosten eines Scheiterns gering und der Nutzen des Lernens hoch. Diese Asymmetrie fördert eine schnelle Iteration und belohnt das Lernen.

Es ist wichtig zu beachten, dass das Maß an Autonomie und Kompetenzvielfalt, das Full-Stack-Wissenschaftlern geboten wird, weitgehend von der Robustheit der Datenplattform abhängt, auf der sie arbeiten. Eine gut konzipierte Datenplattform entlastet Datenwissenschaftler von der Komplexität der Containerisierung, der verteilten Verarbeitung, des automatischen Failovers und anderer fortschrittlicher Computerkonzepte. Zusätzlich zur Abstraktion kann eine robuste Datenplattform eine nahtlose Konnektivität zur experimentellen Infrastruktur bereitstellen, Überwachung und Alarmierung automatisieren, eine automatische Skalierung und Visualisierung algorithmischer Ergebnisse sowie Debugging ermöglichen. Diese Komponenten werden von den Datenplattform-Ingenieuren entworfen und gebaut, das heißt, sie werden nicht vom Datenwissenschaftler an das Datenplattform-Entwicklungsteam weitergegeben. Der Data Science-Spezialist ist für den gesamten Code verantwortlich, der zum Betrieb der Plattform verwendet wird.

Auch ich interessierte mich einst für die funktionale Arbeitsteilung mithilfe von Prozesseffizienz, aber durch Versuch und Irrtum (es gibt keinen besseren Weg zum Lernen) entdeckte ich, dass typische Rollen Lernen und Innovation besser erleichtern und die richtigen Messgrößen liefern: Entdecken und Aufbau viel mehr Geschäftsmöglichkeiten als ein spezialisierter Ansatz. (Eine effektivere Möglichkeit, mehr über diesen Organisationsansatz zu erfahren als durch Versuch und Irrtum, den ich durchgemacht habe, ist die Lektüre von Amy Edmondsons Buch „Team Collaboration: How Organizations Learn, Innovate, and Compete in the Knowledge Economy“).

Es gibt einige wichtige Annahmen, die dazu führen können, dass dieser Organisationsansatz in manchen Unternehmen mehr oder weniger zuverlässig ist. Der Iterationsprozess reduziert die Kosten für Versuch und Irrtum. Wenn die Fehlerkosten hoch sind, möchten Sie sie möglicherweise reduzieren (dies wird jedoch für medizinische Anwendungen oder die Fertigung nicht empfohlen). Wenn Sie außerdem mit Petabytes oder Exabytes an Daten arbeiten, ist möglicherweise eine Spezialisierung auf Datentechnik erforderlich. Auch wenn die Aufrechterhaltung der Online-Geschäftsfunktionen und deren Verfügbarkeit wichtiger ist als deren Verbesserung, kann funktionale Exzellenz Vorrang vor Lernen haben. Schließlich verlässt sich das Full-Stack-Modell auf die Meinungen von Leuten, die sich damit auskennen. Sie sind keine Einhörner; Sie können sie finden oder selbst zubereiten. Sie sind jedoch sehr gefragt und um sie zu gewinnen und zu halten, sind eine wettbewerbsfähige Vergütung, starke Unternehmenswerte und anspruchsvolle Arbeit erforderlich. Stellen Sie sicher, dass Ihre Unternehmenskultur dies unterstützen kann.

Trotz alledem glaube ich, dass das Full-Stack-Modell die besten Startbedingungen bietet. Beginnen Sie damit und gehen Sie dann bewusst nur dann zu einer funktionalen Arbeitsteilung über, wenn dies unbedingt erforderlich ist.

Es gibt noch weitere Nachteile der funktionalen Spezialisierung. Dies kann zu Verantwortungsverlust und Passivität der Arbeitnehmer führen. Smith selbst kritisiert die Arbeitsteilung mit der Begründung, sie führe zur Abstumpfung von Talenten, d. h. Arbeitnehmer werden unwissend und ziehen sich zurück, da ihre Rollen auf einige sich wiederholende Aufgaben beschränkt sind. Während die Spezialisierung zu Prozesseffizienz führen kann, ist es weniger wahrscheinlich, dass sie die Arbeitnehmer inspiriert.

Vielseitige Rollen wiederum bieten alles, was die Arbeitszufriedenheit steigert: Autonomie, Beherrschung und Zielstrebigkeit. Autonomie bedeutet, dass sie für den Erfolg von nichts abhängig sind. Meisterschaft liegt in starken Wettbewerbsvorteilen. Und die Sinnhaftigkeit liegt in der Möglichkeit, Einfluss auf das von ihnen geschaffene Geschäft zu nehmen. Wenn es uns gelingt, Menschen für ihre Arbeit zu begeistern und einen großen Einfluss auf das Unternehmen zu haben, dann wird sich alles andere von selbst ergeben.

Source: habr.com

Kommentar hinzufügen