Pourquoi les équipes Data Science ont besoin de généralistes et non de spécialistes

Pourquoi les équipes Data Science ont besoin de généralistes et non de spécialistes
HIROSHI WATANABE/GETTY IMAGES

Dans La richesse des nations, Adam Smith montre comment la division du travail devient la principale source d’augmentation de la productivité. Un exemple est la chaîne de montage d’une usine d’épingles : « Un ouvrier tire le fil, un autre le redresse, un troisième le coupe, un quatrième aiguise l’extrémité, un cinquième meule l’autre extrémité pour l’ajuster à la tête. » Grâce à une spécialisation axée sur des fonctions spécifiques, chaque employé devient un spécialiste hautement qualifié dans sa tâche spécifique, ce qui conduit à une efficacité accrue des processus. La production par travailleur augmente plusieurs fois et l'usine devient plus efficace dans la production d'épingles.

Cette division du travail par fonctionnalité est tellement ancrée encore aujourd’hui dans nos esprits que nous avons rapidement organisé nos équipes en conséquence. La science des données ne fait pas exception. Les capacités métiers algorithmiques complexes nécessitent plusieurs fonctions de travail, c'est pourquoi les entreprises créent généralement des équipes de spécialistes : chercheurs, ingénieurs de données, ingénieurs en apprentissage automatique, scientifiques des causes et effets, etc. Le travail des spécialistes est coordonné par le chef de produit avec le transfert des fonctions à la manière d'une fabrique d'épingles : « une personne reçoit les données, une autre les modélise, une troisième les exécute, une quatrième les mesure » et ainsi de suite,

Hélas, nous ne devrions pas optimiser nos équipes Data Science pour améliorer la productivité. Cependant, vous faites cela lorsque vous comprenez ce que vous produisez : des épingles ou autre chose, et que vous vous efforcez simplement d'augmenter l'efficacité. Le but des chaînes de montage est d’accomplir une tâche. Nous savons exactement ce que nous voulons : des épingles (comme dans l'exemple de Smith), mais tout produit ou service peut être mentionné dans lequel les exigences décrivent pleinement tous les aspects du produit et son comportement. Le rôle des collaborateurs est de répondre à ces exigences le plus efficacement possible.

Mais le but de la Data Science n’est pas d’accomplir des tâches. L’objectif est plutôt d’explorer et de développer de nouvelles opportunités commerciales solides. Les produits et services algorithmiques tels que les systèmes de recommandation, les interactions avec les clients, la classification des préférences de style, les tailles, la conception de vêtements, l'optimisation logistique, la détection des tendances saisonnières et bien plus encore ne peuvent pas être développés à l'avance. Il faut les étudier. Il n’y a pas de modèle à reproduire, ce sont de nouvelles possibilités avec une incertitude inhérente. Coefficients, modèles, types de modèles, hyperparamètres, tous les éléments nécessaires doivent être appris par l'expérimentation, les essais et erreurs et la répétition. Avec les épingles, la formation et la conception sont effectuées avant la production. Avec Data Science, vous apprenez comme vous le faites, pas avant.

Dans une usine d'épingles, lorsque la formation passe en premier, nous ne nous attendons ni ne voulons que les travailleurs improvisent sur une caractéristique du produit autre que l'amélioration de l'efficacité de la production. La spécialisation des tâches est logique car elle conduit à l'efficacité des processus et à la cohérence de la production (sans modification du produit final).

Mais lorsque le produit est encore en développement et que l'objectif est la formation, la spécialisation interfère avec nos objectifs dans les cas suivants :

1. Cela augmente les coûts de coordination.

C’est-à-dire les coûts qui s’accumulent pendant le temps passé à communiquer, discuter, justifier et prioriser le travail à effectuer. Ces coûts évoluent de manière très linéaire avec le nombre de personnes impliquées. (Comme nous l'a enseigné J. Richard Hackman, le nombre de relations r croît de la même manière en fonction du nombre de termes n selon cette équation : r = (n^2-n)/2. Et chaque relation révèle une certaine quantité de relation de coût.) Lorsque les data scientists sont organisés par fonction, à chaque étape, à chaque changement, à chaque transfert, etc., de nombreux spécialistes sont nécessaires, ce qui augmente les coûts de coordination. Par exemple, les modélisateurs statistiques qui souhaitent expérimenter de nouvelles fonctionnalités devront se coordonner avec les ingénieurs de données qui complètent les ensembles de données chaque fois qu'ils souhaitent essayer quelque chose de nouveau. De même, chaque nouveau modèle formé signifie que le développeur du modèle aura besoin de quelqu'un avec qui se coordonner pour le mettre en production. Les coûts de coordination agissent comme un prix pour les itérations, les rendant plus difficiles et plus coûteux et plus susceptibles d'entraîner l'abandon de l'étude. Cela peut interférer avec l’apprentissage.

2. Cela rend les temps d’attente difficiles.

Le temps perdu entre les quarts de travail est encore plus intimidant que les coûts de coordination. Alors que les coûts de coordination se mesurent généralement en heures – le temps nécessaire pour mener des réunions, des discussions, des revues de conception – le temps d’attente se mesure généralement en jours, semaines, voire mois ! Les plannings des spécialistes fonctionnels sont difficiles à équilibrer car chaque spécialiste doit être réparti sur plusieurs projets. Une réunion d'une heure pour discuter des changements peut prendre des semaines pour fluidifier le flux de travail. Et après s'être mis d'accord sur les changements, il est nécessaire de planifier le travail lui-même dans le contexte de nombreux autres projets qui occupent le temps de travail des spécialistes. Les travaux impliquant des corrections de code ou des recherches qui ne prennent que quelques heures ou quelques jours peuvent prendre beaucoup plus de temps avant que les ressources ne soient disponibles. D’ici là, l’itération et l’apprentissage sont suspendus.

3. Cela restreint le contexte.

La division du travail peut limiter artificiellement l’apprentissage en récompensant les individus qui restent dans leur spécialité. Par exemple, un chercheur qui doit rester dans le cadre de ses fonctionnalités concentrera son énergie sur l’expérimentation de différents types d’algorithmes : régression, réseaux de neurones, forêt aléatoire, etc. Bien entendu, de bons choix d’algorithmes peuvent conduire à des améliorations progressives, mais il y a généralement beaucoup plus à gagner d’autres activités, telles que l’intégration de nouvelles sources de données. De même, cela contribuera à développer un modèle qui exploite chaque élément du pouvoir explicatif inhérent aux données. Toutefois, sa force peut résider dans le changement de fonction objectif ou dans l’assouplissement de certaines contraintes. C'est difficile à voir ou à faire lorsque son travail est limité. Parce qu’un scientifique technique est spécialisé dans l’optimisation des algorithmes, il est beaucoup moins susceptible de faire autre chose, même si cela apporte des avantages significatifs.

Pour nommer les signes qui apparaissent lorsque les équipes de science des données agissent comme des fabriques d'épingles (par exemple, dans de simples mises à jour de statut) : « en attente de modifications du pipeline de données » et « en attente de ressources ML Eng » sont des bloqueurs courants. Cependant, je crois que l'influence la plus dangereuse est celle que vous ne remarquez pas, car vous ne pouvez pas regretter ce que vous ne savez pas déjà. Une exécution sans faille et la complaisance acquise en matière d’efficacité des processus peuvent masquer la vérité selon laquelle les organisations ne sont pas conscientes des avantages d’apprentissage dont elles manquent.

La solution à ce problème, bien sûr, est de se débarrasser de la méthode des broches d'usine. Pour encourager l'apprentissage et l'itération, les rôles des data scientists doivent être génériques mais avec de larges responsabilités indépendantes de la fonction technique, c'est-à-dire organiser les data scientists de manière à ce qu'ils soient optimisés pour l'apprentissage. Cela signifie embaucher des « spécialistes full stack », c'est-à-dire des spécialistes généralistes capables d'exécuter diverses fonctions, du concept à la modélisation, de la mise en œuvre à la mesure. Il est important de noter que je ne dis pas que l’embauche de talents full-stack devrait réduire le nombre d’employés. Je supposerai simplement que lorsqu’ils sont organisés différemment, leurs incitations sont mieux alignées sur les avantages en matière d’apprentissage et de performance. Par exemple, disons que vous disposez d’une équipe de trois personnes possédant trois compétences commerciales. Dans une usine d'épingles, chaque technicien consacrera un tiers de son temps à chaque tâche, puisque personne d'autre ne peut faire son travail. Dans une pile complète, chaque généraliste est entièrement dédié à l'ensemble du processus métier, de la mise à l'échelle et de la formation.

Avec moins de personnes soutenant le cycle de production, la coordination est réduite. Le généraliste se déplace de manière fluide entre les fonctionnalités, élargissant le pipeline de données pour ajouter plus de données, essayant de nouvelles fonctionnalités dans les modèles, déployant de nouvelles versions en production pour des mesures causales et répétant les étapes aussi rapidement que de nouvelles idées surgissent. Bien entendu, le break remplit différentes fonctions de manière séquentielle et non en parallèle. Après tout, ce n'est qu'une seule personne. Cependant, accomplir une tâche ne prend généralement qu’une fraction du temps requis pour accéder à une autre ressource spécialisée. Ainsi, le temps d’itération diminue.

Notre généraliste n’est peut-être pas aussi compétent qu’un spécialiste dans une fonction particulière, mais nous ne recherchons pas la perfection fonctionnelle ou de petites améliorations progressives. Nous nous efforçons plutôt d’apprendre et de découvrir de plus en plus de défis professionnels avec un impact progressif. Avec un contexte holistique pour une solution complète, il voit des opportunités qu'un spécialiste manquerait. Il a plus d'idées et plus de possibilités. Il échoue aussi. Toutefois, le coût de l’échec est faible et les bénéfices de l’apprentissage sont importants. Cette asymétrie favorise une itération rapide et récompense l’apprentissage.

Il est important de noter que le degré d'autonomie et la diversité des compétences accordés aux scientifiques complets dépendent en grande partie de la robustesse de la plate-forme de données sur laquelle ils travaillent. Une plate-forme de données bien conçue libère les data scientists des complexités de la conteneurisation, du traitement distribué, du basculement automatique et d'autres concepts informatiques avancés. En plus de l'abstraction, une plate-forme de données robuste peut fournir une connectivité transparente à l'infrastructure expérimentale, automatiser la surveillance et les alertes, permettre la mise à l'échelle et la visualisation automatiques des résultats algorithmiques et le débogage. Ces composants sont conçus et construits par les ingénieurs de la plateforme de données, ce qui signifie qu'ils ne sont pas transmis du data scientist à l'équipe de développement de la plateforme de données. C'est le spécialiste Data Science qui est responsable de tout le code utilisé pour faire fonctionner la plateforme.

Moi aussi, j'étais autrefois intéressé par la division fonctionnelle du travail utilisant l'efficacité des processus, mais grâce à des essais et des erreurs (il n'y a pas de meilleure façon d'apprendre), j'ai découvert que les rôles typiques facilitent mieux l'apprentissage et l'innovation et fournissent les bonnes mesures : découvrir et créer beaucoup plus d’opportunités commerciales qu’une approche spécialisée. (Un moyen plus efficace d'en apprendre davantage sur cette approche d'organisation que les essais et erreurs que j'ai vécus est de lire le livre d'Amy Edmondson Team Collaboration: How Organizations Learn, Innovate, and Compete in the Knowledge Economy).

Certaines hypothèses importantes peuvent rendre cette approche d’organisation plus ou moins fiable dans certaines entreprises. Le processus d'itération réduit le coût des essais et des erreurs. Si le coût des erreurs est élevé, vous souhaiterez peut-être les réduire (mais cela n’est pas recommandé pour les applications médicales ou la fabrication). De plus, si vous traitez des pétaoctets ou des exaoctets de données, une spécialisation en ingénierie des données peut être requise. De même, s’il est plus important de maintenir les capacités commerciales en ligne et leur disponibilité que de les améliorer, l’excellence fonctionnelle peut l’emporter sur l’apprentissage. Enfin, le modèle full stack s’appuie sur les avis de personnes qui le connaissent. Ce ne sont pas des licornes ; vous pouvez les trouver ou les préparer vous-même. Cependant, ils sont très demandés et les attirer et les retenir nécessitera une rémunération compétitive, des valeurs d'entreprise fortes et un travail stimulant. Assurez-vous que la culture de votre entreprise peut soutenir cela.

Cela dit, je pense que le modèle full stack offre les meilleures conditions de départ. Commencez par eux, puis avancez consciemment vers une division fonctionnelle du travail uniquement lorsque cela est absolument nécessaire.

La spécialisation fonctionnelle présente d'autres inconvénients. Cela peut entraîner une perte de responsabilité et une passivité de la part des travailleurs. Smith lui-même critique la division du travail, suggérant qu'elle conduit à un émoussement des talents, c'est-à-dire les travailleurs deviennent ignorants et renfermés car leur rôle se limite à quelques tâches répétitives. Même si la spécialisation peut garantir l’efficacité des processus, elle est moins susceptible d’inspirer les travailleurs.

À leur tour, les rôles polyvalents offrent tout ce qui favorise la satisfaction au travail : autonomie, maîtrise et objectif. L'autonomie, c'est qu'ils ne dépendent de rien pour réussir. La maîtrise réside dans de forts avantages concurrentiels. Et le sens du but réside dans la possibilité d’avoir un impact sur l’entreprise qu’ils créent. Si nous pouvons susciter l’enthousiasme des gens pour leur travail et avoir un impact important sur l’entreprise, alors tout le reste se mettra en place.

Source: habr.com

Ajouter un commentaire