Por qué los equipos de ciencia de datos necesitan generalistas, no especialistas

Por qué los equipos de ciencia de datos necesitan generalistas, no especialistas
HIROSHI WATANAB/GETTY IMAGES

En La riqueza de las naciones, Adam Smith muestra cómo la división del trabajo se convierte en la principal fuente de aumento de la productividad. Un ejemplo es la cadena de montaje de una fábrica de alfileres: “Un trabajador tira del alambre, otro lo endereza, un tercero lo corta, un cuarto afila el extremo, un quinto muele el otro extremo para adaptarlo a la cabeza”. Gracias a la especialización centrada en funciones específicas, cada empleado se convierte en un especialista altamente cualificado en su tarea específica, lo que conduce a una mayor eficiencia del proceso. La producción por trabajador aumenta muchas veces y la fábrica se vuelve más eficiente en la producción de alfileres.

Esta división del trabajo por funcionalidad está tan arraigada en nuestras mentes incluso hoy en día que rápidamente organizamos nuestros equipos en consecuencia. La ciencia de datos no es una excepción. Las capacidades empresariales algorítmicas complejas requieren múltiples funciones de trabajo, por lo que las empresas suelen crear equipos de especialistas: investigadores, ingenieros de datos, ingenieros de aprendizaje automático, científicos de causa y efecto, etc. El trabajo de los especialistas lo coordina el jefe de producto con una transferencia de funciones que recuerda a una fábrica de alfileres: “una persona recibe los datos, otra los modela, una tercera los ejecuta, una cuarta mide”, etc.

Lamentablemente, no deberíamos optimizar nuestros equipos de ciencia de datos para mejorar la productividad. Sin embargo, hace esto cuando comprende lo que está produciendo: pines u otra cosa, y simplemente se esfuerza por aumentar la eficiencia. El propósito de las líneas de montaje es completar una tarea. Sabemos exactamente lo que queremos: pines (como en el ejemplo de Smith), pero se puede mencionar cualquier producto o servicio cuyos requisitos describan completamente todos los aspectos del producto y su comportamiento. El papel de los empleados es cumplir estos requisitos de la manera más eficiente posible.

Pero el objetivo de la ciencia de datos no es completar tareas. Más bien, el objetivo es explorar y desarrollar nuevas oportunidades comerciales sólidas. Productos y servicios algorítmicos como sistemas de recomendación, interacciones con los clientes, clasificación de preferencias de estilo, tallas, diseño de ropa, optimización logística, detección de tendencias estacionales y mucho más no se pueden desarrollar de antemano. Hay que estudiarlos. No hay planos que replicar, son nuevas posibilidades con incertidumbre inherente. Los coeficientes, modelos, tipos de modelos, hiperparámetros, todos los elementos necesarios deben aprenderse mediante experimentación, prueba y error y repetición. Con los pines, la capacitación y el diseño se realizan antes de la producción. Con Data Science, aprendes mientras lo haces, no antes.

En una fábrica de alfileres, cuando la capacitación es lo primero, no esperamos ni queremos que los trabajadores improvisen sobre ninguna característica del producto que no sea mejorar la eficiencia de la producción. Especializar tareas tiene sentido porque conduce a la eficiencia del proceso y a la consistencia de la producción (sin cambios en el producto final).

Pero cuando el producto aún está en desarrollo y el objetivo es la formación, la especialización interfiere en nuestros objetivos en los siguientes casos:

1. Aumenta los costos de coordinación.

Es decir, aquellos costes que se acumulan durante el tiempo dedicado a comunicar, discutir, justificar y priorizar el trabajo a realizar. Estos costos aumentan de manera súper lineal con la cantidad de personas involucradas. (Como nos enseñó J. Richard Hackman, el número de relaciones r crece de manera similar a la función del número de términos n según esta ecuación: r = (n^2-n)/2. Y cada relación revela cierta cantidad de relación de costos.) Cuando los científicos de datos están organizados por funciones, en cada etapa, con cada cambio, cada traspaso, etc., se necesitan muchos especialistas, lo que aumenta los costos de coordinación. Por ejemplo, los modeladores estadísticos que quieran experimentar con nuevas funciones tendrán que coordinarse con ingenieros de datos que agreguen datos a los conjuntos cada vez que quieran probar algo nuevo. Del mismo modo, cada nuevo modelo entrenado significa que el desarrollador del modelo necesitará alguien con quien coordinarse para ponerlo en producción. Los costos de coordinación actúan como un precio por la iteración, lo que los hace más difíciles y costosos y es más probable que provoquen el abandono del estudio. Esto puede interferir con el aprendizaje.

2. Dificulta los tiempos de espera.

Aún más desalentador que los costos de coordinación es el tiempo perdido entre turnos de trabajo. Mientras que los costos de coordinación generalmente se miden en horas (el tiempo que lleva llevar a cabo reuniones, debates y revisiones de diseño), el tiempo de espera generalmente se mide en días, semanas o incluso meses. Los cronogramas de los especialistas funcionales son difíciles de equilibrar porque cada especialista debe distribuirse en múltiples proyectos. Una reunión de una hora para discutir los cambios puede llevar semanas hasta suavizar el flujo de trabajo. Y después de acordar los cambios, es necesario planificar el trabajo en sí en el contexto de muchos otros proyectos que ocupan el tiempo de trabajo de los especialistas. El trabajo que implica correcciones de código o investigaciones que solo requieren unas pocas horas o días para completarse puede tardar mucho más antes de que los recursos estén disponibles. Hasta entonces, la iteración y el aprendizaje están suspendidos.

3. Reduce el contexto.

La división del trabajo puede limitar artificialmente el aprendizaje al recompensar a las personas por permanecer en su especialidad. Por ejemplo, un científico investigador que debe permanecer dentro del alcance de su funcionalidad concentrará su energía en experimentar con diferentes tipos de algoritmos: regresión, redes neuronales, bosque aleatorio, etc. Por supuesto, una buena elección de algoritmos puede conducir a mejoras incrementales, pero normalmente se puede ganar mucho más con otras actividades, como la integración de nuevas fuentes de datos. Asimismo, ayudará a desarrollar un modelo que explote todo el poder explicativo inherente a los datos. Sin embargo, su fortaleza puede residir en cambiar la función objetivo o relajar ciertas restricciones. Esto es difícil de ver o hacer cuando su trabajo es limitado. Debido a que un científico técnico se especializa en optimizar algoritmos, es mucho menos probable que haga cualquier otra cosa, incluso si eso le reporta beneficios significativos.

Para nombrar las señales que aparecen cuando los equipos de ciencia de datos actúan como fábricas de pines (por ejemplo, en actualizaciones de estado simples): "esperar cambios en la canalización de datos" y "esperar recursos de ML Eng" son bloqueadores comunes. Sin embargo, creo que la influencia más peligrosa es la que no notas, porque no puedes arrepentirte de lo que aún no sabes. La ejecución impecable y la complacencia que se obtiene al lograr la eficiencia de los procesos pueden enmascarar la verdad de que las organizaciones desconocen los beneficios del aprendizaje que se están perdiendo.

La solución a este problema, por supuesto, es deshacerse del método del pin de fábrica. Para fomentar el aprendizaje y la iteración, los roles de los científicos de datos deben ser genéricos pero con responsabilidades amplias independientes de la función técnica, es decir, organizar a los científicos de datos de manera que estén optimizados para el aprendizaje. Esto significa contratar “especialistas completos”, especialistas generales que pueden realizar una variedad de funciones, desde el concepto hasta el modelado, la implementación y la medición. Es importante tener en cuenta que no estoy sugiriendo que la contratación de talentos completos deba reducir la cantidad de empleados. Más bien, simplemente asumiré que cuando se organizan de manera diferente, sus incentivos están mejor alineados con los beneficios de aprendizaje y desempeño. Por ejemplo, digamos que tiene un equipo de tres personas con tres habilidades comerciales. En una fábrica de alfileres, cada técnico dedicará un tercio de su tiempo a cada tarea laboral, ya que nadie más puede hacer su trabajo. En un paquete completo, cada generalista está completamente dedicado a todo el proceso comercial, la ampliación y la capacitación.

Con menos personas apoyando el ciclo de producción, la coordinación se reduce. El generalista se mueve con fluidez entre características, expandiendo el flujo de datos para agregar más datos, probando nuevas características en los modelos, implementando nuevas versiones en producción para mediciones causales y repitiendo pasos tan rápido como surgen nuevas ideas. Por supuesto, la camioneta realiza diferentes funciones de forma secuencial y no en paralelo. Después de todo, es sólo una persona. Sin embargo, completar una tarea normalmente requiere sólo una fracción del tiempo necesario para acceder a otro recurso especializado. Por tanto, el tiempo de iteración disminuye.

Puede que nuestro generalista no sea tan hábil como un especialista en una función laboral particular, pero no nos esforzamos por lograr la perfección funcional ni pequeñas mejoras incrementales. Más bien, nos esforzamos por aprender y descubrir cada vez más desafíos profesionales con un impacto gradual. Con un contexto holístico para una solución completa, ve oportunidades que un especialista desaprovecharía. Tiene más ideas y más posibilidades. Él también falla. Sin embargo, el costo del fracaso es bajo y los beneficios del aprendizaje son altos. Esta asimetría promueve la iteración rápida y recompensa el aprendizaje.

Es importante señalar que la cantidad de autonomía y diversidad de habilidades que se ofrece a los científicos completos depende en gran medida de la solidez de la plataforma de datos en la que trabajan. Una plataforma de datos bien diseñada abstrae a los científicos de datos de las complejidades de la contenedorización, el procesamiento distribuido, la conmutación por error automática y otros conceptos informáticos avanzados. Además de la abstracción, una plataforma de datos sólida puede proporcionar una conectividad perfecta a la infraestructura experimental, automatizar el monitoreo y las alertas, permitir el escalado y la visualización automáticos de resultados algorítmicos y la depuración. Estos componentes son diseñados y construidos por los ingenieros de la plataforma de datos, lo que significa que no pasan del científico de datos al equipo de desarrollo de la plataforma de datos. Es el especialista en Ciencia de Datos quien es responsable de todo el código utilizado para ejecutar la plataforma.

Yo también estuve interesado alguna vez en la división funcional del trabajo utilizando la eficiencia de los procesos, pero a través de prueba y error (no hay mejor manera de aprender), descubrí que los roles típicos facilitan mejor el aprendizaje y la innovación y proporcionan las métricas correctas: descubrir y creando muchas más oportunidades de negocio que un enfoque especializado. (Una forma más eficaz de aprender sobre este enfoque de organización que el ensayo y error por el que pasé es leer el libro Team Collaboration: How Organizations Learn, Innovate, and Compete in the Knowledge Economy de Amy Edmondson).

Hay algunos supuestos importantes que pueden hacer que este enfoque de organización sea más o menos confiable en algunas empresas. El proceso de iteración reduce el costo de prueba y error. Si el costo del error es alto, es posible que desee reducirlos (pero esto no se recomienda para aplicaciones médicas o de fabricación). Además, si se trata de petabytes o exabytes de datos, es posible que se requiera una especialización en ingeniería de datos. Del mismo modo, si mantener las capacidades comerciales en línea y su disponibilidad es más importante que mejorarlas, la excelencia funcional puede prevalecer sobre el aprendizaje. Finalmente, el modelo full stack se basa en las opiniones de las personas que lo conocen. No son unicornios; puedes encontrarlos o prepararlos tú mismo. Sin embargo, tienen una gran demanda y atraerlos y retenerlos requerirá una compensación competitiva, valores corporativos sólidos y un trabajo desafiante. Asegúrese de que la cultura de su empresa pueda respaldar esto.

Incluso habiendo dicho todo esto, creo que el modelo full stack proporciona las mejores condiciones iniciales. Comience con ellos y luego avance conscientemente hacia una división funcional del trabajo sólo cuando sea absolutamente necesario.

Hay otras desventajas de la especialización funcional. Esto puede provocar pérdida de responsabilidad y pasividad por parte de los trabajadores. El propio Smith critica la división del trabajo, sugiriendo que conduce a un embotamiento del talento, es decir, los trabajadores se vuelven ignorantes y retraídos ya que sus funciones se limitan a unas pocas tareas repetitivas. Si bien la especialización puede proporcionar eficiencia en los procesos, es menos probable que inspire a los trabajadores.

A su vez, los roles versátiles brindan todo lo que impulsa la satisfacción laboral: autonomía, dominio y propósito. La autonomía es que no dependen de nada para alcanzar el éxito. El dominio reside en fuertes ventajas competitivas. Y el sentido del propósito radica en la oportunidad de tener un impacto en el negocio que crean. Si podemos lograr que la gente se entusiasme con su trabajo y tener un gran impacto en la empresa, entonces todo lo demás encajará.

Fuente: habr.com

Añadir un comentario