Caminar sobre un rastrillo: 10 errores críticos en el desarrollo de pruebas de conocimientos

Caminar sobre un rastrillo: 10 errores críticos en el desarrollo de pruebas de conocimientos
Antes de inscribirse en el nuevo curso avanzado de aprendizaje automático, evaluamos a los futuros estudiantes para determinar su nivel de preparación y comprender qué es exactamente lo que deben ofrecer para prepararse para el curso. Pero surge un dilema: por un lado, debemos comprobar los conocimientos en ciencia de datos, por otro, no podemos organizar un examen completo de 4 horas.

Para resolver este problema, hemos implementado una sede de TestDev directamente en el equipo de desarrollo del curso de ciencia de datos (y parece que esto es solo el comienzo). Te presentamos una lista de 10 escollos que se encuentran al desarrollar pruebas para evaluar conocimientos. Esperemos que el mundo del aprendizaje en línea sea un poco mejor después de esto.

Rastrillo 1: No definir claramente los objetivos de las pruebas

Para definir correctamente los objetivos y crear una prueba que los tenga en cuenta, en la etapa de planificación debemos responder varias preguntas:

  1. ¿Qué estamos comprobando realmente? 
  2. ¿En qué entorno se llevarán a cabo las pruebas y qué mecánica se utilizará? ¿Cuáles son las limitaciones en este entorno? Este mismo punto le permitirá comprender los requisitos técnicos del dispositivo en el que se realizará la prueba, así como del contenido (si la prueba se realiza desde un teléfono, las imágenes deben poder leerse incluso en una pantalla pequeña, ser posible ampliarlos, etc.).
  3. ¿Cuánto tiempo durarán las pruebas? Es necesario pensar en las condiciones en las que el usuario realizará la prueba. ¿Podría haber una situación en la que necesite interrumpir el proceso de prueba y luego continuar nuevamente?
  4. ¿Habrá comentarios? ¿Cómo lo formamos y entregamos? ¿Qué necesitas recibir? ¿Existe un desfase entre la ejecución de la prueba y la retroalimentación?

En nuestro caso, habiendo respondido estas preguntas, definimos la siguiente lista de objetivos para la prueba:

  1. La prueba debe mostrar si los futuros estudiantes están preparados para realizar el curso y si tienen suficientes conocimientos y habilidades.
  2. La prueba debe darnos material para retroalimentación, indicar el tema en el que los estudiantes cometieron un error, para que puedan mejorar sus conocimientos. Te contamos cómo componerlo a continuación.

Rastrillo 2: No elaborar especificaciones técnicas para el redactor de pruebas experto

Para redactar los ítems de la prueba, es muy importante involucrar a un experto en el campo en el que se evalúan los conocimientos. Y para un experto, a su vez, necesita una especificación técnica competente (descripción), que incluya los temas de la prueba, los conocimientos/habilidades que se evalúan y su nivel.

Un experto no elaborará estas especificaciones técnicas por sí mismo, porque su trabajo consiste en proponer tareas, no la estructura de la prueba. Además, pocas personas desarrollan pruebas profesionalmente, incluso en el proceso de enseñanza. Esto se enseña en una especialidad separada: la psicometría.

Si desea familiarizarse rápidamente con la psicometría, en Rusia existe escuela de Verano para todos los interesados. Para un estudio más profundo, el Instituto de Educación ha magistratura y escuela de posgrado.

Al preparar las especificaciones técnicas, recopilamos una descripción detallada de la prueba para el experto (o mejor, junto con él): temas de las tareas, tipo de tareas, su número.

¿Cómo elegir el tipo de tareas: una vez decididos los temas, decidimos qué tareas pueden comprobarlo mejor? Opciones clásicas: tarea abierta, tarea de opción única o múltiple, emparejamiento, etc. (¡no olvide las limitaciones técnicas del entorno de prueba!). Después de determinar y especificar el tipo de tareas, tenemos una especificación técnica preparada para el experto. Puedes llamarlo especificación de prueba.

Rake 3: No involucrar a un experto en el desarrollo de pruebas

Al sumergir a un experto en el desarrollo de pruebas, es muy importante no sólo indicarle el “alcance del trabajo”, sino involucrarlo en el procedimiento de desarrollo en sí.

Cómo hacer que trabajar con un experto sea lo más eficaz posible:

  • Configúrelo con anticipación y dedique algún tiempo a hablar sobre la ciencia del desarrollo de pruebas y la psicometría.
  • Centra la atención del evaluador en crear una herramienta de evaluación válida y confiable, no una lista de preguntas.
  • Explique que su trabajo incluye una etapa preparatoria, no sólo el desarrollo de las tareas en sí.

Algunos expertos (debido a su naturaleza) pueden percibir esto como una prueba de su propio trabajo y les explicamos que incluso si creamos tareas excelentes, es posible que simplemente no se ajusten a los objetivos específicos de la prueba.

Para que el proceso sea rápido, elaboramos con el experto una tabla de cobertura de temas (conocimientos y habilidades), que forma parte de la especificación de la prueba. Es esta tabla la que nos permite resolver con precisión las preguntas y determinar qué mediremos. En cada caso concreto, se puede redactar de forma ligeramente diferente. Nuestra tarea es comprobar qué tan bien comprende una persona los conocimientos y habilidades de cursos básicos anteriores para comprender qué tan preparado está para estudiar en un nuevo curso.

Rastrillo 4: Pensar que el experto “sabe más”

Conoce mejor el tema. Pero no siempre se explica claramente. Es muy importante comprobar la redacción de los encargos. Escriba instrucciones claras, por ejemplo, "Elija 1 opción correcta". En el 90% de los casos, los expertos preparan las preguntas de forma que ellos mismos las comprendan. Y eso está bien. Pero antes de entregar el examen a quienes lo realizarán, es necesario comprobar y analizar todo para que las personas que realizan el examen entiendan exactamente lo que se requiere de ellos y no cometan errores simplemente porque puedan malinterpretar el texto de la tarea.

Para evitar la doble interpretación de las tareas, realizamos "laboratorios cognitivos". Solicitamos a personas del público objetivo que realicen el test, diciendo en voz alta lo que piensan y registrándolo detalladamente. En los "laboratorios cognitivos" puede "captar" preguntas poco claras, malas palabras y obtener los primeros comentarios sobre la prueba.

Rastrillo 5: ignorar el tiempo de ejecución de la prueba

modo sarcasmo: activado
Por supuesto, nuestra prueba es la mejor, ¡todos sueñan con aprobarla! Sí, las 4 horas.
modo sarcasmo: desactivado

Cuando hay una lista de todo lo que se puede comprobar, lo principal es no hacerlo (a primera vista suena extraño, ¿no?). Debe cortar sin piedad e identificar los conocimientos y habilidades clave con un experto (sí, también se pueden evaluar varias habilidades en la prueba). Observamos el tipo de tareas y estimamos el tiempo de finalización objetivo: si todo supera los límites razonables, ¡lo cortamos!

Para reducir el volumen, también puedes intentar probar (con cuidado) dos habilidades en una tarea. En este caso, es difícil entender por qué la persona cometió un error, pero si se hace correctamente, se pueden tener en cuenta ambas habilidades. Es importante asegurarse de que estas 2 habilidades correspondan a la misma área de conocimiento.

Rake 6: No pensar en el sistema de puntuación

A menudo, al elaborar las pruebas de evaluación, se utiliza el sistema de puntuación clásico, por ejemplo, 1 punto para las tareas fáciles y 2 puntos para las difíciles. Pero no es universal. La simple suma de puntos basada en los resultados de las pruebas nos dirá poco: no sabemos por qué tareas se recibieron estos puntos y solo podemos determinar el número de tareas correctas. Necesitamos una comprensión precisa de exactamente qué habilidades demuestran los examinados. Además, queremos brindarles comentarios sobre qué temas deben mejorarse.

Después de todo, estamos haciendo una prueba que dividirá a las personas entre las que están preparadas y las que no para completar el programa; aconsejaremos a algunos que se preparen para el curso mediante formación gratuita. Para nosotros es importante que este grupo incluya sólo a aquellos que realmente lo necesitan y que están preparados para ello.

Lo que hacemos en nuestra situación: determinamos dentro del grupo de trabajo de desarrolladores de pruebas qué grupos de personas deben identificarse (por ejemplo, listas para aprender, parcialmente listas) y formamos una tabla de características de dichos grupos, indicando qué habilidades y conocimientos será relevante para el grupo de formación listo para aprender. De esta manera puede formular la "dificultad" de las tareas para dichas pruebas.

Rastrillo 7: Evaluar resultados solo automáticamente

Por supuesto, la evaluación debe ser lo más objetiva posible, por lo que algunos de los materiales de los estudiantes se evalúan automáticamente, "por claves", comparándolos con las respuestas correctas. Incluso si no existe un sistema de prueba especial, existen muchas soluciones gratuitas. Y si comprende los principios de la escritura de guiones, podrá hacer lo que quiera con los formularios de Google y los resultados en tablas. Si algunas de las tareas son verificadas por expertos, entonces debemos pensar en entregar respuestas a los expertos, sin información sobre los examinados. Y piense en cómo integrar los resultados de las pruebas de expertos en la evaluación final.

Inicialmente queríamos realizar varias tareas abiertas con código, donde los expertos evalúan soluciones según criterios preformados, e incluso preparamos un sistema que exporta las respuestas individuales de los participantes de la prueba a una tabla especial para expertos y luego importa los resultados a una tabla con los cálculos de evaluación. Pero después de discutir con representantes del público objetivo, gerente de producto y diseñador educativo, sentimos que realizar una entrevista técnica con comentarios instantáneos de expertos y discusión del código, así como problemas individuales, sería mucho más efectivo y útil para los propios participantes. .

Ahora el experto verifica la realización de la prueba, aclarando algunas dudas. Para ello, hemos elaborado una guía de preguntas y criterios de valoración para una entrevista técnica. Antes de la entrevista técnica, el examinador recibe un mapa de las respuestas del examinado para ayudarle a seleccionar las preguntas que formulará.

Rastrillo 8: No explique los resultados de la prueba

Proporcionar retroalimentación a los participantes es un tema aparte. No solo debemos informar sobre la puntuación de la prueba, sino también proporcionar una comprensión de los resultados de la prueba.
Puede ser: 

  • Tareas en las que el participante cometió un error y que completó correctamente.
  • Temas en los que el participante cometió errores.
  • Su clasificación entre los que realizan el examen.
  • Descripción del nivel del participante, de acuerdo, por ejemplo, con la descripción del nivel de especialista (basado en la descripción de vacantes).

Durante el lanzamiento piloto de nuestra prueba, a quienes querían inscribirse en el programa, junto con los resultados, les mostramos una lista de temas que necesitaban mejorar. Pero esto ciertamente no es lo ideal, mejoraremos y brindaremos mejores comentarios.

Rake 9: no hables de la prueba con los desarrolladores

Quizás el rastrillo más agudo, que es especialmente desagradable de pisar, sea enviar la prueba, la descripción y la escala de puntuación a los desarrolladores "tal cual".
Qué es exactamente lo que hay que discutir:

  • La apariencia de las preguntas, la estructura, la posición de los gráficos, cómo se ve la elección de la respuesta correcta.
  • ¿Cómo se calcula la puntuación (si es necesario)? ¿Existen condiciones adicionales?
  • ¿Cómo se generan los comentarios, dónde obtener los textos? ¿Hay bloques adicionales generados automáticamente?
  • Qué información adicional necesitas recopilar y en qué momento (mismos contactos).

Para evitar malentendidos, pedimos a nuestros desarrolladores que codifiquen 2 o 3 preguntas diferentes para que puedan ver cómo se ven antes de codificar la prueba en sí.

Rastrillo 10: sin probar, subir directamente a producción

3 veces muchachos, la prueba debería ser revisada 3 veces por diferentes personas, o mejor aún, 3 veces cada una, esta verdad se obtuvo con sangre, sudor y píxeles de líneas de código.

Nuestra prueba comprueba el siguiente trío:

  1. Producto: verifica la prueba de rendimiento, apariencia y mecánica.
  2. Desarrollador de pruebas: verifica el texto de las tareas, su orden, la forma de trabajar con la prueba, los tipos de tareas, las respuestas correctas, la legibilidad y la visualización normal de los gráficos.
  3. El autor de las tareas (experto) verifica la fidelidad de la prueba desde una posición de experto.

Un ejemplo de la práctica: solo en la tercera ejecución, el autor de las tareas vio que 1 tarea permanecía en la versión anterior de la redacción. Todos los anteriores también gobernaron activamente. Pero cuando se codificó la prueba, parecía diferente de lo imaginado originalmente. Es muy probable que haya que corregir algo. Esto debe tenerse en cuenta.

Total

Evitando cuidadosamente todos estos "rastrillos", creamos un especial bot en telegrama, para poner a prueba los conocimientos de los solicitantes. Cualquiera puede probarlo mientras preparamos el siguiente material, en el que os contaremos qué pasó dentro del bot y en qué se transformó todo después.

Caminar sobre un rastrillo: 10 errores críticos en el desarrollo de pruebas de conocimientos
Puede obtener una profesión solicitada desde cero o subir de nivel en términos de habilidades y salario tomando los cursos en línea de SkillFactory:

Más cursos

Fuente: habr.com

Añadir un comentario