Marcher sur un râteau : 10 erreurs critiques dans le développement de tests de connaissances

Marcher sur un râteau : 10 erreurs critiques dans le développement de tests de connaissances
Avant de s'inscrire au nouveau cours Machine Learning Advanced, nous testons les étudiants potentiels pour déterminer leur niveau de préparation et comprendre ce qu'ils doivent exactement proposer pour se préparer au cours. Mais un dilemme se pose : d'une part, nous devons tester les connaissances en Data Science, d'autre part, nous ne pouvons pas organiser un examen à part entière de 4 heures.

Pour résoudre ce problème, nous avons déployé un siège TestDev directement au sein de l'équipe de développement du cours Data Science (et il semble que ce ne soit que le début). Nous vous présentons une liste de 10 pièges rencontrés lors de l'élaboration de tests d'évaluation des connaissances. Espérons que le monde de l’apprentissage en ligne se portera un peu mieux après cela.

Rake 1 : Ne pas définir clairement les objectifs de test

Afin de définir correctement les objectifs et de créer un test qui en tiendra compte, au stade de la planification, nous devons répondre à plusieurs questions :

  1. Que vérifions-nous réellement ? 
  2. Dans quel environnement les tests se dérouleront-ils et quels mécanismes seront utilisés ? Quelles sont les limites de cet environnement ? Ce même point vous permettra de comprendre les exigences techniques de l'appareil sur lequel le test sera effectué, mais aussi du contenu (si le test est réalisé depuis des téléphones, les images doivent être lisibles même sur un petit écran, il faut être possible de les agrandir, etc.).
  3. Combien de temps dureront les tests ? Il faut réfléchir aux conditions dans lesquelles l’utilisateur passera le test. Pourrait-il y avoir une situation où il devrait interrompre le processus de test, puis recommencer ?
  4. Y aura-t-il des retours ? Comment le former et le livrer ? Que devez-vous recevoir ? Y a-t-il un décalage entre l’exécution du test et le feedback ?

Dans notre cas, après avoir répondu à ces questions, nous avons défini la liste d'objectifs suivante pour le test :

  1. Le test doit montrer si les futurs étudiants sont prêts à suivre le cours et s'ils possèdent suffisamment de connaissances et de compétences.
  2. Le test doit nous donner du matériel de feedback, indiquer le sujet sur lequel les étudiants ont commis une erreur, afin qu'ils puissent améliorer leurs connaissances. Nous vous expliquerons comment le composer ci-dessous.

Râteau 2 : Défaut d'élaboration des spécifications techniques pour le rédacteur de tests expert

Pour composer des items de test, il est très important d'impliquer un expert dans le domaine dans lequel les connaissances sont testées. Et pour un expert, à son tour, vous avez besoin d'une spécification technique compétente (description), qui comprend les sujets du test, les connaissances/compétences testées et leur niveau.

Un expert ne réalisera pas lui-même de telles spécifications techniques, car son travail consiste à proposer des tâches et non la structure du test. De plus, peu de personnes développent des tests de manière professionnelle, même dans le processus d'enseignement. Ceci est enseigné dans une spécialité distincte - la psychométrie.

Si vous souhaitez vous familiariser rapidement avec la psychométrie, il existe en Russie école d'été pour tous ceux que cela intéresse. Pour une étude plus approfondie, l'Institute of Education a une maîtrise et études supérieures.

Lors de la préparation des spécifications techniques, nous collectons une description détaillée du test pour l'expert (ou mieux, avec lui) : thèmes des tâches, type de tâches, leur nombre.

Comment choisir le type de tâches : après avoir décidé des sujets, nous décidons quelles tâches peuvent le mieux tester cela ? Options classiques : tâche ouverte, tâche à choix multiple ou unique, matching, etc. (n'oubliez pas les limitations techniques de l'environnement de test !). Après avoir déterminé et précisé le type de tâches, nous disposons d'une spécification technique toute faite pour l'expert. Vous pouvez appeler cela une spécification de test.

Rake 3 : Ne pas impliquer un expert dans le développement des tests

Lorsqu'on immerge un expert dans le développement de tests, il est très important non seulement de lui indiquer le « périmètre de travail », mais de l'impliquer dans la procédure de développement elle-même.

Comment rendre la collaboration avec un expert aussi efficace que possible :

  • Préparez-le à l'avance et passez du temps à parler de la science du développement des tests et de la psychométrie.
  • Concentrez l'attention de l'évaluateur sur la création d'un outil d'évaluation valide et fiable, et non sur une liste de questions.
  • Expliquez que son travail comprend une étape préparatoire, et pas seulement l'élaboration des tâches elles-mêmes.

Certains experts (en raison de leur nature) peuvent percevoir cela comme un test de leur propre travail, et nous leur expliquons que même si nous créons d'excellentes tâches, elles peuvent tout simplement ne pas répondre aux objectifs spécifiques du test.

Pour accélérer le processus, nous préparons avec l'expert un tableau de couverture des sujets (connaissances et compétences) qui fait partie du cahier des charges du test. C'est ce tableau qui nous permet d'élaborer avec précision les questions et de déterminer ce que nous allons mesurer. Dans chaque cas spécifique, il peut être compilé de manière légèrement différente. Notre tâche est de vérifier dans quelle mesure une personne comprend les connaissances et les compétences des cours de base précédents afin de comprendre dans quelle mesure elle est prête à étudier dans un nouveau cours.

Rake 4 : Penser que l’expert « sait mieux »

Connaît mieux le sujet. Mais cela n’explique pas toujours clairement. Il est très important de vérifier le libellé des missions. Écrivez des instructions claires, par exemple « Choisissez 1 bonne option ». Dans 90 % des cas, les experts préparent les questions d’une manière qu’ils comprennent eux-mêmes. Et ça va. Mais avant de remettre le test à ceux qui le passeront, tout doit être vérifié et passé au peigne fin afin que les personnes qui passent le test comprennent exactement ce qu'on attend d'elles et ne commettent pas d'erreurs simplement parce qu'elles pourraient mal interpréter le texte de la tâche.

Pour éviter une double interprétation des tâches, nous menons des « laboratoires cognitifs ». Nous demandons aux personnes du public cible de passer le test, de dire à voix haute ce qu'elles pensent et de l'enregistrer en détail. Dans les « laboratoires cognitifs », vous pouvez « détecter » les questions peu claires, les mauvaises formulations et obtenir les premiers retours sur le test.

Rake 5 : Ignorer le temps d'exécution des tests

mode sarcasme : activé
Bien sûr, notre test est le meilleur, tout le monde rêve de le réussir ! Oui, toutes les 4 heures.
mode sarcasme : désactivé

Quand il y a une liste de tout ce qui peut être vérifié, l'essentiel est de ne pas le faire (à première vue, cela semble étrange, n'est-ce pas ?). Vous devez couper sans pitié, en identifiant les connaissances et compétences clés avec un expert (oui, un certain nombre de compétences peuvent également être testées lors du test). Nous examinons le type de tâches et estimons le délai de réalisation visé : si tout dépasse encore les limites raisonnables, nous le réduisons !

Pour réduire le volume, vous pouvez également essayer (avec précaution) de tester deux compétences en une seule tâche. Dans ce cas, il est difficile de comprendre pourquoi la personne a commis une erreur, mais si cela est fait correctement, les deux compétences peuvent être prises en compte. Il est important de s’assurer que ces 2 compétences correspondent au même domaine de connaissances.

Rake 6 : Ne pas réfléchir au système de notation

Souvent, lors de l'élaboration des tests d'évaluation, ils utilisent le système de notation classique, par exemple 1 point pour les tâches faciles et 2 points pour les tâches difficiles. Mais ce n’est pas universel. La seule somme des points basée sur les résultats des tests ne nous dira pas grand-chose : nous ne savons pas pour quelles tâches ces points ont été reçus et nous pouvons seulement déterminer le nombre de tâches correctes. Nous devons comprendre exactement quelles sont les compétences démontrées par les candidats aux tests. Nous souhaitons également leur faire part de leurs commentaires sur les sujets qui doivent être améliorés.

Après tout, nous faisons un test qui divisera les gens entre ceux qui sont prêts et ceux qui ne sont pas prêts à terminer le programme ; nous conseillerons à certains de se préparer au cours par une formation gratuite. Il est important pour nous que ce groupe ne comprenne que ceux qui en ont vraiment besoin et qui sont prêts à le faire.

Ce que nous faisons dans notre situation : nous déterminons au sein du groupe de travail des développeurs de tests quels groupes de personnes doivent être identifiés (par exemple, prêts à apprendre, partiellement prêts) et formons un tableau des caractéristiques de ces groupes, indiquant quelles compétences et connaissances sera pertinent pour le groupe de formations prêtes à apprendre. De cette façon, vous pouvez formuler la « difficulté » des tâches pour de tels tests.

Rake 7 : évaluer les résultats uniquement automatiquement

Bien entendu, l'évaluation doit être aussi objective que possible, c'est pourquoi certains matériels des étudiants sont évalués automatiquement, « par clés » - en les comparant avec les réponses correctes. Même s’il n’existe pas de système de test particulier, il existe de nombreuses solutions gratuites. Et si vous comprenez les principes d'écriture de scripts, vous pouvez alors faire ce que vous voulez avec les formulaires Google et les résultats sous forme de tableaux. Si certaines tâches sont vérifiées par des experts, nous devons alors penser à fournir des réponses aux experts, sans informations sur les candidats. Et réfléchissez à la manière d’intégrer les résultats des tests d’experts dans l’évaluation finale.

Nous voulions initialement créer plusieurs tâches ouvertes avec du code, dans lesquelles des experts évaluent des solutions sur la base de critères préformés, et nous avons même préparé un système qui exporte les réponses individuelles des participants au test vers un tableau spécial pour les experts, puis importe les résultats dans un tableau avec les calculs d'évaluation. Mais après avoir discuté avec des représentants du public cible, un chef de produit et un concepteur pédagogique, nous avons estimé qu'il serait beaucoup plus efficace et utile pour les participants eux-mêmes de mener un entretien technique avec des commentaires instantanés d'experts et une discussion sur le code, ainsi que sur des problèmes individuels. .

L'expert vérifie maintenant l'achèvement du test et clarifie certaines questions. Pour ce faire, nous avons préparé un guide de questions et de critères d’évaluation pour un entretien technique. Avant l'entretien technique, l'examinateur reçoit une cartographie des réponses du candidat pour l'aider à sélectionner les questions à poser.

Rake 8 : Ne pas expliquer les résultats des tests

Fournir des commentaires aux participants est une question distincte. Nous devons non seulement informer sur les résultats du test, mais également permettre de comprendre les résultats du test.
Il peut s'agir: 

  • Tâches dans lesquelles le participant a commis une erreur et qu'il a complétées correctement.
  • Sujets dans lesquels le participant a commis des erreurs.
  • Son classement parmi ceux qui passent l'examen.
  • Description du niveau du participant, conformément, par exemple, à la description du niveau de spécialiste (sur la base de la description des postes vacants).

Lors du lancement pilote de notre test, à ceux qui souhaitaient s'inscrire au programme, avec les résultats, nous avons montré une liste de sujets qui devaient être améliorés. Mais ce n’est certainement pas idéal, nous allons nous améliorer et fournir de meilleurs retours.

Rake 9 : Ne discutez pas du test avec les développeurs

Peut-être que le râteau le plus pointu, sur lequel il est particulièrement désagréable de marcher, est d'envoyer le test, la description et l'échelle de notation aux développeurs « tels quels ».
De quoi exactement doit-on discuter :

  • L'apparence des questions, la structure, la position des graphiques, à quoi ressemble le choix de la bonne réponse.
  • Comment le score est-il calculé (si nécessaire), existe-t-il des conditions supplémentaires.
  • Comment les commentaires sont-ils générés, où trouver les textes, existe-t-il des blocs supplémentaires générés automatiquement.
  • Quelles informations supplémentaires devez-vous collecter et à quel moment (mêmes contacts).

Pour éviter les malentendus, nous demandons à nos développeurs de coder 2 ou 3 questions différentes afin qu'ils puissent voir à quoi elles ressemblent avant de coder le test lui-même.

Rake 10 : Sans tests, téléchargez directement en production

3 fois, les gars, le test devrait être vérifié 3 fois par des personnes différentes, ou mieux encore, 3 fois chacune. Cette vérité a été obtenue avec du sang, de la sueur et des pixels de lignes de code.

Notre test vérifie le trio suivant :

  1. Produit - vérifie le test pour les performances, l'apparence et la mécanique.
  2. Développeur de tests - vérifie le texte des tâches, leur ordre, la forme de travail avec le test, les types de tâches, les réponses correctes, la lisibilité et la visualisation normale des graphiques.
  3. L'auteur des tâches (expert) vérifie la fidélité du test en position d'expert.

Un exemple tiré de la pratique : ce n'est qu'à la troisième exécution que l'auteur des tâches a vu qu'il restait 1 tâche dans l'ancienne version de la formulation. Tous les précédents ont également gouverné activement. Mais lorsque le test a été codé, il semblait différent de ce que l’on avait imaginé initialement. Il est fort probable que quelque chose doive être corrigé. Cela doit être pris en compte.

Total

En contournant soigneusement tous ces « râteaux », nous avons créé un spécial bot dans Telegram, pour tester les connaissances des candidats. Tout le monde peut le tester pendant que nous préparons le prochain matériel, dans lequel nous vous dirons ce qui s'est passé à l'intérieur du bot et en quoi tout cela s'est transformé plus tard.

Marcher sur un râteau : 10 erreurs critiques dans le développement de tests de connaissances
Vous pouvez obtenir une profession recherchée à partir de zéro ou passer au niveau supérieur en termes de compétences et de salaire en suivant les cours en ligne SkillFactory :

Plus de cours

Source: habr.com

Ajouter un commentaire