Andando em um ancinho: 10 erros críticos no desenvolvimento de testes de conhecimento

Andando em um ancinho: 10 erros críticos no desenvolvimento de testes de conhecimento
Antes de se inscrever no novo curso Machine Learning Advanced, testamos os futuros alunos para determinar seu nível de preparação e entender exatamente o que eles precisam oferecer para se prepararem para o curso. Mas surge um dilema: por um lado, devemos testar os conhecimentos em Data Science, por outro, não podemos organizar um exame completo de 4 horas.

Para resolver esse problema, implantamos uma sede do TestDev bem na equipe de desenvolvimento do curso de Data Science (e parece que isso é apenas o começo). Apresentamos a você uma lista com 10 armadilhas encontradas no desenvolvimento de testes para avaliar conhecimento. Esperançosamente, o mundo do aprendizado online ficará um pouco melhor depois disso.

Rake 1: Falha ao definir claramente os objetivos do teste

Para definir corretamente os objetivos e criar um teste que os leve em consideração, na fase de planejamento devemos responder a várias perguntas:

  1. O que estamos realmente verificando? 
  2. Em que ambiente os testes serão realizados e quais mecânicas serão usadas? Quais são as limitações neste ambiente? Este mesmo ponto permitirá que você entenda os requisitos técnicos do dispositivo no qual o teste será realizado, e também do conteúdo (se o teste for feito em telefones, as imagens devem ser legíveis mesmo em uma tela pequena, deve ser possível ampliá-los, etc.).
  3. Quanto tempo levará o teste? É preciso pensar nas condições em que o usuário fará o teste. Poderia haver uma situação em que ele precisasse interromper o processo de teste e continuar novamente?
  4. Haverá feedback? Como formamos e entregamos? O que você precisa receber? Existe um intervalo de tempo entre a execução do teste e o feedback?

No nosso caso, respondidas a estas questões, definimos a seguinte lista de objetivos para o teste:

  1. O teste deve mostrar se os futuros alunos estão prontos para fazer o curso e se possuem conhecimentos e habilidades suficientes.
  2. A prova deverá nos fornecer material para feedback, indicar o tema em que os alunos erraram, para que possam aprimorar seus conhecimentos. Diremos como compô-lo a seguir.

Rake 2: Falha na elaboração de especificações técnicas para o redator de testes especializado

Para compor os itens do teste é muito importante envolver um especialista na área em que o conhecimento está sendo testado. E para um especialista, por sua vez, é necessária uma especificação técnica competente (descrição), que inclua os tópicos do teste, os conhecimentos/habilidades que estão sendo testados e seu nível.

Um especialista não fará essas especificações técnicas por si mesmo, porque sua função é definir as tarefas, não a estrutura do teste. Além disso, poucas pessoas desenvolvem testes profissionalmente, mesmo no processo de ensino. Isso é ensinado em uma especialidade separada - psicometria.

Se você deseja se familiarizar rapidamente com a psicometria, então na Rússia existe escola de Verão para todos os interessados. Para um estudo mais aprofundado, o Instituto de Educação Mestrado e pós-graduação.

Ao preparar as especificações técnicas, coletamos uma descrição detalhada do teste para o especialista (ou melhor, junto com ele): tópicos das tarefas, tipo de tarefas, seu número.

Como escolher o tipo de tarefas: decididos os temas, decidimos quais tarefas podem melhor testar isso? Opções clássicas: tarefa aberta, tarefa de escolha múltipla ou única, correspondência, etc. (não se esqueça das limitações técnicas do ambiente de teste!). Após determinar e especificar o tipo de tarefas, temos uma especificação técnica pronta para o especialista. Você pode chamar isso de especificação de teste.

Rake 3: Não envolvendo um especialista no desenvolvimento de testes

Ao imergir um especialista no desenvolvimento de testes, é muito importante não apenas indicar-lhe o “escopo do trabalho”, mas envolvê-lo no próprio procedimento de desenvolvimento.

Como tornar o trabalho com um especialista o mais eficaz possível:

  • Configure-o com antecedência e passe algum tempo conversando sobre a ciência do desenvolvimento de testes e da psicometria.
  • Concentre a atenção do avaliador na criação de uma ferramenta de avaliação válida e confiável, e não em uma lista de perguntas.
  • Explique que o seu trabalho inclui uma fase preparatória e não apenas o desenvolvimento das tarefas em si.

Alguns especialistas (devido à sua natureza) podem perceber isso como um teste do seu próprio trabalho, e nós explicamos a eles que mesmo que criemos tarefas excelentes, elas simplesmente podem não atender aos objetivos específicos do teste.

Para agilizar o processo, preparamos com o especialista uma tabela de cobertura dos temas (conhecimentos e habilidades), que faz parte da especificação do teste. É esta tabela que nos permite resolver as questões com precisão e determinar o que iremos medir. Em cada caso específico, pode ser compilado de forma ligeiramente diferente. Nossa tarefa é verificar o quão bem uma pessoa compreende os conhecimentos e habilidades dos cursos básicos anteriores, a fim de entender se ela está preparada para estudar em um novo curso.

Rake 4: Pensar que o especialista “sabe o melhor”

Conhece melhor o assunto. Mas nem sempre explica claramente. É muito importante verificar o texto das tarefas. Escreva instruções claras, por exemplo, “Escolha 1 opção correta”. Em 90% dos casos, os especialistas preparam as perguntas de uma forma que eles próprios entendem. E tudo bem. Mas antes de entregar a prova para quem vai fazer, é preciso verificar e pentear tudo para que quem faz a prova entenda exatamente o que é exigido deles e não cometa erros só porque pode interpretar mal o texto da tarefa.

Para evitar a dupla interpretação das tarefas, conduzimos “laboratórios cognitivos”. Solicitamos que pessoas do público-alvo façam o teste, dizendo em voz alta o que pensam e registrando detalhadamente. Nos “laboratórios cognitivos” você pode “capturar” questões pouco claras, palavrões e obter o primeiro feedback da prova.

Rake 5: Ignorar o tempo de execução do teste

modo sarcasmo: ativado
Claro que nosso teste é o melhor, todo mundo sonha em passar! Sim, todas as 4 horas.
modo sarcasmo: desligado

Quando há uma lista de tudo que pode ser verificado, o principal é não fazer (à primeira vista parece estranho, não é?). Você precisa cortar impiedosamente, identificando os principais conhecimentos e habilidades com um especialista (sim, várias habilidades também podem ser testadas no teste). Observamos o tipo de tarefas e estimamos o tempo previsto de conclusão: se tudo ainda estiver acima dos limites razoáveis, cortamos!

Para reduzir o volume, você também pode tentar (com cuidado) testar duas habilidades em uma tarefa. Nesse caso, é difícil entender por que a pessoa errou, mas se feito da maneira correta, ambas as habilidades podem ser levadas em consideração. É importante ter certeza de que essas 2 competências correspondem à mesma área de conhecimento.

Rake 6: Não pensando no sistema de pontuação

Muitas vezes, na compilação dos testes de avaliação, utilizam o sistema de pontuação clássico, por exemplo, 1 ponto para tarefas fáceis e 2 pontos para tarefas difíceis. Mas não é universal. Apenas a soma dos pontos com base nos resultados dos testes não nos dirá muito: não sabemos para quais tarefas esses pontos foram recebidos e só podemos determinar o número de tarefas corretas. Precisamos entender exatamente quais habilidades os participantes do teste estão demonstrando. Além disso, queremos dar-lhes feedback sobre quais temas precisam ser melhorados.

Afinal, estamos fazendo um teste que vai dividir as pessoas entre as que estão preparadas e as que não estão preparadas para concluir o programa; aconselharemos algumas a se prepararem para o curso por meio de treinamento gratuito. É importante para nós que este grupo inclua apenas aqueles que realmente precisam e estão prontos para isso.

O que fazemos em nossa situação: determinamos dentro do grupo de trabalho de desenvolvedores de testes quais grupos de pessoas precisam ser identificados (por exemplo, prontos para aprender, parcialmente prontos) e formamos uma tabela de características de tais grupos, indicando quais habilidades e conhecimentos será relevante para o grupo de treinamento pronto para aprender. Desta forma você pode formular a “dificuldade” das tarefas para tais testes.

Rake 7: Avalie os resultados apenas automaticamente

É claro que a avaliação deve ser o mais objetiva possível, por isso alguns dos materiais dos alunos são avaliados automaticamente, “por chaves” - comparando com as respostas corretas. Mesmo que não exista um sistema de teste especial, existem muitas soluções gratuitas. E se você entende os princípios de escrever scripts, pode fazer o que quiser com os formulários do Google e os resultados em tabelas. Se algumas das tarefas forem verificadas por especialistas, então precisamos pensar em entregar as respostas aos especialistas, sem informações sobre os candidatos. E pense em como integrar os resultados dos testes especializados na avaliação final.

Inicialmente queríamos fazer várias tarefas abertas com código, onde especialistas avaliam soluções com base em critérios pré-formados, e até preparamos um sistema que exporta respostas individuais dos participantes do teste para uma tabela especial para especialistas, e depois importa os resultados para uma tabela com cálculos de avaliação. Mas depois de discutir com representantes do público-alvo, gerente de produto e designer educacional, sentimos que conduzir uma entrevista técnica com feedback instantâneo de especialistas e discussão do código, bem como de questões individuais, seria muito mais eficaz e útil para os próprios participantes. .

Agora o perito verifica a conclusão da prova, esclarecendo algumas dúvidas. Para isso, preparamos um guia de perguntas e critérios de avaliação para uma entrevista técnica. Antes da entrevista técnica, o examinador recebe um mapa com as respostas do candidato para ajudá-lo a selecionar as perguntas a serem feitas.

Rake 8: Não explique os resultados dos testes

Fornecer feedback aos participantes é uma questão separada. Precisamos não apenas informar sobre a pontuação do teste, mas também fornecer uma compreensão dos resultados do teste.
Estes podem ser: 

  • Tarefas em que o participante cometeu um erro e que completou corretamente.
  • Tópicos em que o participante cometeu erros.
  • Sua classificação entre os que fizeram o exame.
  • Descrição do nível do participante, de acordo, por exemplo, com a descrição do nível de especialista (com base na descrição das vagas).

Durante o lançamento piloto do nosso teste, para quem desejava se inscrever no programa, junto com os resultados, mostramos uma lista de tópicos que precisavam ser melhorados. Mas isso certamente não é o ideal, iremos melhorar e fornecer um feedback melhor.

Rake 9: Não discuta o teste com os desenvolvedores

Talvez o rake mais acentuado, que é especialmente desagradável de pisar, seja enviar o teste, a descrição e a escala de pontuação aos desenvolvedores “como estão”.
O que exatamente precisa ser discutido:

  • A aparência das questões, a estrutura, a posição dos gráficos, como é a escolha da resposta correta.
  • Como a pontuação é calculada (se necessário), existem condições adicionais.
  • Como o feedback é gerado, onde obter textos, existem blocos adicionais gerados automaticamente.
  • Que informações adicionais você precisa coletar e em que momento (mesmos contatos).

Para evitar mal-entendidos, pedimos aos nossos desenvolvedores que codifiquem 2 ou 3 perguntas diferentes para que possam ver como elas são antes de codificar o teste em si.

Rake 10: Sem testes, carregue diretamente para produção

3 vezes, pessoal, o teste deveria ser verificado 3 vezes por pessoas diferentes, ou melhor, 3 vezes cada, essa verdade foi obtida com sangue, suor e pixels de linhas de código.

Nosso teste verifica o seguinte trio:

  1. Produto - verifica o teste de desempenho, aparência, mecânica.
  2. Desenvolvedor de testes - verifica o texto das tarefas, sua ordem, forma de trabalhar com o teste, tipos de tarefas, respostas corretas, legibilidade e visualização normal dos gráficos.
  3. O autor das tarefas (especialista) verifica o teste de fidelidade na posição de especialista.

Um exemplo da prática: somente na terceira execução o autor das tarefas viu que 1 tarefa permanecia na versão antiga do texto. Todos os anteriores também governaram ativamente. Mas quando o teste foi codificado, parecia diferente do inicialmente imaginado. É muito provável que algo precise ser corrigido. Isto precisa ser levado em conta.

Total

Ignorando cuidadosamente todos esses “rake”, criamos um especial bot no Telegram, para testar o conhecimento dos candidatos. Qualquer pessoa pode testá-lo enquanto preparamos o próximo material, no qual contaremos o que aconteceu dentro do bot e no que tudo se transformou posteriormente.

Andando em um ancinho: 10 erros críticos no desenvolvimento de testes de conhecimento
Você pode obter uma profissão procurada do zero ou subir de nível em termos de habilidades e salário fazendo os cursos online SkillFactory:

Mais cursos

Fonte: habr.com

Adicionar um comentário