Camminare su un rastrello: 10 errori critici nello sviluppo dei test di conoscenza

Camminare su un rastrello: 10 errori critici nello sviluppo dei test di conoscenza
Prima di iscriversi al nuovo corso Machine Learning Advanced, testiamo i futuri studenti per determinare il loro livello di preparazione e capire cosa esattamente devono offrire per prepararsi al corso. Ma sorge un dilemma: da un lato dobbiamo testare le conoscenze in Data Science, dall'altro non possiamo organizzare un vero e proprio esame di 4 ore.

Per risolvere questo problema, abbiamo implementato una sede TestDev direttamente nel team di sviluppo del corso di Data Science (e sembra che questo sia solo l'inizio). Vi presentiamo un elenco di 10 trappole che si incontrano quando si sviluppano test per valutare le conoscenze. Speriamo che il mondo dell’apprendimento online migliorerà un po’ dopo questo.

Rake 1: incapacità di definire chiaramente gli obiettivi del test

Per poter definire correttamente gli obiettivi e creare un test che ne tenga conto, in fase di pianificazione dobbiamo rispondere ad alcune domande:

  1. Cosa stiamo effettivamente controllando? 
  2. In quale ambiente si svolgeranno i test e quali meccanismi verranno utilizzati? Quali sono i limiti in questo ambiente? Questo stesso punto permetterà di comprendere i requisiti tecnici del dispositivo su cui verrà effettuato il test, ma anche quelli del contenuto (se il test è ripreso da telefonini, le immagini dovranno essere leggibili anche su un piccolo schermo, essere possibile ingrandirli, ecc.).
  3. Quanto durerà il test? È necessario pensare alle condizioni in cui l'utente sosterrà il test. Potrebbe esserci una situazione in cui è necessario interrompere il processo di test e poi continuare di nuovo?
  4. Ci saranno feedback? Come lo formiamo e lo consegniamo? Cosa devi ricevere? C'è un intervallo di tempo tra l'esecuzione del test e il feedback?

Nel nostro caso, dopo aver risposto a queste domande, abbiamo definito il seguente elenco di obiettivi per il test:

  1. Il test dovrebbe mostrare se i futuri studenti sono pronti a seguire il corso e se hanno conoscenze e competenze sufficienti.
  2. Il test dovrebbe fornirci materiale per il feedback, indicare l'argomento in cui gli studenti hanno commesso un errore, in modo che possano migliorare le loro conoscenze. Di seguito ti diremo come comporlo.

Rake 2: Mancata redazione delle specifiche tecniche per l'esperto redattore del test

Per comporre gli item del test, è molto importante coinvolgere un esperto nel campo in cui viene testata la conoscenza. E per un esperto, a sua volta, è necessaria una specifica tecnica competente (descrizione), che includa gli argomenti del test, le conoscenze/abilità testate e il loro livello.

Un esperto non stilerà tali specifiche tecniche da solo, perché il suo compito è elaborare i compiti, non la struttura del test. Inoltre, poche persone sviluppano test in modo professionale, anche nel processo di insegnamento. Questo viene insegnato in una specialità separata: la psicometria.

Se vuoi conoscere rapidamente la psicometria, allora in Russia c'è scuola estiva per tutti gli interessati. Per uno studio più approfondito, l'Istituto di Educazione ha Master e scuola di specializzazione.

Quando prepariamo le specifiche tecniche, raccogliamo una descrizione dettagliata del test per l'esperto (o meglio, insieme a lui): argomenti dei compiti, tipologia dei compiti, il loro numero.

Come scegliere il tipo di compiti: dopo aver deciso gli argomenti, decidiamo quali compiti possono testarlo meglio? Opzioni classiche: attività a risposta aperta, attività a scelta multipla o singola, abbinamento, ecc. (non dimenticare le limitazioni tecniche dell'ambiente di test!). Dopo aver determinato e specificato il tipo di attività, abbiamo una specifica tecnica già pronta per l'esperto. Puoi chiamarla una specifica di prova.

Rake 3: Non coinvolgere un esperto nello sviluppo dei test

Quando si immerge un esperto nello sviluppo di test, è molto importante non solo indicargli lo “ambito di lavoro”, ma coinvolgerlo nella procedura di sviluppo stessa.

Come rendere la collaborazione con un esperto il più efficace possibile:

  • Configuralo in anticipo e dedica un po' di tempo a parlare della scienza dello sviluppo dei test e della psicometria.
  • Concentrare l'attenzione del valutatore sulla creazione di uno strumento di valutazione valido e affidabile, non su un elenco di domande.
  • Spiegare che il suo lavoro comprende una fase preparatoria, non solo lo sviluppo dei compiti stessi.

Alcuni esperti (per la loro natura) potrebbero percepirlo come una prova del proprio lavoro e noi spieghiamo loro che anche se creiamo compiti eccellenti, semplicemente potrebbero non soddisfare gli obiettivi specifici del test.

Per velocizzare il processo, prepariamo con l'esperto una tabella di copertura degli argomenti (conoscenze e competenze), che fa parte delle specifiche del test. È questa tabella che ci consente di elaborare con precisione le domande e determinare cosa misureremo. In ciascun caso specifico può essere compilato in modo leggermente diverso. Il nostro compito è verificare quanto bene una persona comprende le conoscenze e le competenze dei corsi base precedenti per capire quanto è pronto per studiare in un nuovo corso.

Rake 4: Pensare che l’esperto “sa meglio”

Conosce meglio l'argomento. Ma non sempre lo spiega chiaramente. È molto importante controllare la formulazione degli incarichi. Scrivi istruzioni chiare, ad esempio "Scegli 1 opzione corretta". Nel 90% dei casi gli esperti preparano le domande in un modo che essi stessi comprendono. E va bene così. Ma prima di consegnare il test a chi lo sosterrà, occorre controllare e spulciare tutto affinché chi sostiene il test capisca esattamente cosa gli viene richiesto e non commetta errori solo perché potrebbe interpretare male il testo del compito.

Per evitare una doppia interpretazione dei compiti, conduciamo “laboratori cognitivi”. Chiediamo alle persone del pubblico target di sostenere il test, dicendo ad alta voce cosa pensano e registrandolo in dettaglio. Nei “laboratori cognitivi” è possibile “cogliere” domande poco chiare, formulazioni errate e ottenere i primi feedback sul test.

Rake 5: ignora il tempo di esecuzione del test

modalità sarcasmo: attiva
Certo, il nostro test è il migliore, tutti sognano di superarlo! Sì, tutte e 4 le ore.
modalità sarcasmo: disattivata

Quando c'è un elenco di tutto ciò che può essere controllato, l'importante è non farlo (a prima vista sembra strano, vero?). È necessario tagliare spietatamente, identificando le conoscenze e le competenze chiave con un esperto (sì, nel test è possibile testare anche una serie di competenze). Osserviamo la tipologia delle attività e stimiamo il tempo di completamento previsto: se tutto è ancora oltre i limiti ragionevoli, tagliamo!

Per ridurre il volume, puoi anche provare (con attenzione) a testare due abilità in un'unica attività. In questo caso è difficile capire perché la persona ha commesso un errore, ma se fatto correttamente, entrambe le abilità possono essere prese in considerazione. È importante assicurarsi che queste 2 competenze corrispondano alla stessa area di conoscenza.

Rake 6: Non pensare al sistema di punteggio

Spesso, durante la compilazione dei test di valutazione, viene utilizzato il classico sistema di punteggio, ad esempio 1 punto per i compiti facili e 2 punti per quelli difficili. Ma non è universale. Solo la somma dei punti basata sui risultati del test non ci dirà molto: non sappiamo per quali compiti sono stati ricevuti questi punti e possiamo solo determinare il numero di compiti corretti. Dobbiamo capire esattamente quali competenze stanno dimostrando i partecipanti al test. Inoltre, vogliamo dare loro un feedback su quali argomenti devono essere migliorati.

Dopotutto stiamo facendo un test che dividerà le persone in chi è pronto e chi non lo è per completare il programma; ad alcuni consiglieremo di prepararsi al corso tramite formazione gratuita. Per noi è importante che questo gruppo includa solo coloro che ne hanno veramente bisogno e che sono pronti.

Cosa facciamo nella nostra situazione: determiniamo all'interno del gruppo di lavoro degli sviluppatori di test quali gruppi di persone devono essere identificati (ad esempio, pronte ad apprendere, parzialmente pronte) e formiamo una tabella delle caratteristiche di tali gruppi, indicando quali competenze e conoscenze sarà rilevante per il gruppo di formazione ready to learn. In questo modo è possibile formulare la “difficoltà” dei compiti per tali test.

Rake 7: valuta i risultati solo automaticamente

Naturalmente, la valutazione dovrebbe essere il più obiettiva possibile, quindi alcuni materiali degli studenti vengono valutati automaticamente, "per chiavi", confrontandoli con le risposte corrette. Anche se non esiste un sistema di test speciale, ci sono molte soluzioni gratuite. E se comprendi i principi della scrittura di script, puoi fare quello che vuoi con i moduli di Google e i risultati nelle tabelle. Se alcuni compiti vengono controllati da esperti, allora dobbiamo pensare a fornire risposte agli esperti, senza informazioni sui partecipanti al test. E pensa a come integrare i risultati dei test degli esperti nella valutazione finale.

Inizialmente volevamo realizzare diversi compiti a tempo indeterminato con codice, in cui gli esperti valutano le soluzioni secondo criteri prestabiliti, e abbiamo anche preparato un sistema che esporta le risposte individuali dei partecipanti al test in una tabella speciale per esperti, e quindi importa i risultati in una tabella con i calcoli di valutazione. Ma dopo aver discusso con i rappresentanti del pubblico target, con il product manager e con il progettista didattico, abbiamo ritenuto che condurre un colloquio tecnico con feedback immediato da parte di esperti e discussione del codice, nonché delle singole questioni, sarebbe stato molto più efficace e utile per i partecipanti stessi .

Ora l'esperto verifica il completamento del test, chiarendo alcune domande. Per fare questo, abbiamo preparato una guida di domande e criteri di valutazione per un colloquio tecnico. Prima del colloquio tecnico, l'esaminatore riceve una mappa delle risposte del candidato per aiutarlo a selezionare le domande da porre.

Rake 8: Non spiegare i risultati dei test

Fornire feedback ai partecipanti è una questione separata. Dobbiamo non solo informare sul punteggio del test, ma anche fornire una comprensione dei risultati del test.
Può essere: 

  • Compiti in cui il partecipante ha commesso un errore e che ha completato correttamente.
  • Argomenti in cui il partecipante ha commesso errori.
  • La sua posizione tra coloro che sostengono l'esame.
  • Descrizione del livello del partecipante, secondo, ad esempio, la descrizione del livello specialistico (basata sulla descrizione dei posti vacanti).

Durante il lancio pilota del nostro test, a chi voleva iscriversi al programma, insieme ai risultati, abbiamo mostrato un elenco di argomenti che necessitavano di miglioramenti. Ma questo non è certamente l'ideale, miglioreremo e forniremo feedback migliori.

Rake 9: non discutere del test con gli sviluppatori

Forse la mossa più tagliente, che è particolarmente spiacevole da calpestare, è inviare il test, la descrizione e la scala di punteggio agli sviluppatori "così come sono".
Cosa deve essere discusso esattamente:

  • L'aspetto delle domande, la struttura, la posizione della grafica, come si presenta la scelta della risposta corretta.
  • Come viene calcolato il punteggio (se necessario), ci sono condizioni aggiuntive.
  • Come viene generato il feedback, dove trovare i testi, ci sono ulteriori blocchi generati automaticamente.
  • Quali informazioni aggiuntive è necessario raccogliere e in quale momento (stessi contatti).

Per evitare malintesi, chiediamo ai nostri sviluppatori di codificare 2 o 3 domande diverse in modo che possano vedere come appaiono prima di codificare il test stesso.

Rake 10: senza test, carica direttamente in produzione

3 volte ragazzi, il test andrebbe ricontrollato 3 volte da persone diverse, o meglio ancora 3 volte ciascuna.Questa verità è stata ottenuta con sangue, sudore e pixel di righe di codice.

Il nostro test verifica il seguente trio:

  1. Prodotto: controlla il test per prestazioni, aspetto, meccanica.
  2. Sviluppatore del test: controlla il testo delle attività, il loro ordine, la modalità di lavoro con il test, i tipi di attività, le risposte corrette, la leggibilità e la normale visualizzazione della grafica.
  3. L'autore dei compiti (esperto) controlla il test di fedeltà da una posizione di esperto.

Un esempio dalla pratica: solo alla terza esecuzione, l'autore dei compiti ha visto che 1 compito era rimasto nella vecchia versione della formulazione. Anche tutti i precedenti governarono attivamente. Ma quando il test è stato codificato, sembrava diverso da quanto originariamente immaginato. È molto probabile che qualcosa debba essere corretto. Questo deve essere preso in considerazione.

risultato

Aggirando attentamente tutti questi "rastrelli", abbiamo creato uno speciale bot in Telegram, per testare la conoscenza dei candidati. Chiunque può testarlo mentre stiamo preparando il prossimo materiale, in cui vi racconteremo cosa è successo all'interno del bot e in cosa si è trasformato in seguito.

Camminare su un rastrello: 10 errori critici nello sviluppo dei test di conoscenza
Puoi ottenere una professione ambita da zero o salire di livello in termini di competenze e stipendio frequentando i corsi online di SkillFactory:

Più corsi

Fonte: habr.com

Aggiungi un commento