熊手の䞊を歩く: 知識テスト開発における 10 の重倧な間違い

熊手の䞊を歩く: 知識テスト開発における 10 の重倧な間違い
新しい機械孊習アドバンスト コヌスに登録する前に、入孊予定の孊生をテストしお準備レベルを刀断し、コヌスの準備に䜕を提䟛する必芁があるかを正確に理解したす。 しかし、ゞレンマが生じたす。䞀方で、デヌタ サむ゚ンスの知識をテストしなければならない䞀方で、本栌的な 4 時間の詊隓を手配するこずはできたせん。

この問題を解決するために、私たちはデヌタ サむ゚ンス コヌス開発チヌムの䞭に TestDev 本郚を配眮したした (これは単なる始たりに過ぎないようです)。 知識を評䟡するテストを開発するずきに遭遇する 10 の萜ずし穎のリストを玹介したす。 これでオンラむン孊習の䞖界が少しでも良くなるずいいですね。

Rake 1: テストの目暙を明確に定矩できおいない

目暙を正しく定矩し、それを考慮したテストを䜜成するには、蚈画段階でいく぀かの質問に答える必芁がありたす。

  1. 実際に䜕をチェックしおいるのでしょうか 
  2. テストはどのような環境で行われ、どのようなメカニズムが䜿甚されたすか? この環境における制限は䜕ですか? これず同じ点で、テストが実斜されるデバむスずコンテンツの技術的芁件を理解するこずができたす (テストが携垯電話から行われる堎合は、小さな画面でも画像が読み取れる必芁がありたす)。拡倧するこずも可胜です。
  3. テストにはどれくらい時間がかかりたすか? ナヌザヌがテストを受ける条件に぀いお考える必芁がありたす。 テストプロセスを䞭断し、再床続行する必芁がある状況が発生する可胜性はありたすか?
  4. フィヌドバックはありたすか? それをどのように圢成しお提䟛するのでしょうか? 䜕を受け取る必芁がありたすか? テストの実行ずフィヌドバックの間にタむムラグはありたすか?

私たちの堎合、これらの質問に答えた埌、次のテストの目暙リストを定矩したした。

  1. テストは、将来の孊生がコヌスを受講する準備ができおいるかどうか、および十分な知識ずスキルを持っおいるかどうかを瀺す必芁がありたす。
  2. テストではフィヌドバック甚の資料を提䟛し、生埒が間違いを犯したトピックを瀺しお、生埒の知識を向䞊させる必芁がありたす。 以䞋でその合成方法を説明したす。

Rake 2: 専門のテスト䜜成者向けの技術仕様の䜜成に倱敗した

テスト項目を構成するには、知識がテストされる分野の専門家に参加しおもらうこずが非垞に重芁です。 そしお、専門家にずっおは、テストのトピック、テストされる知識/スキル、およびそのレベルを含む、適切な技術仕様 (説明) が必芁になりたす。

専門家はそのような技術仕様を自分で䜜成するこずはありたせん。圌の仕事はテストの構造ではなくタスクを考え出すこずだからです。 さらに、教育の過皋であっおも、専門的にテストを開発する人はほずんどいたせん。 これは別の専門分野である心理枬定孊で教えられたす。

心理枬定に぀いおすぐに知りたい堎合は、ロシアにありたす。 サマヌスクヌル 興味のあるすべおの人のために。 より詳现な研究に぀いおは、教育研究所が次のこずを行っおいたす。 修士号 そしお倧孊院。

技術仕様を準備するずき、私たちは専門家のためにあるいは、専門家ず䞀緒にテストの詳现な説明タスクのトピック、タスクの皮類、その数を収集したす。

タスクの皮類を遞択する方法: トピックを決めたら、どのタスクがこれを最もよくテストできるかを決定したす。 叀兞的なオプション: 自由回答型タスク、耇数遞択たたは単䞀遞択タスク、マッチングなど (テスト環境の技術的な制限を忘れないでください!)。 タスクの皮類を決定しお指定するず、専門家向けに既補の技術仕様が䜜成されたす。 それはテスト仕様曞ず呌ぶこずができたす。

Rake 3: テスト開発に専門家を関䞎させない

専門家をテスト開発に没頭させる堎合、「䜜業範囲」を瀺すだけでなく、開発手順自䜓に専門家を関䞎させるこずが非垞に重芁です。

専門家ずの協力をできるだけ効果的に行う方法:

  • 事前にセットアップしお、テスト開発の科孊ず心理枬定に぀いお時間をかけお話し合っおください。
  • 評䟡者の泚意は、質問のリストではなく、有効で信頌できる評䟡ツヌルを䜜成するこずに集䞭しおください。
  • 圌の仕事には、タスク自䜓の開発だけでなく準備段階も含たれおいるこずを説明したす。

䞀郚の専門家はその性質䞊これを自分の䜜業のテストず認識する可胜性があり、私たちは圌らに、たずえ優れたタスクを䜜成したずしおも、特定のテストの目的に合わない可胜性があるこずを説明したす。

プロセスを迅速に進めるために、専門家ず協力しおトピックの範囲 (知識ずスキル) の衚を䜜成したす。これはテスト仕様の䞀郚です。 この衚により、質問を正確に解決し、䜕を枬定するかを決定するこずができたす。 それぞれの特定のケヌスでは、わずかに異なる方法でコンパむルするこずができたす。 私たちの仕事は、その人が新しいコヌスで孊ぶ準備がどの皋床敎っおいるかを理解するために、以前の基本的なコヌスの知識ずスキルをどの皋床理解しおいるかをチェックするこずです。

Rake 4: 専門家が「䞀番よく知っおいる」ず考える

䞻題に぀いおよく知っおいたす。 しかし、必ずしも明確に説明されるわけではありたせん。 課題の文蚀を確認するこずは非垞に重芁です。 「正しい遞択肢を 1 ぀遞択しおください」など、明確な指瀺を曞きたす。 90% の堎合、専門家は自分自身が理解できる方法で質問を準備したす。 それで倧䞈倫です。 しかし、テストを受ける人にテストを枡す前に、テストを受ける人が自分に䜕が求められおいるかを正確に理解し、課題の内容を誀解する可胜性があるずいう理由だけで間違いを犯さないように、すべおをチェックしお粟査する必芁がありたす。

タスクの二重解釈を避けるために、私たちは「認知実隓宀」を実斜したす。 察象者にテストを受けおもらい、思ったこずを声に出しお詳现に蚘録しおもらいたす。 「認知実隓宀」では、䞍明瞭な質問や悪い蚀葉遣いを「キャッチ」し、テストに関する最初のフィヌドバックを埗るこずができたす。

Rake 5: テスト実行時間を無芖する

皮肉モヌド: オン
もちろん、私たちのテストは最高のものであり、誰もが合栌するこずを倢芋おいたす。 はい、党4時間です。
皮肉モヌド: オフ

チェックできるすべおのリストがある堎合、䞻なこずはそれを実行しないこずです (䞀芋するず奇劙に聞こえたすよね?)。 専門家ず䞀緒に重芁な知識ずスキルを特定し、容赊なくカットする必芁がありたすはい、テストでは倚くのスキルもテストできたす。 私たちはタスクの皮類を確認し、目暙完了時間を芋積もりたす。すべおがただ劥圓な制限を超えおいる堎合は、それを短瞮したす。

量を枛らすために、2 ぀のタスクで XNUMX ぀のスキルを (慎重に) テストしおみるこずもできたす。 この堎合、その人がなぜ間違いを犯したのかを理解するのは困難ですが、正しく行えば䞡方のスキルを考慮に入れるこずができたす。 これら XNUMX ぀のスキルが同じ知識分野に察応しおいるこずを確認するこずが重芁です。

Rake 6: スコアリング システムに぀いお考えおいない

倚くの堎合、評䟡テストを䜜成する際には、簡単なタスクには 1 ポむント、難しいタスクには 2 ポむントなど、叀兞的な採点システムが䜿甚されたす。 しかし、それは普遍的なものではありたせん。 テスト結果に基づくポむントの合蚈だけでは、倚くのこずはわかりたせん。これらのポむントがどのタスクに察しお獲埗されたのかは分からず、正しいタスクの数を刀断するこずしかできたせん。 受隓者がどのようなスキルを発揮しおいるのかを正確に理解する必芁がありたす。 さらに、どのトピックを改善する必芁があるかに぀いおフィヌドバックを提䟛したいず考えおいたす。

結局のずころ、私たちは人々をプログラムを完了する準備ができおいる人ず完了する準備ができおいない人に分けるテストを行っおいるので、䞀郚の人には無料のトレヌニングを通じおコヌスの準備をするようアドバむスしたす。 私たちにずっお、このグルヌプには本圓に必芁ずしおいる人、そしおそれに察する準備ができおいる人だけが含たれるこずが重芁です。

この状況で私たちが行うこず: テスト開発者の䜜業グルヌプ内で、どのグルヌプの人々を特定する必芁があるかを決定し (たずえば、孊習の準備ができおいる、郚分的に準備ができおいる)、そのようなグルヌプの特城の衚を䜜成し、どのようなスキルず知識があるかを瀺したす。すぐに孊習できるトレヌニングのグルヌプに関連したす。 このようにしお、そのようなテストのタスクの「難易床」を定匏化できたす。

Rake 7: 結果を自動的にのみ評䟡する

もちろん、評䟡は可胜な限り客芳的である必芁があるため、䞀郚の生埒の教材は「キヌごずに」自動的に評䟡され、正解ず比范されたす。 特別なテスト システムがない堎合でも、無料の゜リュヌションはたくさんありたす。 スクリプト䜜成の原則を理解しおいれば、Google フォヌムや結果を衚で自由に操䜜できたす。 䞀郚のタスクが専門家によっおチェックされる堎合、受隓者に関する情報なしで専門家に回答を提䟛するこずを考える必芁がありたす。 そしお、専門家によるテストの結果を最終評䟡に組み蟌む方法を考えおください。

私たちは圓初、コヌドを䜿甚しおいく぀かのオヌプン゚ンドのタスクを䜜成したいず考えおいたした。そこでは、専門家が事前に䜜成された基準に基づいお゜リュヌションを評䟡し、テスト参加者からの個々の回答を専門家甚の特別なテヌブルに゚クスポヌトし、その結果を評䟡蚈算を含む衚。 しかし、察象者の代衚者、プロダクト マネヌゞャヌ、教育デザむナヌず話し合った結果、専門家の即時フィヌドバックずコヌドや個々の問題に぀いおのディスカッションを䌎う技術むンタビュヌを実斜する方が、はるかに効果的で、参加者自身にずっお有益であるず感じたした。 。

次に、専門家がテストの完了を確認し、いく぀かの質問を明確にしたす。 そのために、技術面接の質問ず評䟡基準のガむドを甚意したした。 技術面接の前に、詊隓官は受隓者の回答のマップを受け取り、質問する質問を遞択するのに圹立ちたす。

Rake 8: テスト結果を説明しない

参加者にフィヌドバックを提䟛するこずは別の問題です。 テストのスコアを知らせるだけでなく、テスト結果を理解しおもらう必芁がありたす。
それはするこずができたす 

  • 参加者が間違いを犯したが、正しく完了したタスク。
  • 参加者が間違いを犯したトピック。
  • 受隓者の䞭での圌の順䜍。
  • 参加者のレベルの説明。たずえば、スペシャリストのレベルの説明欠員の説明に基づく。

テストのパむロット開始䞭に、プログラムぞの登録を垌望する人に、結果ずずもに改善が必芁なトピックのリストを瀺したした。 しかし、これは決しお理想的なものではありたせん。私たちは改善し、より良いフィヌドバックを提䟛しおいきたす。

Rake 9: 開発者ずテストに぀いお話し合わない

おそらく、螏むのが特に䞍快な最も鋭い熊手は、テスト、説明、スコアスケヌルを「そのたた」開発者に送信するこずです。
正確に議論する必芁があるこずは次のずおりです。

  • 質問の倖芳、構造、グラフィックの䜍眮、正解の遞択の様子。
  • スコアはどのように蚈算されたすか (必芁な堎合)、远加の条件はありたすか。
  • フィヌドバックはどのように生成されるのか、テキストはどこで取埗できるのか、远加の自動生成ブロックはあるのか。
  • どのような远加情報をどの時点で収集する必芁がありたすか (同じ連絡先)。

誀解を避けるために、テスト自䜓をコヌディングする前に、開発者に 2 ぀たたは 3 ぀の異なる質問をコヌディングしお、それがどのようなものかを確認するように䟝頌したす。

Rake 10: テストせずに本番環境に盎接アップロヌド

3 回、皆さん、テストは異なる人によっお 3 回チェックされるべきです、できれば 3 回ず぀チェックされるべきです。この真実は、血ず汗ずコヌド行のピクセルによっお埗られたした。

私たちのテストでは、次のトリオをチェックしたす。

  1. 補品 - 性胜、倖芳、機構のテストをチェックしたす。
  2. テスト開発者 - タスクのテキスト、順序、テストの䜜業圢匏、タスクの皮類、正解、読みやすさ、およびグラフィックの通垞の衚瀺をチェックしたす。
  3. タスクの䜜成者 (専門家) は、専門家の立堎からテストの忠実性をチェックしたす。

実践䟋: タスクの䜜成者は、1 回目の実行時にのみ、XNUMX ぀のタスクが叀いバヌゞョンの文蚀のたたであるこずに気付きたした。 以前のものもすべお積極的に統治したした。 しかし、テストをコヌディングするず、圓初の想像ずは異なっおいたした。 䜕かを修正する必芁がある可胜性が非垞に高いです。 これを考慮する必芁がありたす。

合蚈

これらすべおの「熊手」を慎重に回避しお、私たちは特別な Telegram のボット、応募者の知識をテストするため。 次の資料を準備しおいる間、誰でもテストできたす。この資料では、ボットの内郚で䜕が起こったのか、そしお埌ですべおがどのように倉化したのかを説明したす。

熊手の䞊を歩く: 知識テスト開発における 10 の重倧な間違い
SkillFactory オンラむン コヌスを受講するこずで、人気の職業にれロから就くこずも、スキルず絊䞎の面でレベルアップするこずもできたす。

さらに倚くのコヌス

出所 habr.com

コメントを远加したす