Chůze hrábě: 10 kritických chyb při vytváření znalostního testu

Chůze hrábě: 10 kritických chyb při vytváření znalostního testu
Před zapsáním do nového kurzu Machine Learning Advanced otestujeme potenciální studenty, abychom zjistili jejich úroveň připravenosti a pochopili, co přesně musí nabídnout, aby se na kurz připravili. Nastává ale dilema: na jednu stranu si musíme otestovat znalosti Data Science, na druhou stranu nemůžeme zařídit plnohodnotnou 4hodinovou zkoušku.

Abychom tento problém vyřešili, nasadili jsme centrálu TestDev přímo ve vývojovém týmu kurzu Data Science (a zdá se, že je to jen začátek). Představujeme vám seznam 10 „hráblů“, na které se šlape při vypracovávání testů pro hodnocení znalostí. Doufáme, že se svět online učení po tomto trochu zlepší.

Rake 1: Nedefinujte jasně cíle testování

Abychom mohli správně definovat cíle a napsat test, který je vezme v úvahu, ve fázi plánování si musíme odpovědět na několik otázek:

  1. Co vlastně kontrolujeme? 
  2. V jakém prostředí bude testování probíhat a jaké mechaniky se používají? Jaká jsou omezení v tomto prostředí? Stejná položka vám umožní porozumět technickým požadavkům na zařízení, na kterém bude test probíhat, a také na obsah (pokud je test pořízen z telefonů, měly by být obrázky čitelné i na malé obrazovce, měly by být je možné je zvětšit atd.).
  3. Jak dlouho bude testování trvat? Je třeba myslet na to, za jakých podmínek bude uživatel test absolvovat. Je možné, že potřebuje přerušit proces testování a pak znovu pokračovat?
  4. Bude zpětná vazba? Jak jej tvoříme a dodáváme? Co potřebujete získat? Existuje časový odstup mezi provedením testu a zpětnou vazbou?

V našem případě jsme po zodpovězení těchto otázek definovali následující seznam cílů testu:

  1. Test by měl ukázat, zda jsou budoucí studenti připraveni na kurz, zda mají dostatek znalostí a dovedností.
  2. Test by nám měl poskytnout materiál pro zpětnou vazbu, uvést téma, ve kterém žáci udělali chybu, aby si mohli zlepšit své znalosti. Jak to udělat - řekneme dále.

Rake 2: Nevystavujte TOR pro odborníka - kompilátora testu

Pro sestavení testových položek je velmi důležité zapojit odborníka z oboru, ve kterém se znalosti testují. A pro odborníka zase potřebujete kompetentní TK (popis), který zahrnuje témata testu, testované znalosti/dovednosti a jejich úroveň.

Odborník si takovou TK neudělá, protože jeho úkolem je vymýšlet úkoly, nikoli strukturu testu. Navíc, zatímco málokdo vyvíjí testy profesionálně, dokonce i v procesu výuky. To se vyučuje v samostatné specializaci - psychometrika.

Pokud se chcete rychle seznámit s psychometrií, pak v Rusku existují letní škola pro všechny zájemce. Pro hlubší studium má Institut vzdělávání magistrát a postgraduální školu.

Při přípravě TOR shromažďujeme pro odborníka (nebo lépe společně s ním) podrobný popis testu: témata úloh, typ úloh, jejich počet.

Jak vybrat typ úkolů: když jsme se rozhodli pro témata, rozhodneme se, které úkoly to nejlépe prověří? Klasické možnosti: úloha s otevřenou odpovědí, úloha s více nebo jedním výběrem, párování atd. (nezapomeňte na technická omezení prostředí, ve kterém se testování provádí!). Po určení a předepsání typu úloh máme pro odborníka připravený TOR. Můžete tomu říkat specifikace testu.

Rake 3: Nezapojujte odborníka do vývoje testů

Při ponoření odborníka do vývoje testu je velmi důležité nejen mu naznačit „náplň práce“, ale zapojit ho do samotného procesu vývoje.

Jak co nejvíce zefektivnit spolupráci s odborníkem:

  • Nastavte si to předem a věnujte nějaký čas mluvení o vědě o vývoji testů, psychometrii.
  • Zaměřte hodnotitele na vytvoření platného a spolehlivého hodnotícího nástroje spíše než na seznam otázek.
  • Vysvětlete, že jeho práce zahrnuje přípravnou fázi, nejen vypracování samotných úkolů.

Někteří odborníci to (vzhledem k jejich povaze) mohou vnímat jako test vlastní práce a my jim vysvětlujeme, že i při tvorbě excelentních úloh se pro konkrétní testovací účely prostě nemusí hodit.

Aby proces probíhal rychle, připravujeme s odborníkem tabulku pokrytí témat (znalostí a dovedností), která je součástí specifikace testu. Právě tato tabulka nám umožňuje přesně vypracovat otázky, určit, co budeme měřit. V každém případě to může být napsáno trochu jinak. Náš úkol: ověřit, jak dobře se člověk orientuje ve znalostech a dovednostech z předchozích, základních kurzů, aby pochopil, jak je připraven na učení v novém kurzu.

Rake 4: Myslet si, že expert „ví nejlépe“

Zná téma lépe. Ale ne vždy to dává smysl. Je velmi důležité kontrolovat znění zadání. Napište jasné pokyny, například „Vyberte 1 správnou možnost“. V 90 % odborníci připravují otázky tak, aby jim sami rozuměli. A to je v pořádku. Před předáním testu těm, kteří ho budou dělat, je ale potřeba vše zkontrolovat a očesat, aby lidé, kteří test dělají, přesně pochopili, co se po nich požaduje, a nedělali chyby jen proto, že by si mohli text úlohy špatně vyložit.

Abychom se vyhnuli dvojí interpretaci úkolů, vedeme „kognitivní laboratoře“. Žádáme lidi ze Střední Asie, aby test provedli, řekli nahlas, co si myslí, a podrobně to opravili. Na „kognitivních laboratořích“ můžete „chytit“ nesrozumitelné otázky, špatné formulace, získat první zpětnou vazbu na test.

Rake 5: Ignorovat čas provedení testu

režim sarkasmu: zapnutý
Náš test je samozřejmě nejlepší, každý sní o tom, že ho zvládne! Ano, všechny 4 hodiny.
režim sarkasmu: vypnuto

Když existuje seznam všeho, co lze zkontrolovat, hlavní věcí je nedělat to (na první pohled to zní divně, že?). Je třeba nemilosrdně stříhat, vyzdvihovat klíčové znalosti a dovednosti s odborníkem (ano, řadu dovedností lze otestovat i v testu). Podíváme se na typ úloh a odhadneme cílovou dobu provádění: pokud je stále více než rozumné limity, zkrátíme to!

Chcete-li snížit hlasitost, můžete také zkusit (úhledně) otestovat dvě dovednosti v jednom úkolu. V tomto případě je obtížné pochopit, proč osoba udělala chybu, ale pokud se to udělá správně, lze vzít v úvahu obě dovednosti. Je důležité se ujistit, že tyto 2 dovednosti odpovídají stejné oblasti odbornosti.

Rake 6: Nepřemýšlejte nad bodovacím systémem

Často při sestavování hodnotících testů používají klasický bodovací systém, např. 1 bod za snadné úkoly a 2 body za obtížné. Ale není univerzální. Součet výsledků testů nám jen málo řekne: nevíme, za které úkoly jsme tyto body získali, a můžeme pouze určit počet správných úkolů. Potřebujeme přesně porozumět tomu, jaké přesně účastníci testu dovedností prokazují. Navíc jim chceme poskytnout zpětnou vazbu, jaká témata je třeba zlepšit.

Děláme přeci test, který rozdělí lidi na připravené a nepřipravené na program, některým poradíme, aby se připravili na kurz o bezplatném vzdělávání. Je pro nás důležité, aby se do této skupiny dostali jen ti, kteří to opravdu potřebují a jsou na to připraveni.

Co děláme v naší situaci: v rámci pracovní skupiny vývojářů testů určíme, které skupiny lidí je třeba rozlišit (například připraveni se učit, částečně připraveni) a vytvoříme tabulku charakteristik těchto skupin s uvedením toho, jaké dovednosti a znalosti budou relevantní pro skupinu lidí, kteří jsou připraveni se učit. Takže si můžete vytvořit "obtížnost" úkolů pro takové testy.

Rake 7: Vyhodnocování výsledků pouze automaticky

Hodnocení by samozřejmě mělo být co nejobjektivnější, proto jsou některé materiály studentů hodnoceny automaticky, „na klíčky“ – porovnáním se správnými odpověďmi. I když neexistuje žádný speciální testovací systém, existuje spousta bezplatných řešení. A pokud rozumíte principům psaní skriptů, můžete s formuláři Google a výsledky v tabulkách dělat cokoli. Pokud některé z úkolů kontrolují odborníci, pak musíme přemýšlet o doručení odpovědí odborníkům bez informací o prodejcích. A přemýšlejte o tom, jak začlenit výsledky odborné kontroly do konečného posouzení.

Původně jsme chtěli udělat několik otevřených úloh s kódem, kdy experti vyhodnocují řešení podle předem vytvořených kritérií, a dokonce jsme připravili systém, který jednotlivé odpovědi účastníků testu exportuje do speciální tabulky pro experty a výsledky pak importuje do tabulky s výpočet klasifikace. Ale po diskusi se zástupci cílové skupiny, produktovým manažerem a pedagogickým designérem jsme se rozhodli, že by bylo mnohem efektivnější a užitečnější pro účastníky vést technický rozhovor s okamžitou zpětnou vazbou odborníků a diskusí o kodexu. jako individuální otázky.

Nyní odborník ověřuje složení testu a objasňuje některé otázky. K tomu jsme připravili průvodce otázkami, hodnotícími kritérii pro technický pohovor. Před technickým pohovorem zkoušející obdrží odpovědní kartu účastníka testu, aby mohl vybrat otázky, které se má zeptat.

Rake 8: Nevysvětlujte výsledky testů

Prezentace zpětné vazby účastníkům je samostatný problém. Potřebujeme nejen informovat o skóre testu, ale také porozumět výsledkům testu.
Mohou to být: 

  • Úkoly, ve kterých se účastník spletl, a které splnil správně.
  • Témata, ve kterých se účastník dopustil chyby.
  • Jeho umístění mezi těmi, kteří skládají zkoušku.
  • Popis úrovně účastníka v souladu např. s popisem úrovně specialistů (na základě popisu volných pracovních míst).

Během pilotního spuštění našeho testu jsme těm, kteří se chtěli do programu zapsat, spolu s výsledky ukázali seznam témat, která bylo potřeba vytáhnout. To ale určitě není ideální, budeme se zlepšovat a dělat zpětnou vazbu lépe.

Rake 9: Nemluvte o testu s vývojáři

Snad nejostřejší hra, na kterou je obzvláště nepříjemné šlápnout, je poslat test, popis a bodovací stupnici vývojářům ve stavu „tak jak je“.
Co je třeba projednat:

  • Vzhled otázek, struktura, umístění grafiky, jak vypadá výběr správné odpovědi.
  • Jak se počítá skóre (v případě potřeby), existují nějaké další podmínky.
  • Jak se tvoří zpětná vazba, kde získat texty, existují nějaké další, automaticky generované bloky.
  • Jaké další informace potřebujete shromáždit a v jakém okamžiku (stejné kontakty).

Abychom předešli nedorozuměním, žádáme naše vývojáře, aby nakódovali 2 nebo 3 různé otázky, abychom viděli, jak vypadají, než naprogramujeme samotný test.

Rake 10: Bez testování, ihned nahrát do výroby

3x, chlapi, různí lidé by měli test zkontrolovat 3x a lépe - každý 3x. Tato pravda byla získána krví, potem a pixely pomocí řádků kódu.

Náš test ověřuje následující trojici:

  1. Produkt - kontroluje test na výkon, vzhled, mechaniku.
  2. Vývojář testu - kontroluje text úloh, jejich pořadí, formu práce s testem, typy úloh, správné odpovědi, čitelnost a běžné prohlížení grafiky.
  3. Autor úloh (expert) - kontroluje test na věrnost z pozice odborníka.

Příklad z praxe: až při třetím spuštění autor úloh viděl, že 1 úloha zůstala ve staré verzi znění. Všichni předchozí také aktivně vládli. Když byl ale test zakódován, vypadal jinak, než si původně představoval. S největší pravděpodobností se bude muset něco opravit. To je třeba vzít v úvahu.

Celkový

Opatrným obcházením všech těchto „hráb“ jsme vytvořili speciál robot v Telegramu, prověřit znalosti uchazečů. Kdokoli si to může vyzkoušet, zatímco připravujeme další materiál, ve kterém vám řekneme, co se uvnitř robota stalo a v co se to všechno později proměnilo.

Chůze hrábě: 10 kritických chyb při vytváření znalostního testu
Vyhledávanou profesi můžete získat od nuly nebo Level Up, pokud jde o dovednosti a plat, absolvováním online kurzů SkillFactory:

Více kurzů

Zdroj: www.habr.com

Přidat komentář