Walking on a Rake: 10 Kritikal na Pagkakamali sa Knowledge Test Development

Walking on a Rake: 10 Kritikal na Pagkakamali sa Knowledge Test Development
Bago mag-enroll sa bagong kursong Machine Learning Advanced, sinusubok namin ang mga prospective na mag-aaral upang matukoy ang antas ng kanilang kahandaan at maunawaan kung ano ang eksaktong kailangan nilang ialok para makapaghanda para sa kurso. Ngunit lumitaw ang isang dilemma: sa isang banda, dapat nating subukan ang kaalaman sa Data Science, sa kabilang banda, hindi tayo makapag-ayos ng isang ganap na 4 na oras na pagsusulit.

Upang malutas ang problemang ito, nag-deploy kami ng isang TestDev headquarters sa mismong pangkat ng pagbuo ng kursong Data Science (at mukhang simula pa lang ito). Nagpapakita kami sa iyo ng isang listahan ng 10 mga pitfalls na nakatagpo kapag bumubuo ng mga pagsubok upang masuri ang kaalaman. Sana ay gumanda ng kaunti ang mundo ng online learning pagkatapos nito.

Rake 1: Pagkabigong malinaw na tukuyin ang mga layunin sa pagsubok

Upang matukoy nang tama ang mga layunin at lumikha ng isang pagsubok na isasaalang-alang ang mga ito, sa yugto ng pagpaplano dapat nating sagutin ang ilang mga katanungan:

  1. Ano ba talaga ang sinusuri natin? 
  2. Sa anong kapaligiran magaganap ang pagsubok at anong mga mekanika ang ginagamit? Ano ang mga limitasyon sa kapaligirang ito? Ang parehong puntong ito ay magbibigay-daan sa iyo na maunawaan ang mga teknikal na kinakailangan para sa aparato kung saan isasagawa ang pagsubok, at para din sa nilalaman (kung ang pagsubok ay kinuha mula sa mga telepono, ang mga larawan ay dapat na mabasa kahit sa isang maliit na screen, dapat itong posible na palakihin ang mga ito, atbp.).
  3. Gaano katagal ang pagsubok? Kailangan mong isipin ang tungkol sa mga kundisyon kung saan kukuha ng pagsubok ang user. May sitwasyon kaya kung saan kailangan niyang matakpan ang proseso ng pagsubok at pagkatapos ay magpatuloy muli?
  4. Magkakaroon ba ng feedback? Paano natin ito binubuo at inihahatid? Ano ang kailangan mong matanggap? Mayroon bang time lag sa pagitan ng test execution at feedback?

Sa aming kaso, nang masagot ang mga tanong na ito, tinukoy namin ang sumusunod na listahan ng mga layunin para sa pagsusulit:

  1. Dapat ipakita ng pagsusulit kung handa na ang mga mag-aaral sa hinaharap na kunin ang kurso at kung mayroon silang sapat na kaalaman at kasanayan.
  2. Ang pagsusulit ay dapat magbigay sa amin ng materyal para sa puna, ipahiwatig ang paksa kung saan nagkamali ang mga mag-aaral, upang mapagbuti nila ang kanilang kaalaman. Sasabihin namin sa iyo kung paano ito i-compose sa ibaba.

Rake 2: Pagkabigong gumuhit ng mga teknikal na detalye para sa ekspertong manunulat ng pagsubok

Upang makabuo ng mga item sa pagsubok, napakahalaga na isangkot ang isang dalubhasa sa larangan kung saan sinusuri ang kaalaman. At para sa isang dalubhasa, sa turn, kailangan mo ng karampatang teknikal na detalye (paglalarawan), na kinabibilangan ng mga paksa ng pagsusulit, ang kaalaman/kasanayang sinusuri at ang kanilang antas.

Ang isang dalubhasa ay hindi gagawa ng gayong mga teknikal na pagtutukoy para sa kanyang sarili, dahil ang kanyang trabaho ay upang makabuo ng mga gawain, hindi ang istraktura ng pagsubok. Bukod dito, kakaunti ang mga tao na gumagawa ng mga pagsusulit nang propesyonal, kahit na sa proseso ng pagtuturo. Ito ay itinuro sa isang hiwalay na specialty - psychometrics.

Kung nais mong mabilis na makilala ang psychometrics, pagkatapos ay sa Russia mayroon paaralan ng tag-init para sa lahat ng interesado. Para sa mas malalim na pag-aaral, mayroon ang Institute of Education master's degree at graduate school.

Kapag naghahanda ng mga teknikal na pagtutukoy, kinokolekta namin ang isang detalyadong paglalarawan ng pagsubok para sa dalubhasa (o mas mabuti, kasama niya): mga paksa ng mga gawain, uri ng mga gawain, ang kanilang numero.

Paano pumili ng uri ng mga gawain: na nagpasya sa mga paksa, napagpasyahan namin kung aling mga gawain ang pinakamahusay na subukan ito? Mga klasikong opsyon: bukas na gawain, maramihan o solong pagpipiliang gawain, pagtutugma, atbp. (huwag kalimutan ang tungkol sa mga teknikal na limitasyon ng kapaligiran ng pagsubok!). Pagkatapos matukoy at tukuyin ang uri ng mga gawain, mayroon kaming handa na teknikal na detalye para sa eksperto. Maaari mo itong tawaging isang detalye ng pagsubok.

Rake 3: Hindi kinasasangkutan ng isang eksperto sa pagbuo ng pagsubok

Kapag nalulubog ang isang dalubhasa sa pag-unlad ng pagsubok, napakahalaga hindi lamang upang ipahiwatig sa kanya ang "saklaw ng trabaho", ngunit upang isali siya sa mismong pamamaraan ng pag-unlad.

Paano gawing epektibo ang pakikipagtulungan sa isang eksperto hangga't maaari:

  • I-set up ito nang maaga at gumugol ng ilang oras sa pakikipag-usap tungkol sa agham ng pag-unlad ng pagsubok at psychometrics.
  • Ituon ang atensyon ng evaluator sa paggawa ng wasto at maaasahang tool sa pagtatasa, hindi isang listahan ng mga tanong.
  • Ipaliwanag na ang kanyang gawain ay may kasamang yugto ng paghahanda, hindi lamang ang pagbuo ng mga gawain mismo.

Maaaring isipin ng ilang eksperto (dahil sa kanilang likas na katangian) ito bilang isang pagsubok sa kanilang sariling gawain, at ipinapaliwanag namin sa kanila na kahit na gumawa kami ng mahuhusay na gawain, maaaring hindi sila umaangkop sa mga partikular na layunin sa pagsubok.

Upang mapabilis ang proseso, naghahanda kami ng talahanayan ng saklaw ng paksa (kaalaman at kasanayan) kasama ng eksperto, na bahagi ng detalye ng pagsubok. Ang talahanayang ito ay nagbibigay-daan sa amin upang tumpak na ayusin ang mga tanong at matukoy kung ano ang aming susukatin. Sa bawat partikular na kaso maaari itong i-compile nang bahagyang naiiba. Ang aming gawain ay suriin kung gaano kahusay na nauunawaan ng isang tao ang kaalaman at kasanayan ng mga nakaraang, pangunahing mga kurso upang maunawaan kung gaano siya kahanda na mag-aral sa isang bagong kurso.

Rake 4: Ang pag-iisip na ang eksperto ay "mas nakakaalam"

Mas nakakaalam ng paksa. Ngunit hindi ito palaging nagpapaliwanag nang malinaw. Napakahalaga na suriin ang mga salita ng mga takdang-aralin. Sumulat ng malinaw na mga tagubilin, halimbawa, "Pumili ng 1 tamang opsyon." Sa 90% ng mga kaso, ang mga eksperto ay naghahanda ng mga tanong sa paraang sila mismo ang nakakaintindi. At ayos lang. Ngunit bago ibigay ang pagsusulit sa mga kukuha nito, kailangang suriin at suklayin ang lahat upang ang mga taong kukuha ng pagsusulit ay lubos na maunawaan kung ano ang hinihingi sa kanila at hindi magkamali dahil lamang sa maaari nilang ma-misinterpret ang teksto ng gawain.

Upang maiwasan ang dobleng interpretasyon ng mga gawain, nagsasagawa kami ng mga "cognitive laboratories." Hinihiling namin sa mga tao mula sa target na madla na kumuha ng pagsusulit, sinasabi nang malakas kung ano ang iniisip nila at i-record ito nang detalyado. Sa "mga cognitive laboratories" maaari mong "mahuli" ang mga hindi malinaw na tanong, masamang salita, at makuha ang unang feedback sa pagsusulit.

Rake 5: Huwag pansinin ang oras ng pagpapatupad ng pagsubok

sarcasm mode: on
Siyempre, ang aming pagsubok ay ang pinakamahusay, lahat ay nangangarap na makapasa dito! Oo, lahat ng 4 na oras.
sarcasm mode: off

Kapag mayroong isang listahan ng lahat ng bagay na maaaring suriin, ang pangunahing bagay ay hindi gawin ito (sa unang tingin ito ay kakaiba, hindi ba?). Kailangan mong walang awa na pagputol, pagtukoy ng mga pangunahing kaalaman at kasanayan sa isang dalubhasa (oo, ang ilang mga kasanayan ay maaari ding masuri sa pagsusulit). Tinitingnan namin ang uri ng mga gawain at tinatantya ang target na oras ng pagkumpleto: kung ang lahat ay higit pa sa makatwirang mga limitasyon, pinutol namin ito!

Upang bawasan ang lakas ng tunog, maaari mo ring subukan (maingat) na subukan ang dalawang kasanayan sa isang gawain. Sa kasong ito, mahirap maunawaan kung bakit nagkamali ang tao, ngunit kung ginawa nang tama, ang parehong mga kasanayan ay maaaring isaalang-alang. Mahalagang tiyakin na ang 2 kasanayang ito ay tumutugma sa parehong lugar ng kaalaman.

Rake 6: Hindi nag-iisip sa pamamagitan ng sistema ng pagmamarka

Kadalasan, kapag nag-compile ng mga pagsusuri sa pagtatasa, ginagamit nila ang klasikong sistema ng pagmamarka, halimbawa, 1 puntos para sa madaling gawain at 2 puntos para sa mahirap. Ngunit hindi ito pangkalahatan. Ang kabuuan lamang ng mga puntos batay sa mga resulta ng pagsusulit ay hindi makapagsasabi sa amin ng marami: hindi namin alam kung para saan ang mga gawain natanggap ang mga puntong ito at maaari lamang naming matukoy ang bilang ng mga tamang gawain. Kailangan nating maunawaan nang eksakto kung anong mga kasanayan ang ipinapakita ng mga kumukuha ng pagsusulit. Bilang karagdagan, gusto naming bigyan sila ng feedback kung aling mga paksa ang kailangang pagbutihin.

Pagkatapos ng lahat, kami ay gumagawa ng isang pagsubok na hahatiin ang mga tao sa mga handa at sa mga hindi pa handang kumpletuhin ang programa; kami ay magpapayo sa ilan na maghanda para sa kurso sa pamamagitan ng libreng pagsasanay. Mahalaga para sa amin na ang grupong ito ay kinabibilangan lamang ng mga talagang nangangailangan nito at handa para dito.

Ano ang ginagawa namin sa aming sitwasyon: tinutukoy namin sa loob ng nagtatrabaho na grupo ng mga developer ng pagsubok kung aling mga grupo ng mga tao ang kailangang makilala (halimbawa, handa nang matuto, bahagyang handa) at bumuo ng isang talahanayan ng mga katangian ng mga naturang grupo, na nagpapahiwatig kung anong mga kasanayan at kaalaman ay may kaugnayan para sa pangkat ng handa na matuto ng pagsasanay. Sa ganitong paraan maaari mong bumalangkas ang "kahirapan" ng mga gawain para sa mga naturang pagsusulit.

Rake 7: Awtomatikong suriin ang mga resulta

Siyempre, ang pagtatasa ay dapat na layunin hangga't maaari, kaya ang ilan sa mga materyal ng mag-aaral ay awtomatikong tinasa, "sa pamamagitan ng mga susi" - paghahambing sa mga tamang sagot. Kahit na walang espesyal na sistema ng pagsubok, maraming libreng solusyon. At kung nauunawaan mo ang mga prinsipyo ng pagsulat ng mga script, magagawa mo ang anumang gusto mo sa mga Google form at mga resulta sa mga talahanayan. Kung ang ilan sa mga gawain ay sinuri ng mga eksperto, kailangan nating isipin ang tungkol sa paghahatid ng mga sagot sa mga eksperto, nang walang impormasyon tungkol sa mga kumukuha ng pagsusulit. At isipin kung paano isasama ang mga resulta ng pagsusuri ng eksperto sa panghuling pagtatasa.

Noong una, gusto naming gumawa ng ilang open-ended na gawain gamit ang code, kung saan sinusuri ng mga eksperto ang mga solusyon batay sa paunang nabuong pamantayan, at naghanda pa kami ng system na nag-e-export ng mga indibidwal na sagot mula sa mga kalahok sa pagsubok patungo sa isang espesyal na talahanayan para sa mga eksperto, at pagkatapos ay ini-import ang mga resulta sa isang talahanayan na may mga kalkulasyon ng pagtatasa. Ngunit pagkatapos makipag-usap sa mga kinatawan ng target na madla, tagapamahala ng produkto at taga-disenyo ng edukasyon, nadama namin na ang pagsasagawa ng isang teknikal na panayam na may agarang feedback ng eksperto at talakayan ng code, pati na rin ang mga indibidwal na isyu, ay magiging mas epektibo at kapaki-pakinabang para sa mga kalahok mismo. .

Ngayon ang dalubhasa ay nagpapatunay sa pagkumpleto ng pagsusulit, nililinaw ang ilang mga katanungan. Para magawa ito, naghanda kami ng gabay ng mga tanong at pamantayan sa pagtatasa para sa isang teknikal na panayam. Bago ang teknikal na panayam, ang tagasuri ay tumatanggap ng mapa ng mga sagot ng kumukuha ng pagsusulit upang matulungan siyang pumili ng mga itatanong.

Rake 8: Huwag ipaliwanag ang mga resulta ng pagsusulit

Ang pagbibigay ng feedback sa mga kalahok ay isang hiwalay na isyu. Kailangan nating hindi lamang ipaalam ang tungkol sa marka ng pagsusulit, ngunit magbigay din ng pag-unawa sa mga resulta ng pagsusulit.
Ang mga ito ay maaaring: 

  • Mga gawain kung saan nagkamali ang kalahok at nakumpleto niya nang tama.
  • Mga paksa kung saan nagkamali ang kalahok.
  • Ang kanyang ranking sa mga kumukuha ng pagsusulit.
  • Paglalarawan ng antas ng kalahok, alinsunod, halimbawa, sa paglalarawan ng antas ng espesyalista (batay sa paglalarawan ng mga bakante).

Sa panahon ng pilot launch ng aming pagsubok, sa mga gustong mag-enroll sa programa, kasama ang mga resulta, ipinakita namin ang isang listahan ng mga paksa na kailangang pagbutihin. Ngunit tiyak na hindi ito perpekto, pagbubutihin namin at magbibigay ng mas mahusay na feedback.

Rake 9: Huwag talakayin ang pagsubok sa mga developer

Marahil ang pinakamatulis na rake, na kung saan ay lalong hindi kasiya-siya sa hakbang, ay upang ipadala ang pagsubok, paglalarawan at scoring scale sa mga developer "as is".
Ano ang eksaktong kailangang pag-usapan:

  • Ang hitsura ng mga tanong, ang istraktura, ang posisyon ng mga graphics, kung ano ang hitsura ng pagpili ng tamang sagot.
  • Paano kinakalkula ang marka (kung kinakailangan), mayroon bang anumang karagdagang kundisyon.
  • Paano nabuo ang feedback, kung saan makakakuha ng mga text, mayroon bang karagdagang awtomatikong nabuong mga bloke.
  • Anong karagdagang impormasyon ang kailangan mong kolektahin at sa anong punto (parehong mga contact).

Para maiwasan ang mga hindi pagkakaunawaan, hinihiling namin sa aming mga developer na mag-code ng 2 o 3 magkakaibang tanong para makita nila kung ano ang hitsura ng mga ito bago i-coding ang pagsubok mismo.

Rake 10: Nang walang pagsubok, direktang mag-upload sa produksyon

3 beses, guys, ang pagsusulit ay dapat suriin ng 3 beses ng iba't ibang tao, o mas mabuti pa, 3 beses bawat isa. Ang katotohanang ito ay nakuha gamit ang dugo, pawis at pixel ng mga linya ng code.

Sinusuri ng aming pagsubok ang sumusunod na trio:

  1. Produkto - sinusuri ang pagsubok para sa pagganap, hitsura, mekanika.
  2. Test developer - sinusuri ang teksto ng mga gawain, ang kanilang pagkakasunud-sunod, paraan ng pagtatrabaho sa pagsubok, mga uri ng mga gawain, mga tamang sagot, pagiging madaling mabasa at normal na pagtingin sa mga graphics.
  3. Sinusuri ng may-akda ng mga gawain (eksperto) ang pagsubok para sa katapatan mula sa isang posisyong dalubhasa.

Isang halimbawa mula sa pagsasanay: sa ikatlong pagtakbo lamang, nakita ng may-akda ng mga gawain na 1 gawain ang nanatili sa lumang bersyon ng mga salita. Ang lahat ng nauna ay aktibong namuno. Ngunit nang na-code ang pagsubok, iba ang hitsura nito kaysa sa orihinal na naisip. Malaki ang posibilidad na may kailangang itama. Ito ay kailangang isaalang-alang.

Kabuuan

Maingat na nilalampasan ang lahat ng "rake" na ito, lumikha kami ng isang espesyal bot sa Telegram, upang subukan ang kaalaman ng mga aplikante. Sinuman ay maaaring subukan ito habang inihahanda namin ang susunod na materyal, kung saan sasabihin namin sa iyo kung ano ang nangyari sa loob ng bot, at kung ano ang lahat ng ito ay nagbago sa ibang pagkakataon.

Walking on a Rake: 10 Kritikal na Pagkakamali sa Knowledge Test Development
Maaari kang makakuha ng hinahanap na propesyon mula sa simula o Level Up sa mga tuntunin ng mga kasanayan at suweldo sa pamamagitan ng pagkuha ng mga online na kurso sa SkillFactory:

Higit pang mga kurso

Pinagmulan: www.habr.com

Magdagdag ng komento