راه رفتن روی چنگک: 10 اشتباه مهم در توسعه آزمون دانش

راه رفتن روی چنگک: 10 اشتباه مهم در توسعه آزمون دانش
قبل از ثبت نام در دوره جدید یادگیری ماشینی پیشرفته، ما دانش آموزان آینده نگر را آزمایش می کنیم تا سطح آمادگی آنها را مشخص کنیم و بفهمیم که دقیقاً چه چیزی برای آماده شدن برای دوره باید ارائه دهند. اما یک معضل پیش می‌آید: از یک سو، ما باید دانش را در علم داده آزمایش کنیم، از سوی دیگر، نمی‌توانیم یک امتحان کامل 4 ساعته ترتیب دهیم.

برای حل این مشکل، ما یک دفتر مرکزی TestDev را دقیقاً در تیم توسعه دوره علوم داده مستقر کرده‌ایم (و به نظر می‌رسد این تازه شروع کار است). ما لیستی از 10 دام را به شما ارائه می کنیم که در هنگام ایجاد آزمون هایی برای ارزیابی دانش با آنها مواجه می شوید. امیدوارم دنیای آموزش آنلاین بعد از این کمی بهتر شود.

رتبه 1: ناتوانی در تعریف واضح اهداف آزمون

به منظور تعریف صحیح اهداف و ایجاد آزمونی که آنها را در نظر می گیرد، در مرحله برنامه ریزی باید به چند سوال پاسخ دهیم:

  1. ما در واقع چه چیزی را بررسی می کنیم؟ 
  2. آزمایش در چه محیطی انجام می شود و از چه مکانیکی استفاده می شود؟ در این محیط چه محدودیت هایی وجود دارد؟ همین نکته به شما این امکان را می دهد که الزامات فنی دستگاهی را که آزمایش روی آن انجام می شود و همچنین محتوای آن را درک کنید (اگر آزمایش از گوشی گرفته شده است، تصاویر باید حتی روی یک صفحه نمایش کوچک قابل خواندن باشند. امکان بزرگنمایی آنها و غیره وجود داشته باشد.
  3. آزمایش چقدر طول می کشد؟ شما باید در مورد شرایطی که کاربر در آن آزمون شرکت می کند فکر کنید. آیا ممکن است شرایطی پیش بیاید که او نیاز داشته باشد روند آزمایش را قطع کند و سپس دوباره ادامه دهد؟
  4. آیا بازخوردی وجود خواهد داشت؟ چگونه آن را تشکیل می دهیم و تحویل می دهیم؟ برای دریافت چه چیزی نیاز دارید؟ آیا بین اجرای تست و بازخورد فاصله زمانی وجود دارد؟

در مورد ما، پس از پاسخ به این سوالات، لیست اهداف زیر را برای آزمون تعریف کردیم:

  1. این آزمون باید نشان دهد که آیا دانشجویان آینده برای شرکت در دوره آماده هستند و آیا دانش و مهارت کافی دارند یا خیر.
  2. آزمون باید مطالبی را برای بازخورد به ما بدهد، مبحثی را که دانش آموزان در آن اشتباه کرده اند نشان دهد تا بتوانند دانش خود را بهبود بخشند. در زیر به شما خواهیم گفت که چگونه آن را بسازید.

رتبه 2: عدم تنظیم مشخصات فنی برای نویسنده آزمون خبره

برای نوشتن آیتم های آزمایشی، مشارکت یک متخصص در زمینه ای که دانش در آن آزمایش می شود بسیار مهم است. و برای یک متخصص، به نوبه خود، شما به یک مشخصات فنی (توضیحات) شایسته نیاز دارید که شامل موضوعات آزمون، دانش/مهارت های مورد آزمایش و سطح آنها باشد.

یک متخصص چنین مشخصات فنی را برای خود انجام نمی دهد، زیرا وظیفه او ارائه وظایف است، نه ساختار آزمون. علاوه بر این، تعداد کمی از افراد تست ها را به صورت حرفه ای، حتی در فرآیند تدریس، توسعه می دهند. این در یک تخصص جداگانه - روان سنجی تدریس می شود.

اگر می خواهید به سرعت با روان سنجی آشنا شوید، در روسیه وجود دارد مدرسه تابستانی برای همه علاقه مندان برای مطالعه عمیق تر، موسسه آموزش دادگستری و تحصیلات تکمیلی

هنگام تهیه مشخصات فنی، شرح مفصلی از آزمون را برای کارشناس (یا بهتر است، همراه با او) جمع آوری می کنیم: موضوعات وظایف، نوع وظایف، تعداد آنها.

نحوه انتخاب نوع کارها: با تصمیم گیری در مورد موضوعات، تصمیم می گیریم که کدام کارها می توانند بهترین آزمایش را انجام دهند؟ گزینه های کلاسیک: کار با پایان باز، کار چند گزینه ای یا تک گزینه ای، تطبیق و غیره (محدودیت های فنی محیط تست را فراموش نکنید!). پس از تعیین و مشخص شدن نوع وظایف، مشخصات فنی آماده برای کارشناس داریم. می توانید آن را مشخصات آزمایشی بنامید.

Rake 3: عدم مشارکت یک متخصص در توسعه تست

هنگام غوطه ور کردن یک متخصص در توسعه آزمایش، بسیار مهم است که نه تنها "حوزه کار" را به او نشان دهید، بلکه او را در خود روند توسعه مشارکت دهید.

چگونه می توان کار با یک متخصص را تا حد ممکن مؤثر کرد:

  • آن را از قبل تنظیم کنید و مدتی را صرف صحبت در مورد علم توسعه آزمون و روانسنجی کنید.
  • توجه ارزیاب را بر ایجاد یک ابزار ارزیابی معتبر و قابل اعتماد متمرکز کنید، نه فهرستی از سوالات.
  • توضیح دهید که کار او شامل یک مرحله مقدماتی است، نه تنها توسعه خود وظایف.

برخی از کارشناسان (به دلیل ماهیتشان) ممکن است این را به عنوان آزمایشی برای کار خود بدانند، و ما به آنها توضیح می دهیم که حتی اگر کارهای عالی ایجاد کنیم، ممکن است به سادگی با اهداف آزمایشی خاص مطابقت نداشته باشند.

برای اینکه روند سریع پیش برود، جدولی از پوشش موضوع (دانش و مهارت) با کارشناس تهیه می کنیم که بخشی از مشخصات آزمون است. این جدول است که به ما امکان می دهد تا به طور دقیق سؤالات را بررسی کنیم و تعیین کنیم که چه چیزی را اندازه گیری خواهیم کرد. در هر مورد خاص می توان آن را کمی متفاوت کامپایل کرد. وظیفه ما این است که بررسی کنیم که یک فرد چقدر دانش و مهارت های دوره های قبلی و پایه را درک می کند تا بفهمیم چقدر برای مطالعه در یک دوره جدید آماده است.

رتبه 4: فکر کردن به اینکه متخصص "بهترین می داند"

موضوع را بهتر می داند. اما همیشه به وضوح توضیح نمی دهد. بررسی متن تکالیف بسیار مهم است. دستورالعمل های واضح بنویسید، به عنوان مثال، "1 گزینه صحیح را انتخاب کنید." در 90 درصد موارد، کارشناسان سوالات را به گونه ای آماده می کنند که خودشان متوجه شوند. و این اشکالی ندارد. اما قبل از سپردن آزمون به کسانی که در آن شرکت خواهند کرد، همه چیز باید بررسی و شانه شود تا افرادی که در آزمون شرکت می کنند دقیقاً بفهمند چه چیزی از آنها خواسته می شود و فقط به این دلیل که ممکن است متن تکلیف را اشتباه تفسیر کنند، اشتباه نکنند.

برای جلوگیری از تفسیر مضاعف از وظایف، ما "آزمایشگاه های شناختی" را انجام می دهیم. ما از افراد مخاطب می خواهیم که در آزمون شرکت کنند و آنچه را که فکر می کنند با صدای بلند بیان کنند و آن را با جزئیات ثبت کنند. در «آزمایشگاه‌های شناختی» می‌توانید سؤالات نامشخص، عبارت‌های بد را «گرفتن» کنید و اولین بازخورد آزمون را دریافت کنید.

Rake 5: زمان اجرای تست را نادیده بگیرید

حالت طعنه: روشن
البته آزمون ما بهترین است، همه آرزوی قبولی در آن را دارند! بله تمام 4 ساعت
حالت طعنه: خاموش

وقتی لیستی از همه چیزهایی که می توان بررسی کرد وجود دارد، نکته اصلی این است که آن را انجام ندهید (در نگاه اول عجیب به نظر می رسد، اینطور نیست؟). شما باید بی رحمانه برش دهید، دانش و مهارت های کلیدی را با یک متخصص شناسایی کنید (بله، تعدادی از مهارت ها را نیز می توان در آزمون آزمایش کرد). ما به نوع کارها نگاه می کنیم و زمان تکمیل هدف را تخمین می زنیم: اگر همه چیز هنوز بیش از حد معقول باشد، آن را کاهش می دهیم!

برای کاهش صدا، می‌توانید دو مهارت را در یک کار (با دقت) آزمایش کنید. در این مورد، درک دلیل اشتباه شخص دشوار است، اما اگر به درستی انجام شود، می توان هر دو مهارت را در نظر گرفت. مهم است که مطمئن شوید که این 2 مهارت با همان حوزه دانش مطابقت دارند.

ریک 6: فکر نکردن از طریق سیستم امتیازدهی

اغلب هنگام تدوین تست های ارزیابی از سیستم نمره دهی کلاسیک استفاده می کنند، به عنوان مثال برای کارهای آسان 1 امتیاز و برای کارهای دشوار 2 امتیاز. اما جهانی نیست. فقط مجموع امتیازات بر اساس نتایج آزمون چیز زیادی به ما نمی گوید: ما نمی دانیم این امتیازات برای کدام وظایف دریافت شده است و فقط می توانیم تعداد وظایف صحیح را تعیین کنیم. ما باید دقیقاً بفهمیم که آزمون دهندگان چه مهارت هایی را نشان می دهند. علاوه بر این، می‌خواهیم در مورد موضوعاتی که نیاز به بهبود دارند، به آنها بازخورد بدهیم.

بالاخره ما در حال انجام تستی هستیم که افراد را به دو دسته آماده و ناآماده برای تکمیل برنامه تقسیم می کند؛ به برخی توصیه می کنیم از طریق آموزش رایگان برای دوره آماده شوند. برای ما مهم است که این گروه فقط شامل کسانی باشد که واقعاً به آن نیاز دارند و برای آن آماده هستند.

در شرایط خود چه می کنیم: در گروه کاری توسعه دهندگان آزمون تعیین می کنیم که کدام گروه از افراد باید شناسایی شوند (مثلاً آماده برای یادگیری، تا حدی آماده) و جدولی از ویژگی های چنین گروه هایی را تشکیل می دهیم که نشان می دهد چه مهارت ها و دانشی دارند. مربوط به گروه آموزش های آماده برای یادگیری خواهد بود. به این ترتیب می توانید "سختی" وظایف را برای چنین آزمون هایی فرموله کنید.

Rake 7: نتایج را فقط به صورت خودکار ارزیابی کنید

البته، ارزیابی باید تا حد امکان عینی باشد، بنابراین برخی از مطالب دانش آموز به طور خودکار، "با کلید" - در مقایسه با پاسخ های صحیح، ارزیابی می شوند. حتی اگر سیستم تست خاصی وجود نداشته باشد، راه حل های رایگان زیادی وجود دارد. و اگر اصول نوشتن اسکریپت ها را می دانید، می توانید هر کاری که می خواهید با فرم ها و نتایج گوگل در جداول انجام دهید. اگر برخی از کارها توسط کارشناسان بررسی شود، باید به فکر ارائه پاسخ به کارشناسان، بدون اطلاع از داوطلبان باشیم. و به این فکر کنید که چگونه می توان نتایج آزمایش کارشناسی را در ارزیابی نهایی ادغام کرد.

ما در ابتدا می‌خواستیم چندین کار باز با کد ایجاد کنیم که در آن کارشناسان راه‌حل‌ها را بر اساس معیارهای از پیش تعیین شده ارزیابی می‌کنند و حتی سیستمی را آماده کردیم که پاسخ‌های فردی شرکت‌کنندگان در آزمون را به جدولی ویژه برای کارشناسان صادر می‌کند و سپس نتایج را وارد می‌کند. جدولی با محاسبات ارزیابی اما پس از بحث با نمایندگان مخاطبین هدف، مدیر محصول و طراح آموزشی، احساس کردیم که انجام یک مصاحبه فنی با بازخورد فوری کارشناسان و بحث در مورد کد و همچنین مسائل فردی برای خود شرکت کنندگان بسیار موثرتر و مفیدتر خواهد بود. .

اکنون کارشناس تکمیل آزمون را تأیید می کند و برخی از سؤالات را روشن می کند. برای این کار راهنمای سوالات و معیارهای سنجش مصاحبه فنی را آماده کرده ایم. قبل از مصاحبه فنی، ممتحن نقشه ای از پاسخ های آزمون شونده را دریافت می کند تا به او در انتخاب سوالات برای پرسیدن کمک کند.

راک 8: نتایج آزمایش را توضیح ندهید

ارائه بازخورد به شرکت کنندگان موضوعی جداگانه است. ما نه تنها باید در مورد نمره آزمون اطلاع رسانی کنیم، بلکه باید درک درستی از نتایج آزمون نیز ارائه دهیم.
اینها می توانند: 

  • وظایفی که شرکت کننده در آنها اشتباه کرده و آنها را به درستی انجام داده است.
  • موضوعاتی که شرکت کننده در آنها اشتباه کرده است.
  • رتبه او در بین شرکت کنندگان در آزمون.
  • شرح سطح شرکت کننده، مطابق، به عنوان مثال، با شرح سطح متخصص (بر اساس شرح جاهای خالی).

در طول راه اندازی آزمایشی آزمون ما، به کسانی که می خواستند در برنامه ثبت نام کنند، به همراه نتایج، لیستی از موضوعاتی را که نیاز به بهبود داشتند نشان دادیم. اما مطمئناً این ایده آل نیست، ما بهبود خواهیم یافت و بازخورد بهتری ارائه خواهیم کرد.

Rake 9: در مورد آزمایش با توسعه دهندگان بحث نکنید

شاید تیزترین چنگک، که به ویژه قدم گذاشتن روی آن ناخوشایند است، ارسال آزمون، توضیحات و مقیاس امتیازدهی برای توسعه دهندگان «همانطور که هست» باشد.
دقیقاً چه چیزی باید مورد بحث قرار گیرد:

  • ظاهر سوالات، ساختار، موقعیت گرافیک، انتخاب پاسخ صحیح چگونه به نظر می رسد.
  • نحوه محاسبه امتیاز (در صورت نیاز)، آیا شرایط اضافی وجود دارد؟
  • بازخورد چگونه ایجاد می شود، از کجا می توان متون را دریافت کرد، آیا بلوک های اضافی تولید شده به صورت خودکار وجود دارد.
  • چه اطلاعات اضافی را باید جمع آوری کنید و در چه مرحله ای (همان مخاطبین).

برای جلوگیری از سوء تفاهم، از توسعه دهندگان خود می خواهیم که 2 یا 3 سؤال مختلف را کدنویسی کنند تا بتوانند قبل از کدنویسی خود آزمون، ظاهر آنها را ببینند.

Rake 10: بدون آزمایش، مستقیماً در قسمت تولید آپلود کنید

بچه ها 3 بار تست رو 3 بار یا بهتره هر کدوم 3 بار چک کنن این حقیقت با خون و عرق و پیکسل خط کد بدست اومد.

تست ما سه مورد زیر را بررسی می کند:

  1. محصول - تست را برای عملکرد، ظاهر، مکانیک بررسی می کند.
  2. توسعه دهنده آزمون - متن وظایف، ترتیب آنها، شکل کار با آزمون، انواع وظایف، پاسخ های صحیح، خوانایی و مشاهده عادی گرافیک را بررسی می کند.
  3. نویسنده وظایف (کارشناس) آزمون را از نظر وفاداری از موقعیت کارشناسی بررسی می کند.

مثالی از تمرین: فقط در اجرای سوم، نویسنده وظایف مشاهده کرد که 1 کار در نسخه قدیمی عبارت باقی مانده است. همه قبلی ها نیز فعالانه حکومت می کردند. اما زمانی که آزمون کدگذاری شد، متفاوت از آنچه در ابتدا تصور می شد به نظر می رسید. به احتمال زیاد چیزی باید اصلاح شود. این باید در نظر گرفته شود.

مجموع

با دور زدن همه این "شنل"، ما یک ویژه ایجاد کردیم ربات در تلگرام، برای آزمایش دانش متقاضیان. هر کسی می تواند آن را در حالی که ما در حال آماده کردن مطالب بعدی هستیم، آزمایش کند، که در آن به شما خواهیم گفت که در داخل ربات چه اتفاقی افتاده است، و بعداً به چه چیزی تبدیل شده است.

راه رفتن روی چنگک: 10 اشتباه مهم در توسعه آزمون دانش
با گذراندن دوره های آنلاین SkillFactory می توانید از ابتدا یا Level Up از نظر مهارت ها و دستمزد به یک حرفه مورد علاقه دست پیدا کنید:

دوره های بیشتر

منبع: www.habr.com

اضافه کردن نظر