- •Міністерство освіти і науки України
- •Григорій Коссак основи педагогічних вимірювань та моніторингу якості освіти Тексти лекцій
- •Передмова
- •Розділ 1. Поняття та категорії педагогічної діагностики. Валідність і надійність тестів.
- •1.1. Діагностика, вимірювання, оцінювання.
- •1.2. Критерії якості методу виміювання
- •1.3. Надійність вимірювання
- •1.4. Завдання в тестовій формі, їх характеристика та вимоги до них
- •Рекомендована література:
- •Розділ 2. Форми тестових завдань.
- •2.1. Нормативно-орієнтовані та критерійно-орієнтовані тести
- •2.2. Класифікація педагогічних тестів
- •2.3. Принципи формулювання тестових завдань
- •2.4. Завдання з вибором однієї правильної відповіді
- •2.5. Завдання з вибором декількох правильних відповідей
- •Розділ 3. Комп’ютерні технології в тестуванні. Розробка валідного педагогічного тесту.
- •3.1. Процес розробки тестів
- •3.2. Принципи розробки банків завдань
- •3.3. Комп’ютерні технології в тестуванні
- •3.4. Адаптивне тестування
- •Розділ 4. Моніторинг в освіті. Зовнішнє незалежне оцінювання.
- •4.1. Моніторинг в освіті, його мета та значення
- •4.2. Застосування моніторингу у різних сферах суспільної діяльності
- •4.3. Історія розвитку моніторингу якості освіти
- •4.4. Чинники, що впливають на результати моніторингу
- •4.5. Рівні проведення моніторингових досліджень
- •4.6. Зовнішнє незалежне оцінювання, нормативно-правова база
- •4.7. Організаційно-методичне забезпечення та підготовка учнів до зно
- •Рекомендована література:
- •Розділ 5. Тема: Міжнародні моніторингові порівняльні дослідження якості освіти.
- •5.1. Міжнародні порівняльні дослідження в освітніх галузях
- •5.2. Timss – міжнародне дослідження з оцінювання якості математичної та природничонаукової освіти
- •5.3. Pisa – міжнародна програма оцінювання освітніх досягнень учнів у сфері функціональної грамотності
- •5.4. Рirls – міжнародна програма вивчення якості читання та розуміння тексту
- •5.5. Civics – міжнародне дослідження з громадянської освіти
- •5.6. Sites –міжнародне дослідження інформаційних і комунікаційних технологій (ікт) в освіті
1.2. Критерії якості методу виміювання
Підюір певного методу вимірювання ґрунтується на відповідних критеріях, зокрема:
валідності;
об’єктивності;
надійності;
точності.
Валідність – комплексна характеристика тесту, що включає відомості про область досліджуваних явищ і репрезентативності досліджуваної по відношенню до неї діагностичної процедури.
Поняття валідності використовується для загальної характеристики тесту в аспекті відповідності одержаних результатів меті та вимогам оцінювання. Не валідний тест – це тест, результати якого не вимірюють того, що було визначено метою тестування. Це можливо у результаті дії ряду чинників: невідповідності інструменту вимірювання (тесту) меті оцінювання; тест побудовано з тестових завдань на розуміння матеріалу, а навчання було спрямовано лише на знання базової інформації; мета оцінювання – рівень виконання певних навичок, а тест базується на вимірюванні знань про виконання цих навичок тощо.
У стандартних вимогах до педагогічних тестів їх валідність має визначатися як комплекс інформації про характеристики тесту, процедури тестування та методики оцінювання.
Є певний підхід до аналізу якості тестових завдань на основі визначення їх головних характеристик і параметрів, коли загальне поняття валідності щодо процесу вимірювання і оцінювання рівня знань диференціюється за функціональною ознакою таким чином:
валідність методу;
валідність тесту (валідність тестових завдань, процедура тестування, процедура оцінювання).
Валідність методу – це відповідність того, що вимірюється цим методом, тому, що він має вимірювати.
Отже, критерій валідності встановлює сферу діяльності, для якої метод дає статистично достовірні результати. Валідність методу при вимірюванні успішності навчання класифікують за певними критеріями:
валідність змісту;
валідність відповідності;
валідність прогнозу.
Валідність змісту – це відповідність вимог до змісту. Порушення паритету між вимогами та змістом навчання призводить до порушення достовірності результатів вимірювання, навіть якщо вибраний метод відповідатиме іншим критеріям (об’єктивності і надійності).
Валідність відповідності – це відповідність результатів вимірювання та оцінювання, одержаних різними методами.
Валідність змісту і відповідності може бути кількісно визначено через коефіцієнт валідності. При цьому, коефіцієнт валідності необхідно розраховувати опосередковано – як коефіцієнт кореляції між результатами тестування та результатами інших вимірювань, здійснених на тій самій групі з того самого предмету іншим методом. Результат тестування можна вважати валідним при коефіцієнті кореляції більшому ніж 0,6.
Коефіцієнт валідності дорівнює коефіцієнту кореляції між результатами, одержаними різними методами за однакових умов, і показує, наскільки збігаються результати вимірів.
Валідність тесту – це його здатність вимірювати саме ті характеристики для вимірювання яких він був розроблений. На практиці розрізняють декілька видів валидности: диференційну, інкраментну, конструктивну, змістовну тощо.
Змістовною валідністью повинні володіти всі діагностичні матеріали, вживані для контролю знань. Тест володіє змістовною валідністью, якщо в ньому адекватно відображені всі основні аспекти досліджуваної області змісту. Оцінка змістовної валідності здійснюється на основі аналізу конгруентності і технологічних якостей тесту. Іноді для оцінки змістовної валідності використовують метод “дублювання”. Суть методу полягає в тому, що двом групам розробників тестів видаються однакові плани області змісту і цілей тестування, однакові специфікації тестових завдань і т.д. Перевірка еквівалентності тестів і їх змістовної валідності здійснюється шляхом порівняння результатів тестування на одній і тій же вибірці випробовуваних. Близькість отриманих результатів свідчить про хорошу змістовну валідність.
Критерійна валідність – це ступінь відповідності між результатами тестування і зовнішніми критеріями. Прикладом критерійної валідності може служити кореляція результатів вступних іспитів з успіхами студентів на першому курсі, тобто результати вступного тестування є валідними, якщо коефіцієнт їх кореляції з успіхами студентів високий.
Критерійна валідність розділяється на:
конкурентну (поточну) валідність;
прогностичну валідність;
конструктивну валідність.
Поточна валідність оцінюється по кореляції результатів даного тесту з результатами інших тестів або інших зовнішніх критеріїв.
Прогностична валідність тесту визначається як кореляція між результатами тестування і деяким зовнішнім критерієм, наприклад майбутніми успіхами випробовуваних в професійній діяльності.
Оцінка валідністі тесту є більш складним завданням, ніж оцінка надійності, оскільки грунтується не тільки на роботі з досвідченими даними, але і теоретичними концепціями побудови тестів. При оцінці валідності необхідно враховувати дві основні характеристики. Перша – конгруентність тестового завдання елементу змісту (оцінка того, в якому ступені тестове завдання вимірює елемент або аспект змісту, включений в специфікацію). Друга – технологічна якість тесту, у тому числі і його форма.
Конструктивна валідність включає всі вищеперелічені види валідностей. Проте для її визначення необхідно найточніше описати конструкт (змінну), для вимірювання якої призначений тест. Для цього необхідно:
виокремити гіпотези, що стосуються даної змінної, з якими повинен корелювати даний тест;
перечислити гіпотези, що стосуються даної змінної, з якими не повинен корелювати даний тест;
выявити групи випробовуваних, які повинні показувати низькі (або високі) результати при тестуванні.
Конгруентність тестових завдань. Для оцінки даного параметра використовується наступна процедура:
експерти за змістом даної дисципліни привласнюють кожному тестовому завданню рейтинг, що враховує ступінь відповідності (наприклад, від 1 – незадовільна конгруентність до 5 – відмінна);
проводится статистичний аналіз рейтингів і на його основі видається висновок про конгруентність тесту.
Інший метод оцінки конгруентності тестових завдань елементам змісту полягає в тому, що експертам видається два списки – один із завданнями, другий з елементами змісту і цілями тестування. Завданням експерта є встановлення відповідності завдання елементу змісту із списку. Потім складається таблиця відповідності “завдання-елемент змісту” і на основі дослідження розподілу x2 на незалежність даних в цій таблиці оцінюється ступінь конгруентності.
Оцінка технологічної якості тестових завдань проводиться на підставі експертного висновку фахівців і в процесі безпосереднього використання даних тестових завдань.
Об’єктивність – показує наскільки мінімізовано вплив суб’єктивних факторів. Об’єктивність досягається шляхом стандартизації умов проведення вимірювання, умов оцінювання, умов аналізу результатів і забезпечується за допомогою об’єктивності проведення вимірювання, об’єктивності обробки даних та об’єктивності інтерпретації результатів.
Критерії валідності і об’єктивності фактично є первинними, оскільки порушення одного з них прихводить до порушення критеріїв надійності і тосності, які, незважаючи на їх важливість, виступають як похідні.
Забезпеченню критеріїв валідності й об’єктивності сприяють певні регламентуючі документи, якими визначають вимоги до побудови тестів, до процедур проведення тестування та вимоги до фахівців, які застосовують цей метод.
Надійність – це характеристика методики, що відображає точність психодіагностичних вимірювань, а також стійкість результатів тесту до дії сторонніх випадкових факторів.
Виокремлюють надійність: паралельних форм, ретестову, частин тесту.
Про високу надійність методу говорять у тому випадку, коли метод точно вимірює ту властивість, для вимірювання якого він призначений.
Випадкові сторонні чинники не істотно впливають на результати тестування. Сторонніми чинниками можна назвати наступні: емоційний стан і стомлення, якщо вони не входять в круг досліджуваних характеристик, температура, освітленість приміщення і ін. Такі сторонні випадкові чинники ще називають чинниками нестабільності вимірювальної процедури.
При повторному застосуванні методу до тих же самих випробовуваних, через певний інтервал часу в змінених умовах, результати обох тестувань істотно не відрізняються між собою. Зміненими є наступні умови: інший експериментатор, стан респондента тощо.
У свою чергу ретестовий метод передбачає повторне тестування вибірки випробовуваних одним і тим же тестом через певний інтервал часу за одних і тих же умов. Часовий інтервал при цьому, залежить від віку (наприклад, у маленьких дітей зміни можуть відбутися протягом одного місяця), а також подій, що відбуваються з випробовуваним у житті.
Точність – визначає мінімальну або систематичну пхибку, з якою можна провести вимірювання даним методом.
При чому, чим вища точність методу, тим менша помилка під час вимірювання, тим більша надійність цього методу. При усуненні інших систематичних похибок зміни у результатах вимірювання підпорядковуються статистичним закономірностім.
