Контрольно-вимірювальні матеріали Кіми та інтерпретація результатів тестування

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

КОНТРОЛЬНО-ВИМІРЮВАЛЬНІ МАТЕРІАЛИ (Кіми) І ІНТЕРПРЕТАЦІЯ РЕЗУЛЬТАТІВ ТЕСТУВАННЯ

План
1. Шкалювання результатів тестування.
2. Статистичні характеристики тесту.

1. Шкалирование результатів тестування
Почнемо зі звичних шкал термометра, вольтметра або звичайної шкільної лінійки. За положенням ртутного стовпчика, стрілки вольтметра або штрихів лінійки ми дізнаємося температуру, напругу або довжину, тобто вимірюємо певні характеристики певних об'єктів. Результатом вимірювання є число. У реальному житті не завжди вдається виконати вимірювання безпосередньо. Часто для вимірювання доступні лише деякі функції, які нас цікавлять латентних параметрів об'єкта, і оцінювання цих параметрів здійснюється шляхом певної математичної обробки непрямих вимірювань. Прикладом такої ситуації є й обробка результатів тестування з метою оцінювання підготовленості учасників тестування або труднощі завдань. Розкриття змісту цих параметрів і розробка засобів і методів їх оптимального оцінювання і є основними об'єктами теорії моделювання та параметризації педагогічних тестів.
З математичної точки зору, процес вимірювання є відображення стану вимірюваного об'єкта на деякий безліч дійсних чисел (або на деякий безліч точок числової осі), зване шкалою. Однак шкала - це не просто певну безліч - дискретне або суцільно заповнює певний проміжок. Найважливішою відмінною рисою шкали є набір тих співвідношень між її елементами (відліками), які мають змістовний сенс і розумне тлумачення в рамках цієї шкали.
Існує багато різних шкал, в тому числі, в педагогіці. Але нас будуть цікавити тільки чотири види.
1. Порядкові шкали, де результати вимірювань осмислено можна тільки порівнювати між собою. Прикладом може служити прийнята в школі система оцінок, що виставляються учням у залежності від їхніх успіхів у навчанні. Зі співвідношення відміток b 1 <B 2 для учнів А 1 і А 2 можна лише зробити висновок, що А 1 вчиться гірше А 2. Якщо ж, наприклад, b 1 - b 2 = 1, то твердження "успіхи А 1 на 1 вище, ніж успіхи А 2" не пояснює, яка відмінність між учнями і, по суті, позбавлене сенсу. Те ж можна сказати і щодо шкали первинних балів (у абсолютному або відносному вираженні) як для учасників тестування, так і для тестових завдань. Максимум, що можна зробити в рамках цих шкал, це впорядкувати учасників тестування чи тестові завдання в порядку зростання (або зменшення) оцінок відповідних латентних параметрів.
Основними статистиками порядкових шкал є медіана, квант і рангова кореляція.
2. Шкала більш високого рівня називається інтервальної, або метричної.
Її відмінною рисою є наявність метрики. Це означає, що для будь-яких відліків b 1 і b 2 змістовний сенс мають не тільки співвідношення типу b 1 <b 2 або b 1 - b 2, але і різниця b 2 - b 1. При цьому | b 2 - b 1 | трактується як відстань (між двома елементами метричного множини), виражене у певних одиницях і, головне, що має осмислене тлумачення. Специфіка шкали полягає у відсутності нульового штриха, тобто у відсутності початку відліку. Тому метрична шкала чудово підходить для фіксації взаємного положення вимірюваних об'єктів (відносно один одного), але вона не в змозі інформувати про місцезнаходження об'єкта в деякій єдиній системі координат (видаленні від початку відліку). З математичної точки зору зазначена ситуація означає, що на безлічі визначена метрика, одиниця виміру відстані, але немає поняття норми (визначено поняття "відстань", але немає поняття "довжина"). Наприклад, при будівництві гідроспоруд важливо вимірювати перевищення (різниці висот) між певними точками (взаємне положення по висоті, що має конкретну гідродинамічну трактування), але не самі висоти. Перевищення між двома точками, що мають висоти, наприклад 48 м . і 45 м ., Має те ж значення, що і перевищення між точками з висотами 5 м . і 2 м . На противагу цьому різниці між первинними балами 48-45 і 5-2 неможливо порівнювати осмислено.
За такою ж, по суті, шкалою, за якою вимірюються перевищення, вимірюються і латентні параметри труднощі завдання (d) та рівень знань (Q), але тільки одиницею вимірювання відстаней служать не метри, а логіт.
Таблиця 1.1
Різниця Q - d
Імовірність
вірного
рішення, Р
Інформація
у відповіді,
= Pq
Відносна
ефективність
у відсотках
5
0,99
0,01
4
4
0,98
0,02
8
3
0,95
0,05
20
2
0,88
0,11
44
1
0,73
0,20
80
0
0,50
0,25
100
-1
0,27
0,20
80
-2
0,12
0,11
44
-3
0,05
0,05
20
-4
0,02
0,02
8
-5
0,01
0,01
4
Таблиця 1.1 вказує співвідношення між різницями Q - d в логіт та їх трактуванням у вигляді ймовірності того, що завдання труднощі d буде вірно виконано учасником до рівня підготовленості Q. Дані цієї таблиці ніяк не зміняться, якщо до величин Q і d додати будь-яку константу. Останній стовпець таблиці 1.1 містить твори р (1 - р), які можна трактувати як кількість інформації про різниці Q - d, яке міститься у відповідному елементі матриці відповідей. Зміст цього стовпця ми використовуємо пізніше, але вже ця година корисно відзначити, що інформативність відповідей залежить тільки від відстані | Q - d | між Q і d і помітно падає зі збільшенням цієї відстані. Так, одне завдання максимальної ефективності рівносильно (з точки зору підтримки однієї і тієї ж точності вимірювання) близько 25 завдань мінімальної ефективності.
3. Метрична (інтервальна) шкала, у якій визначено початок відліку, називається шкалою нормованої. У такій шкалі визначено не тільки поняття метрики, за і поняття норми, що дозволяє вимірювати "довжини" (тобто явно »місце розташування відносно нуля, на чалу відліку). Тому й такою шкалою має сенс говорити не тільки про різницях типу Q - d, а й про кожну величиною Q або d   окремо. Така шкала є найбільш привабливою, а її побудова в теорії педагогічних вимірювань являє собою певну революцію в цій теорії, оскільки дозволяє подолати основний її недолік - залежність оцінок одного індивідуума від використаного тесту та контингенту всіх учасників тестування або певної групи учасників.
4. Крім перерахованих "кількісних" шкал, виділяють ще номінальну шкалу, засновану на якісних змінних, не піддаються кількісному вимірюванню. Прикладом може служити підлогу учасників тестування, приналежність певного регіону Росії і т.п. Числа і раніше, використовуються в номінальних шкалах, але служать вони всього лише для розрізнення окремих фактів, як би для їх назви. Тому ніяких змістовних співвідношень, крім а = b або а ¹ b, між такими числами немає. При цьому вибір чисел замість реальних імен або інших способів ідентифікації, звичайно, не обов'язковий, оскільки мова не йде про те, наскільки відрізняються один від одного об'єкти або події, які мають яких-небудь властивістю або ознакою.
Якщо ознак, розрізняють об'єкти або події, тільки два, то номінальна шкала називається дихотомной. Прикладом можуть служити елементи матриці відповідей учасників тестування на завдання тесту: правильне виконання завдання ("так") позначається одиницею, помилкове ("ні") - нулем. При цьому різниця 1-0 не має ніякого сенсу, і самі цифри 1 і 0 можна замінити будь-якими іншими, наприклад, цифрами 9 та 5, символами "+", "-", словами "так", "ні", "залік" , "незалік" і т.п.
Відповідні номінальним шкалами дані складаються з спостережуваних значень частот або табличних відомостей про число появ кожної з різновидів досліджуваної змінної. Для характеристики номінальних даних часто використовуються такі (дескриптивні) статистики, як пропорція і процентне відношення.
Використання тієї або іншої шкали з перерахованих чотирьох накладає відбиток і на придатність тих чи інших методів математичної обробки, якої зазвичай піддаються вихідні дані. Наприклад, регресійний аналіз застосуємо тільки по відношенню до кількісно виражену змінним, вимірюваним, принаймні, в метричній шкалі. Приблизно теж саме можна сказати і щодо найбільш відомих методів кореляційного аналізу. Сказане не означає, що результати тестування, віднесені до порядковим або навіть номінальним шкалами, не можна аналізувати кількісно. Однак методи такого аналізу повинні бути, в загальному випадку, спеціальними і від особистими від тих, які використовуються для змінних в шкалах метричних і нормованих. Наприклад, навіть таку загальноприйняту оцінку центру розсіювання змінної як арифметична середня часто буває більш обгрунтованим замінити медіаною варіаційного ряду, якщо змінні віднесені до шкали порядкової, а не метричної.
Таким чином, змістовна інтерпретація результатів математичної обробки даних тестування може бути дана лише в тому випадку, якщо методи цієї обробки адекватні тим шкалами, до яких віднесена вихідна інформація.

2. Статистичні характеристики тесту
Після збору емпіричних даних починається етап математико-статистичної обробки, яка проводиться, як правило, за допомогою спеціального програмного забезпечення. У практичному плані застосування програмного забезпечення пов'язане з деякими труднощами. Зокрема, необхідно використання комп'ютерної техніки, придбання програмних продуктів, створення спеціальної групи технічного супроводу. Однак, як показує досвід, всі ці труднощі можуть бути подолані навіть силами невеликого викладацького колективу, особливо в тих випадках, коли підрахунок статистики здійснюється на невеликих вибірках у 50-100 осіб.
Етап математико-статистичної обробки можна розбити на 10 кроків.
Перший крок. Перший крок пов'язаний з формуванням матриці тестових результатів, у якій кількісні дані представляються в систематизованій і стислій формі, щоб забезпечити їх подальшу обробку та інтерпретацію. Формування матриці починається з вибору певного правила для оцінки відповідей учнів на завдання тесту. Зазвичай результати відповідей оцінюються дихотомічно, а саме за кожну правильну відповідь учень отримує один бал, а за неправильну відповідь або за пропуск завдання - нуль балів.
Якщо символом Ху позначити результат виконання Х-м піддослідним у-го завдання тесту, то у скороченій формі наведене вище правило можна записати у вигляді:
l, якщо відповідь Х-го випробуваного на у-е завдання вірний;
0, якщо відповідь Х-го випробуваного на у-е завдання невірний.
Після вибору оцінного правила емпіричні дані зводяться в матрицю. Рядки матриці, що складаються з нулів і одиниць, відповідають відповідям учнів на різні завдання тесту. За стовпцями розташовуються профілі відповідей випробовуваних на кожне завдання тесту.
З дидактичних міркувань для ілюстрації математико-статистичних методів обрана невелика матриця, коли 12 учнів відповідали лише на 10 завдань тесту (табл. 2.1).
Однак усі формули і підрахунки, обговорювані в розділі, можуть бути поширені на будь-які вибірки досліджуваних та застосовні до тестів будь-якої довжини.
Другий крок. На другому кроці з матриці тестових результатів усуваються рядки і стовпці, що складаються тільки з нулів або тільки з одиниць. У наведеному вище прикладі таких стовпців немає, а рядків тільки дві, останні в матриці тестових результатів. Одна з них, нульова рядок, відповідає відповідям 11-го випробуваного, який не зміг виконати правильно жодного завдання в тесті. У цьому випадку висновок досить однозначний. Якщо склалася така ситуація, то тест непридатний для оцінки знань 11-го учня. Для його виявлення рівня знань тест необхідно полегшити, додавши кілька дуже легких завдань, які, швидше за все, більшість інших піддослідних групи виконає правильно.
Таблиця 2.1. Матриця результатів тестування
Номер випробуваного i
Номер завдання j
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
0
0
0
0
2
1
1
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
1
0
0
4
1
1
0
1
1
1
1
1
1
1
5
1
0
1
0
1
1
0
0
0
0
6
1
1
1
0
0
0
0
1
0
0
7
1
1
1
1
0
1
0
0
0
0
8
1
1
1
1
0
0
0
0
0
0
9
1
1
1
1
1
1
1
1
1
0
10
1
1
1
1
1
0
1
0
0
0
11
0
0
0
0
0
0
0
0
0
0
12
1
1
1
1
1
1
1
1
1
1

Настільки ж непридатний, але вже з іншої причини тест для оцінки знань 12-го учня, який виконав правильно все без виключення завдання тесту. Причина непридатності тесту - його зайва легкість, що не дозволяє виявити справжній рівень підготовки 12-го учня. Його результати вказують лише на знання запропонованого в тесті матеріалу, але не дозволяють встановити межу між освоєним і неосвоєних змістом курсу. Можливо, 12-й учень знає багато чого іншого і в змозі виконати по контрольованих розділам змісту набагато більш важкі завдання, які просто не були включені в тест. У цю, здавалося б, звичну для традиційного контролю і бажану для педагога ситуацію, коли випробуваний впорався з усім обсягом контрольованого матеріалу, необхідно привнести елементи тестової науки. Хоча традиційний і тестовий контроль слугують одній і тій же меті - оцінці знань піддослідних, між ними є істотні відмінності не тільки за формою проведення, але і за якістю одержуваних оцінок. На відміну від традиційних тестові методи контролю дозволяють відповісти на найбільш важливе питання: наскільки точна оцінка знань кожного випробуваного й чи варто їй взагалі довіряти?
Сама по собі постановка питання ніяк не пов'язана з недоліками тестових методів, оскільки помилка (похибка) вимірювання існує завжди і скрізь. У тому числі і в процесі тестових вимірів виникає ряд похибок, що заважають отримати істинні бали учнів. Існування похибок призводить до думки про відносну точності оцінок, яка варіює і яку можна вважати як достатньою, так і не дозволяє довіряти отриманим оцінками.
Зазвичай, якщо нормативно-орієнтований тест зроблений добре, то достатньою точністю володіють приблизно 70% результатів, що знаходяться в центрі розподілу, а приблизно 5% самих слабких і 5% найсильніших результатів взагалі не можна довіряти, оскільки вони відображають дійсний рівень знань учнів з дуже великою помилкою вимірювання. Саме з цих міркувань професійно організовані тестові служби при опрацюванні відкидають не менше 3 або 5% результатів на кінцях розподілу. На жаль, в нашій країні часто тестові оцінки випробуваних виставляються без урахування теоретичних обмежень на можливі діапазони їх застосування.
Причина такого становища - практичне необізнаність більшості викладачів з основами тестової теорії, незнання основних її положень. Особливо згубно це незнання позначається на якості тестів, що розробляються в нашій країні. Нерідко автор тесту, якщо його виконали всі або майже всі випробувані групи, розцінює свою роботу як успіх. У цієї тенденції є свої сумні наслідки. Тестові оцінки, отримані зі значною помилкою вимірювання, породжують у викладачів численні сумніви в можливостях педагогічних тестів. По суті, тут винні не тести, а відсутність належного професіоналізму їх розробників, але про це чомусь ніхто не думає, особливо в тих випадках, коли лають педагогічні тести.
При правильному положенні речей останні два рядки матриці повинні бути видалені, і матриця тестових результатів прийме вигляд, наведений в табл. 2.2.
Таблиця 2.2. Матриця результатів після видалення рядків
Номер випробуваного i
Номер завдання у
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
0
0
0
0
2
1
1
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
1
0
0
4
1
1
0
1
1
1
1
1
1
1
5
1
0
1
0
1
1
0
0
0
0
6
1
1
1
0
0
0
0
1
0
0
7
1
1
1
1
0
1
0
0
0
0
8
1
1
1
1
0
0
0
0
0
0
9
1
1
1
1
1
1
1
1
1
0
10
1
1
1
1
1
0
1
0
0
0
Третій крок. Третій крок пов'язаний з підрахунком індивідуальних балів досліджуваних та кількістю правильних відповідей випробовуваних на кожне завдання тесту. Індивідуальний бал випробуваного виходить підсумовуванням всіх одиниць, отриманих ним за правильно виконані завдання тесту. Наприклад, 4-й випробуваний виконав правильно 9 завдань, тому його індивідуальний бал дорівнює 9. У рядку відповідей 2-го випробуваного стоять всього дві одиниці - його індивідуальний бал Х 2 = 2. Для зручності отримані індивідуальні бали Xi (I = 1, 2 ,..., 10) наводяться в останньому стовпці матриці результатів (табл. 2.3).
Таблиця 2.3.
Матриця результатів з індивідуальними балами досліджуваних та кількістю правильних відповідей на завдання тесту
Номер випробуваного i
Номер завдання j
Індивідуальний бал (безліч Аj)
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
0
0
0
0
6
2
1
1
0
0
0
0
0
0
0
0
2
3
0
0
0
0
0
0
0
1
0
0
1
4
1
1
0
1
1
1
1
1
1
1
9
5
1
0
1
0
1
1
0
0
0
0
4
6
1
1
1
0
0
0
0
1
0
0
4
7
1
1
1
1
0
1
0
0
0
0
5
8
1
1
1
1
0
0
0
0
0
0
4
9
1
1
1
1
1
1
1
1
1
0
9
10
1
1
1
1
1
0
1
0
0
0
6
Кількість правильних відповідей (безліч Аi)
9
8
7
6
5
5
3
4
2
1
50
Кількість правильних відповідей на завдання Х також виходить підсумовуванням одиниць, але вже розташованих по стовпцях. Наприклад, в 1-му стовпці коштують 9 одиниць - число досліджуваних, що правильно відповіли на 1-е завдання, дорівнює 9. На останнє, 10-е завдання відповів правильно тільки один учень, тому Х 10 = 1. Кількість правильних відповідей на кожне завдання також поміщається в матрицю результатів, звичайно воно розташовується в останньому рядку під номером відповідного завдання тесту (див. табл. 3).
Четвертий крок. На четвертому кроці здійснюється впорядкування матриці результатів тестування. Для цього роблять перестановку стовпців, маючи в своєму розпорядженні числа Л в порядку убування. Потім змінюють місцями рядки матриці так, щоб верхній рядок відповідала обучаемому з мінімальним індивідуальним балом. Значення X i розташовують зверху вниз у порядку зростання. Упорядкована матриця даних тестування наведена в табл. 2.4.
П'ятий крок. На п'ятому кроці проводиться графічна інтерпретація емпіричних даних. Емпіричні результати тестування можна представити у вигляді полігону, гістограми, згладженої кривої (процентилей, огіви) або машинописного графіка.
Для побудови кривих необхідно впорядкувати результати експерименту. Їх можна записати у вигляді несгруппірованного ряду довільної форми (табл. 2.5), рангового ряду (табл. 2.6), частотного розподілу (табл. 2.7) або розподілу згрупованих частот (табл. 2.8).
Таблиця 2.5. Несгруппірованний ряд
Номер
1
2
3
4
5
6
7
8
9
10
Бал
6
2
1
9
4
4
5
4
9
6
Таблиця 2.6. Ранжируваний ряд
Ранг
1
2
3
3
3
4
5
5
6
6
Номер
3
2
5
6
8
7
1
10
4
9
Бал
1
2
4
4
4
5
6
6
9
9
Таблиця 2.7. Частотне розподіл
Бал
1
2
4
5
6
9
Частота
1
1
3
1
2
2

Таблиця 2.8. Згруповане частотний розподіл
Інтервал балів
Частота
1-3
2
4-6
6
7-9
2
У табл. 2.5 містяться індивідуальні бали випробовуваних, взяті з останнього стовпця матриці емпіричних результатів виконання тесту (табл. 2.3). У табл. 2.6 ці ж бали розташовані в порядку зростання зліва направо і наводяться місця (ранги) піддослідних, що відповідають їх індивідуальним балам. Таблиця 2.6 зручна для підведення підсумків тестування в повсякденній роботі педагога, оскільки в невеликому класі такого розподілу цілком достатньо для повідомлення тестових результатів учням. Бал 6 забезпечує 1-му випробуваному ранг 5 у групі з 10 учнів. Аналогічним чином можна інтерпретувати будь-яку оцінку учня в термінах рангів. Очевидно, що рівним балам приписуються рівні ранги. Якщо список учнів є довгим, то для визначення рангів потрібно багато часу і сил.
Список учнів з отриманими тестовими балами можна скоротити, класифікуючи оцінки з розподілу частот, як, наприклад, у табл. 2.7. У цьому випадку у верхньому рядку розміщуються тільки різні оцінки, а внизу під кожною оцінкою - число її повторень, яке називається частотою і зазвичай позначається символом N.
Сума всіх частот для даного прикладу N = 1 +1 +3 +1 +2 +2 = 10, тобто дорівнює числу учнів в тестованої групі.
Для великої групи - скажімо, у 100 або більше учнів - використовують згруповане частотний розподіл (табл. 2.8). Для побудови розподілу оцінки об'єднують в групи. Кожна така група називається розрядом оцінок. У разі повного розміщення оцінок за розрядами говорять про розподіл згрупованих частот балів учнів. Наприклад, для матриці з табл. 2.4 утворено 3 розряду, представлених в табл. 8. Хоча чіткого правила вибору кількості розрядів немає, але все ж зазвичай їх число намагаються варіювати в межах від 12 до 15. Заниження числа розрядів (менше 12) може істотно спотворити результати тестування, а його завищення (понад 15) ускладнює роботу з таблицею.
Полігон частот. По ряду частотного розподілу можна здійснити графічне представлення результатів тестування у вигляді полігону частот, збудованого (рис. 2.1). Для побудови полігона частот по горизонтальній осі відкладаються тестові бали, а по вертикальній - частота появи кожного бала у тестованої вибірки учнів.

Рис. 2.1. Полігон для розподілу табл. 7
Гістограма представляє собою послідовність стовпців, кожний з яких спирається на одиничний (розрядний) інтервал, а висота його пропорційна частоті спостережуваних балів. Наприклад, для розглянутого прикладу табл. 7 гістограма наведена на рис. 2.2. Середина стовпця поєднується з серединою інтервалу розряду, яка була обрана довжиною в один бал.


Рис. 2.2. Столбикова гістограма
У даному випадку в якості розрядного обраний одиничний інтервал.
Гістограма може бути побудована і для згрупованих даних. У цьому випадку вона виглядає так, як на рис. 2.3 (нижня гістограма для гіпотетичного набору даних), де для порівняння вгорі наведена гістограма для несгруппірованних даних.
SHAPE \ * MERGEFORMAT
Рис. 2.3. Гістограми розподілу несгруппірованних і згрупованих даних
Для порівняння двох або більше розподілів зазвичай використовують полігони частот, тому що при накладенні гістограм виходить досить заплутана картина. Наприклад, за допомогою полігонів можна порівняти результати виконання тесту учнями різних, в даному випадку трьох, класів, які мають однакову кількість учнів (рис. 2.4).

Рис. 2. 4. Гістограма емпіричного розподілу
На рис. 2.4 чітко проглядає значну подібність в результатах тестування у перших двох класів, які мають досить схожі полігони розподілу оцінок.
Шостий крок. На шостому кроці оцінюються заходи центральної тенденції сукупності результатів, отримані при виконанні тесту. Заходи центральної тенденції призначені для виявлення «центрального положення», навколо якого в основному групується безліч значень аналізованого розподілу даних. Якщо припустити, що безліч результатів розташоване на прямій, то «центральне становище» має точка, навколо якої з того чи іншою ознакою групуються всі результати виконання тесту. При аналізі результатів тестування можна використовувати різні підходи до визначення центру розподілу. Найбільш простий спосіб заснований на виявленні моди розподілу.
Мода - Це таке значення, яке зустрічається найчастіше серед результатів виконання тесту. Наприклад, для даних табл. 2.7 модою є бал 4, тому що він зустрічається частіше (3 рази) будь-якого іншого значення бала. Не всяке розподіл має єдину моду.
Середнє вибіркове (Середнє арифметичне) визначається підсумовуванням всіх значень сукупності і подальшим розподілом на їх число. Для сукупності індивідуальних балів??
Х 2 ,..., X N групи?? піддослідних середнє значення X буде
(1)
Середнє арифметичне індивідуальних балів досліджуваних для розглянутого вище прикладу матриці (табл. 3 або 4) буде

Обчислення середнього значення легко зробити на будь-якому калькуляторі або ПЕОМ. Процес обчислення значно спрощується, якщо окремі значення в сукупності повторюються, як, наприклад, у табл. 7. Для даних таблиці сума всіх результатів визначається множенням кожного значення бали на його частоту і наступним підсумовуванням отриманих творів. Тоді середнє значення буде

На відміну від моди на величину середнього впливають значення всіх результатів. Таким чином, середнє арифметичне характеризує всю сукупність значень. Воно узагальнює індивідуальні особливості складових розподілу, в ньому зрівнюються окремі значення аналізованої величини.
Одержувані результати в процесі розробки тесту вимагають спеціальної інтерпретації і роздуми.
Інтерпретація заходів центральної тенденції. Заходи центральної тенденції певною мірою допомагають при оцінці якості тесту в тому випадку, коли вона проводиться за результатами апробації тесту на репрезентативній вибірці учнів. Зазвичай вважають, що хороший нормативно-орієнтований тест забезпечує нормальний розподіл індивідуальних балів репрезентативної вибірки учнів, коли середнє значення балів знаходиться в центрі розподілу, а інші значення концентруються навколо середнього за нормальним законом, тобто приблизно 70% значень в центрі, а інші сходять «нанівець» до країв розподілу, як на рис. 2.5.

Рис. 2.5. Нормальна крива розподілу індивідуальних балів
Якщо тест забезпечує близьке до нормального розподіл балів, то це означає, що на його основі можна визначити сталий середнє значення балів, яке приймається в якості однієї з репрезентативних норм виконання тесту. Зворотний висновок, взагалі кажучи, неправильним: стійкість тестових норм зовсім не передбачає обов'язкового нормального розподілу емпіричних результатів виконання тесту.
Може скластися уявлення про те, що існує жорсткий зв'язок між нормальним розподілом частот і практично будь-якими емпіричними даними по тесту.
Насправді це не так, оскільки нормальна крива - це винахід математиків, яке в згладженому, ідеальному вигляді описує реальний полігон частот. На практиці ніколи не була і не буде отримана сукупність даних, розподілених точно за нормальним законом. Просто іноді корисно, допускаючи певну помилку, стверджувати, що емпіричні дані розподілені за нормальним законом, і описувати полігон частот згладженої кривої.
Нормальний розподіл унімодальному та симетрично, тобто половина результатів, розташована нижче моди, в точності збігається з іншою половиною, розташованої вище, а мода і середнє значення рівні. Відсутність повної симетрії в полігоні частот на практиці призводить до зміщення моди щодо середнього значення.
У малих вибірках мода, як і середнє значення, втрачає свою стабільність, хоча причиною нестабільності може служити і неправильний підбір за труднощі завдань у тесті. Наприклад, якщо за репрезентативною вибіркою вийшла гістограма з бімодального розподілом (рис. 2.6), то середнє значення розподілу, що знаходиться в центрі, ніяк не може служити нормою виконання тесту. Швидше за все, тест був сконструйований невдало, що послужило причиною відсутності нормального розподілу емпіричних результатів виконання тесту.

Рис. 6. Гістограма бімодального розподілу
Зсув середнього значення вліво або вправо, як на рис. 2.7 та 2.8, говорить про дуже важкою або відповідно занадто легкою збірці завдань тесту.
Таким чином, правильно сконструйований нормативно-орієнтований тест на репрезентативній вибірці учнів повинен забезпечувати близьке до симетричного розподілу індивідуальних балів, коли мода і середнє значення приблизно рівні, а інші результати розташовані навколо середнього за нормальним законом.

Рис. 7. Гістограма розподілу балів за важкого тесту

Рис. 8. Гістограма розподілу балів по легкому тесту
Сьомий крок. На сьомому кроці визначаються описові характеристики, службовці заходами мінливості в групі даних по тесту. Введення характеристик пов'язано з необхідністю виявлення додаткових підстав для обгрунтованого порівняння різних розподілів за тестами. При порівнянні декількох розподілів з однаковими середніми за допомогою додаткових характеристик можна виявити істотні відмінності в структурі, що вказують на значні відмінності в якості тестів.
Найбільш важлива характеристика вказує на особливості розкиду емпіричних даних навколо середнього значення балів по тесту. Окремі значення індивідуальних балів можуть бути тісно згруповані навколо свого середнього балу або, навпаки, сильно віддалені від нього. Тому необхідні оцінки характеристик розподілу, що відображають варіацію, або, як кажуть інакше, мінливість балів по тесту.
Для характеристик ступеня розсіювання окремих значень навколо середнього використовуються різні заходи: розмах, дисперсія, стандартне відхилення.
Розмах вимірює на шкалі відстань, в межах якого змінюються всі значення показника у розподілі. Наприклад, розподілу індивідуальних балів табл. 6 розмах дорівнює??.
Варіаційний розмах легко обчислюється, але використовується вкрай рідко при характеристиці розподілу балів по тесту. І для цього є вагомі підстави. По-перше, розмах є досить наближеним показником, тому що не залежить від ступеня мінливості проміжних значень, розташованих між крайніми значеннями в розподілі балів по тесту. По-друге, крайні значення індивідуальних балів, як правило, ненадійні, оскільки містять у собі значну похибку вимірювання. У зв'язку з цим більш вдалим заходом вважається дисперсія.
Дисперсія. Підрахунок дисперсії заснований на обчисленні відхилень кожного значення показника від середнього арифметичного в розподілі. Для індивідуальних балів значення відхилень несуть інформацію про варіації сукупності значень балів N учнів, тобто відображають міру неоднорідності результатів по тесту. Сукупність з більшою неоднорідністю буде мати великі за модулем відхилення, навпаки, для однорідних розподілів відхилення повинні бути близькі до нуля. Знак відхилення вказує місце результату учня по відношенню до середнього арифметичного по тесту. Для учня з індивідуальним балом вище середнього значення різниці буде позитивно, а для тих, у кого результат нижче , Відхилення менше нуля.
Наприклад, у розподілі балів із середнім значенням з табл. 6 відхилення будуть:
• для 3-го учня
• для 2-го ;
• для 5 -, 6-і 8-го ;
• для 7-го ;
• для 1 - і 10-го ;
• для 4 - і 9-го .
Якщо підсумувати всі відхилення, взяті зі своїм знаком, то для симетричних розподілів сума буде дорівнює нулю. У розглянутому прикладі сума відхилень

що, звичайно, не дозволяє оцінити міру неоднорідності розподілу, оскільки негативні і позитивні складові знищують один одного. Для подолання цього ефекту кожне відхилення зводять у квадрат і знаходять суму квадратів відхилень: Тоді сума виду

буде великою, якщо результати тестування відрізняються істотною неоднорідністю, і малою - у разі близьких результатів піддослідних по тесту.
Для розглянутого прикладу

Величина суми залежить також від розміру вибірки учнів, які виконували тест. Залежність тут цілком очевидна: чим більше учнів, тим більше позитивних доданків у сумі, що характеризує варіацію балів по тесту. Тому при порівнянні заходів мінливості розподілів, що відрізняються за обсягом, виникає перешкода, яка знімається шляхом ділення кожної суми на N - 1, де N - кількість учнів, що виконували тест. Обумовлена ​​таким чином міра мінливості називається дисперсією. Вона зазвичай позначається символом і обчислюється за формулою
(2)
Для розглянутого прикладу

У прикладі обчислювалася просто в силу того, що середнє арифметичне було цілим числом. На практиці, як правило, доводиться мати справу з дробовими значеннями , Що робить використання формули (2) вкрай виснажливим.
Стандартне відхилення. Крім дисперсії, для характеристики заходи мінливості розподілу зручно використовувати ще один показник варіації, який називається стандартним відхиленням. Стандартне відхилення дорівнює кореню квадратному з дисперсії:
(3)
Для розглянутого прикладу
Стандартне відхилення не слід плутати з середнім відхиленням, останнє знаходиться за формулою
(4)
і є середнім значенням суми відхилень, взятих по модулю.
Інтерпретація. Дисперсія грає важливу роль в оцінці якості нормативно-орієнтованих тестів. Слабка варіація результатів піддослідних вказує на низьку якість тесту. Підстави для такого висновку цілком прозорі. Низька дисперсія індивідуальних балів говорить про слабку диференціації досліджуваних за рівнем підготовки в тестованої групи, тобто про ту ситуацію, яка діаметрально протилежна основної мети створення нормативно-орієнтованого тесту.
Надмірно висока дисперсія, характерна для випадку, коли всі учні відрізняються за кількістю виконаних завдань, також загрожує неприємними наслідками і потребує переробки тесту. Перевищення розумних меж величини дисперсії призводить до спотворення виду розподілу, який починає істотно відрізнятися від планованої теоретичної нормальної кривої.
При переробці тесту слід керуватися простим правилом: якщо перевірка узгодженості емпіричного розподілу з нормальним дає позитивні результати, а дисперсія зростає, то це означає, що відбувається підвищення диференціює здатності тіста і процес покращення тесту.
Звичайно, використовувати будь-який з існуючих критеріїв для перевірки нормальності розподілу в практиці досить незручно. Тому найчастіше непрофесіонали в оцінці характеру розподілу керуються простим співвідношенням. Для цього величину X порівнюють з потрійним стандартним відхиленням. Якщо ця рівність виконується, тобто якщо
??,
то дисперсія оптимально висока і можна прийняти гіпотезу про нормальність розподілу.
??
нормальної кривої, оцінюється за допомогою асиметрії. Наявність асиметрії легко встановити візуально, аналізуючи полігон частот або гістограму. Більш ретельний аналіз можна провести за допомогою узагальнених статистичних характеристик, призначених для оцінки асиметрії в розподілі.
На рис. 2.9 представлені криві розподілу з негативною, нульовий і позитивної асиметрією (зліва направо) відповідно
SHAPE \ * MERGEFORMAT
Рис.2.9. Негативна, нульова, позитивна асиметрія.
Найбільш вдала формула для підрахунку асиметрії має вигляд
Асиметрія (5)
де - Індивідуальний бал i-го учня; - Середнє значення балів за тестованої групи; - Куб стандартного відхилення; N - кількість учнів. Після підстановки даних з розглянутого вище прикладу (табл. 3) величина асиметрії буде дорівнює

Інтерпретація. При інтерпретації отриманого значення асиметрії 0,2 необхідно звернути увагу на те, що внесок позитивних значень кубів різниць буде більше кубів негативних значень, але ненабагато, тому велічінa асиметрії вийшла позитивною і невеликий. Таким чином, асиметрія розподілу позитивна, якщо основна частина значень індивідуальних балів лежить праворуч від середнього значення, що зазвичай характерно для надмірно легких тестів. Асиметрія розподілу балів негативна, якщо більшість учнів отримали оцінки нижче середнього балу. Ефект негативною асиметрії зустрічається в надмірно важких тестах, не збалансованих правильно по труднощі при відборі завдань у тест.
У добре збалансованому за труднощі тесті, як вже зазначалося раніше, розподіл балів має вигляд нормальної кривої. Для нормального розподілу характерна нульова асиметрія, що цілком природно, так як при повній симетрії кожне значення бали, менше , Врівноважується іншим симетричним, більшим, ніж .
Ексцес. За допомогою ексцесу можна отримати уявлення про те, чи є полігон частот або гістограма островершинним або плоский. На рис. 2.10 зображені три криві, що відрізняються за ексцесу.
SHAPE \ * MERGEFORMAT Рис. 2.10. Островершинним, средневершінная і плоска криві.
Перша крива (А) - островершинним, має явно виражений позитивний ексцес, друга крива (В) - средневершінная, має нульовий ексцес, характерний для нормальної кривої, третя крива (С) - плосковершинний, криві такого типу імені ексцес менше нуля.
Зазвичай ексцес обчислюється за формулою
Ексцес , (6)
де всі позначення залишилися колишніми. Для розглянутого прикладу (див. табл. 2.6) ексцес буде

Інтерпретація. При інтерпретації отриманих оцінок ексцесу необхідно пам'ятати про те, що поняття «ексцес» можна застосувати лише до унімодальному розподілів. Більш того, інтерпретація результату, що вказує на крутість кривої розподілу, можлива в порівняно невеликій околиці моди і втрачає свій сенс у міру віддалення вздовж кривої.
У тому випадку, коли розподіл даних бімодальному (має дві моди), необхідно говорити про ексцес в околиці кожної моди. Бімодальному конфігурація вказує на те, що за результатами виконання тесту вибірка учнів розділилася на дві групи. Одна група впоралася з більшістю легких, а інша з більшістю важких завдань тесту. Один з найбільш важливих висновків у разі бімодального розподілу націлений на корекцію труднощі завдань тесту. Мабуть, у тесті недостатньо представлені завдання середніх труднощів, що дозволяють вирівняти розподіл балів, наблизивши його до нормальної кривої.
На закінчення необхідно провести перевірку значущості знайдених значень асиметрії і ексцесу. Для цього необхідно додати інформацію про прийнятому рівні ризику допустити помилку в статистичному висновку. Найбільш прийнятним для педагогічних вимірювань є рівень в 5%, який припускається помилки в п'яти випадках зі ста.
Дев'ятий крок. Дев'ятий крок призначений для обчислення показників зв'язку між результатами учнів по окремих завдань тесту. При оцінці якості завдань важливо зрозуміти, чи існує тенденція, коли одні й ті ж учні домагаються успіху в будь-якій парі завдань тесту. Або, навпаки, такої тенденції, що вказує на зв'язок результатів, немає, і склад учнів, які домагаються успіху, повністю змінюється при переході від одного завдання до іншого в тесті.
Очевидно, для відповіді на поставлені питання необхідно провести аналіз даних, зібравши їх у таблицю. Однак такий візуальний аналіз даних - справа досить виснажлива, а для великих вибірок і просто неможливе. Тому зазвичай відповідь на питання про існування зв'язку між двома наборами даних отримують за допомогою кореляції.
Кореляція. Кореляція в широкому сенсі слова означає зв'язок між явищами і процесами, Однак для дослідження зв'язку встановити її наявність недостатньо, необхідно також правильно вибрати її вигляд і форму показника, призначеного для оцінки міри зв'язку між явищами.
Зв'язок між двома наборами даних?? Можна виразити графічно за допомогою діаграми розсіювання (рис. 2.11).


Рис. 2.11. Діаграма розсіювання, що показує зв'язок результатів тестування групи школярів з математики (X) з результатами тестування з фізики (Y). Діаграма вказує на наявність слабкої позитивного зв'язку, однак не дозволяє ввести узагальнену її міру.
Приклади різного виду діаграм, дозволяють графічно інтерпретувати характер зв'язку між наборами даних X і Y, наведено на рис. 2.12.
SHAPE \ * MERGEFORMAT
Рис.2.12. Графічна інтерпретація видів зв'язку.
Коефіцієнт кореляції Пірсона. Для підвищення порівнянності оцінок показників зв'язку за вибірками з різною дисперсією ковариацию ділять на стандартні відхилення. Таким чином, необхідно розділити на і , Де і - Стандартні відхилення по множинам X і Y відповідно. У результаті виходить величина, яка називається коефіцієнтом кореляції Пірсона :
(8)
Інтерпретація. Аналіз значень коефіцієнта кореляції в табл. 10 дозволяє виділити завдання 3 і 8 тесту. За даними таблиці, завдання 3 негативно корелює із завданнями 7, 8, 9 і 10 тіста. Про те, що «винувато» третє, а не інші завдання тесту, свідчить аналіз значень коефіцієнта кореляції в стовпцях з номерами сім, дев'ять і десять. У них проглядається лише один мінус на місці, відповідній завданню тесту 3, яке у свою чергу негативно корелює з чотирма завданнями тесту.
Аналогічна ситуація спостерігається в стовпці, відповідному завданням 8 тесту. Негативні значення коефіцієнта кореляції вказують на певний прорахунок розробників у змісті завдань 3 і 8 тесту. Найбільш поширена причина - відсутність предметної чистоти змісту - нерідко зустрічається при розробці різних тестів.
Зрозуміло, що предметна чистота - швидше ідеалізованої, ніж реальна вимога до змісту будь-якого тесту. Наприклад, у тесті з фізики завжди зустрічаються завдання з великою кількістю математичних перетворень, у тесті з біології - завдання, що вимагають серйозних знань з хімії, у тесті з історії - завдання розраховані на виявлення культурологічних знанні, і т п. Тому говорити про відсутність перетину змісту завдань однієї навчальної дисципліни з вмістом інший в чистому вигляді не доводиться. Можна лише прагнути до того, щоб при виконанні кожного завдання домінували знання з перевіряється предмету.
Мабуть, протилежна ситуація спостерігалася в завданнях 3 і 8, негативні значення кореляції за яким вказують на відсутність зв'язку їх змісту зі змістом інших завдань тесту.
Таким чином, завдання 3 і 8 для підвищення гомогенності змісту необхідно видалити з тіста. Звичайно, остаточне рішення залишається за автором, оскільки воно безглуздо без ретельного аналізу змісту завдань тесту. Щоправда, подібне рішення про видалення завдань може бути ухвалене в тому випадку, коли емпіричні результати зібрані за репрезентативною вибіркою учнів. Якщо показність вибірки не досягнута, то поява мінусів може не відображати ні в якій мірі реальну ситуацію з вмістом завдань тесту.
Аналіз 9-го стовпця з максимальною сумою 4,6495, наведеної в кінці, вказує на наявність ряду досить високих значень коефіцієнта кореляції (<р 9 8 = 0,6124; <р 97 -0,7638; <р 9 жовтня -0, 6667), кожне з яких може отримати різну трактовку в залежності від виду розроблюваного тесту.
Для тематичних тестів висока кореляція між завдання ми неминуча, тому що завдання відображають слабко варьирующее, початковий зміст, що цілком виправдано призначенням тесту.
Однак для підсумкових тестів високу кореляцію між завданнями по можливості намагаються уникати тестів, які оцінюють однакові змістовні елементи, оскільки навряд чи має сенс включати в підсумковий тест кілька завдань. Тому в підсумкових тестах зазвичай прагнуть до невисокої позитивної кореляції, коли значення коефіцієнта варіюють в інтервалі (0; 0,3) і кожне завдання привносить свій специфічний внесок у загальне зміст тесту.
Десятий крок. На десятому кроці за допомогою підрахунку значень коефіцієнта бісеріальной кореляції оцінюється валідність окремих завдань тесту.
Коефіцієнт кореляції бісеріальной використовується в тому випадку, коли один набір значень розподілу задається в дихотомічної шкалою, а інший - у інтервальної. Тоді як показник зв'язку між розподілами вибирають бісеріальний коефіцієнт. Під цю ситуацію підпадає підрахунок кореляції між результатами виконання кожного завдання (дихотомічна шкала) і сумою балів піддослідних (інтервальна або квазіінтервальная шкала) за завданнями тесту.
Формула для підрахунку, отриманий за результатами виведення, має вигляд
(9)
де - Середнє значення індивідуальних балів випробовуваних, які виконали вірно у-е завдання тесту; - Середнє значення індивідуальних балів випробовуваних, які виконали невірно у-е завдання тесту; - Стандартне відхилення по безлічі значень індивідуальних балів; - Число випробовуваних, які виконали вірно у-е завдання тесту; - Число випробовуваних, які виконали невірно у-е завдання тесту; N - загальне число досліджуваних, ; І - ордината нормованого нормального розподілу в точці, за якою лежить 100% площі під нормальною кривою. ?? ?? ?? ?? ??
Обчислення за формулою (9) вимагає використання спеціальних таблиць для знаходження ординат стандартної нормальної кривої і певної математичної підготовки.
Інтерпретація. Аналіз значень коефіцієнта бісеріальной кореляції в табл. 5.11 вказує на два досить невдалих завдання тесту. Це ті ж самі третій і восьме = 0,26] завдання. Отриманий висновок дає цінну інформацію про низьку валідності завдань 3 і 8 тесту. Ці завдання слід визнати невдалими і для поліпшення тесту їх необхідно видалити.
У цілому завдання можна вважати дійсним, коли значення Під цей критерій підпадають всі, крім двох завдань (третього і восьмого) розглянутого прикладу матриці тесту.
Оцінка валідності завдання дозволяє судити про те, наскільки завдання придатне для роботи відповідно до загальної метою створення тесту. Якщо ця мета - диференціація учнів за рівнем підготовки, то валідні завдання повинні чітко відокремлювати добре підготовлених від слабо підготовлених учнів тестованої групи.
Вирішальну роль в оцінці валідності завдання грає різниця . Чим вище значення цієї різниці, тим краще працює завдання на спільну мету диференціації досліджуваних, що виконують тест. Значить??
Додати в блог або на сайт

Цей текст може містити помилки.

Педагогіка | Лекція
286.7кб. | скачати


Схожі роботи:
Контрольно-вимірювальні прилади
Урок креативного типу заснований на методі евристичних питань з теми Контрольно-вимірювальні прилади
Визначення темпераменту за допомогою методик тестування Методика тестування на виявлення темпераменту
Електричні вимірювальні прилади
Цифрові вимірювальні прилади
Електронні вимірювальні прилади й сигнали
Електродинамічні та електромагнітні вимірювальні прилади
Вимірювальні технології їх використання і розвиток
Первинні вимірювальні перетворювачі в системах безпеки
© Усі права захищені
написати до нас