Основні принципи тестування

РЕФЕРАТ

«Основні принципи тестування»

Зміст

Математична статистика
Поняття «валідність», «надійність»
Основні статистичні поняття (заходи центральної тенденції)

Поняття математичної статистики

Математична статистика займається математичним описом випадкових явищ, тобто побудовою імовірнісних моделей, а також перевіркою їх придатності. Математична статистика - прикладна галузь математики, заснована на теорії ймовірності і призначена для систематизації і аналізу емпіричних даних, отриманих при вивченні масових явищ.

Існує 3 розділу статистики:

описова
індуктивна
кореляційний аналіз.

Описова статистика дозволяє описувати, підсумовувати і відтворювати у вигляді таблиць або графіків дані того чи іншого розподілу, обчислювати середнє, його розмах і дисперсію.

Індуктивна статистика (перевіряє). Її завдання - перевірка того, чи можна розглядати результати, отримані на даній вибірці на всю популяцію, з якої взята ця вибірка; дозволяє з'ясувати до якої міри шляхом індукції на велику кількість об'єктів узагальнити закономірності, отримані при вивченні їх обмеженої групи в ході конкретного експерименту.

Кореляційний аналіз дозволяє дізнатися, на скільки пов'язані дві змінні з метою передбачення можливих значень однієї з них, якщо відомі значення іншої.

Статистичні методи, які дозволяють робити узагальнення і вимірювати кореляцію.

параметричні, які служать для перевірки гіпотез про параметри деякої функції або для їх оцінювання, і в яких використовуються такі параметри середнього значення чи дисперсія даних.
непараметричні використовуються, коли дослідник має справу з дуже малими вибірками, деякі функції від функції розподілу вивчених випадкових явищ. Непараметричні критерії служать для перевірки гіпотез про функції розподілу спостережуваних значень.

Виділяють 3 типи даних:

кількісні, отримані при вимірах;
якісні, властивості елементів у вибірці чи популяції, їх не можна виміряти і єдиною їхньою кількісною оцінкою служить частота зустрічальності
порядкові - дані відповідають місцям цих методів, отриманих за їх розташування у зростаючому порядку.

Поняття «валідність», «надійність»

Найважливішими показниками якості психодіагностичних методик є надійність і валідність. Надійність психодіагностичних методик свідчить про повторюваність, стабільності результатів, про їх сталості і стійкості. Воно показує, на скільки точно виробляються психологічні виміри, наскільки можна довіряти одержуваним результатам.

Відомий фахівець в області психодіагностики К.М. Гуревич пропонує виділити три типи надійності: надійність самого вимірювального інструмента, стабільність досліджуваного ознаки і константність, тобто незалежність результатів від особистості експериментатора.

Надійність тесту показує незалежність його результатів від дії різних випадкових факторів. Різноманітні зовнішні і внутрішні чинники можуть викликати відхилення результатів тесту.

Для перевірки стабільності досліджуваного ознаки використовується метод, який отримав назву «mecm - pemecm», який полягає у проведенні повторного психодіагностичного випробування тієї ж вибірки випробовуваних (не менше 30 чоловік) через певний проміжок часу, в обчисленні коефіцієнта кореляції між результатами першого (X) і другого (Y) тестування. Цей коефіцієнт і являє собою показник стабільності досліджуваної ознаки, тобто надійність тесту виявляється в тому, що одні й ті ж люди при повторному обстеженні дають ті ж результати.

Як правило, повторне обстеження проводиться через декілька місяців (але не більше ніж через півроку). Не можна проводити повторне випробування занадто швидко після першого, оскільки є небезпека, що випробовувані відтворювати свої відповіді по пам'яті. Однак цей термін не може бути занадто великим, по скільки в цьому випадку можлива зміна, розвиток самої досліджуваної функції. Коефіцієнт стабільності вважається прийнятним у тому випадку, коли його величина не нижче 0,8.

Коефіцієнт константності визначається шляхом кореляції результатів двох психодіагностичних випробувань, проведених на одній і тій же вибірці випробуваних з дотриманням ідентичності умов, але різними експериментаторами. Він повинен бути не нижче 0,8.

Якість методики визначається тим, наскільки добре вона складена, наскільки однорідна, що свідчить про її спрямованості на діагностику однієї й тієї ж властивості, ознаки.

Для перевірки надійності інструмента за показником однорідності використовують метод розщеплення - для цього всі завдання психодіагностичного інструмента діляться на парні і непарні (за нумерацією), окремо обробляються, а потім підраховуються коефіцієнти кореляції між цими рядами. Чим вище величина коефіцієнта кореляції, тим однорідніше методика, тим вище її надійність.

Іншим показником якості методики є її валідність. За визначенням відомого американського тестології А. Анастазі, «валідність тесту - це поняття, яке вказує нам, що тест вимірює і наскільки добре він це робить». Валідність свідчить про те, чи придатна методика для вимірювання певних якостей, особливостей і на скільки ефективно вона це робить.

Найбільш поширеним способом знаходження теоретичної валідності методики є конвергентна валідність, тобто зіставлення даної методики з авторитетними спорідненими методиками т докази значимих зв'язків з ними. Зіставлення з методиками, що мають іншу теоретичну підставу і констатація відсутності значимих зв'язків з ними, називається дискримінантної валідність.

Інший вид валідності - прагматична валідність - перевірка методики з точки зору її практичної значимості, ефективності, корисності. Для проведення такої перевірки, як правило, використовуються так звані незалежні зовнішні критерії, тобто використовується незалежний від тесту, зовнішнє джерело інформації про виявлення в реальному житті і діяльності людей вимірюваного психічного властивості. Серед таких зовнішніх критеріїв можуть бути успішність, професійні досягнення, успіхи в різних видах діяльності, суб'єктивні оцінки (або самооцінки). Якщо, наприклад, методика вимірює особливості розвитку професійно-важливих якостей, то для критерію необхідно, знайти таку діяльність або окремі операції, де саме ці якості реалізуються.

Для перевірки валідності тесту можна використовувати метод «відомих груп», коли запрошуються люди, про яких відомо, до якої групи за критерієм вони відносяться (наприклад, група «високоуспешних, дисциплінованих студентів» - високий критерій і група «невстигаючих, недисциплінованих студентів» - низький критерій, а студенти із середніми значеннями не беруть участь у тестуванні), проводять тестування і знаходять кореляцію між результатами тесту і критерієм.

	Високий критерій	Низький критерій
Високий результат тесту	а	в
Низький результат тесту	з	d

Тут а - число досліджуваних, що потрапили у високу групу по тесту і за критерієм, с - число досліджуваних, що потрапили у високу групу за критерієм і мають низькі результати тесту. При повній валідності тесту елементи в і с повинні бути рівні нулю. Міру збіги, кореляції між крайніми групами по тесту й критерієм оцінюють за допомогою фі-коефіцієнта Гілфорда.

Якщо було 30 чоловік піддослідних, то статистично значуща зв'язок тесту з критерієм можна констатувати якщо Р більше 0,36.

Що стосується величини коефіцієнтів валідності, то вона з різних причин завжди нижче, ніж коефіцієнт надійності. На думку провідних псіходіаностов, низьким визнається коефіцієнт валідності порядку 0,20 - 0,30, середнім - 0,30 - 0,50, високим - вище 0,60.

У залежності від специфіки самої діагностичної методики і зовнішнього критерія розрізняють декілька її видів.

1. Валідність «по одночасності», або поточна валідність. Визначається за допомогою зовнішнього критерію, інформація по якому збирається в період проведення випробувань (наприклад, успішність, продуктивність праці тощо).

2. Прогностична, або «пророкує», валідність відрізняється тим, що інформація за зовнішнім критерієм збирається деякий час після проведення обстеження. Така валідність свідчить про вожможность методики передбачати успішність випробуваного в будь-яких видах діяльності

Для перевірки прогностичної валідності тесту потрібно обстежити понад 300 осіб, наприклад, абітурієнтів, а через 2-3 роки виділити серед цих людей критеріальні групи «відмінників» і «двієчників» і порахувати кореляцію з колишніми показниками тесту. Якщо кореляція вище 0,4-0,6, то тест можна використовувати для профвідбору абітурієнтів та прогнозу їх навчальної успішності.

3. Ретроспективна валідність визначається на основі критерію, що відображає події або стану якості в минулому. Вона також може свідчити про Предсказательная можливості методики.

Стандартизованість псіходіагонсотіческой методики передбачає, з одного боку, єдину стандартну процедуру її проведення та обробки результтатов, а з іншого боку, включає переклад «сирих первинних результатів тесту» у стандартну шкалу тестових балів, в результаті чого можна зіставляти результати у різних випробуваних у різних тестах. Вибірка, на якій визначаються статистичні тестові норми, називається вибіркою стандартизацію »(вона повинна бути не менше 200 осіб).

Узагальнена формула переведення сирого бали в задану стандартну шкалу має вигляд:

Y = ДZ + M,

де Y - стандартний бал за довільною стандартної шкалою з центром М і відхиленням Д.

Для багатьох тестів використовують більш складну процедуру нелінійної нормалізації (перехід до нормального розподілу), в результаті чого створюють «конверсійну таблицю» для перекладу сирих балів у стандартні бали за заданою шкалою, в якій кожному «сирому балу» вказано відповідний стандартний бал за певною шкалою, наприклад, шкалі «стіною», причому діагносту вже не дано робити самостійних обчислень по нормуванню балів.

Слід враховувати репрезентативність тестових норм - правомірність застосування тестових норм у великій групі людей. Якщо тестові норми були обчислені на вибірці школярів, то ці норми не можна автоматично переносити на студентів - треба провести рестандартізацію тесту, перевірити його на студентах і обчислити тестові норми для студентів.

Крім статистичних тестових норм часто використовують критеріальні норми, тобто досягла людина критичного необхідного рівня розвитку професійно важливого психологічного якості. У критеріальних тестах враховують не ступінь відхилення балів від центру шкали, а досягнення або недосягнення якогось критичного рівня на шкалі.

Слід враховувати і достовірність тесту - здатність тесту захищати інформацію від мотиваційних (свідомих і несвідомих) спотворень і соціальної бажаності відповідей (це досягається через введення у тест перевірочної шкали брехні).

У випадку, якщо тестування проводиться в інтересах та на прохання самої людини (ситуація консультування), то відповіді людини більш правдиві. Якщо тестування проводять з ініціативи адміністрації, наприклад з метою профвідбору (ситуація експертизи), то випробовуваний схильний давати «соціально-бажані», потрібні, вигідні «відповіді», тобто ці відповіді є свідомо чи несвідомо спотвореними, і в цих випадках не можна використовувати тести без шкали достовірності.

Вимірювання психометричних характеристик тесту здійснюють розробники тест, але користувачі повинні знати і розуміти, на скільки той чи інший тест надійний, валідний, стандартизований, достовірний і репрезентативний.

Таким чином, якість будь психодіагностичної методики залежить від ступеня її стандартизованности, надійності та валідності. При розробці будь-якої діагностичної методики її автори повинні проводити відповідну перевірку і повідомляти в керівництві до її застосування отримані результати.

Головна мета статистичного методу - представити кількісні дані в систематизованій і стислій формі з тим, щоб полегшити їх розуміння. Колонка з 1000 тестових показників може виробляти значне, навіть приголомшуюче враження. Але в такому вигляді вона мало що говорить. Щоб навести порядок у цьому хаосі цифр, потрібно перш за все скласти таблицю приватного розподілу.

Класи (інтервали)

Частота

52 - 55

48 - 51

44 - 47

40 - 43

36 - 39

32 - 35

28 - 31

24 - 37

20 - 23

16 - 19

12 - 15

8 - 11

Всього

156

328

244

136

1000

Для цього показники групуються по наперед вироблених інтервалам значень. Коли ж показники розподілені по групах, підраховуються число груп і число показників у кожній з них. Отримане таким способом число і є частота (кількість випадків) для відповідного інтервалу. Сума всіх частот дорівнює N-загального числа випадків. У таблиці дані результати 1000 студентів по тесту на засвоєння коду, в якому проводилася заміна штучних слів чи безглуздих складів з одного набору аналогічними елементами з іншого набору. Значення первинного показника (число правильних відповідей, даних досліджуваним за 2 хвилини) вклалися в межі від 8 до 55. Цей діапазон був розбитий на інтервали по 4 очки в кожному: від 8-11 до 52-55. З колонки частот видно, що результати двох випробуваних знаходяться в інтервалі між 8 і 11, трьох - між 12 і 15 і т.д.

Інформація, що міститься в частотному розподілі, може бути так само представлена графічно у вигляді кривої розподілу.

Цей тип кривої володіє важливими математичними властивостями, і на ній засновані багато видів статистичного аналізу. Крива може приймати і інші форми по яких можна буде судити про складність і легкості тесту.

По суті наша крива означає, що число випадків максимально в середині розподілу і поступово спадає до її країв. Крива симетрична і має єдиний пік в центрі. Більшість розподілів чисельних показників - від зростання і ваги до здібностей і параметрів особистості - наближаються до нормальної кривої. Взагалі кажучи, чим більше група, тим ближче розподіл до теоретичної нормальної кривої.

Основні статистичні поняття (заходи центральної тенденції)

Група тестових показників може бути описана в термінах тієї чи іншої міри центральної тенденції. Така міра вказує єдиний, найбільш типовий або репрезентативний результат, що характеризує виконання тесту всією групою. Найвідомішою з таких заходів є середнє (точніше середньоарифметичне) значення (М). Воно знаходиться додаванням усіх результатів і діленням отриманої суми на число випадків (N). Іншою мірою центральної тенденції є мода, або найбільш часто зустрічається результат. У приватному розподілі мода визначається як середина інтервалу, для якого частота максимальна. Наприклад в нашій таблиці мода знаходиться посередині між 32 і 35, тобто дорівнює 33,5. Відзначимо, що цей результат відповідає найвищій точці кривої розподілу на малюнку. Третя міра центральної тенденції - це медіана, тобто результат, що знаходиться в середині послідовності показників, якщо їх розташувати в порядку зростання чи зменшення. Медіана є точка, що поділяє розподіл рівно навпіл, причому одна половина результатів лежить праворуч від неї, а інша ліворуч.

Мода - Мо - відповідає або найбільш частого, або середнього значення класу з найбільшою частотою. Мо використовують рідко і в тих випадках, де потрібне спільне подання.

Правила обчислення Мо:

1. Коли всі значення в групі зустрічаються однаково, то вважають, що група значення Мо не має 3; 3; 6; 6; 7; 7;

2. Коли два сусідніх значення мають однакову частоту і ця частота більше частоти будь-якого іншого значення, то Мо є середнім цих 2 значень. 0; 1; 1; 2; 2; 2; 3; 3; 3; 4; Мо = 2,5

3. Коли два несуміжних значення мають рівні частоти і ці частоти більше частот будь-якого значення, то існують 2 Мо, і групу називають бімодальною. 10; 11; 11; 11; 12; 13; 14; 14; 14; 17 Мо1 = 11; Мо2 = 14

Медіана (Ме) відповідає центральному значенням у послідовному ряду отриманих значень. Це значення, яке ділить впорядкована множина даних навпіл.

Правила обчислення Ме:

1. Якщо дані містять непарне число знаків, то Ме є середнє значення для випадку, коли вони впорядковані.

11 13 18 19 20

Ме = 18

2. Якщо парне число, то Ме складає 2 середніх значення і вони діляться навпіл.

Список літератури

1. Алексєєв А.С. Основи психології. М.: 2008 р.

2. Бахматов І.К. Психологія особистісних відносин. М.: 2007 р.

3. Гуров Є.Г. Психодіагностика. Ростов-на-Дону: Фенікс, 2007 р.

4. Грошев Є.В. Психологія і психодіагностика. М.: 2006.