ТЕСТУВАННЯ

1. Тести, їх класифікація.
2. Напрями тестування.

1. Тести, їх класифікація.
Тести - це спеціалізовані методи психологічного діагностичного дослідження, застосовуючи які можна отримати точну кількісну чи якісну характеристику досліджуваного явища.
Від інших методів дослідження тести відрізняються тим, що: 1) припускають стандартизовану, вивірену процедуру збору й обробки даних, а також їх інтерпретації; 2) за допомогою тестів можна вивчати і порівнювати між собою людей, давати оцінки їх психології і поведінці.
1. Тест-опитувальник заснований на системі заздалегідь відібраних і перевірених з точки зору їх валідності і надійності питань, по відповідях піддослідних, на які точно можна судити про їх психологічних якостях.
2. Тест-завдання передбачає оцінку психології та поведінки людини не на основі того, що він говорить, а на базі того, що він робить. У тестах цього типу людині дається серія спеціальних завдань, за підсумками, виконання яких судять про досліджуваному якості.
Тести-опитувальники і тести-завдання - застосовні до людей різного віку, які належать до різних культур, що мають різний рівень освіти, різні професії та неоднаковий життєвий досвід. Це позитивна риса даних тестів.
Недолік полягає в тому, що при використанні їх випробуваний при бажанні може свідомо вплинути на отримувані результати, особливо якщо він знає, як влаштований тест і яким чином за його результатами будуть оцінювати його психологію і поведінку.
Тести-опитувальники і тести-завдання не застосовуються в тих випадках, коли вивченню підлягають властивості і характеристики, в існуванні яких випробуваний не може бути повністю впевнений, не усвідомлює чи не хоче визнавати їх наявність у себе. Такими характеристиками є, наприклад, багато негативних якостей і мотиви поведінки, інші властивості, наявність яких засуджується.
3. Проективні тести зазвичай призначені саме для вивчення тих психологічних і поведінкових особливостей людини, які їм слабо усвідомлюються або викликають до себе з його боку вкрай негативне ставлення.
В основі проективних тестів лежить механізм проекції, згідно з яким не усвідомлювані людиною позитивні і особливо негативні характеристики він схильний приписувати не собі, а іншим людям, "проектувати" їх на інших.
При застосуванні тестів подібного роду про досліджуваного судять на основі того, як він оцінює ситуації, інших людей, які властивості їм приписує.
Користуючись проективними тестами, психологи вводять піддослідних в невизначену ситуацію, з якої вони повинні самостійно знайти вихід. Такими ситуаціями можуть бути: 1) пошук певного сенсу в сюжетно-невизначених картинах, 2) завершення незавершених пропозицій, 3) оцінка поведінки і вчинків незнайомих людей в незрозумілих ситуаціях і т.п.
Тести проективного типу: 1) пред'являють підвищені вимоги до рівня освіченості та інтелектуального розвитку випробуваних, і в цьому полягає їх основний недолік, 2) вимагають при їх застосуванні високої професійної кваліфікації психолога і великого досвіду роботи.
Усі розглянуті методи дослідження можна використовувати для збору даних про психологію і поведінку людей як в реальному житті, так і в спеціальних експериментальних умовах. У силу безлічі причин, які можуть вплинути на психологію і поведінку людини, і того, що в звичайних умовах ці причини важко контролювати, психологи протягом останніх 40-50 років частіше зверталися до експерименту як самому надійному засобу одержання достовірної інформації про досліджуваних явищах.
2. Напрями тестування
Ідея квантування як відрізка розрізнення була дуже евристичної. Її сприйняли і почали застосовувати для розробки об'єктивних методів оцінки практично у всіх напрямках психології.
В основі методу об'єктивної психологічної оцінки лежить тест (або проба), який може представляти собою: 1) стимул певної модальності [2], якщо це психофізичний дослідження; 2) завдання різного рівня складності, якщо це педагогічна психологія; 3) завдання, пов'язані з дослідженням уваги, пам'яті, кмітливості і т.д. в загальній та віковій психології.
Для того, щоб ці тести (проби) могли дати об'єктивні і вимірні дані, вони попередньо перевіряються на великому числі випробовуваних. Наприклад, у педагогічній психології - на дітях одного віку або людей одного рівня освіти і т.д.
При цьому з усіх запропонованих завдань відбираються ті, які успішно вирішуються значним числом всіх досліджуваних (наприклад, двома третинами).
Ця процедура називається нормуванням, або визначенням "норми". З нею згодом порівнюються вирішення тих випробовуваних, знання, вміння і навички яких вимірюються.
Результати цих вимірів оцінюються в умовних балах (або в рангових оцінках), об'єднаних у шкалу порядку і вказують, яке місце даний випробуваний міг би зайняти по відношенню до відповідної групи випробовуваних (тобто до "нормі").
Завдання психологічних тестів, таким чином, - виміряти відмінності між індивідами або між реакціями одного індивіда в різних умовах. Вирішення цього завдання призвело до розвитку диференціальної психології. Велике значення психологічних тестів і для інших напрямків психології.
Кількість і різноманітність різного роду тестів, опитувальників і шкал в даний час величезне. А починалося тестування з розробок Ф. Гальтона (1822-1911), який першим їх: 1) застосував для виміру психічних властивостей; 2) розробив методи математичної статистики для аналізу даних по індивідуальних відмінностей.
Надалі помітний внесок у розвиток психологічного тестування внесли роботи Джеймса Кеттела (1860-1944) з його "розумовими тестами", які містили вимір м'язової сили, швидкості руху, чутливості до болю, гостроти зору і слуху, часу реакції, пам'яті і т.д .
Виміром пам'яті у школярів займався Г. Еббінгауз (1897).
У Франції в 1908 р . свою першу шкалу розумового розвитку для дітей створили А. Біне і Т. Симон.
Коли США вступили в Першу світову війну, під керівництвом Р.М. Йеркса (1876-1956) були розроблені армійські так звані "альфа і бета тести", що дозволяють відібрати придатних до військової служби осіб. Згодом ці тести неодноразово перероблялися і стали зразком для більшості групових тестів інтелекту. Тестування отримало наймогутніший стимул для свого розвитку, і незабаром були розроблені групові тести інтелекту для всіх віків і рівнів освіченості (від дошкільнят до аспірантів). Їх почали широко використовувати в школах, коледжах. Коефіцієнт інтелекту 10 (див. розділ "Здібності") враховувався при прийомі до навчальних закладів і на роботу. Однак незабаром стало ясно, що застосовуються тести є дуже грубим інструментом і область їхнього застосування досить обмежена. Тим не менш вони широко поширені, продовжують удосконалюватися і застосовуватися для різних цілей.
Поряд з тестами інтелекту у відповідь на запити практики виникли також тести досягнень. Їх ще називають тестами об'єктивного контролю успішності: шкільної, професійної, спортивної і т.п. Від різних типів контролю знань і умінь (усних і письмових) ці тести відрізняються своєю формою. Учням пропонується питання, відповідь на який в декількох варіантах представлений на цьому ж бланку. Один з відповідей вірний, інші - ні. Потрібно відзначити правильну відповідь. При підготовці тестів досягнень практикується експертна оцінка знань, яка проводиться паралельно з тестуванням. Коли тест відпрацьований і стандартизований, необхідність у цьому відпадає. На жаль, застосування тесту досягнень обмежене тільки тією областю знань, яка піддається формалізації.
Застосування тестів. Як методичний інструмент тести широко використовуються у сучасних дослідженнях. Проте перш ніж вирішити, який з сотень тих тестів може бути застосований для дослідження, психолог задається питанням:
1) яка мета тесту?
2) для якої групи осіб він краще підходить?
3) чим він відрізняється від інших методів вивчення індивідуальності людини?
4) наскільки відповідально він конструювався?
5) наскільки він точний?
6) наскільки адекватні і дійсні його результати?
Від кожного вимірювального інструмента потрібно, щоб він був якомога більш точним, щоб на отримані результати можна було покластися як на дані, близькі до "справжньої" величині вимірюваного ознаки. Отже, точність можна розуміти як міру достовірності, з якою тест вимірює її. Існує ряд джерел похибок, які знижують точність тестів і надійність результатів. До них відносяться:
1) несприятливі умови тестування;
2) недостатня увага до стану випробуваних у момент випробування;
3) неправильне поведінка експериментатора;
4) суб'єктивність в тлумаченні результатів тесту.
Крім обліку та усунення джерел похибок, надійність тесту (тобто його узгодженість) підвищують за допомогою повторного випробування з наступним обчисленням коефіцієнта кореляції між даними першого і другого тестування. Подібна ретельна і об'єктивна перевірка надійності тесту необхідна психологів, щоб знати, для яких цілей і в яких межах його можна застосовувати.
Поряд з надійністю до тесту ставиться вимога валідності, чи адекватності. Валідність - це ступінь, у якій тест є інструментом, що вимірює те, для чого він призначений.
Для встановлення валідності зазвичай потрібно незалежний зовнішній критерій по відношенню до того, що тест повинен виміряти. Наприклад, якщо тест призначений для вимірювання схильності до ризику, то він може бути валідованих перевіркою цієї схильності в групі мотогонщиків, каскадерів і т.д. Сукупність таких зовнішніх показників ризику буде критерієм, за яким слід співвіднести вихідні тестові показники ризику. Далі визначається коефіцієнт валідності за допомогою коефіцієнта кореляції. При конструюванні тестів застосовується ще цілий ряд спеціальних статистичних процедур, що дозволяють зробити тест більш чутливим і надійним інструментом.
При роботі з тестами слід відзначити також і етичний аспект. Використання, проведення та інтерпретація психологічних тестів обов'язково повинні йти під контролем кваліфікованого психолога. У руках недобросовісного або некомпетентного експериментатора тести можуть завдати серйозної шкоди. Особливо це стосується особистісних тестів або опитувальників, у зв'язку з чим важливо запобігти доступність їх змісту для будь-якого охочого.
Описані вище базові методи досліджень, а також методи вимірювання та тестового оцінювання індивідуальних відмінностей лежать в основі багатьох сучасних об'єктивних методів емпіричних досліджень. До основних з них відносяться методи опитування, проективний і відображеної суб'єктивності.

Тема 11. Технологія тестування

1. Переваги методу тестів.
2. Недоліки тестування.
3. Надійність тестів.
4. Валідність тестів.
5. Стандартизація тестів.
6. Достовірність тесту.
Ключові терміни: оптимальна трудність, надійність тесту, помилка вимірювання, валідність тесту, критерій валідності, прогностична валідність, стандартизація тесту, вибірка стандартизації, лінійна стандартизація, конверсійна таблиця, репрезентативність тестових норм, рестандартізація, критеріальні норми, достовірність тесту, мотиваційні спотворення, шкала брехні , соціальна бажаність, ситуація клієнта, ситуація експертизи.
Метод тестів є одним з основних у сучасній психології. За рівнем популярності в освітній та професійної психодіагностики він міцно утримує перше місце у світовій психодіагностичної практиці вже фактично протягом сторіччя.
Домовимося розуміти під тестами в цьому розділі технології, які складаються з серії завдань з вибором з готових варіантів відповіді. При підрахунку балів по тесту вибрані відповіді отримують однозначну кількісну інтерпретацію та підсумовуються. Сумарний бал порівнюється з кількісними тестовими нормами, і після цього порівнюються стандартні діагностичні висновки.
1. Переваги методу тестів
Популярність методу тестів пояснюється наступними головними його достоїнствами.
1. Стандартизація умов і результатів
Тестові методики відносно незалежні від кваліфікації користувача (виконавця), на роль якого можна підготувати навіть лаборанта з середньою освітою. Це однак не означає того, що для підготовки комплексного висновку по батареї тестів не треба залучати кваліфікованого фахівця з повноцінним вищою психологічною освітою.
2. Оперативність та економічність
Типовий тест складається з серії коротких завдань, на виконання кожного з яких потрібно, як правило, не більше півхвилини, а весь тест займає не більше години (у шкільній практиці це один урок); тестування одночасно піддається відразу група піддослідних, таким чином, відбувається значна економія часу (людино-годин) на збір даних.
3. Кількісний диференційований характер оцінки
Дробность шкали і стандартизованность тесту дозволяють розглядати його як "вимірювальний інструмент", який дає кількісну оцінку вимірюваним властивостями (знань, умінь в даній області). Хороший тест дозволяє розрізняти не тільки три категорії учнів - відмінників, "середнячків" і "хвостистів", але й добре диференціювати випробовуваних на полюсах шкали - відрізняти просто здатних від дуже здібних і талановитих, а серед відстаючих відрізняти небезнадійний від "безнадійних" (або зовсім непідготовлених). Крім того, кількісний характер тестових результатів дає можливість застосувати у разі тестів добре розроблений апарат психометрії, що дозволяє оцінити, наскільки добре працює даний тест на даній вибірці випробуваних у даних умовах.
4. Оптимальна трудність
Професійно зроблений тест складається із завдань оптимальної труднощі. При цьому середній випробуваний набирає приблизно 50 відсотків з максимально можливої кількості балів. Це досягається за рахунок попередніх випробувань - психометричного експерименту, або пілотажу. Якщо в ході пілотажу стає відомо, що із завданням справляється приблизно половина з обстежуваного контингенту, то таке завдання визнається вдалим і його залишають в тісті.
5. Надійність
Це, може бути, саме головне достоїнство тестів. "Лотерейний" характер сучасних іспитів з витягуванням "щасливих" або "нещасливих" квитків давно став притчею во язицех. Лотерейна для іспитів тут обертається низькою надійністю для екзаменатора - відповідь на один фрагмент навчальної програми, як правило, не є показовим для рівня засвоєння всього матеріалу. На відміну від цього будь-який грамотно побудований тест охоплює основні розділи навчальної програми (тестованої галузі знань або проявів якогось вміння або спроможності). У результаті можливість для "хвостиків" вибитися у відмінники, а для відмінника раптом "провалитися" різко скорочується.
Назвемо також ряд достоїнств, які в логічному сенсі є наслідками, похідними від перерахованих вище, але заслуговують самостійного згадки.
6. Справедливість
Справедливість є найважливішим соціальним наслідком перерахованих вище достоїнств методу тестів. Її слід розуміти як захищеність від упередженості екзаменатора. Хороший тест ставить всіх піддослідних у рівні умови. Найбільш сильно суб'єктивізм екзаменаторів проявляється, як відомо, не в трактуванні рівня рішення задачі (не так просто можна назвати чорне білим, вирішену задачу - невирішеною), а в тенденційному підборі завдань: своїм - легше, чужим - важче. У вступі до цього посібника вже говорилося, що саме тести забезпечують найважливішу функцію школи як соціального фільтра, функцію "соціально-професійної селекції". Те, наскільки справедливою виявляється подібна селекція, має гігантське значення для розвитку суспільства. Тому так важливо всім, хто має доступ до тестів і їх результатами, вчитися культурі грамотного і гуманного їх застосування. Бо тільки сумлінне і кваліфіковане ставлення користувачів до тестів перетворює їх на інструмент, що підвищує, а не знижує рівень справедливості в суспільстві.
7. Можливість комп'ютеризації
У даному випадку це не просто додаткова зручність, що скорочує жива праця кваліфікованих виконавців при масовому обстеженні. У результаті комп'ютеризації підвищуються всі параметри тестування (наприклад, при адаптивному комп'ютерному тестуванні різко скорочується час тестування). Спеціально підкреслимо, що комп'ютеризація - це потужний інструмент забезпечення інформаційної безпеки (достовірності діагностики). Комп'ютерна організація тестування, що передбачає створення потужних інформаційних "банків тестових завдань", дозволяє технічно запобігти зловживанням з боку недобросовісних екзаменаторів. Вибір завдань, пропонованих конкурентному випробуваному, може виробляти з такого банку сама комп'ютерна програма прямо в ході тестування, і пред'явлення даного випробуваному певного завдання в цьому випадку є таким же сюрпризом для екзаменатора, як і для випробуваного.

8. Психологічна адекватність
Це найважливіше психологічний наслідок оптимальної складності. Наявність у тесті (у порівнянні з традиційними екзаменаційними варіантами) великої кількості коротких завдань середньої труднощі дає багатьом піддослідним (особливо тривожним, не впевненим у собі) шанс "зачепитися", повірити в себе, активізувати психологічно оптимальну установку "на подолання". Адже коли такий випробуваний залишається віч-на-віч з однією-двома дуже складними і великими завданнями і не бачить, як можна з ними впоратися взагалі, то він падає духом і не розкриває всіх своїх можливостей. А якщо завдань багато і частина з них явно починає "піддаватися" (випробуваний впевнений, що він з ними впорається), людина в процесі тестування підбадьорює і починає "боротися" за максимальний результат. Вже згадане нами властивість оптимальної складності важливо для тіста тим, що воно забезпечує не тільки вимірювальну (розрізняють) силу тесту, але і оптимальний психологічний настрій випробовуваних. Людина не є пасивним об'єктом вимірювань при тестуванні (подібно гирі при зважуванні), а він завжди гостро емоційно реагує на тест. Тестова ситуація оптимальної складності є оптимальним збудником - люди відчувають нормальний рівень стресу (напруги), необхідний для того, щоб показати найвищий результат. Недолік стресу (у разі легкого тесту), а тим більше надлишок (у разі важкого) спотворюють результати вимірювання. Цього, як правило, зовсім не розуміють організатори наших конкурсних іспитів, намагаються у разі високого конкурсу дати абітурієнтам задачки складніше ("на засипку"), що створює надлишковий стрес, який не дає можливості проявити себе людям, підготовленим добре, але що володіє зниженою стресостійкістю.
У багатьох країнах впровадження методів тестування (так само як і опір цьому впровадженню) тісно пов'язане з соціально-політичними обставинами. Впровадження технічно добре оснащених тестових служб в освіті - найважливіший інструмент у боротьбі з корупцією, що вражає правлячу еліту (номенклатуру) у багатьох країнах. На Заході тестові служби працюють незалежно від "випускають" (школи) і "приймають" (вузи) організацій і постачають абітурієнта незалежним сертифікатом за результатами тестування, з яким він може відправлятися в будь-яку установу. Ця незалежність служби тестування від випускових та приймаючих організацій є додатковим чинником демократизації процесу селекції професійних кадрів в суспільстві, що дає талановитому і просто працездатного людині зайвий шанс проявити себе.
Проте все перераховане вище не означає, що метод тестів не володіє деякими досить серйозними недоліками, що не дозволяють звести всю діагностику здібностей і знань виключно до тестування.
2. Недоліки тестування
Як завжди, певні недоліки методу тестів є продовженням його достоїнств.
1. Небезпека "сліпих" (автоматичних) помилок
Сліпа віра низькокваліфікованих виконавців в те, що тест повинен спрацювати правильно автоматично, породжує іноді важкі помилки і казуси: випробуваний не зрозумів інструкцію і став відповідати зовсім не так, як вимагає стандартна інструкція, або з якихось причин застосував спотворює тактику, виник "зсув "у додатку трафаретці-ключа до бланка відповідей (при ручному, некомпьютерном підрахунку балів) і т.п. Мораль - користувач не повинен підходити до тесту з "магічної установкою", ніби цей чарівний "чорний ящик" повинен завжди працювати справно без жодного контролю з боку людини.
2. Небезпека профанації
Це ефект діяльності "профанів" в буквальному сенсі слова. Не секрет, що зовнішня легкість проведення тестів спокушає людей, непридатних до кваліфікованої праці. Оснастив тестами, їм самим незрозумілого якості, але з гучними рекламними назвами, профани від тестування агресивно пропонують свої послуги всім і вся. У результаті всі проблеми передбачається вирішувати за допомогою 2-3 тестів - "на всі випадки життя".
До кількісному тестового балу приклеюється новий ярлик - висновок, що створює видимість відповідності діагностичної задачі. Ходовий приклад - поголовне використання клінічного тесту MMPI для відбору кадрів у нашій країні. У цьому випадку високий бал по восьмий шкалою "Шизофренія" інтерпретується як "оригінальність мислення", по четвертій шкалою "Психопатія" - як "імпульсивність" і т.п. Думка про те, що нормальний здоровий випробуваний насторожується при вигляді багатьох питань MMPI, в яких відверто називаються психіатричні симптоми ("Я часто чую голоси") і видають чисто "захисний" профіль, профанів не турбує [3].
Ще раз підкреслимо, що несумлінна профанація і елементарне невігластво йдуть в області тестування рука об руку.
3. Втрата індивідуального підходу, "стрессогонность"
Тест - сама загальна "гребінка", під яку підганяють всіх людей. Можливість втратити унікальну індивідуальність нестандартного людини (тим більше дитини), на жаль, досить вірогідна. Це відчувають самі випробовувані, і це їх нервує - особливо в ситуації атестаційного тестування.
У людей зі зниженою стресостійкістю виникає навіть певне порушення саморегуляції - вони починають хвилюватися і помилятися в елементарних для себе питаннях (просто через "мандражу"). Вчасно помітити таку реакцію на тест - завдання, яке під силу кваліфікованому виконавцю.
4. Втрата індивідуального підходу, "репродуктивність"
Тести знань апелюють, насамперед, до стандартного застосування готових знань. Відсутність можливості розкрити свою індивідуальність при наявності стандартних, заданих відповідей - нічим не відновних недолік методу тестів. З точки зору виявлення творчого потенціалу більшість тестів досить обмежені саме тим, що вони не апелюють до творчої, конструктивної діяльності. У всякому разі, окремі стандартизовані творчі тести мають справу з вельми абстрактним матеріалом, а тести досягнень (знань), адаптовані на життєво важливому матеріалі (професійно релевантному), як правило, виконані у формі стандартного набору завдань із заданим відповіддю.
5. Відсутність довірчої обстановки
Бездушний і формалізований характер процедури тестування, звичайно, обертається тим, що випробуваний позбавляється відчуття того, що психолог зацікавлений в ньому особисто, в тому, щоб допомогти йому. Діалогічні методи (бесіда, гра тощо) у цьому плані мають безсумнівні переваги: безпосередньо спілкуючись з випробуваним, кваліфікований психолог може встановити довірчий контакт, проявити персональна участь, створити атмосферу, яка знімає напругу і захист.
6. Втрата індивідуального підходу, неадекватна складність
Іноді некваліфіковані "тестологи" обрушують на дитину тести занадто важкі, складні для його віку. У нього ще не склалися необхідні поняття і понятійні навички, щоб адекватно осмислити як загальну інструкцію до тесту, так і зміст окремих питань. Ми вже говорили про драматичні казуси різкій недооцінки розумового розвитку дітей при застосуванні вербальних тестів. Але багато "невербальні" тести також вимагають розвитку мовного мислення хоча б для осмислення того, що говорить дорослий у своїй інструкції. Альтернатива "дорослому" тестуванню в дитячій психології - ігровий підхід до тестування, коли тест включається в контекст гри, і дитина виконує його як би граючи.
Таким чином, тести не можна робити єдиним вичерпним методом будь діагностики (і освітньо-професійною, і особистої). Вони вимагають паралельного використання вільних письмових робіт (в особистісній діагностиці місце творів займають проективні тести з вільним відповіддю), а також усної співбесіди (інтерв'ю). Тобто місце тестів - доповнювати зазначені вище традиційні методи. У цій якості тести незамінні, оскільки не мають багатьох недоліків, властивих традиційним методам.
Спокійне раціональне усвідомлення переваг і недоліків методу тестування звільняє всіх (виконавців, замовників, випробовуваних) як від надмірних сподівань на метод тестів, так і від зневаги до нього.
Краща гарантія від профанів і профанації - серйозний і кваліфікований інтерес до того, яку експериментально-наукову роботу виконали розробники тесту, як повно ця робота і її результати відображені в супутньої документації. Це перш за все питання надійності, витривалості та репрезентативності.
3. Надійність тесту
Надійність - одне з трьох головних психометричних властивостей будь-вимірювальної психодіагностичної методики (тесту). Надійність - це завадостійкість тесту, незалежність його результатів від дії різноманітних випадкових факторів. До числа таких факторів слід віднести:
різноманітність зовнішніх матеріальних умов тестування, що міняються від одного випробуваного до іншого (час доби, освітленість, температура в приміщенні, наявність сторонніх звуків, що відволікають увагу і т.п.);
динамічні внутрішні фактори, по-різному діють на різних випробуваних в ході тестування (час так званої "вирабативаемості" - виходу на стабільні показники темпу і точності дій після початку тестування, швидкість стомлення і т.п.);
інформаційно-соціальні обставини (різна динаміка у встановленні контакту з психологом чи лаборантом, проводять тестування; можливу наявність інших людей в приміщенні, наявність попереднього досвіду знайомства з даними тестом; наявність якогось знання і відносини до тестів і т.п.).
Різноманітність і мінливість всіх цих факторів такі великі, що вони зумовлюють появу у кожного випробуваного непрогнозованого за розмірами і напрямком відхилення - виміряного тестового бала від істинного тестового бала (який можна було б в принципі отримувати в ідеальних умовах). Середня відносна величина цього відхилення визначається як "стандартна помилка вимірювання" (Se). Величина помилки виміру вказує на рівень неточності або ненадійності тестової шкали (спеціально підкреслимо, що в психометрической теорії надійність і точність виявляються синонімами).
Помилка вимірювання (Se) і надійність виміру (R), відповідно до загальноприйнятої психометрической теорії, пов'язані наступною формулою:
R = 1 - S e ² / S _x ^2, (1)
де Sх - дисперсія тестових показників Х.
Формула (1) є суто теоретичною, і на її основі не можна визначити ступінь надійності тесту, так як величина Se виявляється також невідомою величиною. Тому на практиці застосовують кореляційні методи. Найвідоміший з них - метод перетестірованія (тест-ретест), або метод вимірювання ретестовой надійності. На одній і тій же вибірці випробуваних (не менше 30 людей, які беруть участь у пілотажної психометрической експериментальному дослідженні) проводять перше тестування Х, а потім повторне тестування Y. Інтервал, як правило, - два тижні, що гарантує забування питань тесту.
де S _X, S _Y - стандартні відхилення Х і Y;
Cov (х, y) - коваріація двох змінних Х і Y.
У цій книзі ми не ставимо за мету навчити студентів-педагогів кореляційним методам і намагаємося викласти лише принципову суть справи. Зацікавлені знайдуть всі необхідні формули і обчислювальні приклади в будь-якому підручнику з статистикою, а також у спеціалізованих виданнях з психодіагностики і психометрики ("Загальна психодіагностика", 1987; Клайн, 1994).
Що важливо для суті теорії надійності тестів, так це можливість визначити помилку вимірювання після того, як підрахована кореляція "тест-ретест" за формулою (3), отриманої шляхом простого перетворення формули (1):
S _e = S _х Ч V1 - R. (3)
Таким чином, якщо стандартне відхилення в тесті склало 10 очок (середнє відхилення, яке в середньому допускають випробовувані від середнього балу для вибірки), а кореляція "тест-ретест" виявилася рівною лише 1,5, то помилка вимірювання виявляється дуже великий:
S _e = 10ЧV1-0, 5 »7,1. (4)
Тобто виявляється, що похибка вимірювання перекриває більшу частину розкиду тестових показників, тому що щирий бал по тесту може відхилятися від виміряного балу на цілих 7 очок! І якщо випробуваний набрав на 6 очок більше, ніж "середній" випробуваний, ми не можемо з достатньою впевненістю (статистичною достовірністю) говорити про те, що він істотно перевершив середнього випробуваного, так як це відхилення виявляється в межах стандартної помилки вимірювання.
Таким чином, низька кореляція результатів тесту між першим і повторним тестуванням говорить про те, що випадкові фактори суттєво спотворюють результати тесту. Це значить, що тест не має необхідної завадостійкістю і його не можна використовувати як вимірювальний інструмент.
Показник надійності R, який прийнято вважати досить високим, дорівнює або перевищує 0,95. Хоча в особистісних тестах часто користуються значно менш надійними тестами з показниками 0,8-0,9.
Метод вимірювання "ретестовой надійності" придатний лише для психічних властивостей, стабільних у часі. Надійність тестів на психічні стани і динамічні установки особистості не можна перевірити таким чином. У цьому випадку застосовують різні методи "розщеплення" тесту на окремі пункти, висвітлення яких виходить за межі цього посібника
4. Валідність тесту
Відповідність тесту вимірюваному психічному властивості називається валидностью тесту. Це, без перебільшення, найважливіше психометричне властивість тесту. Якщо висока надійність тесту говорить нам про те, що тест справді "щось" вимірює, то висока валідність вказує на те, що тест вимірює саме те, що ми хочемо. Звичайно, на валідність тесту також негативно впливають випадкові фактори. Тому в психометрики прийнято наступне основне психометричне нерівність:
ВАЛІДНОСТЬ <НАДІЙНІСТЬ,
що означає, що валідність не може перевищувати надійності тесту.
Але на відміну від надійності, крім випадкових факторів, на валідність тесту впливають систематичні фактори. Вони привносять систематичні спотворення в результати. Ці фактори є інші психічні властивості, які заважають проявитися в результатах тесту того властивості, на яке тест спрямований.
Наприклад, ми хочемо вимірювати "потенціал навченості" (найважливіший компонент загальних інтелектуальних здібностей людини), але даємо випробуваному тест з жорстким обмеженням часу виконання і відсутністю можливості повернутися і виправити допущену помилку. Цілком очевидно, що шукане психічна властивість виявляється змішаним у тесті з помилковим психічним властивістю - "стресостійкість": випробовувані з високими показниками стійкості до стресу будуть краще виконувати тест. У цьому проявиться ефект систематичного спотворення.
У сучасній психометрики розроблені буквально десятки різноманітних теоретичних та експериментальних методів перевірки валідності тестів. Основним елементом практично всіх цих методів є так званий критерій валідності - це незалежний від тесту, зовнішній по відношенню до тесту джерело інформації про вимірюваному психічному властивості. Ми не можемо судити про валідності тесту до тих пір, поки не порівняємо його результати з джерелом справжньої (або хоча б свідомо більш валидной) інформації про вимірюваному властивості - з критерієм.
У наукових дослідженнях переважають спеціальні лабораторні критерії. Наприклад, конструюється компактний тест-опитувальник на тривожність. А в якості критерію валідності для нього використовується спеціальний трудомісткий об'єктивний лабораторний експеримент, у якому відтворюється реальна ситуація тривожності (випробуваним-добровольцям погрожують за помилкові дії ударами струму тощо).
На практиці дуже часто в якості критерію валідності використовуються прагматичні критерії - показники ефективності тієї діяльності, заради прогнозування якої робиться тестування. У школі найтиповіший критеріальний показник - це успішність. Але для соціально-психологічної адаптації дитини зовнішнім критеріальним показником може бути рівень популярності в класі.
Дуже часто в якості критерію валідності використовується експертна оцінка. Наприклад, ми хочемо переконатися, що короткий тест на вимірювання рівня дисциплінованості валідний. Для цього опитуємо вчителів про рівень дисциплінованості добре відомих їм учнів. І після цього порівнюємо (корелюючи) результати тесту і експертний рейтинг учнів по дисциплінованості.
Зупинимося трохи докладніше на цьому останньому прикладі. Тут ми маємо один з самих простих і популярних методів емпіричного (статистичного) вимірювання валідності. Це метод "відомих груп". До участі в психометрической експерименті з перевірки валідності тесту запрошуються випробовувані, про яких відомо, до якої групи за критерієм вони відносяться. У випадку з тестом дисциплінованості підбираються учні, свідомо дисципліновані, за даними експертної оцінки вчителів ("висока" група за критерієм), і свідомо недисципліновані ("низька" група за критерієм). Учні з середніми показниками за критерієм у тестуванні не беруть участь.

Після проведення тесту ми розраховуємо, наприклад, найпростішу четирехклеточную кореляцію між тестом і критерієм. Для цього заповнюється наступна четерехклеточная таблиця.

	Вис. КРИТ.	НИЗ. КРИТ
Вис. ТЕСТ	A	B
Вис. ТЕСТ	C	D

Елемент "А" в цій табличці - це число досліджуваних, що потрапили в "високу" групу по тесту і за критерієм, елемент В - число досліджуваних, що потрапили у високу групу по тесту, але в низьку групу за критерієм і т.д.
Очевидно, що при повній валідності тесту елементи В і С таблички повинні бути рівні нулю. Тобто тест не повинен давати помилок - говорити про те, що учень нізкодісціплінірованний, коли вчителі кажуть про те, що учень високодісціплінірованний (випадок С).
Міру збігу (кореляції) між крайніми групами по тесту і за критерієм оцінюють за допомогою самого простого Фі-коефіцієнта Гілфорда:
При чисельності протестованої групи в 30 чоловік (це мінімальна вибірка для перевірки валідності) статистично значимий зв'язок тесту з критерієм ми можемо констатувати, коли Phi> = 0,36. Хоча це, звичайно, невисока валідність, але все ж тест в цьому випадку дає значно кращі результати, ніж випадкове ворожіння. Тобто, якщо у вашому навчальному закладі є конкурс і ви хочете відібрати не тільки обдарованих, але і дисциплінованих учнів, ви можете використовувати тест, валідність якого ви перевірили, і вона виявилася значущою.
Але ... Метод "відомих груп" володіє серйозним недоліком. Він не завжди дозволяє використовувати тест для прогнозу, адже при формуванні "відомих груп" оцінюється поведінка в минулому, а ми хочемо зробити тест дня прогнозу поведінки в майбутньому. Багато тестів, які використовуються в освітній психодіагностику, володіють зазначеним недоліком. Вони пройшли в кращому разі перевірку за методикою "відомих груп" і не мають так званої прогностичної валидностью (або принаймні ця валідність суворо експериментально не доведено). Звичайно, на місцевому рівні завдання забезпечення прогностичної валідності не вирішити. Це під силу тільки великим науково-методичних центрів. Адже до психометричного дослідження з перевірки прогностичної валідності треба залучати приблизно на порядок більше піддослідних - не 30, а мінімум 300. Адже ми просто не знаємо, хто з цих 300 потрапить в майбутньому в крайні групи.
Наприклад, ми хочемо використовувати тест для прогнозу готовності школярів до навчання у вузах. Це типова прогностична психодіагностична завдання. Хтось повинен взятися за нелегку багаторічну програму перевірки прогностичного потенціалу цього тесту. Потрібно протестувати 300-500 школярів, а потім почекати, хто з них вступить до вузу і буде успішно там вчитися. Після двох-трирічного інтервалу можна сформувати критеріальні групи і підрахувати кореляцію групи з колишніми тестовими показниками цих колишніх школярів. Тільки після реалізації такої схеми психометричного експерименту можно5. Стандартизація тестів
Що, безсумнівно, повинен знати і вміти робити кожен грамотний користувач тесту - це розуміти, що таке тестові норми і як ними користуватися.
Початковий сумарний бал, підрахований за допомогою ключа, не є показником, який можна діагностично інтерпретувати. Його називають в тестології "сирим тестовим балом". Застосування тестових норм у професійно організованою психодіагностику грунтується на переведенні тестових балів з "сирий" шкали в "стандартну". Ця процедура називається "стандартизацією тестового балу".
Нехай ми провели тест з 20 завдань і випробуваний дав 12 правильних відповідей. Чи можна при цьому сказати, що здатність у випробуваного виражена краще або гірше, ніж в середньому? Ні. Для такого висновку потрібно порівняти бал 12 із середнім балом за представницької вибіркою випробовуваних.
Вибірка, на якій визначаються статистичні тестові норми, називається вибіркою стандартизації. Її чисельність, як правило, не менше 200 осіб. Стільки людей має взяти участь у психометрической експерименті з визначення тестових норм - в експерименті зі стандартизації тесту.
Якщо після стандартизації тесту з'ясовується, приміром, що середнє арифметичне по сирій шкалою тесту дорівнює 14, то виявляється бал 12 - це не краще, а гірше середнього (хоча випробуваний і впорався більше ніж з половиною завдань). Просто в даному випадку тест містить занадто прості завдання, кілька відхиляючись за цим параметром від оптимальної труднощі.
Найпростіша лінійна стандартизація тестового бала здійснюється за формулою
де Z - стандартний бал на так званої стандартної шкалою Z (з центром 0 і відхиленням 1);
Х - сирої бал по тесту;
- Середній бал за вибіркою стандартизації,
Sх - стандартне відхилення по вибірці стандартизації.
Після отримання стандартного бали Z можна перевести тестовий бал в будь-яку стандартну тестову шкалу, прийняту в психодіагностики. Наприклад, переклад у шкалу IQ здійснюється за формулою
IQ = Z. .15 = 100.
Нагадаємо, що у шкалі IQ центр дорівнює 100, а відхилення - 15.
Якщо переклад потрібно в так звану шкалу "стіною" (від англ. "Standart ten" - стандартна десятка), то формула перерахунку з шкали Z виглядає так:
Sten = Z. .2 +5,5,
так як в шкалі стіною центр дорівнює 5,5, а відхилення дорівнює 2.
Узагальнена формула переведення сирого бали в задану стандартну шкалу має вигляд:
Y = _{S s} ЧZ + M, (7)
де Y - стандартний бал, за довільною шкалою, з центром М і відхиленням Ss.
Для серйозних професійних тестів замість описаної тут найпростішої лінійної стандартизації використовується більш складна процедура нелінійної нормалізації (форсований перехід до нормального розподілу). У результаті цієї, більш точної процедури розробники постачають користувачів тіста так званої конверсійної таблицею для перекладу сирих балів у стандартні бали за заданою шкалою. У ній наводиться повний перелік відповідностей між інтервалами сирої шкали і стандартною.
Нижче наведено приклад того, як може виглядати конверсійна таблиця для деякого тесту арифметичних обчислень з 30 завдань. Найпростіша процедура підрахунку балів (за правильну відповідь - 1 очко, за помилку -0) дає нам сиру шкалу від 0 до 30.
Таблиця 1
Приклад фрагменту конверсійної таблиці для перекладу сирих балів у стіни

Сирий бал	0-6	7-8	8-9	10-13	14-16	17-19	20-22	23-24
Стіни	1	2	3	4	5	6	7	8

Як користувалися таблицею? Якщо випробуваний показав 5 сирих очок (вирішив лише 5 завдань), то йому ставиться мінімальний стандартний бал 1. Якщо випробуваний вирішила 25 завдань, то отримує бал 9.
Після того, як бал по тесту стандартизований, можна виносити діагностичне ув'язнення. Загальне правило тут таке: якщо стандартний бал Y перевищує одиницю "верхньої" (або "високою") групи M + Ss, то даним випробуваному приписується підвищене значення виміряного психічного властивості. Наприклад, про учня говорять, що він є безумовно більш дисциплінованим, ніж середній учень в російській школі (чи московської, або іркутської - залежно від того, на якій вибірці стандартизації отримані норми). Якщо ж стандартний бал Y нижче межі "нижньої" ("низькою") групи M-Ss, то про даному випробуваному формулюється висновок, що відповідає низькому полюса вимірюваного властивості. Якщо стандартний тестовий бал Y укладений в межах центрального інтервалу (M-Ss, M + Ss), то про випробуваного кажуть, що у нього виміряний властивість виражено в середньому ступені - як у більшості людей.
На шкалі стіною кордон "верхньої" групи дорівнює 7,5, а "нижній" - 3,5, тобто при отриманні 8 стіною і більше випробуваний зараховується до "верхню" групу, а при отриманні 3 стіною і менше - в "нижню" .
Якщо ми маємо справу з біполярним (двополюсним) психічним властивістю, наприклад, "гнучкість - ригідність", то для "високою" групи формулюється висновок як для "гнучких" людей, а для "низькою" групи - як для ригідних людей. Відповідно середня група з центрального інтервалу визнається нейтральною, неполяризованого з даного тестового параметру.
Будь-які тестові висновки при використанні статистичних тестових норм є відносними. Вони залежать від тієї вибірки, на якій проводилася стандартизація тесту. Те, наскільки вибірка стандартизації дозволяє застосовувати тест на широкій популяції, називається репрезентативністю тестових норм. [4] Репрезентативність - третє найважливіше психометричне властивість тесту. Розуміння сенсу цієї вимоги до тесту допомагає правильно враховувати обмеження у сфері його застосування.
Наприклад, якщо тест проходив стандартизацію на студентах, то перед його застосуванням на школярах слід спочатку провести рестандартізацію, тобто знову зібрати тестові норми на представницькій вибірці, сформованої саме зі школярів. В іншому випадку діагностичні висновки, зроблені за неадекватними тестовим нормам, будуть неточні і неправильні.
Перевірка репрезентативності тестових норм здійснюється за допомогою аналізу так званого розподілу частот тестових балів. Одним з найпростіших методів є перевірка нормальності цього розподілу. Більш складний і універсальний підхід передбачає порівняння двох розподілів, побудованих для двох випадкових половин вибірки стандартизації. Якщо ці два розподіли виявляються практично тотожними, то можна говорити про репрезентативність тестових норм.
Введення поняття репрезентативності дозволяє нам дати більш суворе визначення того, що таке стандартизація тесту. Про стандартизацію тесту в строгому сенсі можна говорити, коли задана повна таблиця відповідності сирої шкали і стандартною шкали і зміст цієї таблиці обгрунтовано статистичної структурою розподілу тестових балів на вибірці стандартизації.
Крім статистичних тестових норм у сучасних тестах часто використовуються критеріальні норми. Вони особливо важливі для сфери освіти. Дійсно, що дає нам знання про те, що Петров виконав тест краще середнього випробуваного, якщо середній випробуваний теж не впорався з більшістю завдань? Ми прогнозуємо, що пригнічує більшість випробуваних без спеціального додаткового навчання не зможуть показати необхідного рівня ефективності в майбутній діяльності.
При побудові так званого "тесту за критерієм" шкала сирих тестових балів калібрується особливими реперними точками, які відповідають рівням розрахованої ймовірності досягнення якогось критерію (заданої ефективності діяльності). Наприклад, якщо оператор АЕС був точний у 45 з 48 відсотків завдань, то це може ще й не відповідати необхідному рівню критеріальної "надійності оператора" (в даному випадку "надійність" - вимірюється властивість), а от якщо він був точний у 47 з 48 завдань, то це може вважатися достатнім рівнем "надійності". Таким чином, при побудові діагностичних висновків з критеріальним тестів ми цікавимося не ступенем відхилення бала від центру шкали, а досягненням чи недосягненням якогось критичного рівня на шкалі.
6. Достовірність тесту
Особливою різновидом валідності є достовірність, яка не завжди виділяється в підручниках з психодіагностики, хоча вимагає спеціальних зусиль і процедур по забезпеченню. Мова йде про свідомих чи несвідомих викривлення, які вносить у тестові результати сам випробовуваний, керуючись у ході тесту особливої мотивацією, що відрізняється від тієї, яка притаманна йому в реальному поведінці. Здатність тесту захищати інформацію від мотиваційних викривлень і є вірогідність тесту. Особливо гостро проблема достовірності стоїть у випадку тест-опитувальників, які допускають більше свободи у виборі випробуваним будь-якого варіанту відповіді.
Типовий прийом забезпечення достовірності - наявність у тест-анкетах шкалою брехні. Ці шкали грунтуються головним чином на феномені соціальної бажаності - прагненні піддослідних давати в ході тестування соціально одобряемую інформацію.
Якщо випробовуваний набрав за шкалою брехні бал вище критичного, то його протокол оголошується недостовірним і йому пропонується або виконати цей тест ще раз більш відверто, або виконати інший тест. Багато більш специфічні "пастки", спрямовані на вимірювання достовірності, часто входять як компонент в структуру конкретного тесту, а іноді навіть не підлягають розголошенню як елемент "ноу-хау" (інформаційного винаходи) та професійної таємниці, яку поділяє розробниками тільки з ліцензованими користувачами методики, підписали особливу ліцензоване угоду при придбанні тесту.
Достовірність тестування тісно пов'язана зі ступенем довірливості спілкування, яку психолог зміг встановити з даними випробуваним. Тут корисно розрізняти дві діагностичні ситуації: консультативну (ситуація клієнта) та атестаційну (ситуація експертизи). У першому випадку випробуваний бере участь у тестуванні на добровільних засадах і сам зацікавлений отримати рекомендації за результатами тестування (як, наприклад, у профорієнтаційній консультації). У другому випадку тестування проводиться з ініціативи педагога або адміністрації, психолога, батьків, тобто інших осіб, і ці інші більше зацікавлені в результатах, ніж сам випробовуваний.
Зрозуміло, що в атестаційної ситуації питання про достовірність особливо актуальне. І опитувальники, не забезпечені шкалами брехні, використовувати в таких ситуаціях марно. Навпаки, в ситуації клієнта можуть бути використані такі методики, на які досліджуваний свідомо буде відповідати некоректно в ситуації експертизи.
Питання достовірності і стандартизації тісно пов'язані між собою. Дуже часто навіть об'єктивні тести досягнень, якщо вони проходили стандартизацію на добровольцях (у ситуації консультації), повинні бути рестандартізіровани для того, щоб їх використовували в атестаційної ситуації.
стверджувати, що тест пройшов перевірку на прогностичну валідність. Без цього ми виходимо просто з довіри до наукової інтуїції розробника тесту і не маємо незалежних доказів того, що тест можна використовувати для прогнозу.
Різниця звичайної дешевої схеми валідизації тесту (по "відомих групах") і дорогий прогностичної схеми валідизації тесту - найважливіший елемент психодіагностичної грамотності не тільки для психологів, але і для педагогів, як, втім, і для будь-яких замовників психодіагностичної інформації.
Коли замовник твердо знає, яких доказів ефективності пропонованого тесту можна вимагати від тестологи, він буде надійно застрахований від профанації.
На закінчення даної теми підкреслимо, що вимірювання психометричних характеристик тесту, звичайно, є, насамперед, обов'язком розробників тестів. Але кваліфікований шкільний психолог-методист з повним курсом університетської освіти повинен за свою підготовку вміти самостійно провести найпростіший психометричний експеримент і перерахувати тестові норми, а також психометричні індекси надійності та валідності тесту на своїй власній вибірці (у своєму регіоні, що володіє певною національно-культурною та соціальною специфікою). Без цієї перевірки ніхто не може гарантувати, що тест справді працює в даних умовах.
На сьогодні подібна психометричних робота з тестами полегшується, так як від маси рутинних обчислень фахівця звільняє комп'ютер. Наукова фірма "Гуманітарні технології" (МДУ) поширює з 1993 року спеціалізований пакет програм ТЕСТАН (розробник - А. Г. Шмельов) для психометричного аналізу тесту. Завдання користувача такої програми - не витрачати час на обчислення, а тільки змістовно розбиратися в тому, що означає той чи інший коефіцієнт.