Інтерактивне дослідження некількісних даних методика та інструментарій

Е.Б. Бєлова

У цій статті розглядається методика інтерактивного дослідження некількісних даних, які з історичних джерел. Пропонований підхід передбачає активну участь дослідника на кожному кроці комп'ютерного аналізу. Необхідність такого підходу може бути обгрунтована наступними двома твердженнями, що стосуються характеру історичних даних та процесу їх аналізу.

По-перше, некількісних дані за своїм походженням - це, взагалі кажучи, дані, які добуваються з текстових документів, а отже, семантично погано певні; їх структура не обов'язково є регулярною. На формальному рівні одиницею аналізу є пойменована сутність (об'єкт даних), описувана довільним набором елементарних властивостей (якостей). Іншими словами, сутність визначається як підмножина в безлічі властивостей / якостей. Властивість, в свою чергу, визначає, за допомогою своєї зустрічальності, групу сутностей, і отже, може розглядатися як підмножина в безлічі сутностей. Таким чином, ми маємо симетрію, що дозволяє обробляти сутність і її властивості схожим чином: розглядаючи набір даних як дві множини, що описуються залежністю "багато-до-багатьох". Однак, треба зазначити, що хоча така симетрія не завжди осмислена на рівні інтерпретації, вона завжди присутня з формальної точки зору. Тому запропонований спосіб аналізу істотним чином спирається на цей факт. На практиці набір даних існує як послідовність записів, кожна з яких описує один об'єкт (визначає його ім'я і набір якостей). Якості можуть належати до різних груп. Ці групи можуть служити аналогами змінних ("полів" - в термінах баз даних), а якості, які належать їм - значенням змінних. Але групи, з одного боку, можуть мати більше одного значення для кожного запису, а з іншого боку, їх існування в загальному випадку необязятельно. Більш того, групи якостей можуть існувати динамічно і набувати різний сенс у процесі аналізу.

По-друге, на практиці дуже складно, а іноді навіть неможливо вибрати a priori вірний алгоритм аналізу складних даних. Тому запропонований в даній статті програмний інструмент QualiDatE [1] підтримує гнучкий механізм для створення користувацьких стратегій аналізу.

Основною операцією QualiDatE є кластеризація (класифікація). Однак, тут сенс цієї процедури є більш широким, ніж у традиційному аналізі даних: контрольований користувачем процес кластеризації дозволяє вивчати характеристики набору даних з різних точок зору і в різних вимірах оскільки і об'єкти даних, і їх властивості можуть бути класифіковані. Кожен окремий акт класифікації визначається наступним чином:

вказуються еталонні об'єкти, що задають центри шуканих класів;

шляхом введення порогу близькості (подібності) визначається наскільки інші об'єкти з досліджуваного набору повинні бути близькі до еталонів;

вказується тип класифікації. QualiDatE підтримує два основних типи близькості: симетричну і асиметричну:

Інтерактивне дослідження некількісних даних: методика та інструментарій

На перший погляд, асиметрична близькість може виглядати дивно, оскільки ми звикли розглядати подібність як симетричне ставлення. Сенс її використання полягає в тому, що у нас повинна бути можливість поставити такі завдання як, наприклад, "знайти кластер, в якому б властивості даного об'єкта домінували" або "визначити, до якої міри даний об'єкт схожий на інші об'єкти з набору даних" - іншими словами, оцінити ефект "особистості" і "натовпу" відповідно. У зазначених випадках використання асиметричної заходи близькості більш адекватно.

Симетрична близькість (1) у разі об'єктів даних є ні що інше, як частка загальних властивостей серед загального набору властивостей двох об'єктів. Асиметрична близькість (2) є число загальних властивостей щодо кількості всіх властивостей будь-якого об'єкта. Обидва висловлювання вірні, коли ваги ваги всіх властивостей рівні. Однак, в QualiDatE закладені механізми маніпулювання масами. Якщо будь-яку властивість з точки зору дослідника є більш важливим у порівнянні з іншими, то йому може бути присвоєний більш високий вагу. Внаслідок цього близькість стає умовною мірою, що відбиває неоднакову значимість властивостей об'єктів. Незважаючи на відсутність обмежень на значення ваги, обидва типи мір близькості завжди приймають значення в діапазоні від нуля до одиниці.

У той всіма як близькість між об'єктами досить природно інтерпретується як кількісна схожість (наприклад, схожість соціальних характеристик двох персон), близькість властивостей може інтерпретуватися як кореляційна міра. Наприклад, асиметрична міра близькості властивості "грамотний" і "селянин" у деякому уявному наборі даних, що містить персональну інформацію (у разі рівних ваг) визначає частку грамотних людей серед селян. Або, в імовірнісних термінах - це емпірична умовна ймовірність властивості "грамоти" за умови наявності властивості "селянин", яка дорівнює відношенню частоти зустрічальності властивостей "грамотний" і "селянин" до частоти зустрічальності властивості "селянин". Однак, у випадку нерівних ваг, коли, наприклад, деякі особи не можуть бути певно названі грамотними, близькість втрачає свій очевидний сенс. Проте, вона зберігає функцію кореляційної міри, тобто відображає ступінь узгодженості прояви властивостей.

Варто відзначити, що в нашому методі не має значення, чи мають порівнювані об'єкти даних однаковим числом властивостей, чи ні [2].

Розглянемо тепер вже згадувані вище типи класифікації, підтримувані програмою QualiDatE.

Інтерактивне дослідження некількісних даних: методика та інструментарій

Рис. 1а Розбиття типу покриття.

Покриття. У результаті цього типу класифікації всі об'єкти, розташовані всередині зазначених кордонів, включаються в один кластер. При цьому кластери можуть перетинатися, а об'єкти, що не потрапили в жоден з кластерів, утворюють так званий клас залишків (рис. 1а).

Інтерактивне дослідження некількісних даних: методика та інструментарій

Рис. 1б Розбиття з обмеженням.

Розбиття з обмеженням відрізняється від покриття тим, що області перетину розбиваються відповідно до максимальної мірою близькості (рис. 1б).

Інтерактивне дослідження некількісних даних: методика та інструментарій

Рис 1в Повне розбиття.

Повне розбиття веде до того, що кожен елемент даних обов'язково потрапляє в якій-небудь клас [3] (рис. 1в), тобто від попереднього воно відрізняється неможливістю появи класу залишків.

У разі покриття та розбиття з обмеженням використовується пара чисел (верхній і нижній пороги), що змінюються в діапазоні від 0 до 1, і визначають область кластеру. Об'єкт буде включений у клас, якщо його близькість до еталона потрапляє в задану порогами область. Якщо верхній поріг дорівнює одиниці, то буде генеруватися клас схожих об'єктів. У цьому випадку нижній поріг грає роль критичного рівня цієї схожості. Однак, в загальному випадку, дослідник може керувати парою порогових значень і отримувати кластери, що мають самий різний сенс, аж до кластера максимально несхожих на еталон об'єктів. І звичайно, завжди залишається можливість встановити пару порогів на граничні значення (нижній - на нуль, верхній - на одиницю), внаслідок чого всі об'єкти набору даних будуть включені в один клас. Вибір порогів до деякої міри еквівалентний вибору рівня значущості в статистиці, оскільки він так само базується на міркуваннях здорового глузду та інтуїції експерта.

Отримані в результаті класифікації групи об'єктів можуть бути "вирізані" в окремі набори даних і оброблені незалежно.

Інтерактивне дослідження некількісних даних: методика та інструментарій

Рис. 2 Концептуальний дизайн програмного інтерфейсу

Інтерфейс програми QualiDatE націлений насамперед на підтримку інтерактивного аналізу даних. Концептуальний дизайн програмного інтерфейсу показаний на малюнку 2.

Набір даних, який може бути оброблений паралельно у двох вимірах (як набір сутностей, і як набір якостей / властивостей), постає перед користувачем у різних видах. Це можуть бути вихідні дані, близькості, ваги, статистика, заходи приналежності. Сенс перших трьох видів (подань) досить очевидний: статистика представляє числову інформацію про набір даних (як то: метрики об'єктів, частоти їхньої зустрічальності і т.д.); уявлення заходів приладдя грає роль свого роду тесту, який може проводитися до початку власне класифікації , виявляючи "найближчого сусіда" для кожної суті.

Конкретний вид кожного представлення залежить від поточного стану, тобто від того, який саме фільтр був обраний: набір зазначених еталонів, вибірка груп, які повинні бути відображені і активна схема класифікації. Останнє передбачає, що в будь-який момент можуть співіснувати чотири класифікаційних схеми - по дві на кожен тип сутностей; при цьому одна для кожної пари стає неактивній (прихованою).

Таким чином, досліджуваному наборі даних є певне число віртуальних рівнів інформації. Згадувані раніше стратегії аналізу реалізуються користувачем (дослідником) як послідовні кроки з одного рівня на інший або їх комбінації. При цьому можливі різні сценарії. Деякі з них, які здаються найбільш типовими будуть розібрані нижче з формальної точки зору.

Три сценарії аналізу.

Перший сценарій (див. рис. 3) передбачає, що дослідник має уявлення про те, які об'єкти в наборі даних є типовими - еталонними в термінах розв'язуваної задачі. Іншими словами, дослідник знає якого роду класифікацію треба застосувати до даних. Тоді формально завдання формулюється так: знайти групи об'єктів, що представляють шукані класи. Першим кроком у вирішенні такого завдання буде вказівка відомих специфічних об'єктів - призначення їх еталонами. У найпростішому випадку може бути використано повне, жорстке розбиття. Другим і поледнім кроком буде збереження статистичної інформації для знайдених класів. Якщо ж завдання виглядає більш складною, наприклад, передбачається існування об'єктів, що випадають із загальної схеми, або накладаються жорсткі вимоги на однорідність шуканих класів, то на другому кроці пропонується використовувати перегляд значень приналежності до класів або близькість. Ці можливості націлені на те, щоб вибрати розумний для досліджуваного набору даних поріг схожості, потім застосувати розбиття з обмеженням або покриття. Статистичне представлення результатів у цьому випадку може бути фіналом, а може і служити базою для подальшого перегляду параметрів класифікації.

Інтерактивне дослідження некількісних даних: методика та інструментарій

Рис. 3. Схема дослідження відповідно з першим сценарієм аналізу.

Другий сценарій описує випадок, коли існує якась зовнішня (апріорна) класифікація, обумовлена відносно вузьким набором властивостей (див. рис 4).

Тоді завдання можна сформулювати наступним чином: класифікувати об'єкти за всіма іншими властивостями в цілому і порівняти апріорну і апостеріорну схеми. Отже, ми повинні почати з вказівки властивостей, що визначають зовнішню класифікацію як еталонних та класифікувати весь набір властивостей. У результаті цього кроку виявляються групи властивостей, корелюють з еталонними. Тепер у нашому розпорядженні є групи основних властивостей, які можуть підказати нам, яким чином слід вибрати еталони серед об'єктів. На цьому кроці розумно встановити нульові ваги еталонним властивостями з тим, щоб вони ігнорувалися при класифікації об'єктів, і підвищити ваги основних властивостей, відмінних від еталонних. Тепер класифікація дасть нам набір еталонних об'єктів і робота може бути продовжена у відповідності з першим сценарієм.

Дослідження властивостей отриманих груп і порівняльна групова статистика допомагає оцінити якість класифікації. У результаті може бути прийнято рішення змінити параметри класифікації. Або, якщо класифікація представляється незадовільною, знайдені класи і / або об'єкти, які не потрапили ні в один клас, можуть бути виділені в нові набори даних, і для кожного з них всю процедуру можна повторити з самого початку.

Інтерактивне дослідження некількісних даних: методика та інструментарій

Рис. 4. Схема дослідження відповідно до другого сценарієм аналізу.

Третій сценарій аналізу застосуємо в ситуації, коли нічого певного про досліджуваному наборі даних не відомо. У такому випадку завдання не може бути сформульована більш конкретно, ніж "вивчити набір даних" (див. рис 5а).

Інтерактивне дослідження некількісних даних: методика та інструментарій

Рис. 5а. Схема дослідження відповідно з третім сценарієм аналізу.

Сеанс роботи можна почати з перегляду частот властивостей. Грунтуючись на них, користувач може вибрати декілька найбільш часто зустрічаються властивостей і прийняти їх за еталонні. Подальша послідовність роботи приблизно збігається з другим сценарієм. Альтернативне рішення полягає у виборі об'єктів, що містять найбільш часто зустрічаються властивості, визначення їх у якості еталонних і перехід до роботи за першим сценарієм.

Інтерактивне дослідження некількісних даних: методика та інструментарій

Рис. 5б. Схема дослідження відповідно з третім сценарієм аналізу.

В якості ще одного підходу (див. рис 5б) можна запропонувати розпочати сеанс роботи з вибору одного об'єкта як еталон випадковим чином. Потім переглянути близькості до нього з тим щоб знайти самі несхожі на нього об'єкти, які потенційно можуть служити додатковими (альтернативними) еталонами. Такого роду попередній аналіз можна продовжувати до тих пір, поки не сформується розумний набір еталонів. Після цього знову вступає в дію перший сценарій.

Набір можливих стратегій дослідження не обмежується трьома вищеописаними сценаріями. Слід вказати принаймні ще на три важливих застосування QualiDatE.

Близькість до еталону можна розглядати як міру приналежності в сенсі теорії нечітких множин. Якщо дослідник досить добре знайомий з поняттями цієї теорії, то він може оперувати безпосередньо зі значеннями близькості і створювати нечіткі класифікації, не використовуючи класифікаційних функцій програми. До речі кажучи, класифікація типу покриття, як вона реалізована в програмі, має своїм результатом те, що в теорії нечітких множин називається альфа-перетином нечіткої множини.

QualiDatE може використовуватися як інструмент для побудови крос-табуляцій. Її відмінність від традиційних процедур крос-табуляції полягає в тому, що завдяки певній взаємозамінності понять групи і сутності, QualiDatE дозволяє виробляти крос-табуляцію для складених властивостей - інакше кажучи, для будь-яких комбінацій ознак.

QualiDatE може використовуватися як свого роду нечітка база даних. Вибір об'єктів на основі близькості до еталона може розглядатися як нечіткий запит - щось на зразок "знайти все, що схоже на це до такої-то ступеня". Сама ця ступінь задається встановленням ваг і порогів. В окремому випадку нечіткість запиту може бути зведена до нуля, так що його результатом буде вибірка, заснована на точному збігу деяких певних значень.

* * *

Перейдемо до прикладу дослідження, реалізує те, що вище було описано як другий сценарій.

Пропонований до розгляду набір даних містить відомості про членів першого Державної Думи 1906-ого року. Всі дані в ньому є якісними і були витягнуті з текстових джерел, таких як біографії, довідники тощо Набір даних містить відомості про фракційної належності кожного депутата і деякі його соціальні характеристики [4].

Розглянуті дані використовуються для з'ясування того, чи існувало якесь відповідність між прінадлежност'ю до фракції і соціальним профілем депутата. У центрі дослідження стоять дві найбільші фракції перше Державної Думи - трудовики і кадети.

Відповідна формальна гіпотеза, яка повинна бути верифікована, формулюється наступним чином:

Існують відносно однорідні (в термінах соціальних характеристик) групи осіб;

Існує відповідність між цими групами і приналежністю до фракції. Тобто існують "типовий трудовик" та "типовий Кадет", які представляють ядра своїх фракцій.

Формальна завдання розбивається на наступні чотири кроки:

знайти типові характеристики для кожної фракції;

знайти еталонних депутатів;

побудувати кластери депутатів, ігноруючи їх фракційну приналежність;

дослідити перетин отриманих кластерів і підмножин, що задаються значеннями "трудовик" та "Кадет".

При вирішенні цього завдання ми повинні очевидно слідувати другим сценарієм, оскільки тут ми маємо справу з апріорної класифікацією, що задається фракційною приналежністю, яку ми повинні зіставити з класами, одержуваними за сукупністю інших властивостей об'єктів.

Виконати перший крок - означає знайти два кластери властивостей, близьких (сильно корелюють) до властивостей "трудовик" та "Кадет" (які є в цьому випадку еталонними). Оскільки нашою метою є знаходження властивостей, характерних для кожної з фракцій і тільки для неї, то розумно використовувати симетричну близькість. У принципі, можна використовувати і пару асиметричних близькості. При виборі типу класифікації ми зупинимося на покритті, оскільки нам необхідно бачити, чи перетинаються два шуканих класера (ділять вони деякі властивості). Таблиця 1 представляє результати класифікації при нижньому порозі рівному 0.2 і верхньому - 1. Всі показані властивості, крім "російський", характерні лише для однієї фракції.

Таблиця 1. Близькості основних властивостей до еталонних.

Еталони	Властивості	Трудовик	Кадет
трудовик	трудовик	1.000	0.000
російська	0.199	0.242
загальне образ.	0.242	0.072
початку образ.	0.247	0.053
крестьян.проісх.	0.305	0.096
селянин	0.296	0.071
"Землероб"	0.223	0.070
кадет	зарплата	0.172	0.351
російська	0.199	0.242
юридич. образ.	0.037	0.219
вища образ.	0.068	0.438
дворянин	0.005	0.307
дворянське происх.	0.015	0.226
кадет	0.000	1.000

Дві колонки цифр дають нам попередню інформацію про те, що таке "типовий трудовик" та "типовий Кадет". Слід зазначити, що дві групи властивостей не так тривіальні, як це здається на перший погляд. Справа в тому, що розглянута база даних відтворює неоднозначну термінологію своїх джерел. Наприклад, слово "селянин" насправді може позначати різні властивості в залежності від того, чи використовується воно для вказівки стану, походження або заняття. Кореляція між останніми трьома властивостями може бути невисокою. Реальний селянин визначається лише цілим набором властивостей, і це як раз той набір, який ми зустрічаємо в кластері властивості "трудовик".

На другому кроці ми перемикаємося на представлення об'єктів даних і знаходимо двох осіб: одного, що володіє властивостями класу "типовий трудовик" (загальний профіль і початковий рівень освіти, селянин із селян, землероб), іншого - з властивостями "типового кадета" (вищу юридичну освіту , дворянин з дворян, платню як джерело доходу). Потім (третій крок) ми знаходимо осіб, що групуються навколо двох обраних еталонів. У цьому випадку повинна використовуватися асиметрична близькість до еталону, оскільки більшість осіб описано більш детально, ніж еталонні, а отже, має бути усунуто вплив "зайвих" характеристик. Класифікація повинна бути типу розбиття з обмеженнями, оскільки наше завдання - отримати з набору даних дві чітко розмежовані групи депутатів.

Таблиця 2а. Розподіл фракційної приналежності серед кластерів "Типовий кадет" і "Типовий трудовик".

Фракції	Типові кадети	Типові трудовики	Остальине
трудовики	0.023	0.323	0.172
безпартійні	0.045	0.423	0.144
праві	0.114	0.054	0.072
Дем. реформ	0.045	0.000	0.017
націоналісти	0.000	0.000	0.052
кадети	0.705	0.100	0.412
соц.-дем.	0.203	0.062	0.027
пол. фракції.	0.045	0.015	0.093

Таблиця 2б. Розподіл кластерів "Типовий кадет" і "Типовий трудовик" серед різних фракцій.

Фракції	Типовий кадети	Типові трудовики	Решта
трудовики	0.011	0.452	0.538
безпартійні	0.020	0.556	0.424
праві	0.152	0.212	0.636
Дем. реформ	0.286	0.000	0.714
націоналісти	0.000	0.000	1.000
кадети	0.189	0.079	0.732
соц.-дем.	0.059	0.471	0.471
пол. фракції.	0.065	0.065	0.871

Для того, щоб оцінити результати класифікації (четвертий крок), ми повинні вивчити розподіл фракційної приналежності усередині кожного кластера (таблиця 2а) та комплементарні (додаткові до них) дані - частки "типових трудовиків" і "типових кадетів" серед членів різних фракцій (таблиця 2б). Дві таблиці показують, що близько трьох чвертей "типових кадетів" є в дійсності кадетами, але частка перших серед других невисока. Таким чином, "типові кадети" є невеликий, але дуже однорідною групою у своїй фракції. Частка "типових кадетів" досить висока і в двох інших фракціях - правих і партії демократичних реформ - політичних сусідів кадетів. Випадок "типових трудовиків" трохи більш складний. Вони складають близько 1 / 2 трудовиків, соціал-демократів і безпартійних членів Думи, з іншого боку, лише третина з них є членами фракції трудовиків, в той час, як їх відносна більшість є безпартійними. Останнє означає, що "типовий трудовик" (або по суті типовий селянин) володів низькою політичною самоідентифікацією. Тим не менш, частка трудовиків серед тих, хто вже приєднався до будь-якої фракції, досить висока - понад 2 / 3.

Цифри в колонці "Інші" в таблиці 2б підказують нам, що необхідно виконати ще значну роботу - більшість членів обох з розглянутих фракцій не належать ні до одного класу. Отже, ми виділяємо "інших" в окремий набір даних і починаємо на ньому другий цикл дослідження. Класифікація властивостей у новому наборі даних дозволяє побачити (таблиця 3), що в групі осіб, що належали до фракції кадетів, є дві пари взаємовиключних властивостей.

Таблиця 3. Кластери "Нетипові кадети" і "Нетипові трудовики".

Еталони	Властивості	Трудовик	Кадет	Платня	Землевласник
трудовик	платню	0.238	0.339	1.000	0.000
трудовик	1.000	0.000	0.238	0.023
крест.проісх.	0.302	0.101	0.230	0.043
селянин	0.271	0.061	0.161	0.055
кадет	платню	0.238	0.339	1.000	0.000
російська	0.176	0.226	0.258	0.209
происх. не указ.	0.060	0.252	0.271	0.114
вища образ.	0.092	0.420	0.420	0.334
	дворянин	0.000	0.248	0.124	0.455
землевласник	0.023	0.217	0.000	1.000
TD> происх. не указ.	0.133	0.361	0.432	0.099
кадет	0.000	1.000	0.339	0.217

Це - значення джерела доходу "платню" і "землеволодіння" і такі значення станової приналежності, як "не вказано" і "дворянин". Цей факт дозволяє вважати, що в розглянутому підмножині кадетів існували дві різні групи осіб. Для того, щоб перевірити наше припущення додамо платню і землеволодіння до набору еталонних властивостей. І дійсно, ми бачимо, що землеволодіння тісно корелює з "дворянством" (0.455) та платню - з невказаним станової приналежністю (0.432). Другий шар трудовиків є одномодальний, співпадаючи з першим за становим походженням і приналежності й відрізняючись за джерелом доходу (який тут переважно платню). Ймовірно, цю групу можна назвати сільським середнім класом. У термінах того часу цю групу можна назвати демократичною інтелегенції, що частково збігається з поняттям сільського середнього класу.

Таким чином, ми повинні вибрати одне еталонне особа для трударів і два для кадетів і слідувати далі за описаним сценарієм. За закінченню другого циклу аналізу даних ми маємо в своєму розпорядженні п'ятьма відносно однорідними класами осіб, які можуть бути названі відповідно до змістовної інтерпретацією їхніх властивостей: Землевласники ("кадети-землевласники"), интеллегенция (I) ("типові кадети" першого циклу), интеллегенция ( II) ("кадети-працівників"), интеллегенция (III) ("демократична інтелігенція") і Селяни ("типові тредовікі" першого циклу).

Розмитий соціальний профіль інтелегенції (II) може представлятися незадовільним. Однак, незазначені станове походження та / або станова приналежність не є лише відсутність даних. Ми можемо звернутися до подання близькості і виявити від факт, що "вища освіта" близько дворянського походження і приналежності, з одного боку, і до невказаним значенням цих властивостей, з іншого. Це дозволяє нам припустити, що тенденція не вказувати станові характеристики була властива освіченій дворянству, тобто вищого прошарку інтелегенції. Це стане більш ясним, якщо ми візьмемо до уваги, що ліберали того часу розглядали саме поняття стану як анахронізм. Більш детальне дослідження показує також, що серед "кадетів-працівників" у свою чергу можуть бути виділені дві однорідні підгрупи. Перша з них у цілому близька за профілем до Інтеллегенціі1, виділеної на першому циклі дослідження. Друга - менша і більше специфічна - група освічених євреїв.

Результати цього дослідження можуть бути зведені в двох діаграмах (див. рис. 6-а і 6-б), що відображають розподіл осіб з п'яти знайдених кластерів серед різних фракцій і зворотне розподіл - партійні приналежності в кожному із кластерів. Друга діаграма побудована у припущенні, що п'ять кластерів можуть бути наведені в традиційному порядку зліва-направо відповідно з їх соціальним статусом. Області на задньому плані показують частки безпартійних і членів польської фракції в кожному кластері. Таке відображення дозволяє нам співвіднести соціальні профілі цих двох груп членів Думи, що залишилися за межами нашого дослідження, з побудованою класифікаційної схемою.

Повертаючись до тієї постановці завдання, яка була дана на початку розглянутого прикладу дослідження, ми можемо сказати, що існувало відповідність між приналежністю до фракції і соціальним профілем депутата, хоча воно не є однозначним і чітким. У формальних термінах нами було виявлено п'ять досить однорідних груп об'єктів, належність до яких добре узгоджується з їх приналежністю до апріорних класам.

Отримані результати следут розглядати як попередні. Метою другої частини статті було не стільки представити вичерпне рішення конкретної історичної проблеми, скільки показати в дії підхід, реалізований у програмі QualiDatE. Тут була зроблена спроба продемонструвати, що незважаючи на простоту формального апарату, що лежить в основі описуваного підходу, використання гнучко керованих процедур класифікації, плюс можливість розглядати набір даних з різних точок зору, дозволяє досліднику побудувати свою власну стратегію аналізу, що веде до отримання легко інтепретіруемих результатів різного рівня деталізації.

Малюнок 6 а Розподіл фракційної приналежності всередині кластерів.

Інтерактивне дослідження некількісних даних: методика та інструментарій

На графіку: A - селяни, B - интеллегенция III, C - интеллегенция II, D - интеллегенция I, E - землевласники

Малюнок 6 б. Розподіл фракційної приналежності всередині кластерів.

Інтерактивне дослідження некількісних даних: методика та інструментарій

Список літератури

1.Е.Белова, "Аналіз якісних даних історичних джерел: альтернативний підхід" / / Комп'ютер і історичне знання, Барнаул, 1994

2.Сімметрічная і асиметрична міри близькості збігаються, коли обєкти мають рівне число властивостей (наприклад, у випадку файлу простий табличній структури).

3.Аналогом такої класифікації може служити добре відомий метод розбиття за критерієм "найближчого сусіда".

4.У дійсності, це лише фрагмент великої бази даних, складеної і дослідженої Н. Б. Селунскій, Л. І. Бородкін і Ю. Григор'євої. Більш докладно про матеріали, на основі яких була створена розглянута база даних, можна дізнатися в дисертаційній роботі Ю. Г. Григор "Источниковедческие проблеми вивчення матеріалів історії створення I Державної Думи і перших виборів".