Міністерство освіти Російської Федерації
Омський Державний Університет
Математичний факультет
Горбань Павло Олександрович
ТЕХНОЛОГІЯ ВИТЯГИ ЗНАНЬ З НЕЙРОННИХ МЕРЕЖ:
Апробація, ПРОЕКТУВАННЯ ПО,
ВИКОРИСТАННЯ У психолінгвістиці
Дипломна робота
Науковий керівник:
Член-кореспондент РАН
В.В. Шайдуров
Омськ - 2002

Зміст
Введення .. 4
Мета роботи .. 4
Основні завдання дослідження. 4
Основні результати роботи, отримані особисто автором .. 4
Апробація роботи .. 5
Публікації. 5
Глава 1. Проблема вилучення знань та огляд методів вилучення знань 6
1.1 Знання і придбання знань. 6
1.1.1 "Знання". 6
1.1.2. Придбання знань. 8
1.2. Методи вилучення і придбання знань. 8
1.2.1. Придбання знань, навчання та узагальнення за прикладами в теорії класичних експертних систем. 9
1.2.1.1. Труднощі при розробці експертних систем. 11
1.2.2. Методи видобування знань з таблиць даних. 12
1.2.2.1. Технологія вилучення знань з таблиць даних. 12
1.2.2.2. Таблиця емпіричних даних. 13
1.2.2.3. Статистичні методи видобування знань з таблиці даних. 15
1.2.3. Методи ідентифікації систем. 15
1.2.4. Інші методи обробки даних. 16
1.3. Вимоги до технології здобуття знань. 17
Глава 2. Нейронні мережі .. 19
2.1. Коннекціонізм .. 19
2.2. Елементи нейронних мереж. 20
2.3. Основні архітектури нейронних мереж. 21
2.4. Навчання нейронних мереж як мінімізація функції помилки. 22
Глава 3. Спрощення нейронної мережі. 27
3.1. Що таке спрощення нейронної мережі і навіщо воно потрібне. 27
3.2. Завдання вилучення знань з нейронної мережі. 28
3.3. Методи спрощення нейронних мереж. 29
3.3.1. Контрастування синапсів нейромережі. 30
3.3.2. Контрастування нейронів нейромережі. 32
3.3.3. Контрастування вхідних сигналів нейромережі. 35
3.3.4. Бінаризація синапсів. 36
3.3.5. Спрощення нелінійних перетворювачів нейронів. 37
3.3.6. Додаткові модифікації алгоритмів контрастування. 37
3.3.7. Методи модифікації структури навченої мережі. 38
3.4. Вимоги до процесу спрощення мережі для здобуття знань. 38
3.5. Спрощують операції над нейронної мережею .. 39
3.6. Процедура комплексного спрощення нейронної мережі. 40
Глава 4. Методи видобування знань з штучних нейронних мереж 1941
4.1. Існуючі методи видобування знань з навченої нейромережі 41
4.1.1. Методи на основі квантування сигналів мережі. 42
4.1.2. Методи видобування знань паралельно з навчанням нейромережі. 44
4.1.3. Методи видобування знань з навченої нейромережі. 46
4.2. Методи видобування знань: вимоги до методів .. 50
4.3. Методологія вилучення явних знань, що використовує технологію комплексного спрощення нейромережі. 52
4.4. Прийоми підвищення вербалізуемості нейронної мережі. 56
4.4.1. Додавання синдрому в набір вхідних симптомів. 56
4.4.2. Побудова ієрархії продукційних правил. 57
4.4.3. Ручне конструювання мережі з фрагментів кількох логічно прозорих мереж. 59
Глава 5. Нейросітковий аналіз структури індивідуального простору смислів .. 60
5.1. Семантичний диференціал. 60
5.2. MAN-різноманіття. 63
Література .. 65
Публікації автора за темою диплома .. 69
Додаток 1. Плакати для захисту диплому. 71
Додаток 2. Стаття: Горбань П.А. Нейросітковий аналіз структури індивідуального простору смислів. "Нейрокомп'ютери": розробка, застосування. 2002, No 4. С. 14-19. 84

Введення

Мета роботи

Метою дипломної роботи є апробація гнучкої технології вилучення знань з нейронних мереж, що настроюється з урахуванням переваг користувача. Тестування, пробна експлуатація та розробка нової версії програмних засобів, що реалізують цю технологію. Проведення досліджень індивідуальних просторів смислів на основі даної технології.

Основні завдання дослідження

1. Аналіз розроблених методів вилучення явних знань з нейронних мереж із зазначенням їх обмежень і областей застосовності.
2. Апробація гнучко настроюється на основі уподобань користувача технології вилучення знань, що спирається на попереднє проведення комплексного спрощення нейронної мережі, що виконується з урахуванням сформованих користувачем вимог до результуючою увазі видобутих знань.
3. Тестування, пробна експлуатація та розробка нової версії програмних засобів, що реалізують цю технологію.
4. Удосконалення методу семантичного диференціала Осгуда за допомогою технології розрідження учнів нейронних мереж.

Основні результати роботи, отримані особисто автором

1. Запропоновано наступні прийоми, що спрощують і роблять більш гнучким процес вербалізації (семантичного аналізу - осмислення в термінах проблемної області) витягнутого з мережі набору правил:
a) На основі гіпотези про неєдиний видобутих правил та враховуючи, що різні фрагменти мережі (поднабор правил) будуть більш-менш правдоподібні та інтерпретується, запропоновано конструювання нової, більш зрозумілою користувачеві нейронної мережі з найбільш просто інтерпретованих фрагментів інших мереж, які вирішують ту ж задачу.
b) Запропоновано додавання вихідного сигналу деякого фрагмента мережі (змістовно інтерпретується і правдоподібного з точки зору користувача) в якості нового інтегрального ознаки в число незалежних ознак таблиці даних, і вирішення завдання здобуття знань на основі отриманого розширеного набору ознак.
2. Розроблено технічне завдання на нову версію програми-нейроімітатора, що реалізовує запропоновані технології.
3. Удосконалено метод семантичного диференціала Осгуда за допомогою технології розрідження учнів нейронних мереж. Проведено серію експериментів, які полягають в дослідженні індивідуальних смислових площин, проінтерпретовані їх результати. Запропоновано гіпотезу про структуру індивідуального простору смислів: воно складається з різноманіття малої розмірності, що задається культурою («ман-різноманіття» від німецького безособового займенника «man») і порівняно невеликого безлічі індивідуальних відхилень, які можуть бути важливі для діагностики. Кожна культура має невелику кількість специфічних для неї ман-різноманіть (субкультур).

Апробація роботи

Основні положення роботи доповідались на VI, VII Всеросійських семінарах "Нейроінформатика та її застосування", (Красноярськ, 1998, 2000 рр.), I, Всеросійській науково-технічній конференції "Нейроінформатика" (Москва, МІФІ, 1999 р.), VI Міжнародній конференції " Математика. Комп'ютер. Освіта "(1999, Пущино), International Joint Conference on Neural Networks (1999, Washington, DC, USA), XXXVII Міжнародної наукової студентської конференції" Cтудент і науково-технічний прогрес ": Інформаційні технології. Новосибірськ, НГУ, 1999 (нагороджена Дипломом 3 ступеня).

Публікації

За темою диплома автором опублікована 1 стаття в науковому журналі і 4 тези доповідей.

Глава 1. Проблема вилучення знань та огляд методів вилучення знань

Введення
Перший параграф визначає поняття "знання" і "придбання знання".
Другий параграф присвячений огляду існуючих методів вилучення та придбання знань. Розглядаються існуючі в теорії класичних експертних систем методи набуття знань, розглядаються використовуються для витягу знань з таблиць даних методи статистичного аналізу, математичного моделювання та ідентифікації.
Третій параграф описує набір вимог до спрямованої на кінцевого користувача технології вилучення знань.

1.1 Знання і придбання знань

1.1.1 "Знання"

Під знанням розуміється досить широкий спектр інформації. В [1, с.430-432] представлена наступна класифікація типів знань:
1. Базові елементи знання (інформація про властивості об'єктів реального світу). Пов'язані з безпосереднім сприйняттям, не вимагають обговорення і використовуються в тому вигляді, в якому отримані.
2. Твердження й визначення. Засновані на базових елементах і заздалегідь розглядаються як достовірні.
3. Концепції - перегрупування чи узагальнення базових елементів. Для побудови кожної концепції використовуються свої прийоми (приклади, контрприклади, окремі випадки, більш загальні випадки, аналогії).
4. Відносини. Виражають як елементарні властивості базових елементів, так і відносини між концепціями. До властивостей відносин відносять їх більші чи менші правдоподібність і зв'язок з даною ситуацією.
5. Теореми і правила перезапису - окремий випадок продукційних правил (правил виду "якщо ..., то ..., інакше ...") з цілком певними властивостями. Теореми не представляють користі без експертних правил їх застосування.
6. Алгоритми рішення. Необхідні для виконання певних завдань. У всіх випадках вони пов'язані зі знанням особливого типу, оскільки обумовлена ними послідовність дій виявляється оформленої в строго визначеному порядку, на відміну від інших типів знань, де елементи знання можуть з'являтися і розташовуватися без зв'язку один з одним.
7. Стратегії та евристика. Вроджені або набуті правила поведінки, які дозволяють в конкретній ситуації прийняти рішення про необхідні дії. Людина постійно користується цим типом знань при формуванні концепцій, вирішенні завдань і формальних міркуваннях.
8. Метазнаніе. Присутній на багатьох рівнях і представляє знання того, що відомо, визначає значення коефіцієнта довіри до цього знання, важливість елементарної операції по відношенню до всієї безлічі знань. Сюди ж належать питання організації різного типу знань і вказівки, де, коли і як вони можуть бути використані.
У цій роботі першого типу знань буде відповідати інформація про вимірних (або спостережуваних) властивості об'єктів реального світу. Саме ця інформація зведена в таблицю даних типу "об'єкт-ознака". Решті типами знань відповідають обмеження на діапазони значень, які можуть приймати ознаки об'єкта (другий тип), інформація про взаємозалежність ознак і про можливість опису одних ознак через інші, інформація про статистичні властивості значень ознак, ... Фактично, нас цікавить знання другої і наступних типів - знання, яке людина отримує в процесі аналізу інформації, міркувань, узагальнень, проведення аналогій.
Природним є вимога подання знань у вигляді, допускає "тиражування" - можливість передачі знань іншим людям. Для першого типу знань можливе отримання як об'єктивних (точно виміряних) значень властивостей об'єктів реального світу, так і суб'єктивних, персоналізованих, чуттєвих оцінок значень цих властивостей. Для знань наступних типів для можливості передачі вводяться вимоги об'єктивізації, достовірності, несуперечності [1].
Інформаційні одиниці (знання) мають гнучкою структурою [2]. Для них виконується "принцип матрьошки" - рекурсивна вкладеність одних інформаційних одиниць в інші (це спостерігається і на прикладі вищенаведеної класифікації з [1]).
Кожна інформаційна одиниця може бути включена до складу будь-якої іншої, і з кожної інформаційної одиниці можна виділити деякі складові її одиниці. Тобто між окремими інформаційними одиницями можливе встановлення відносин типу "частина - ціле", "рід - вид" або "елемент - клас".
Для інформаційних одиниць одного рівня ієрархії семантика відносин може носити декларативний або процедурний характер [2]: дві або більше інформаційних одиниці можуть бути пов'язані декларативними відносинами "одночасно", "причина - наслідок" чи "бути поряд", або процедурними відносинами типу "аргумент - функція ".
Можна розрізняти відносини структуризації, процедурні відносини, каузальні відносини і семантичні відносини. За допомогою перших задаються ієрархії інформаційних одиниць, другі несуть процедурну інформацію, що дозволяє знаходити (обчислювати) одні інформаційні одиниці через інші, треті задають причинно-наслідкові зв'язки, четверті відповідають всім іншим відносинам [2].

1.1.2. Придбання знань

Придбанням знань називається виявлення знань із джерел і перетворення їх у потрібну форму (наприклад, перенесення до бази знань експертної системи) [2]. Джерелами знань можуть бути книги, архівні документи, зміст інших баз знань тощо, тобто деякі об'єктивізовані знання, приведені до форми, яка робить їх доступними для споживача. Іншим типом знань є експертні знання, які є у фахівців, але не зафіксовані у зовнішніх по відношенню до них сховищах. Експертні знання є суб'єктивними. Ще одним видом суб'єктивних знань є емпіричні знання, отримані шляхом спостереження за навколишнім середовищем. Введення в базу знань об'єктивізовані знань не є проблемою, виявлення і введення суб'єктивних експертних знань досить важкі. Для витягання і формалізації експертних знань розроблено безліч стратегій інтерв'ювання експерта і безліч моделей представлення знань [2].
У когнітивної психології вивчаються форми репрезентації знань, характерні для людини: представлення класу понять через його елементи; уявлення понять класу за допомогою базового прототипу, що відображає найбільш типові властивості об'єктів класу; представлення за допомогою ознак [3]. Форма репрезентації знань визначає використовувану методологію виявлення знань і модель представлення знань.

1.2. Методи добування та придбання знань

До теперішнього часу сформувалося три основних напрямки здобування знань. Ці напрями можуть використовувати одні й ті самі математичні методи; підходи, спочатку розроблені в рамках деякого напряму, можуть застосовуватися для вирішення завдань з іншого напряму. Ось ці напрямки:
1. Методи самонавчання та набуття знань у теорії класичних експертних систем (Параграф 1.2.1).
2. Вилучення знань з таблиць даних. Включає теорію статистичних висновків та інші методи аналізу даних (Параграф 1.2.2).
3. Теорія ідентифікації систем (Параграф 1.2.3).

1.2.1. Придбання знань, навчання та узагальнення за прикладами в теорії класичних експертних систем

Досліджується автоматизований процес отримання знань, що пояснюють наявні факти і здатних пояснювати, класифікувати або передбачати нові. У загальному вигляді завдання формулюється так [2]: за сукупністю спостережень (фактів) F, сукупності вимог і припущень до виду результуючої гіпотези H і сукупності базових знань і припущень, що включають знання про особливості предметної області, обраному способі представлення знань, наборі допустимих операторів, евристик та ін, сформувати гіпотезу Н: HÞF (Н "пояснює" F).

За допомогою NeuroPro можливе отримання показників значущості вхідних сигналів для прийняття нейромережею рішення, показників чутливості вихідного сигналу мережі до зміни вхідних сигналів, показників значущості та чутливості за окремими прикладів вибірки.
За початкову архітектуру була взята шарувата нейронна мережа, що складається з трьох шарів по 10 нейронів у кожному. Далі проводилися послідовно наступні операції.
1) Навчання нейронної мережі з максимальною допустимою помилкою навчання 0.49 бали (така помилка призводить до того, що після округлення помилка навчання фактично дорівнює 0). Як показав досвід, такий помилки навчання найчастіше досить для передбачень з необхідною точністю, тобто для помилки узагальнення, меншою 3 балів.
2) З вхідних сигналів вибирався найменш значимий і виключався, після чого проводилося повторне навчання нейромережі з новими вхідними сигналами і колишньої помилкою навчання.
Ця процедура проводилася до тих пір, поки нейромережа могла навчитися. У результаті цих операцій були отримані мінімальні визначають набори ознак (тобто набори вхідних сигналів, що залишилися після скорочення їх числа).
Для різних людей отримані дуже різні результати (перші результати представлені в [87]), зовсім несхожі на результати Осгуда. Ось типові приклади:
Визначальний набір ознак 1-го людини (розмірність 7):
Розумний - дурний, галасливий - тихий, розумний - нерозумний, щільний - пухкий, дружній - ворожий, страшний - не страшний, небезпечний - безпечний.
2-го людини: сильний - слабкий, приємний - неприємний, небезпечний - безпечний, страшний - не страшний, дружній - ворожий, зручний - незручне (розмірність 6).
Третя людини: приємний - неприємний, небезпечний - безпечний (розмірність 2). Представляє інтерес, що Осгудовскіе ознаки майже не представлені в більшості наборів. У зв'язку з цим було вирішено перевірити, чи можна передбачити значення довільно обраних ознак за допомогою набору Осгуда (помилка навчання в експериментах допускалася ± 0.49 бала). Практично у всіх випадках нейронні мережі навчалися з прийнятною помилкою навчання, але помилка узагальнення в експериментах з ковзаючим контролем (нейронні мережі навчалися за всіма словами, крім 2-х - 3-х, а потім тестувалися на цих словах) часто була неприпустимо велика (5 -9 балів). Після цього проводилися такі експерименти: нейронна мережа навчалася пророкувати значення параметрів по вже певного мінімального набору ознак на одній половині слів, далі вона тестувалася на словах з іншої половини.
При цьому для більшості слів нейронні мережі давали задовільні прогнози по всіх параметрах (з точністю до 3 балів), але майже у всіх випадках виявлялися одне - два слова, для яких відразу за декількома ознаками помилка нейронних мереж була дуже велика.

5.2. MAN-різноманіття

Отже, для кожної людини виявляється різноманіття порівняно малої розмірності, у невеликій околиці якого лежать майже всі слова.
При осмисленні цього виникає гіпотеза, пов'язана з тим, що ставлення людини до більшості речей, подій і т.д. не індивідуально, а сформовано культурою, в якій ця людина ріс, його оточенням і тому залежить від порівняно невеликої кількості ознак. У зв'язку з цим і могли з'явитися різноманіття малої розмірності, у невеликій околиці яких лежать майже всі слова. Назвемо їх ман-різноманіття (від німецького невизначеного займенники man (хтось)). Ймовірно, для кожної певної культури є невелика кількість різних ман-різноманіть, специфічних для неї. У результаті виховання людина привласнює одне з типових ман-многовидів. Наприклад, що визначає набір ознак третього людини представляється основним набором ознак і для тварин: небезпека і приємність мають прямий хімічний аналог і відповідають рівню адреналіну, ендорфінів і енкефалінів.
Виявлено, що у більшості людей є слова, які несподівано "випадають" з ман-різноманіть, - відстоять від них досить далеко. Ймовірно, це слова, з якими у людини пов'язані які-небудь сильні переживання, відчуття, що призводить до появи "індивідуальності" оцінки або ж слова, своє справжнє ставлення до яких людина намагається приховати. Є ще один тип таких точок, специфічних для кожної окремої культури (чи субкультури), особливе ставлення до яких сформовано самою культурою (наприклад, в Росії - Велика Вітчизняна, у мусульманських країнах - бог). Інтерпретація "індивідуальних точок" може дати корисну психодіагностичну інформацію, а аналіз особливих точок культури - культурологічну. Можливе проведення культурологічних досліджень шляхом порівняння особливостей та закономірностей для різних культур.
Вже перші досліди показують, що набір індивідуальних точок дає яскравий і впізнаваний портрет особистості, а загальнокультурні особливості поки не були вивчені, оскільки вимагають більш масштабних досліджень.
У перспективі результати роботи можуть бути використані в багатьох областях, де потрібна інформація про психологію і психічне здоров'я людини, можуть бути застосовані для створення комп'ютерних психодіагностичних методик, що виявляють і аналізують індивідуальні особливості та приховані напруги і т.п.

Література

1. Лорьер Ж.-Л. Системи штучного інтелекту. М.: Світ, 1991. - 568с.
2. Штучний інтелект. У 3-х кн. Кн. 2. Моделі та методи: Довідник / За ред. Д. А. Поспєлова. М.: Радіо і зв'язок, 1990. - 304с.
3. Хафмана І. Активна пам'ять. М.: Прогрес. 1986. - 309с.
4. Бонгард М.М. Проблема впізнавання. М.: Наука, 1967. - 320с.
5. Загоруйко Н.Г. Методи виявлення закономірностей. М.: Наука, 1981. - 115с.
6. Гаек П., Гавранек Т. Автоматичне освіта гіпотез. М.: Наука, 1984. - 278с.
7. Гуревич Ю.В., Журавльов Ю.І. Мінімізація булевих функцій і та ефективні алгоритми розпізнавання / / Кибернетика. - 1974, № 3. - С.16-20.
8. Штучний інтелект. У 3-х кн. Кн. 1. Системи спілкування та експертні системи: Довідник / За ред. Е. В. Попова. М.: Радіо і зв'язок, 1990. - 464с.
9. Айвазян С.А., Енюков І.С., Мешалкин Л.Д. Прикладна статистика: Основи моделювання і первинна обробка даних. М.: Фінанси і статистика, 1983. - 471с.
10.Загоруйко Н.Г. Гіпотези компактності і l-компактності в алгоритмах аналізу даних / / Сибірський журнал індустріальної математики. Січень-червень, 1998. Т.1, № 1. - С.114-126.
11.Браверман Е.М., Мучник І.Б. Структурні методи обробки емпіричних даних. М.: Наука, 1983. - 464с.
12.Дуда Р., Харт П. Розпізнавання образів та аналіз сцен. М.: Світ, 1976. - 512с.
13.Ципкін Я.З. Інформаційна теорія ідентифікації. М.: Наука, 1995. - 336с.
14.Айзерман М.А., Браверман Е.М., Розоноер Л.І. Метод потенційних функцій в теорії навчання машин. - М.: Наука, 1970. - 240с.
15.Россіев Д.А. Самонавчальні нейромережеві експертні системи в медицині: теорія, методологія, інструментарій, впровадження. Автореф. дисс. ... Доктора біол. наук. Красноярськ, 1996.
16.Горбань О.М. Навчання нейронних мереж. М.: вид. СССР-США СП "ParaGraph", 1990. - 160с. (English Translation: AMSE Transaction, Scientific Siberian, A, 1993, Vol. 6. Neurocomputing, рp.1-134).
17.Горбань О.М., Россиев Д.А. Нейронні мережі на персональному комп'ютері. Новосибірськ: Наука, 1996. - 276с.
18.Нейроінформатіка / О.М. Горбань, В.Л. Дунін-Барковський, О.М. Кірдін та ін Новосибірськ: Наука, 1998. - 296с.
19.Ежов А.А., Шумський С.А. Нейрокомпьютинг та його застосування у фінансах і бізнесі. М.: МІФІ, 1998.
20.Міркес Є.М. Нейрокомп'ютер: проект стандарту. Новосибірськ, Наука, 1998.
21.Kwon OJ, Bang SY A Design Method of Fault Tolerant Neural Networks / Proc. ICNN 1994, Seoul, Korea. - Vol.1. - Pp. 396-400.
22.Горбань О.М., Царегородцев В.Г. Методологія виробництва явних знань з таблиць даних за допомогою учнів і спрощуємо штучних нейронних мереж / / Праці VI Міжнародної конференції "Математика. Комп'ютер. Освіта" / - М.: Прогрес-традиція, 1999. - Ч.I. - С.110-116.
23.Царегородцев В.Г. Витяг явних знань з таблиць даних за допомогою учнів і спрощуємо штучних нейронних мереж / / Матеріали XII Міжнародної конференції з нейрокібернетика. - Ростов-на-Дону. Вид-во СКНЦ ВШ. 1999 .- 323с. - С.245-249.
24.Reed R. Pruning Algorithms - a Survey / IEEE Trans. on Neural Networks, 1993, Vol.4, № 5. - Pp.740-747.
25.Depenau J., Moller M. Aspects of Generalization and Pruning / Proc. WCNN'94, 1994, Vol.3. - Pp.504-509.
26.Гілев С.Є., Коченов Д.А., Міркес Є.М., Россиев Д.А. Контрастування, оцінка значимості параметрів, оптимізація їх значення та їх інтерпретація в нейронних мережах / / Доповіді III Всеросійського семінару "Нейроінформатика та її застосування". - Красноярськ, 1995 .- С.66-78.
27.Weigend AS, Rumelhart DE, Huberman BA Generalization by Weights-elimination with Application to Forecasting / Advances in Neural Information Processing Systems. Morgan Kaufmann, 1991. Vol.3. - Pp. 875-882.
28.Yasui S. Convergence Supdivssion and Divergence Facilitation for Pruning Multi-Output Backpropagation Networks / Proc. 3rd Int. Conf. on Fuzzy Logic, Neural Nets and Soft Computing, Iizuka, Japan, 1994. - Pp.137-139.
29.Yasui S. A New Method to Remove Redundant Connections in Backpropagation Neural Networks: Inproduction of 'Parametric Lateral Inhibition Fields' / Proc. IEEE INNS Int. Joint Conf. on Neural Networks, Beijing, Vol.2. - Pp.360-367.
30.Yasui S., Malinowski A., Zurada JM Convergence Supdivssion and Divergence Facilitation: New Approach to Prune Hidden Layer and Weights in Feedforward Neural Networks / Proc. IEEE Int. Symposium on Circuits and Systems 1995, Seattle, WA, USA. Vol.1. - Pp.121-124.
31.Malinowski A., Miller DA, Zurada JM Reconciling Training and Weight Supdivssion: New Guidelines for Pruning-efficient Training / Proc. WCNN 1995, Washington, DC, USA. Vol.1. - Pp.724-728.
32.Krogh A., Hertz J. A Simple Weight Decay can Improve Generalization / Advances in Neural Infromation Processing Systems 4, 1992. - Pp. 950-957.
33.Kamimura R., Nakanishi S. Weight-decay as a Process of Redundancy Reduction / Proc. WCNN, 1994, Vol.3. - Pp.486-489.
34.Karnin ED A Simple Procedure for Pruning Back-propagation Trained Network / IEEE Trans. on Neural Networks, June 1990. Vol. 1, No.2. - Pp.239-242.
35.Le Cun Y., Denker JS, Solla SA Optimal Brain Damage / Advances in Neural Information Processing Systems 2. - Morgan Kaufmann, 1990. - Pp.598-605.
36.Hassibi B., Stork DG, Wolff G. Optimal Brain Surgeon: Extensions and Performance Comparisions / Advances in Neural Information Processing Systems 6, 1994. - Pp.263-270.
37.Гілев С.Є. Алгоритм скорочення нейронних мереж, заснований на різницевої оцінці других похідних цільової функції / / Нейроінформатика та її застосування: Тези доповідей V Всеросс. семінару, 1997. Красноярськ. КДТУ. 1997. - 190с. - C.45-46.
38.Tanpraset C., Tanpraset T., Lursinsap C. Neuron and Dendrite Pruning by Synaptic Weight Shifting in Polynomial Time / Proc. IEEE ICNN 1996, Washington, DC, USA. Vol.2. - Pp.822-827.
39.Kamimura R. Principal Hidden Unit Analysis: Generation of Simple Networks by Minimum Entropy Method / Proc. IJCNN 1993, Nagoya, Japan. - Vol.1. - Pp.317-320.
40.Mozer MC, Smolensky P. Using Relevance to Reduce Network Size Automatically / Connection Science. 1989. Vol.1. - Pp.3-16.
41.Mozer MC, Smolensky P. Skeletonization: A Technique for Trimming the Fat from a Network via Relevance Assessment / Advances in Neural Network Information Processing Systems 1, Morgan Kaufmann, 1989. - Pp.107-115.
42.Watanabe E., Shimizu H. Algorithm for Pruning Hidden Units in Multi Layered Neural Network for Binary Pattern Classification Problem / Proc. IJCNN 1993, Nagoya, Japan. - Vol.1. - Pp.327-330.
43.Yoshimura A., Nagano T. A New Measure for the Estimation of the Effectiveness of Hidden Units / Proc. Annual Conf. JNNS, 1992. - Pp.82-83.
44.Murase K., Matsunaga Y., Nakade Y. A Back-propagation Algorithm which Automatically Determines the Number of Association Units / Proc. IJCNN, Singapore, 1991. - Vol.1. - Pp.783-788.
45.Matsunaga Y., Nakade Y., Yamakawa O., Murase K, A Back-propagation Algorithm with Automatic Reduction of Association Units in Multi-layered Neural Network / Trans. on IEICE, 1991. Vol. J74-DII, № 8. - Pp.1118-1121.
46.Hagiwara M. Removal of Hidden Units and Weights for Back Propagation Networks / Proc. IJCNN 1993, Nagoya, Japan. - Vol.1. - Pp.351-354.
47.Majima N., Watanabe A., Yoshimura A., Nagano T. A New Criterion "Effectiveness Factor" for Pruning Hidden Units / Proc. ICNN 1994, Seoul, Korea. - Vol.1. - Pp. 382-385.
48.Царегородцев В.Г. Виробництво напівемпіричних знань з таблиць даних за допомогою учнів штучних нейронних мереж / / Методи нейроінформатікі. - Красноярськ: Вид-во КДТУ, 1998. - 205c. - C.176-198.
49.Sietsma J., Dow RJF Neural Net Pruning - Why and How / Proc. IEEE IJCNN 1988, San Diego, CA. Vol.1. - Pp. 325-333.
50.Sietsma J., Dow RJF Creating Artificial Neural Network that Generalize / Neural Networks, 1991. Vol.4, No.1. - Pp.67-79.
51.Yamamoto S., Oshino T., Mori T., Hashizume A., Motoike J. Gradual Reduction of Hidden Units in the Back Propagation Algorithm, and its Application to Blood Cell Classification / Proc. IJCNN 1993, Nagoya, Japan. - Vol.3. - Pp.2085-2088.
52.Sarle WS How to measure importance of inputs? SAS Institute Inc., Cary, NC, USA, 1999. ftp://ftp.sas.com/pub/neural/importance.html
53.Goh T.-H. Semantic Extraction Using Neural Network Modelling and Sensitivity Analisys / Proc. IJCNN 1993, Nagoya, Japan. - Vol.1. - Pp.1031-1034.
54.Howlan SJ, Hinton GE Simplifying Neural Network by Soft Weight Sharing / Neural Computations, 1992. Vol.4. № 4. - Pp.473-493.
55.Keegstra H., Jansen WJ, Nijhuis JAG, Spaanenburg L., Stevens H., Udding JT Exploiting Network Redundancy for Low-Cost Neural Network Realizations / Proc. IEEE ICNN 1996, Washington, DC, USA. Vol.2. - Pp.951-955.
56.Chen AM, Lu H.-M., Hecht-Nielsen R. On the Geometry of Feedforward Neural Network Error Surfaces / / Neural Computations, 1993. - 5. pp. 910-927.
57.Гордіенко П. Стратегії контрастування / / Нейроінформатика та її застосування: Тези доповідей V Всеросійського семінару, 1997 / За ред. А. Н. Горбаня. Красноярськ. КДТУ. 1997. - 190с. - C.69.
58.Gorban AN, Mirkes Ye.M., Tsaregorodtsev VG Generation of explicit knowledge from empirical data through pruning of trainable neural networks / Int. Joint Conf. on Neural Networks, Washington, DC, USA, 1999.
59.Ishibuchi H., Nii M. Generating Fuzzy If-Then Rules from Trained Neural Networks: Linguistic Analysis of Neural Networks / Proc. 1996 IEEE ICNN, Washington, DC, USA. Vol.2. - Pp.1133-1138.
60.Lozowski A., Cholewo TJ, Zurada JM Crisp Rule Extraction from Perceptron Network Classifiers / Proc. 1996 IEEE ICNN, Washington, DC, USA. Plenary, Panel and Special Sessions Volume. - Pp.94-99.
61.Lu H., Setiono R., Liu H. Effective Data Mining Using Neural Networks / IEEE Trans. on Knowledge and Data Engineering, 1996, Vol.8, № 6. - Pp.957-961.
62.Duch W., Adamczak R., Grabczewski K. Optimization of Logical Rules Derived by Neural Procedures / Proc. 1999 IJCNN, Washington, DC, USA, 1999.
63.Duch W., Adamczak R., Grabczewski K. Neural Optimization of Linguistic Variables and Membership Functions / Proc. 1999 ICONIP, Perth, Australia.
64.Ishikawa M. Rule Extraction by Successive Regularization / Proc. 1996 IEEE ICNN, Washington, DC, USA. Vol.2. - Pp.1139-1143.
65.Sun R., Peterson T. Learning in Reactive Sequential Decision Tasks: the CLARION Model / Proc. 1996 IEEE ICNN, Washington, DC, USA. Plenary, Panel and Special Sessions Volume. - Pp.70-75.
66.Gallant SI Connectionist Expert Systems / Communications of the ACM, 1988, № 31. - Pp.152-169.
67.Saito K., Nakano R. Medical Diagnostic Expert System Based on PDP Model / Proc. IEEE ICNN, 1988. - Pp.255-262.
68.Fu LM Rule Learning by Searching on Adapted Nets / Proc. AAAI, 1991. - Pp.590-595.
69.Towell G., Shavlik JW Interdivtation of Artificial Neural Networks: Mapping Knowledge-based Neural Networks into Rules / Advances in Neural Information Processing Systems 4 (Moody JE, Hanson SJ, Lippmann RP eds.). Morgan Kaufmann, 1992. - Pp. 977-984.

70.Fu LM Rule Generation From Neural Networks / IEEE Trans. on Systems, Man. and Cybernetics, 1994. Vol.24, № 8. - Pp.1114-1124.
71.Yi L., Hongbao S. The NR Method of Acquiring Multi-step Reasoning Production Rules Based on NN / Proc. 1996 IEEE ICNN, Washington, DC, USA. Vol.2. - Pp.1150-1155.
72.Towell G., Shavlik JW, Noodewier MO Refinement of Approximately Correct Domain Theories by Knowledge-based Neural Networks / Proc. AAAI'90, Boston, MA, USA, 1990. - Pp.861-866.
73.Towell G., Shavlik JW Extracting Refined Rules from Knowledge-based Neural Networks / Machine Learning, 1993. Vol.13. - Pp. 71-101.
74.Towell G., Shavlik JW Knowledge-based Artificial Neural Networks / Artificial Intelligence, 1994. Vol.70, № 3. - Pp.119-165.
75.Opitz D., Shavlik J. Heuristically Expanding Knowledge-based Neural Networks / Proc. 13 Int. Joint Conf. on Artificial Intelligence, Chambery, France. Morgan Kaufmann, 1993. - Pp.1360-1365.
76.Opitz D., Shavlik J. Dynamically Adding Symbolically Meaningful Nodes to Knowledge-based Neural Networks / Knowledge-based Systems, 1995. - Pp.301-311.
77.Craven M., Shavlik J. Learning Symbolic Rules Using Artificial Neural Networks / Proc. 10 Int. Conf. on Machine Learning, Amherst, MA, USA. Morgan Kaufmann, 1993. - Pp.73-80.
78.Craven M., Shavlik J. Using Sampling and Queries to Extract Rules from Trained Neural Networks / Proc. 11 Int. Conf. on Machine Learning, New Brunswick, NJ, USA, 1994. - Pp.37-45.
79.Medler DA, McCaughan DB, Dawson MRW, Willson L. When Local int't Enough: Extracting Distributed Rules from Networks / Proc. 1999 IJCNN, Washington, DC, USA, 1999.
80.Craven MW, Shavlik JW Extracting Comdivhensible Concept Redivsentations from Trained Neural Networks / IJCAI Workshop on Comdivhensibility in Machine Learning, Montreal, Quebec, Canada, 1995.
81.Andrews R., Diederich J., Tickle AB A Survey and Critique of Techniques for Extracting Rules from Trained Artificial Neural Networks / Knowledge Based Systems, 1995, № 8. - Pp.373-389.
82.Craven MW, Shavlik JW Using Neural Networks for Data Mining / Future Generation Computer Systems, 1997.
83.Craven MW, Shavlik JW Rule Extraction: Where Do We Go From Here? Department of Computer Sciences, University of Wisconsin, Machine Learning Research Group Working Paper 99-1. 1999.
84.Michalski RS A Theory and Methodology of Inductive Learning / Artificial Intelligence, 1983, Vol.20. - Pp.111-161.
85.McMillan C., Mozer MC, Smolensky P. The Connectionist Scientist Game: Rule Extraction and Refinement in a Neural Network / Proc. XIII Annual Conf. of the Cognitive Science Society, Hillsdale, NJ, USA, 1991. Erlbaum Press, 1991.
86.Language, meaning and culture: the selected papers of CE Osgood / ed. by Charles. E. Osgood and Oliver CS Tzeng. New York (etc.): Praeger, 1990 XIII, 402 S.
87.Горбань П.А. Нейромережева реалізація методу семантичного диференціала і аналіз виборів американських президентів, заснований на технології виробництва явних знань з даних / / Матеріали XXXVII Міжнародної наукової студентської конференції "Cтудент і науково-технічний прогрес": Інформаційні технології. Новосибірськ, НГУ, 1999

Публікації автора за темою диплома

1. Горбань П.А. Нейросітковий аналіз структури індивідуального простору смислів. "Нейрокомп'ютери": розробка, застосування. 2002, No 4. С. 14-19.
2. Горбань П.А., Царегородцев В.Г. Як визначити одні ознаки, істотні для фіналів президентських виборів в США, через інші? (Приклад застосування нейромережевої технології аналізу зв'язків) / / Тези VI міжнародної конференції "Математика. Комп'ютер. Освіта". (25-30 січня 1999 р. в г.Пущіно). (Електронна версія: http:// www.biophys.msu.ru/ scripts / trans.pl / rus / cyrillic / awse / CONFER / MCE99 / 072.htm)
3. Gorban PA Relations between Social, Economic and Political Traits of USA Political Situation. Abstract: USA-NIS Neurocomputing Opportunities Workshop, Washington, DC, July 12-17, 1999. http:// phy025.lubb.ttuhsc.edu / wldb / Witali / WWW / P2_2.htm
4. Горбань П.А. Демонстрація можливостей нейроімітатора NeuroPro 1.0 на прикладі виборів американських президентів. Матеріали 6 Всеросійського семінару "Нейроінформатика та її застосування" (2-4 жовтня 1998 р., Красноярськ). Красноярськ, вид. КДТУ. С. 43.
5. Горбань П.А. Нейросітковий аналіз структури індивідуального простору смислів Матеріали 7 Всеросійського семінару "Нейроінформатика та її застосування" (1-3 жовтня 1999 р., Красноярськ). Красноярськ, вид. КДТУ. С. 34-36.
6. Горбань П.А. Нейромережева реалізація методу семантичного диференціала і аналіз виборів американських президентів, заснований на технології виробництва явних знань з даних / / Матеріали 37 Міжнародної конференції "Студент і науково-технічний прогрес" (Новосибірськ, квітень 1999). Новосибірськ: вид. НГУ, 1999. С. 43.
Подяки
Автор вдячний своєму науковому керівнику, всім співробітника групи "Нейрокомп" і, особливо, В.Г. Царегородцева за увагу до роботи, підтримку і дозвіл використовувати результати спільних робіт у дипломі. Я істотно використовував в дипломній роботі опис програми «НейроПро» (В. Г. Царегородцев), технічний звіт з оглядом експертних систем (А. Батура), а також лекції проф. О.М. Горбаня по нейронних мереж.

Додаток 1. Плакати для захисту диплому.

ТЕХНОЛОГІЯ ВИТЯГИ ЗНАНЬ З НЕЙРОННИХ МЕРЕЖ:
¨ Апробація,
¨ ПРОЕКТУВАННЯ ПО,
¨ ВИКОРИСТАННЯ У психолінгвістиці

МЕТА РОБОТИ

¨ апробація гнучкої технології вилучення знань з нейронних мереж, що настроюється з урахуванням переваг користувача;
¨ тестування, пробна експлуатація та розробка нової версії програмних засобів, що реалізують цю технологію;
¨ проведення досліджень індивідуальних просторів смислів на основі даної технології.

ОСНОВНІ ЗАВДАННЯ РОБОТИ

¨ аналіз розроблених методів вилучення явних знань з нейронних мереж із зазначенням їх обмежень і областей застосовності;
¨ апробація гнучко настроюється на основі уподобань користувача технології вилучення знань, що спирається на попереднє проведення комплексного спрощення нейронної мережі, що виконується з урахуванням сформованих користувачем вимог до результуючою увазі видобутих знань;
¨ тестування, пробна експлуатація та розробка нової версії програмних засобів, що реалізують цю технологію;
¨ удосконалення методу семантичного диференціала Осгуда за допомогою технології розрідження учнів нейронних мереж.

Нейрони, МЕРЕЖІ, НАВЧАННЯ

Формальний нейрон

Шарувата мережу

НАВЧАННЯ - МІНІМІЗАЦІЯ ПОМИЛКИ На прикладі з ВІДОМИМ ВІДПОВІДДЮ
МЕТОДИ (АЛГОРИТМИ)
ЗВОРОТНОГО ПОШИРЕННЯ
Обчислення складної функції багатьох змінних представимо, як рух по графу: в кожній його вершині виробляється обчислення простої функції (рис. а).
Обчислення градієнта (для оптимізації) представляється зворотним рухом (мал. б).

Рис. а. Проходження вершини t в прямому напрямку.

Рис. б. Проходження вершини t у зворотному напрямку.

Схематичне представлення обчислення складної функції одного змінного та її похідних.

ЗАВДАННЯ ВИТЯГИ ЗНАНЬ З НЕЙРОННОЇ МЕРЕЖІ

вирізання "всього зайвого"
нейромережа логічно прозора нейромережа
дані неявні знання явні знання
Нейромережа в ході навчання формує неявні знання, в ході спрощення мережі досягається логічно прозора структура мережі, що задовольняє деяким заданим вимогам, і по ній мережі можливо записати правила прийняття рішення в явному вигляді.
Результатом процесу здобуття знань повинен бути набір правил, який із заданою точністю вирішує задане число прикладів навчальної вибірки

ЗНАЧИМІСТЬ І СПРОЩЕННЯ

Показники значимості - оцінки зміни значення штрафний функції після деякої модифікації нейромережі.
Показники значущості нульового порядку, засновані на розгляді абсолютної величини ваги синапсу.
Показники значущості першого порядку оцінюють по лінійному наближенню зміна значення штрафний функції після модифікації.
Показники значущості другого порядку використовують другий тейлоровское наближення зміни штрафний функції після модифікації.

КРИТЕРІЇ ЛОГІЧНОЇ ПРОЗОРОСТІ
1. Чим менше шарів нейронів у мережі, тим мережа більш логічно прозора. У більш складних випадках: чим менше нейронів в кожному з наявних шляхів проходження сигналів в мережі від входу до виходу, тим краще.
2. Чим менше число нейронів у кожному шарі мережі, тим краще.
3. Чим менше вхідних сигналів мережі, тим краще.
4. Чим менше число приходять на нейрон сигналів, тим краще.
5. Чим менше загальне число синапсів в мережі, тим краще.
6. Необхідно приведення значень параметрів, що настроюються мережі до кінцевого набору виділених значень.
Спрощення (контрастування) нейронної мережі будується як послідовний процес виключення з мережі найменш значущого елемента, що зменшує потрібний показник, і подальшого подучіванія мережі. Якщо після кроку спрощення неможливо доучивание мережі до необхідної точності, то повертаємося до мережі, отриманої на попередньому кроці, і завершуємо процес спрощення.

Метод семантичного диференціала
Слова осмислюються людиною не через "тлумачний словник", а через відчуття, переживання. Визначити зміст слова - значить виділити цей комплекс переживань. Шлях до змісту через якісні ознаки поняття.
ГІПОТЕЗА Осгуд -
ІСНУЮТЬ КООРДИНАТИ ГЛУЗДУ:
всі істотні властивості поняття визначаються на підставі невеликого числа базисних властивостей

Базисне властивість 1

Базисне властивість 2

Базисне властивість 3

... ... ... ... ....

Властивість 1

Властивість 2

Властивість 3

Властивість 4

Властивість 5

... ... ... ...

Cлово

Основний базис Осгуда:
Оцінка («Хороший-Поганий»),
Сила («Сильний-Слабкий»),
Активність («Активний-Пасивний»)

ВІДМІННІСТЬ НАШОЇ ПОСТАНОВКИ ВІД ЗАВДАННЯ Осгуд

У Осгуда	У нас
Шукається базис для всіх носіїв мови («Середній базис»).	Шукається базис для індивідуального носія мови («Базис індивідуальних смислів»).
Шукаються лінійні зв'язку.	Шукаються нелінійні зв'язку (параметр, що характеризує регулярність зв'язку - число нейронів).
У Осгуда ознаки, не відновлювані по базисних, викидаються, як незначущі.	У нас об'єкти, ознаки яких не вдається відновити, розглядаються як особливі, що характеризують індивідуальні відхилення («психоаналітичні»).

ВІДМІННІСТЬ НАШИХ РЕЗУЛЬТАТІВ ВІД РЕЗУЛЬТАТІВ Осгуд

У Осгуда

У нас

Простір смислів тривимірно, помилка передбачення властивостей велика.

Розмірність простору смислів індивідуальна, сам простір є об'єднання типового MAN-різноманіття з невеликим числом точок «психоаналітичних» великих відхилень. Саме їх наявність не дозволяє дати точне «тривимірне» (среднекультурное) передбачення.

КООРДИНАТИ І ОСОБЛИВІ ТОЧКИ ІНДИВІДУАЛЬНИХ ЗНАЧЕННЄВИХ ПРОСТОРІВ
Визначальний набір ознак 1-го людини (розмірність 7):

Розумний - дурний
Гучний - тихий
Розумний - нерозумний
Щільний - пухкий
Дружній-ворожий
Страшний - не страшний
Небезпечний - безпечний.
Винятки: горщик, теорема, наука, гроші
2-го людини (розмірність 6):
Сильний - слабкий
Приємний - неприємний
Небезпечний - безпечний
Страшний - не страшний
Дружній-ворожий
Зручний - незручний.
Винятки: робота, дружина, наука, гроші, тортик
Третя людини (розмірність 2):
Приємний - неприємний
Небезпечний - безпечний.
Винятки: немає

ОСНОВНІ РЕЗУЛЬТАТИ РОБОТИ, отримані особисто автором

1. Запропоновано наступні прийоми, що спрощують і роблять більш гнучким процес вербалізації (семантичного аналізу - осмислення в термінах проблемної області) витягнутого з мережі набору правил:
a) На основі гіпотези про неєдиний видобутих правил та враховуючи, що різні фрагменти мережі (поднабор правил) будуть більш-менш правдоподібні та інтерпретується, запропоновано конструювання нової, більш зрозумілою користувачеві нейронної мережі з найбільш просто інтерпретованих фрагментів інших мереж, які вирішують ту ж задачу.
b) Запропоновано додавання вихідного сигналу деякого фрагмента мережі (змістовно інтерпретується і правдоподібного з точки зору користувача) в якості нового інтегрального ознаки в число незалежних ознак таблиці даних, і вирішення завдання здобуття знань на основі отриманого розширеного набору ознак.
2. Розроблено технічне завдання на нову версію програми-нейроімітатора, що реалізовує запропоновані технології.
3. Удосконалено метод семантичного диференціала Осгуда за допомогою технології розрідження учнів нейронних мереж. Проведено серію експериментів, які полягають в дослідженні індивідуальних смислових площин, проінтерпретовані їх результати.
4. Запропоновано гіпотезу про структуру індивідуального простору смислів: воно складається з різноманіття малої розмірності, що задається культурою («ман-різноманіття» від німецького безособового займенника «man») і порівняно невеликого безлічі індивідуальних відхилень, які можуть бути важливі для діагностики.

Додаток 2.

Стаття: Горбань П.А. Нейросітковий аналіз структури індивідуального простору смислів. "Нейрокомп'ютери": розробка, застосування. 2002, No 4. С. 14-19.

УДК 681.31

Нейросітковий аналіз структури індивідуального простору смислів
П. А. Горбань
Удосконалено метод семантичного диференціала Осгуда за допомогою технології розрідження учнів нейронних мереж. Проведено серію експериментів, які полягають в дослідженні індивідуальних смислових площин, проінтерпретовані їх результати. Запропоновано гіпотезу про структуру індивідуального простору смислів: воно складається з різноманіття малої розмірності, що задається культурою («ман-різноманіття» від німецького безособового займенника «man») і порівняно невеликого безлічі індивідуальних відхилень, які можуть бути важливі для діагностики. Кожна культура має невелику кількість специфічних для неї ман-різноманіть (субкультур).
The method of the semantic differential by Osgood was improved using the technology of pruning neural networks. The series of the experiments, consists of the research of the individual meaning space was made, and there given an interdivtation of their results. A hypothesis about the structure of the individual meaning space, concluding in that this consists of the manifold of small dimention (man-manifold, from the german indefinite pronoun «man») and a small quantity of individual divertions, which could be important for the psychodiagnostics, was proposed. Every culture have a small amount of its specific man-manifolds (subcultures).
Слова осмислюються людиною не через "тлумачний словник", а через відчуття, переживання. За кожним словом у людини стоїть декілька цих базових переживань: собака - це щось маленьке, добродушненькое, пухнасте, з мокрим язичком, ..., але це і здоровенний, грізно гарчить звір зі злісними очима, величезними іклами, .... Більшість слів кодує деякі групи переживань, відчуттів, і визначити зміст слова, тобто ці самі переживання - досить складне завдання.
Дж. Осгуд зі співавторами в роботі під назвою "Вимірювання значень" ввели для вирішення цього завдання метод "семантичного диференціала" (огляд літератури подано в праці [1]). Вони запропонували шукати координати слова в просторі властивостей наступним чином. Був зібраний деякий набір слів (наприклад, "мама", "тато" і т.д.) і набір ознак до цих слів (таких, як близький - далекий, хороший - поганий, і т.д.), і опитувані люди оцінювали слова за цими шкалами. Потім відшукувався мінімальний набір координат сенсу, за яким можна відновити всі інші. Було виділено 3 базових координати сенсу, за яким всі інші можна передбачити досить точно: сильний - слабкий, активний - пасивний і хороший - поганий. З іншого боку, було виявлено величезні відмінності між культурами, наприклад, у японців та американців дуже багато речей мають суттєво різні смислові характеристики.
Існують різні способи виділення основних ознак (базових координат), наприклад, метод головних компонент, факторний аналіз і ін У даній роботі використовуються нейромережеві методи. Розробка технології скорочення опису та вилучення знань із даних за допомогою учнів і розріджує нейронних мереж почалася в 90-і роки XX століття (див., наприклад, [2-4]) і до теперішнього часу створені бібліотеки нейромережевих програм навіть для PC, що дозволяють будувати напівемпіричні теорії в різних областях [5-7].
У даній роботі за допомогою нейроімітатора досліджувалися індивідуальні смислові простору. Був створений запитальник, у якому визначаються координати (від -10 до 10) 40 слів по 27 параметрам і були проведені експерименти на кількох людях.
Слова:

43.Папа
44.Мама
45.Болезнь
46.Детскій сад
47.Школа
48.Собака
49.Кот
50.Воробей
51.Ворона
52.Апельсін
53.Яблоко
54.Дед Мороз
55.Дерево
56.Змея
57.Еда
58.Тортік
59.Горшок
60.Брат
61.Сестра
62.Работа
63.Деньгі
64.Квартіра
65.Муж (дружина)
66.Дедушка
67.Бабушка
68.Музика
69.Презідент
70.Парламент
71.Політіка
72.Наука
73.Політік
74.Учений
75.Теорема
76.Вибори
77.Коммунізм
78.Доказательство
79.Россія
80.Амеріка
81.Кітай
82.Ізраіль
83.Релігія
84.Бог

28.Плотний - пухкий
29.Молодой - старий
30.Светлий - темний
31.Разумний - нерозумний
32.Холодний - гарячий
33.Бистрий - повільний
34.Блізкій - далекий
35.Пуглівий - безстрашний
36.Страшний - не страшний
37.Спокойний - неспокійний
38.Веселий - сумне
39.Удобний - незручний
40.Красівий - негарний
41.Опасний - безпечний
42.Пріятний - неприємний
43.Ручной - дикий
44.Утонченний - грубий
45.Умний - дурний
46.Шумний - тихий
47.Ласковий - грубий
48.Большой - маленький
49.Дружественний - ворожий
50.Мягкій - твердий
51.Добрий - злий
52.Актівний - пасивний
53.Хорошій - поганий
54.Сільний - слабкий

В експериментах відшукувався мінімальний набір координат сенсу, за яким можна відновити всі інші з точністю до тенденції (тобто з точністю до 3 балів). Це робилося за допомогою нейромережевого імітатора NeuroPro [5]. Слід зазначити, що прогноз з точністю до 3 балів фактично відповідає переходу від 21-бальною шкалою (від -10 до 10) до традиційних 7-бальних (від -3 до 3).
За допомогою NeuroPro можливе отримання показників значущості вхідних сигналів для прийняття нейромережею рішення, показників чутливості вихідного сигналу мережі до зміни вхідних сигналів, показників значущості та чутливості за окремими прикладів вибірки.
За початкову архітектуру була взята шарувата нейронна мережа, що складається з трьох шарів по 10 нейронів у кожному. Далі проводилися послідовно наступні операції.
3) Навчання нейронної мережі з максимальною допустимою помилкою навчання 0.49 бали (така помилка призводить до того, що після округлення помилка навчання фактично дорівнює 0). Як показав досвід, такий помилки навчання найчастіше досить для передбачень з необхідною точністю, тобто для помилки узагальнення, меншою 3 балів.
4) З вхідних сигналів вибирався найменш значимий і виключався, після чого проводилося повторне навчання нейромережі з новими вхідними сигналами і колишньої помилкою навчання.
Ця процедура проводилася до тих пір, поки нейромережа могла навчитися. У результаті цих операцій були отримані мінімальні визначають набори ознак (тобто набори вхідних сигналів, що залишилися після скорочення їх числа).
Для різних людей отримані дуже різні результати (перші результати представлені в [8]), зовсім несхожі на результати Осгуда. Ось типові приклади:
Визначальний набір ознак 1-го людини (розмірність 7):
Розумний - дурний, галасливий - тихий, розумний - нерозумний, щільний - пухкий, дружній - ворожий, страшний - не страшний, небезпечний - безпечний.
2-го людини: сильний - слабкий, приємний - неприємний, небезпечний - безпечний, страшний - не страшний, дружній - ворожий, зручний - незручне (розмірність 6).
Третя людини: приємний - неприємний, небезпечний - безпечний (розмірність 2).
Представляє інтерес, що Осгудовскіе ознаки майже не представлені в більшості наборів. У зв'язку з цим було вирішено перевірити, чи можна передбачити значення довільно обраних ознак за допомогою набору Осгуда (помилка навчання в експериментах допускалася ± 0.49 бала). Практично у всіх випадках нейронні мережі навчалися з прийнятною помилкою навчання, але помилка узагальнення в експериментах з ковзаючим контролем (нейронні мережі навчалися за всіма словами, крім 2-х - 3-х, а потім тестувалися на цих словах) часто була неприпустимо велика (5 -9 балів).
Після цього проводилися такі експерименти: нейронна мережа навчалася пророкувати значення параметрів по вже певного мінімального набору ознак на одній половині слів, далі вона тестувалася на словах з іншої половини. При цьому для більшості слів нейронні мережі давали задовільні прогнози по всіх параметрах (з точністю до 3 балів), але майже у всіх випадках виявлялися одне - два слова, для яких відразу за декількома ознаками помилка нейронних мереж була дуже велика.
Отже, для кожної людини виявляється різноманіття порівняно малої розмірності, у невеликій околиці якого лежать майже всі слова.
При осмисленні цього виникає гіпотеза, пов'язана з тим, що ставлення людини до більшості речей, подій і т.д. не індивідуально, а сформовано культурою, в якій ця людина ріс, його оточенням і тому залежить від порівняно невеликої кількості ознак. У зв'язку з цим і могли з'явитися різноманіття малої розмірності, у невеликій околиці яких лежать майже всі слова. Назвемо їх ман-різноманіття (від німецького невизначеного займенники man (хтось)). Ймовірно, для кожної певної культури є невелика кількість різних ман-різноманіть, специфічних для неї. У результаті виховання людина привласнює одне з типових ман-многовидів. Наприклад, що визначає набір ознак третього людини представляється основним набором ознак і для тварин: небезпека і приємність мають прямий хімічний аналог і відповідають рівню адреналіну, ендорфінів і енкефалінів.
Виявлено, що у більшості людей є слова, які несподівано "випадають" з ман-різноманіть, - відстоять від них досить далеко. Ймовірно, це слова, з якими у людини пов'язані які-небудь сильні переживання, відчуття, що призводить до появи "індивідуальності" оцінки або ж слова, своє справжнє ставлення до яких людина намагається приховати. Є ще один тип таких точок, специфічних для кожної окремої культури (чи субкультури), особливе ставлення до яких сформовано самою культурою (наприклад, в Росії - Велика Вітчизняна, у мусульманських країнах - бог). Інтерпретація "індивідуальних точок" може дати корисну психодіагностичну інформацію, а аналіз особливих точок культури - культурологічну. Можливе проведення культурологічних досліджень шляхом порівняння особливостей та закономірностей для різних культур.
Вже перші досліди показують, що набір індивідуальних точок дає яскравий і впізнаваний портрет особистості, а загальнокультурні особливості поки не були вивчені, оскільки вимагають більш масштабних досліджень.
У перспективі результати роботи можуть бути використані в багатьох областях, де потрібна інформація про психологію і психічне здоров'я людини, можуть бути застосовані для створення комп'ютерних психодіагностичних методик, що виявляють і аналізують індивідуальні особливості та приховані напруги і т.п.

Література
1. Language, meaning and culture: the selected papers of CE Osgood / ed. by Charles. E. Osgood and Oliver CS Tzeng. New York (etc.): Praeger, 1990 XIII, 402 S.
2. Горбань О.М. Навчання нейронних мереж. М.: вид. СССР-США СП "ParaGraph", 1990. - 160с. (English Translation: AMSE Transaction, Scientific Siberian, A, 1993, Vol. 6. Neurocomputing, рp.1-134).
3. Le Cun Y., Denker JS, Solla SA Optimal Brain Damage / Advances in Neural Information Processing Systems 2. - Morgan Kaufmann, 1990. - Pp.598-605.
4. McMillan C., Mozer MC, Smolensky P. The Connectionist Scientist Game: Rule Extraction and Refinement in a Neural Network / Proc. XIII Annual Conf. of the Cognitive Science Society, Hillsdale, NJ, USA, 1991. Erlbaum Press, 1991.
5. Царегородцев В.Г. Виробництво напівемпіричних знань з таблиць даних за допомогою учнів штучних нейронних мереж / / Методи нейроінформатікі. Красноярськ: Вид-во КДТУ, 1998.
6. Gorban AN, Mirkes Ye.M., Tsaregorodtsev VG Generation of explicit knowledge from empirical data through pruning of trainable neural networks / Int. Joint Conf. on Neural Networks, Washington, DC, USA, 1999.
7. Tsaregorodtsev VG, Nazimova DI, Nozhenkova LF Neural Identification of the Zonal Classes and Siberian Forest Formations Based on Climatic Parameters / Proc. Int. Symposium "Biodiversity and Dynamics of Ecosystems in North Eurasia", Novosibirsk, Aug. 2000. Vol.4. Part 1. - Pp.37-39.
8. Горбань П.А. Нейромережева реалізація методу семантичного диференціала і аналіз виборів американських президентів, заснований на технології виробництва явних знань з даних / / Матеріали XXXVII Міжнародної наукової студентської конференції "Cтудент і науково-технічний прогрес": Інформаційні технології. Новосибірськ, НГУ, 1999

Горбань Павло Олександрович (1982 р.н.) -
Студент 4 курсу математичного факультету КрасГУ.
Область наукових інтересів: нейроінформатіка, теорія груп.

Загальний вигляд гіпотези Н залежить від мети узагальнення і обраного способу представлення знань. Методи узагальнення, що включають моделі класифікації, формування понять, розпізнавання образів, виявлення закономірностей, визначаються цілями узагальнення, способами подання знань, загальними характеристиками фактів, критеріями оцінки гіпотез.
Для узагальнення за вибірками сукупність фактів F має вигляд навчальної вибірки - безлічі об'єктів, кожен з яких зіставляється з ім'ям деякого класу. Метою узагальнення в цьому випадку може бути:
- Формування понять: побудова за даними навчальної вибірки для кожного класу максимальної сукупності його загальних характеристик [4];
- Класифікація: побудова за даними навчальної вибірки для кожного класу мінімальної сукупності характеристик, яка відрізняла б елементи класу від елементів інших класів;
- Визначення закономірності послідовного появи подій.
До методів узагальнення за вибірками відносяться лінгвістичні моделі, методи автоматичного синтезу алгоритмів і програм за прикладами та інші [2].
У методах узагальнення за даними апріорне поділ фактів за класами відсутня. Тут можуть ставитися наступні цілі:
- Формулювання гіпотези, узагальнюючої дані факти;
- Виділення образів на безлічі спостережуваних даних, групування даних за ознаками (завдання формування понять, визначена в моделі узагальнення за вибірками, також часто ставиться без апріорного розбиття навчальної вибірки по класах) [4];
- Встановлення закономірностей, що характеризують сукупність спостережуваних даних [5].
Розглянемо коротко зв'язок між завданнями узагальнення і класифікації та завданнями, які розв'язуються в рамках теорії ймовірностей і математичної статистики. У математичній статистиці ставляться і вирішуються завдання виведення нових знань на підставі аналізу сукупності спостережень, при цьому встановлюються частотні закономірності появи подій: визначаються загальний вигляд і параметри функцій розподілу ймовірностей подій за даними спостережень, робляться висновки про ступінь статистичної залежності спостережуваних випадкових величин, перевіряються гіпотези про характеристиках випадкової події. Дійсно, в задачі формалізації і виведення знань про реальний світ не можна не враховувати наявності статистичних закономірностей в його проявах. Загальна ж завдання формування гіпотез за даними спостережень не обмежується встановленням статистичних закономірностей. Так, розроблені формально-логічні моделі висунення гіпотез [6], які використовуються в теорії штучного інтелекту.
З точки зору способу представлення знань і припущень на загальний вигляд об'єктів спостережень, методи узагальнення діляться на методи узагальнення за ознаками та структурно-логічні (або концептуальні) методи [2]. У першому випадку об'єкти представляються у вигляді сукупності значень непрямих ознак. Методи узагальнення та розпізнавання за ознаками розрізняються для якісних (номінальних або порядкових) і кількісних (вимірних) значень ознак. Структурно-логічні методи, на відміну від ознакових, призначені для вирішення задачі узагальнення на безлічі об'єктів, що мають внутрішню логічну структуру (послідовності подій, ієрархічно організовані мережі, що характеризуються як ознаками і властивостями об'єктів - елементів мережі, так і відносинами між ними). У формально-логічних системах, що використовують структурно-логічні методи узагальнення, висновок загальних наслідків з даних фактів називають індуктивним висновком. Сформульовано основні питання, на які повинні давати відповіді індуктивні логіки і методи висунення гіпотез:
1. Чи є гіпотеза Н обгрунтованої даними знанням?
2. Чи існують методи обгрунтування Н при даному знанні?
3. Які умови для Н при даному знанні, такі, що Н дає найбільш розумне і цікаве пояснення?
4. Існують методи для висунення гіпотез на підставі даного знання, що дають найбільш розумне та цікаве пояснення досліджуваного явища?
В експертних системах (ЕС) для представлення знань про об'єкти використовуються зазвичай модифікації мови обчислення предикатів без обмеження арності предикатних символів або адекватні їм по виразної потужності семантичні мережі [2]. Моделям узагальнення на семантичних мережах властиві риси як алгоритмів узагальнення за ознаками, так і індуктивної логіки. Тут також визначається набір операторів, що використовуються при формуванні узагальненого уявлення (гіпотези) Н, і висуваються критерії оцінки "цікавинки" і обгрунтованості гіпотез. Крім того, в цих моделях широко використовується характерний для узагальнення за якісними ознаками [7] апарат теорії покриттів і встановлюються відносини на множині значень ознак об'єктів-елементів мережі. Методами структурного узагальнення вирішуються зазвичай завдання класифікації, формування понять, аналізу сцен [2].
Для задачі узагальнення за ознаками відомий наступний результат: який би не був реальний вигляд розділяє функція y (у загальному випадку - індуктивної гіпотези Н) і алгоритм її формування за навчальною вибіркою, завжди знайдеться така (непорожня) навчальна вибірка, що сформована функція y '( гіпотеза Н ') з'явиться некоректною (помилковою).
У зв'язку з цим гіпотези прийнято оцінювати з точки зору їх "розумності", "раціональності", "цікавинки". В [6] раціональність відповіді на запитання 1 (див. вище) індуктивного виводу розуміється наступним чином. Нехай F - наявні істинні твердження, а j - емпіричні дані. Тоді для породжуваної помилкової гіпотези F, jÞy імовірнісна міра спостереження y на j повинна бути мала (наприклад, менше 0,05).
Можна оцінювати гіпотези з точки зору потужностей підмножин покриваються ними елементів навчальної вибірки. У ряді досліджень для підтвердження чи заперечення гіпотези, що висувається використовуються методи автоматичного породження нових елементів навчальної вибірки, які видаються для класифікації експерту. Вирішальне правило перевизначається, поки не буде досягнута рівноважна ситуація [2].

1.2.1.1. Труднощі при розробці експертних систем

До теперішнього часу в теорії класичних експертних систем розроблена формалізована технологія добування та подання експертних знань. Однак, існує цілий ряд труднощів [8]:
- Побудова ЕС не під силу кінцевому користувачеві, що не володіє експертними знаннями про проблемної області.
- Необхідність залучення людини-експерта в проблемній області, який є носієм знань. Крім труднощі перебування експерта (його може і не бути), необхідно додати ще й можливі труднощі взаємодії експерта з фахівцем-когнітологія (саме останній, шляхом діалогу з експертом, оформляє отримані від експерта знання в обраному формалізмі подання знань).
- Наявна оболонка ЕС і / або використовується нею модель подання знань можуть погано підходити для обраної проблемної області, завдання. Це часто змушує розробляти програмний інструментарій "з нуля".
- Процес вилучення знань з експерта, їх формалізація, перевірка на несуперечливість та усунення суперечностей дуже тривалий, незважаючи на наявність програмних засобів автоматизації. До отримання першого прототипу системи проходить тривалий час (місяці), і до цих пір не можна визначити, чи можливо побудова ЕС, вирішальною поставлене завдання із заданим ступенем точності і збільшує точність рішення при подальшому поповненні бази знань, або досягнення заданих характеристик системи неможливо. Це може вести до великих матеріальних втрат в останньому випадку. Іншими словами, один з найперших етапів при розробці будь-якої інформаційної системи - аналіз реалізованості - при розробці ЕС відкладається до моменту побудови дослідного прототипу системи.
Перераховані труднощі перешкоджають широкому застосуванню теоретичних методів і програмних оболонок ЕС на практиці.

1.2.2. Методи видобування знань з таблиць даних

1.2.2.1. Технологія вилучення знань з таблиць даних

У даній роботі досліджується вилучення знань з таблиць даних за допомогою математичних або емпіричних методів обробки даних та моделювання. Фактично, в індустрії обробки даних існують деякі формальні схеми обробки даних і аналізу результатів. Так, загальна схема обробки даних методами математичної статистики наведена в [9]:
1. Аналіз досліджуваної системи або об'єкта. У ході аналізу визначаються: основні цілі дослідження на змістовному рівні; сукупність одиниць (об'єктів, вимірювань ,..), представляють предмет дослідження; перелік показників (властивостей), що характеризують стан або поведінку кожної з досліджуваних одиниць; ступінь формалізації і деталізації цих показників при зборі даних; моменти, що вимагають додаткової перевірки перед складанням детального плану досліджень; формалізована постановка задачі (наприклад, на статистичному рівні, тобто включає імовірнісну модель досліджуваного явища і природу статистичних висновків, до яких має або може прийти дослідник в ході обробки масиву даних) .
2. Складання плану збору вихідної статистичної інформації: визначення типу вибірки - випадкова, пропорційна і т.п.; визначення необхідного обсягу вибірки та тривалості спостережень, планування активного експерименту (якщо допускається завданням і досліджуваним об'єктом).
3. Збір даних і їх введення в ЕОМ.
4. Первинна статистична обробка даних: статистичний опис сукупностей даних з визначенням меж варіювання змінних; аналіз різко виділяються спостережень, прийняття рішення про виключення виділяються спостережень або подальше зменшення обліку їх внеску за допомогою деякої вагової функції, спадної у міру зростання ступеня аномальності спостережень; відновлення значень пропущених спостережень ; перевірка однорідності декількох порцій вихідних даних (потрібно при розділенні у просторі і / або часі моментів отримання цих порцій даних); перевірка статистичної незалежності послідовних спостережень; уніфікація типів змінних; експериментальний аналіз закону розподілу досліджуваної генеральної сукупності і параметризація розподілів.
5. Складання плану обчислювального аналізу статистичного матеріалу.
6. Обчислювальна реалізація обробки даних.
7. Осмислення, інтерпретація і підведення підсумків дослідження.
Як при використанні традиційних статистичних методів аналізу даних, так і при використанні нейронних мереж наведена схема дій залишається без змін. При цьому пункти 5-7 деталізуються в залежності від цілей і завдань дослідження і застосовуваних методів.

1.2.2.2. Таблиця емпіричних даних

Строгі математичні методи побудови статистично достовірних вирішальних правил розроблено для випадків, коли про розподілах генеральних сукупностей образів відомо абсолютно все: види законів розподілів і всі їх параметри, апріорні ймовірності появи образів, матриця втрат від помилок і т.д.
На жаль, при вирішенні реальних завдань такі умови не зустрічаються. Навчальна вибірка кожного з k образів S _1, S _2, ..., S _k представлена кінцевим числом m _i реалізацій, описаних n характеристиками x _1, x _2, ..., x _n. Відомостей про закони і параметри розподілу генеральних сукупностей G _i образів немає. Невідома зв'язок навчальної вибірки з генеральними сукупностями (невідома ступінь "показності" вибірки). Власник навчальної вибірки має туманні уявлення про апріорної ймовірності появи різних образів P _i і про матрицю вартість помилок розпізнавання C _ij. Вибірка може бути дуже невеликий, в даних можуть бути помилки і прогалини, ознаки можуть бути виміряні за різними шкалами [7], серед ознак можуть бути неінформативні, "шумливі" ознаки.
Для приведення ситуації до виду, при якому можна було б застосувати той чи інший статистичний алгоритм, потрібно до наявної об'єктивної інформації додати ряд суб'єктивно обираних припущень або гіпотез. Цей етап привнесення евристичних гіпотез має місце у всіх випадках рішення реальних завдань, і тому поділ алгоритмів на "строгі статистичні" і "несуворі евристичні" не має сенсу [10].
Фактично, висунення і перевірку нових гіпотез для розглянутої таблиці даних можна вважати частину процесу здобування знань.
На придатність і якість роботи окремих методів великий вплив надає тип ознак (характеристик) об'єктів - дискретний (якісний), номінальний (порядковий) або кількісний.
У всіх випадках питання про те, що є корисною інформацією, зовсім не очевидна і вимагає спеціального розгляду.
Уявлення про характер корисної інформації, що міститься в емпіричних даних, а часто і сам характер подібних даних не дозволяють використовувати для їх обробки класичні статистичні методи. У зв'язку з цим виникли зовсім нові задачі обробки емпіричних даних, а значить, і нові методи вирішення таких завдань.
Це перш за все завдання регресійного, авторегресійного і факторного аналізів. В останні роки регресійний та факторний аналіз розвивалися особливо інтенсивно і збагатилися низкою нових моделей і методів, наприклад, такими, як модель структурних рівнянь регресії [11], або методи угруповання параметрів.
Інша група завдань обробки даних - отримання типології досліджуваних об'єктів. З ними пов'язані розпізнавання образів, методи автоматичної класифікації і т.п.
Нові ефекти виявилися при комбінованому застосуванні методів формування факторів і методів автоматичної класифікації з тим, щоб з кожним фактором була пов'язана своя типологія. Виявилося, що отримані типології легко піддаються інтерпретації і їх можна розуміти як системи термінів, що дозволяють досить коротко описувати окремі явища. Вдалося створити узагальнений підхід до обробки емпіричних даних самої різної природи, що отримав назву лінгвістичного [11].

1.2.2.3. Статистичні методи видобування знань з таблиці даних

Розглянемо статистичні методи видобування знань із таблиць даних. Природно, обсяг наявної вибірки буде визначати надійність статистичного виведення - тобто підтвердження або відхилення гіпотези або довіри до отриманих параметрами моделі. При цьому невід'ємних результат статистичної перевірки гіпотези не означає, що висловлене припущення є найкращим, єдино придатним: просто вона не суперечить наявним вибірковими даними, проте таким же властивістю можуть разом з цією гіпотезою мати й інші гіпотези [9].
Коротко перерахуємо існуючі на даний момент методи:
1. Перевірка гіпотези про аномальний вимірі.
2. Перевірка гіпотез про вибіркові значеннях характеристик випадкової величини.
3. Перевірка гіпотези про розподіл випадкової величини і знаходження параметрів цього розподілу.
4. Кореляційний аналіз.
5. Лінійний регресійний і авторегресійних аналіз.
6. Факторний аналіз та аналіз головних компонент.
7. Баєсівські класифікатори в задачі бінарної класифікації.
8. Побудова лінійних і кусково-лінійних розділяючих поверхонь в задачі бінарної класифікації.
9. Автоматичне групування об'єктів - методи автоматичної класифікації (кластеризації).

1.2.3. Методи ідентифікації систем

Під ідентифікацією розуміється побудова моделі, із заданою точністю описує реакцію спостерігається, на зовнішній вплив (що описується набором вхідних, незалежних змінних).
Задачі ідентифікації присвячена величезна кількість робіт (див., наприклад, бібліографію в [13]), що відрізняються не тільки типами об'єктів, які необхідно ідентифікувати, а й самими методами і алгоритмами ідентифікації. Серед алгоритмів ідентифікації найчастіше використовуються рекурентні алгоритми, що дозволяють здійснювати ідентифікацію в режимі нормальної роботи об'єкта. Іншими словами, для рекурентних алгоритмів не формується навчальна вибірка (таблиця даних), а адаптація моделі ведеться з використанням тільки поточною пари "вхід об'єкта - вихід об'єкта". Однак немає жодних обмежень на використання рекурентних алгоритмів для обробки таблиці раніше зібраних даних про об'єкт.
Принципи формування алгоритмів ідентифікації тісно пов'язані з вибором рівняння, що використовує спостережувані дані і апроксимує рівняння об'єкта, вибором критерію якості апроксимації (функції втрат), вибором методу оптимізації критерію. Цей вибір до останнього часу був значною мірою довільний і зумовив панування лінійної апроксимації рівняння об'єкта і квадратичного критерію (при цьому завдання ідентифікації зводилася до розв'язання системи лінійних рівнянь). Але практика показала, що такий вибір не завжди приводить до позитивних результатів.
В даний час розроблена інформаційна теорія ідентифікації [13], що дозволяє оптимально вибирати рівняння апроксимації, критерій, і алгоритм ідентифікації в залежності від точки прикладання до об'єкта перешкод, наявності тієї чи іншої інформації про щільність розподілу перешкод і параметрів цього розподілу, використовуваної цільової функції, апріорної інформації про шуканому рішенні. Показана можливість поліпшення алгоритмів за рахунок управління вхідними впливами.

1.2.4. Інші методи обробки даних

Існують і інші методи обробки таблиць даних:
1. Метод потенційних функцій [14] для вирішення задач класифікації об'єктів з учителем.
2. Методи непараметричної обробки даних:
- Баєсівські класифікатори на основі непараметричних оцінок умовних щільностей розподілу ймовірності [12];
- Непараметричні регресія;
- Непараметричні алгоритми ідентифікації об'єктів;
Однак використання цих методів для придбання знань неможливо, оскільки при цьому не виникає нового окремого "об'єкта" (наприклад, регресійного рівняння, рівняння розділяє поверхні, ...), яким можна маніпулювати і який можна намагатися інтерпретувати - такий об'єкт замінюється навчальною вибіркою. Звичайно, для кожного методу можна визначити оптимальні значення деяких параметрів ("заряди" класів для методу потенційних функцій, параметри згладжування і вид ядерних функцій для непараметричних методів), мінімізують помилку класифікації чи передбачення, але знаходження оптимальних значень цих параметрів важко інтерпретувати як додаток нових знань .

1.3. Вимоги до технології вилучення знань

Можливості застосування технології вилучення знань повинні поширюватися аж до індивідуального користувача, який має можливість застосовувати технологію витягання знань до доступних даних і конкретизують окремі аспекти цієї технології в залежності від свого власного досвіду і конкретного завдання. Це означає, що має відбутися докорінна зміна технології виробництва таких систем. Системи прийняття рішень, засновані на явних правилах виведення, створюються, як правило, групою фахівців, в числі яких - математики, програмісти і предметні фахівці, що ставлять завдання. Можливості настроювання таких систем на кінцевого споживача часто недостатні. Купуючи таку систему, він часто стикається з її непридатність до конкретних умов роботи (наприклад, інший спектр лабораторних аналізів або методів обстеження, прийнятий у даній клініці). Вихід - дати спеціалісту можливість самому конструювати ЕС виходячи з конкретних умов, власного досвіду і досвіду колег. Таке конструювання повинно виконуватись без знання предметним фахівцем математичного апарату, вимагаючи лише звичайних навичок роботи на ЕОМ. У цій ситуації знімається психологічна проблема довіри до висновків ЕС, яка працює, спираючись на досвід і знання того фахівця, який її сконструював, його колег, яким він довіряє, і реальні дані, які він сам отримав в результаті спостережень [15].
Самонавчальні ЕС прийняття рішень, діагностики і прогнозування мають відповідати таким вимогам [15]:
1. Індивідуалізація (налагодження на конкретні набори експериментальних даних, індивідуальний досвід і знання фахівця);
2. Динамічний розвиток (накопичення досвіду системи в процесі функціонування, слідуючи змінам в пунктах, перелічених у попередньому вимозі);
3. Можливість перенастроювання при різкій зміні умов, наприклад, при перенесенні в інший регіон;
4. Здатність до екстраполяції результату. Вимога, зворотне індивідуальності. Система не повинна різко втрачати якість роботи при зміні умов;
5. Можливість конструювання з нуля кінцевим користувачем (спеціаліст повинен мати можливість придумати зовсім нову ЕС і мати можливість просто і швидко створити її);
6. "Нечіткий" характер результату. Рішення, що видається системою, не повинно бути остаточним. Воно може бути імовірнісним або пропонувати відразу кілька варіантів на вибір. Це дає можливість фахівцеві критично оцінювати рішення системи і не позбавляє його ініціативи у прийнятті остаточного рішення.
7. ЕС є тільки порадником фахівця, не претендуючи на абсолютну точність рішення. Вона повинна накопичувати досвід і знання та значно прискорювати доступ до них, моделювати результат при зміні умов завдання. Відповідальність за рішення завжди лежить на фахівця.
8. Універсальність такої технології означає, вона не повинна спиратися на семантику проблемної області, пропонуючи уніфікований підхід для вирішення типових завдань у будь-якій проблемній області. Семантичний аспект постановки задачі, осмислення процесу рішення та аналізу результатів лежить на кінцевому фахівця.
Аналіз існуючих методів обробки інформації показав, що цим вимогам добре задовольняють нейроінформаціонние технології, засновані на штучних нейронних мережах [16-19]. В основі їх функціонування лежать алгоритми, що моделюють поширення сигналів по нейронах і синапсах нервової системи. Існує досить великий набір архітектур і метаалгоритмів функціонування нейронних мереж, при цьому завдання, які вирішуються нейроінформатіке, в більшості випадків вимагають підгонки архітектури та алгоритмів навчання нейромереж під певний клас завдань або навіть конкретне завдання. Тому розробка теоретичних і методологічних основ і універсальної технології створення ЕС, що включає оптимізацію архітектур і метаалгоритмів функціонування нейромереж при роботі з інформацією, і вилучення знань з нейромереж є актуальним завданням.

Глава 2. Нейронні мережі

2.1. Коннекціонізм

Нейронні мережі - це мережі, що складаються із зв'язаних між собою простих елементів - формальних нейронів. Нейрони моделюються досить простими автоматами, а вся складність, гнучкість функціонування та інші найважливіші якості визначаються зв'язками між нейронами. Кожен зв'язок представляється як зовсім простий елемент, службовець для передачі сигналу.
Науково-технічний напрям, обумовлений описаним поданням про нейронні мережі, називається коннекціонізмом (по-ангійскі connection - зв'язок). З коннекціонізмом тісно пов'язаний наступний блок ідей:
1) однорідність системи (елементи однакові і надзвичайно прості, все визначається структурою зв'язків);
2) надійні системи з ненадійних елементів і "аналоговий ренесанс" - використання простих аналогових елементів;
3) "голографічні" системи - при руйнуванні випадково вибраної частини система зберігає свої корисні властивості.
Існує великий клас завдань: нейронні системи асоціативної пам'яті, статистичної обробки, фільтрації та інші, для яких зв'язки формуються за явним формулами. Але ще більше (за обсягом існуючих додатків) завдань вимагає неявного процесу. За аналогією з навчанням тварин або людини цей процес також називають навчанням.
Навчання зазвичай будується так: існує задачник - набір прикладів із заданими відповідями. Ці приклади пред'являються системі. Нейрони отримують за вхідними зв'язків сигнали - "умови прикладу", перетворюють їх, кілька разів обмінюються перетвореними сигналами і, нарешті, видають відповідь - також набір сигналів. Відхилення від правильної відповіді штрафується. Навчання складається в мінімізації штрафу як (неявній) функції зв'язків.
Неявно навчання призводить до того, що структура зв'язків стає "незрозумілою" - не існує іншого способу її прочитати, окрім як запустити функціонування мережі. Стає складно відповісти на запитання: "Як нейронна мережа отримує результат?" - Тобто побудувати зрозумілу людині логічну конструкцію, яка б відтворювала дії мережі.
Це явище можна назвати "логічної непрозорістю" нейронних мереж, навчених за неявним правилами.
З іншого боку, при використанні нейронних мереж в експертних системах виникає потреба прочитати і логічно проінтерпретувати навички, вироблені мережею. Для цього служать методи контрастування - отримання неявними методами логічно прозорих нейронних мереж.

2.2. Елементи нейронних мереж

Для опису алгоритмів і пристроїв у нейроінформатіке вироблена спеціальна "схемотехніка", в якій елементарні пристрої - суматори, синапси, нейрони і т.п. об'єднуються в мережі, призначені для вирішення завдань.
Адаптивний суматор обчислює скалярний добуток вектора вхідного сигналу x на вектор параметрів a. На схемах він позначається так, як показано на рис. 1. Адаптивним він називається через наявність вектора параметрів, що настроюються a. Для багатьох задач корисно мати лінійну неоднорідну функцію вихідних сигналів. Її обчислення також можна представити за допомогою адаптивного суматора, що має n +1 вхід і отримує на 0-й вхід постійний одиничний сигнал (рис. 2).

Рис. 2. Неоднорідний адаптивний суматор

Рис. 1. Адаптивний суматор.

Рис. 5. Формальний нейрон

Рис. 3. Нелінійний перетворень-тель сигналу.

Рис. 4. Точка розгалуження

Нелінійний перетворювач сигналу зображений на рис. 3. Він отримує скалярний вхідний сигнал x і переводить його в j (x).
Точка розгалуження служить для розсилки одного сигналу по декількох адресах (рис. 4). Вона отримує скалярний вхідний сигнал x і передає його всім своїм виходам.
Стандартний формальний нейрон складається з вхідного суматора, нелінійного перетворювача і точки розгалуження на виході (рис. 5).
Лінійна зв'язок - синапс - окремо від суматорів не зустрічається, проте для деяких міркувань буває зручно виділити цей елемент (рис. 6). Він множить вхідний сигнал x на "вагу синапсу" a.

Рис. 6. Синапс.

Отже, даний опис основних елементів, з яких складаються нейронні мережі.

2.3. Основні архітектури нейронних мереж

Як можна складати ці мережі? Строго кажучи, як завгодно, лише б входи отримували якісь сигнали. Використовуються кілька стандартних архітектур, з яких шляхом вирізання зайвого або (рідше) додавання будуються більшість використовуваних мереж.
Тут і далі розглядаються тільки нейронні мережі, синхронно функціонують в дискретні моменти часу: всі нейрони спрацьовують "разом".
У сімействі нейронних мереж можна виділити дві базові архітектури - шаруваті і повнозв'язних мережі.

Рис. 7. Шарувата мережу

Шаруваті мережі: нейрони розташовані в кілька шарів (рис. 7). Нейрони першого шару отримують вхідні сигнали, перетворять їх і через точки галуження передають нейронам другого шару. Далі спрацьовує другий шар і т.д. до k-го шару, який видає вихідні сигнали для інтерпретатора і користувача. Якщо не обумовлено протилежне, то кожен вихідний сигнал i-го шару подається на вхід всіх нейронів i +1- го. Число нейронів у кожному шарі може бути будь-яким і ніяк заздалегідь не пов'язане з кількістю нейронів в інших шарах. Стандартний спосіб подачі вхідних сигналів: всі нейрони першого шару отримують кожен вхідний сигнал. Особливого поширення набули тришарові мережі, в яких кожен шар має своє найменування: перший - вхідний, другий - прихований, третій - вихідний.
Повнозв'язна мережі: кожен нейрон передає свій вихідний сигнал іншим нейронам, включаючи самого себе. Вихідними сигналами мережі можуть бути всі або деякі вихідні сигнали нейронів після декількох тактів функціонування мережі. Всі вхідні сигнали подаються всіх нейронів.
Елементи шаруватих і повнозв'язних мереж можуть вибиратися по-різному. Існує, втім, стандартний вибір - нейрон з адаптивним неоднорідним лінійним суматором на вході (рис. 5).
Для полносвязной мережі вхідний суматор нейрона фактично розпадається на два: перший обчислює лінійну функцію від вхідних сигналів мережі, другий - лінійну функцію від вихідних сигналів інших нейронів, отриманих на попередньому кроці.
Функція активації нейронів (характеристична функція) j - нелінійний перетворювач, що перетворить вихідний сигнал суматора (див. рис. 5) - може бути однією і тією ж для всіх нейронів мережі. У цьому випадку мережа називають однорідною (гомогенної). Якщо ж j залежить ще від одного або кількох параметрів, значення яких змінюються від нейрона до нейрона, то мережу називають неоднорідній (гетерогенній).
Якщо повнозв'язна мережа функціонує до отримання відповіді задане число тактів k, то її можна представити як окремий випадок k-шарової мережі, всі шари якої однакові і кожен з них відповідає такту функціонування полносвязной мережі.

2.4. Навчання нейронних мереж як мінімізація функції помилки

Побудова навчання як оптимізації дає універсальний метод створення нейронних мереж для вирішення завдань. Якщо сформулювати вимоги до нейронної мережі, як завдання мінімізації деякої функції - оцінки, яка залежить від частини сигналів (вхідних, вихідних, ...) і від параметрів мережі, то навчання можна розглядати як оптимізацію і робити відповідні алгоритми, програмне забезпечення і, нарешті, пристрою. Функція оцінки зазвичай досить просто (явно) залежить від частини сигналів - вхідних і вихідних, але її залежність від параметрів, що настроюються мережі може бути складніше і включати як явні компоненти (складові, співмножники ,...), так і неявні - через сигнали (сигнали , очевидно, залежать від параметрів, а функція оцінки - від сигналів).
За межами завдань, в яких нейронні мережі формуються за певними правилами (мережі Хопфілда, проективні мережі, мінімізація аналітично заданих функцій тощо) вимоги до нейронної мережі зазвичай можна представити у формі мінімізації функції оцінки. Не слід плутати таку постановку задачі і її досить окремий випадок - "навчання з учителем".
Якщо для вирішення завдання не вдається явним чином сформувати мережу, то проблему навчання можна, як правило, сформулювати як задачу мінімізації оцінки. Обережність попередньої фрази ("як правило") пов'язана з тим, що насправді невідомі і ніколи не будуть відомі всі можливі завдання для нейронних мереж, і, можливо, десь у невідомості є завдання, які несвідомих до мінімізації оцінки.
Мінімізація оцінки - складна проблема: параметрів астрономічно багато (для стандартних прикладів, що реалізуються на РС - від 100 до 1000000), адаптивний рельєф (графік оцінки як функції від підстроювати параметри) складний, може містити багато локальних мінімумів, звивистих ярів і т.п.
Нарешті, навіть для того, щоб скористатися найпростішими методами гладкою оптимізації, потрібно обчислювати градієнт функції оцінки. У даному розділі описується зв'язок двоїстого функціонування мереж - автоматів з перетворенням Лежандра і невизначеними множниками Лагранжа.
Змінні зворотного функціонування m з'являються як допоміжні при обчисленні похідних складної функції. Змінні такого типу з'являються не випадково. Вони постійно виникають у задачах оптимізації і є множниками Лагранжа.
Для всіх мереж автоматів, що зустрічалися в попередніх розділах, можна виділити три групи змінних:
зовнішні вхідні сигнали x _...,
змінні функціонування - значення на виходах всіх елементів мережі f _...,
змінні навчання a _... (трьома крапками замінюються різні набори індексів).
Об'єднаємо їх у дві групи - обчислювані величини y _... - значення f _... і задаються - b _... (включаючи a _... і x _...). Спростимо індексацію, перенумерувати f і b натуральними числами: f ₁ ,..., f _N; b ₁ ,..., b _M.
Нехай функціонування системи задається набором з N рівнянь
y _i (y ₁ ,..., y _N, b ₁ ,..., b _M) = 0 (i = 1 ,..., N). (1)
Для пошарового обчислення складних функцій обчислювані перемінні - це значення вершин для всіх верств, крім нульового, що задаються змінні - це значення вершин першого шару (константи і значення змінних), а рівняння функціонування мають найпростіший вид (4), для якого

Передбачається, що система рівнянь (1) задає спосіб обчислення y _i.
Нехай є функція (лагранжіан) H (y ₁ ,..., y _N, b ₁ ,..., b _M). Ця функція залежить від b і явно, і неявно - через змінні функціонування y. Якщо уявити, що рівняння (1) дозволені щодо всіх y (y = y (b)), то H можна представити як функцію від b:
H = H ₁ (b) = H (y ₁ (b ),..., y _N (b), b). (2)
де b - вектор з компонентами b _i.
Для задачі навчання потрібно знайти похідні D _i = ¶ H ₁ (b) / ¶ b _i. Безпосередньо і явно це зробити важко.
Зробимо по-іншому. Введемо нові змінні m ₁ ,..., m _N (множники Лагранжа) і виробляє функцію W:

У функції W аргументи y, b і m - незалежні змінні.
Рівняння (1) можна записати як

(3)
Зауважимо, що для тих y, b, які задовольняють рівнянням (13), при будь-яких m
W (y, b, m) º H (y, b). (4)
Це означає, що для істинних значень змінних функціонування y за даних b функція W (y, b, m) збігається з досліджуваної функцією H.
Спробуємо підібрати таку залежність m _i (b), щоб, використовуючи (4), отримати для D _i = ¶ H ₁ (b) / ¶ b _i найбільш прості вирази. На різноманітті рішень (15)

Тому

(5)
Усюди розрізняється функція H (y, b), де y і b - незалежні змінні, і функція тільки від змінних b H (y (b), b), де y (b) визначені з рівнянь (13). Аналогічне розрізнення приймається для функцій W (y, b, m) і W (y (b), b, m (b)).
Свавілля у визначенні m (b) треба використовувати найкращим чином - все одно від нього доведеться позбавлятися, довизначити залежності. Якщо вибрати такі m, що доданки в першій сумі останнього рядка виразу (5) звернуться в нуль, то формула для D _i різко спроститься. Покладемо тому

. (6)
Це - система рівнянь для визначення m _k (k = 1 ,..., N). Якщо m визначені згідно (6), то

Основну ідею подвійного функціонування можна зрозуміти вже на простому прикладі. Розглянемо обчислення похідної складної функції одного змінного. Нехай задані функції одного змінного f ₁ (A), f ₂ (A) ,..., f _n (A). Створюємо з них складну функцію
F (x) = f _n (f _n-1 (...( f ₁ (x ))...)). (1)
Можна уявити обчислення F (x) як результат роботи n автоматів, кожен з яких має один вхід і видає на виході значення f _i (A), де A - вхідний сигнал (рис.8, а). Щоб побудувати систему автоматів, яка обчислює F ¢ (x), треба доповнити вихідні автомати такими, які обчислюють функції f _i ¢ (A), де A - вхідний сигнал (важливо розрізняти похідну f _i по вхідному сигналу, тобто за аргументу функції f _i , і похідну складної функції f _i (A (x)) по x; f _i ¢ (A) - похідні по A).
Для обчислення F ¢ (x) буде потрібно ще ланцюжок з n-1 однакових автоматів, які мають по два входи, по одному виходу і подають на вихід твір входів. Тоді формулу похідної складної функції

можна реалізувати за допомогою мережі автоматів, зображеної на рис. 8, б. Спочатку за цією схемою обчислення йдуть зліва направо: на входи f ₁ і f ₁ 'подаються значення x, після обчислень f ₁ (x) це число подається на входи f ₂ і f _2' і т.д. Наприкінці ланцюжка виявляються обчисленими всі f _i (f _{i -1} (...)) і f _i '(f _{i -1} (...)).

Рис.8. Схематичне представлення обчислення складної
функції одного змінного та її похідних.

Можна уявити обчислення будь-якої складної функції багатьох змінних, як рух по графу: в кожній його вершині виробляється обчислення простої функції (рис 9. А). Обчислення градієнта видається зворотним рухом (рис 9. Б). Звідси і термін: методи (алгоритми) зворотного поширення.

а)

б)

Рис. 9. Проходження вершини t у прямому (а) і обернений (б) напрямку.

Пропонується розглядати навчання нейронних мереж як задачу оптимізації. Це означає, що весь арсенал методів оптимізації може бути випробуваний для навчання.
Існує, проте, ряд специфічних обмежень. Вони пов'язані з величезною розмірністю завдання навчання. Число параметрів може досягати 10 ⁸ - і навіть більше. Вже в найпростіших програмних імітаторах на персональних комп'ютерах підбирається 10 ³ - 10 ⁴ параметрів.
Через високу розмірності виникає дві вимоги до алгоритму:
1. Обмеження по пам'яті. Нехай n - число параметрів. Якщо алгоритм вимагає витрат пам'яті близько n ^2, то він навряд чи застосовний для навчання. Взагалі кажучи, бажано мати алгоритми, які вимагають витрат пам'яті близько Kn, K = const.
2. Можливість паралельного виконання найбільш трудомістких етапів алгоритму і бажано - нейронної мережею.

Глава 3. Спрощення нейронної мережі.

3.1. Що таке спрощення нейронної мережі і навіщо воно потрібне

За навчальною вибіркою неможливо сказати, яка структура мережі (кількість шарів, елементів мережі) потрібен для вирішення завдання. Також не існує конструктивного алгоритму визначення значень адаптивних параметрів мережі виходячи з навчальної вибірки. Хоча і був запропонований підхід [17,20] до аналізу достатності структури мережі за допомогою оцінки константи Ліпшиця функції, що обчислюється мережею, і вибіркової оцінки константи Ліпшиця для навчальної вибірки, але він не враховує впливу і виду використовуваної при навчанні цільової функції (функції оцінки) та деяких інших аспектів.
Тому зазвичай задаються деякої надлишкової структурою мережі і адаптивні параметри знаходять шляхом навчання мережі, тобто з залученням методів оптимізації [16-20]. Це призводить до того, що часто в нейронної мережі є певне число надлишкових елементів, без яких можна цілком обійтися при вирішенні задачі. Видалення таких елементів з нейромережі називається спрощенням мережі.
Спрощення нейронної мережі переслідує такі цілі [16,17,20]:
- Отримання нейромережі, найбільш просто реалізованої технічно і забезпечує максимальну швидкодію при апаратній реалізації.
- Поліпшення інтер-та екстраполяційних здібностей нейромережі.
- Скорочення кількості вхідних сигналів мережі (при збереженні необхідної точності рішення задачі) для здешевлення і прискорення процесу збору інформації, на основі якої нейромережа приймає рішення.
- Забезпечення (або полегшення) явною вербальної інтерпретації процесу та результатів обробки даних.
У цій роботі і в Главі 3 основну увагу приділяється останньої задачі, завдання мінімізації числа вхідних сигналів вирішується як побічна.
Потрібно відзначити, що після проведення спрощення втрачається така властивість мережі, як відмовостійкість до пошкоджень елементів. Тому для отримання відмовостійких нейромереж розроблені спеціальні модифікації алгоритмів навчання і спрощення, наприклад, [21].

3.2. Завдання вилучення знань з нейронної мережі

Навчаючись, нейромережа формує певний навик рішення неформалізованій завдання класифікації або передбачення. Цей навик можна оцінити за допомогою тестової вибірки - якщо точність вирішення тестових завдань достатня з точки зору користувача, то отримана нейромережа може надалі використовуватися у складі нейромережевої експертної системи для вирішення задачі [17].
Однак нейромережа сформувала приховане, неявне знання про алгоритм вирішення задачі. Це знання закладено в мережу у вигляді значень ваг її адаптивних параметрів. У нейромережі можуть бути присутніми і надлишкові елементи (див. Параграф 2.2.6), тому користувачеві складно або практично неможливо осмислити й перетворити на явну форму нейромережне правило прийняття рішення шляхом аналізу структури мережі та її адаптивних параметрів.
Тому постала проблема вилучення знань з нейронної мережі, процес вирішення якої схематично можна представити так [22,23]:
вирізання "всього зайвого"
нейромережа логічно прозора нейромережа
дані неявні знання явні знання
Тобто нейромережа в ході навчання формує неявні знання, в ході спрощення мережі досягається деяка безізбиточная (логічно прозора) структура мережі, що задовольняє деяким заданим вимогам, і за отриманою безізбиточной мережі можливо записати правила прийняття рішення в явному вигляді. Цей процес буде вивчатися і деталізуватися далі у главах 3, 4.
Результатом процесу здобуття знань повинен бути набір правил, який із заданою точністю вирішує задане число прикладів навчальної вибірки (ці вимоги до точності закладені в використовувалися при навчанні мережі цільової функції і алгоритмі навчання, який може дозволяти припиняти навчання при досягненні правильного рішення заданого числа прикладів). Всі інші маніпуляції з нейромережею (спрощення мережі, витяг з мережі набору явних правил виводу і запис їх у необхідному вигляді) не дожни знижувати необхідну точність. Якість витягнутих знань перевіряється шляхом вирішення завдань тестової вибірки, так як процес спрощення мережі і здобування знань може знизити точність вирішення тестових завдань у порівнянні з точністю вихідної мережі після її навчання.

3.3. Методи спрощення нейронних мереж

На сьогодні розроблено велику кількість методів спрощення нейронних мереж. Можна ввести кілька класифікацій цих методів, наприклад, розділити на 2 групи на основі інформації, використовуваної методом для визначення незначущих елементів і сигналів нейромережі [24,25]:
1. Методи, які використовують лише інформацію про значення ваг синапсів і, при необхідності, внутрішні сигнали мережі на навчальній вибірці.
2. Методи, які використовують інформацію про зміну значення цільової функції або оцінку такої зміни на основі перших або других похідних цільової функції за значенням спрощуємо елемента.
Інша класифікація ділить методи на 3 класу по стратегії спрощення:
1. Методи, які виконують цикл "елементарне спрощення - донавчання нейромережі" до тих пір, поки донавчання призводить до вирішення завдання з необхідною точністю.
2. Методи, що додають до цільової функції додаткове штрафне доданок (штраф за структурну складність нейромережі) і оптимізують при навчанні отриманий композиційний критерій. Після завершення навчання проводиться вилучення виявлених надлишкових елементів. Донавчанням мережі після цього не потрібно.
3. Методи, що спрощують вже навчену мережу і не потребують донавчанням. Вони використовують ідею про якомога меншому зміні поведінки системи - наприклад, щоб вихідний сигнал нейрона або нейромережі після проведення спрощення як можна менше відрізнявся від сигналу до спрощення [17].
Можна вводити й інші класифікації.
Далі, при розгляді методів, в окремих випадках буде використовуватися друга класифікація.
Надлишковим, незначущим елементом або сигналом нейромережі є елемент або сигнал, який може бути вилучений з мережі при збереженні необхідної точності рішення задачі.
Таке видалення елемента будемо називати контрастуванням [16,17,20,26].
Інша можлива модифікація елементу - модифікація його параметрів. Для синапсу є операція бінаризації - приведення ваги синапсу до значення із зафіксованого набору виділених значень [17,20,26].
Для нелінійного перетворювача нейрона можлива заміна його нелінійної функції на іншу.
Розглянемо існуючі методи спрощення.

3.3.1. Контрастування синапсів нейромережі

Розглянуті в параграфі методи застосовні як до синапсах, так і до неоднорідним входів нейронів - змістовних відмінностей синапсу від неоднорідного входу немає.
Один з найбільш широко використовуваних методів скорочення числа синапсів нейромережі - додавання штрафного доданка в цільову функцію - т.зв. "Структурний навчання" [30-33]. Це складова штрафує за великий (за абсолютним значенням) вага синапсу. Нова цільова функція має, наприклад, вигляд

. В якості першого доданка взято критерій найменших квадратів (

- Необхідний,

- Поточний вихідний сигнал мережі на i-му прикладі навчальної вибірки). Для спрощення нейромережі з декількома вихідними сигналами в першому доданку для кожного прикладу підсумовуються нев'язки всіх вихідних сигналів мережі [28,29]. Штраф за ваги синапсів w _jk (другий доданок) входить з регулярізующім вагою e, від величини якого залежить баланс між точністю виконання завдання і простотою структури мережі.
Після завершення навчання проводиться видалення синапсів, модуль ваги яких близький до нуля (не перевершує деякої малої величини d), тобто контрастування виконується, фактично, разом з навчанням. На жаль, цей підхід не дозволяє заздалегідь задавати число вилучається з мережі елементів і потребує експериментів для визначення оптимальної величини ваги e.
Для вирішення проблеми визначення оптимальної величини регулярізующего ваги e може бути використана його адаптивне налаштування на основі врахування поточної помилки мережі і бажаного користувачем фінального рівня помилки. Однак при цьому потрібно завдання фінального рівня помилки, який може бути недосяжний для нейромережі заданого розміру.
Друга група методів контрастування синапсів заснована на обчисленні т.зв. показників значущості - оцінки зміни значення штрафний функції після деякої модифікації нейромережі, яких показників чутливості - оцінки зміни вихідного сигналу нейромережі після модифікації нейромережі.
В [34] запропоновано здійснювати моніторинг сум змін ваг синапсів під час навчання. Малозначимими вважаються синапси, ваги яких зазнавали малі зміни під час навчання.
В [36,37] обчислюються показники чутливості другого порядку. В [35] чутливістю синапсу є твір другої похідної цільової функції за вагою синапсу

на квадрат величини планованого зміни ваги синапсу. Використання других похідних пов'язано з тим, що спрощується нейромережа, що досягла при навчанні локального мінімуму, тобто має нульовий градієнт (нульові значення перших приватних похідних).
Є також методи, де використовується повна матриця других приватних похідних, а не тільки її діагональні елементи: побудована тільки по діагональних елементів оцінка зміни значення цільової функції може виявитися неточною. Але на відміну від [35], де видаляється найменш значущий синапс і потім дообучается мережу, тут запропонована явна формула для корекції значень залишаються ваг синапсів мережі, що виключає потребу в донавчанням.
Використання перших похідних (компонент градієнта) цільової функції як традиційно застосовуваних, наприклад, при ідентифікації систем [13] показників чутливості в разі нейронних мереж стикається з труднощами. По-перше, при ідентифікації систем найчастіше використовуються лінійні моделі, а нейромережі є сильно нелінійними моделями, перші похідні яких можуть істотно змінюватися від точки до точки в просторі учнів параметрів мережі. По-друге, після навчання до досягнення локального мінімуму цільової функції обчислення показників значущості першого порядку неможливо - градієнт в точці мінімуму нульовий. Це змушує використовувати деякі додаткові прийоми.
В [16-17,20,26] для контрастування синапсів, заснованого на показниках чутливості першого порядку, пропонується усереднювати перші похідні цільової функції за вагою синапсу в ході декількох кроків навчання, або - після завершення навчання - по декількох точках, отриманим невеликим випадковим зсувом щодо досягнутої точки мінімуму. Усереднення проводиться в деякій нормі (сума модулів або максимум модуля) в залежності від того, яку чутливість потрібно отримати: усереднену або максимальну. Потім отримана величина домножается на плановану зміну ваги синапсу.
Також в [17] пропонуються показники значимості першого порядку, засновані не на оцінці зміни значення цільової функції, а на оцінці зміни вихідного сигналу нейромережі: перші похідні вихідного сигналу мережі по вазі синапсу усереднюються за навчальною вибіркою в тій чи іншій нормі і домножаются на плановану зміну ваги синапсу.
Показники значущості нульового порядку, засновані на розгляді абсолютної величини ваги синапсу, фактично, використовуються тільки після навчання зі штрафом за великі за модулем ваги синапсів. В інших випадках часто трапляється так, що видалення синапсу з малою вагою може набагато сильніше погіршити навик мережі в порівнянні з видаленням синапсу з великою вагою (значимість синапсу залежить і від величин проходять через синапс сигналів і величин активації нейрона, якому належить синапс). Третя група методів контрастування синапсів видаляє синапс з мережі шляхом "перерозподілу" його ваги за іншими синапсах так, щоб найменш сильно змінити вихідний сигнал нейрона або мережі.
Існує алгоритм спрощення, що не вимагає донавчанням мережі:
- Здається поріг допустимої зміни значення сумарної цільової функції на всій навчальної вибірки.
- Знаходиться синапс з мінімальним за модулем вагою - (використовується показник значущості нульового порядку).
- Перерозподіляти вага цього синапсу між іншими вхідними синапсами нейрона по заданих в [38] явним формулами.
- Якщо значення цільової функції не вийшло за деякий встановлений поріг, проведені зміни остаточно вносяться в мережу і здійснюється спрощення наступного синапсу, а інакше остання зміна скасовується.
Число видаляються елементів залежить від надмірності мережі - в описуваної в [38] завданню вдавалося видаляти без погіршення якості розпізнавання для мереж з 5, 10, 15 і 20 нейронами 13, 17, 23 і 35% синапсів відповідно.
В [17] алгоритм скорочення синапсів заснований на розгляді суматора окремого нейрона мережі.
Показано, що для досягнення мінімальної зміни вихідного сигналу суматора на навчальній вибірці контрастувати повинен той синапс суматора, твір ваги якого на середньоквадратичне ухилення проходить по ньому сигналу мінімально серед усіх синапсів нейрона.
При цьому до ваги неоднорідного входу має додаватися твір ваги контрастіруемого синапсу на матожидание проходить по синапси сигналу. Існує модифікація методу, замість середньоквадратичного ухилення використовує середньоквадратичне ухилення "з вагами", залежними від помилки на кожному навчальному прикладі.

3.3.2. Контрастування нейронів нейромережі

Контрастування нейронів може досягатися як побічний результат контрастування синапсів: якщо у нейрона вилучені всі вхідні синапси або всі вихідні синапси, то такий нейрон можна видалити з мережі без погіршення якості виконання завдання. Тим не менш, є методи контрастування власне нейронів.
В [39] запропоновано в цільову функцію додавати додатковий штрафне складова. Це складова (ентропійного виду) штрафує за надто великі модулі вихідних сигналів нейронів. Мінімізація такої оцінки призводить до того, що в мережі буде активуватися тільки мале число нейронів, а решта нейрони будуть видавати сигнал, близький до 0. Формула штрафного доданка:

, Де M - число нейронів,

- Нормований вихідний сигнал

i-го нейрона,

, E - параметр регуляризації. Це складова перераховується для кожного прикладу вибірки, і градієнт для кожного прикладу рахується з урахуванням цього доданка. Після навчання мережі для видалення нейронів, які не активуються, використовується следующиие метод: для кожного нейрона на навчальній вибірці усереднюється його вихідний сигнал, і з мережі видаляються нейрони, середня активація яких менше деякого порога d.
В [40,41] пропонується обчислювати значимість нейрона як модуль викликаного контрастуванням нейрона зміни значення цільової функції, підсумований по всіх прикладів вибірки. Нейрон з найменшою значимістю видаляється з мережі, і мережа дообучается. Оскільки для обчислення значущості нейрона не потрібно обчислення градієнта цільової функції, підхід може застосовуватися для мереж, які не можна навчати градієнтними методами (наприклад, для мереж з пороговими нейронами).
Робота [21] використовує той самий підхід, що й [40,41], але натомість усереднення зміни значення цільової функції за прикладами вибірки шукається максимум модуля такої зміни.
Схожий на [21,40,41], але більш спеціалізований метод запропонований в [42] для мережі-класифікатора (необхідні вихідні сигнали мережі - 0 або 1, число вихідних нейронів мережі не важливо). Вводиться функція якості, що характеризує правильність інтерпретації відповіді для всієї вибірки:

, Де

, O _j, y _j - необхідний і вихідний сигнали j-го вихідного нейрона, n - число вихідних нейронів, N - число прикладів у навчальній вибірці, e - необхідна близькість сигналу вихідного нейрона до необхідного значенню для даного прикладу. Для кожного нейрона невигідних шару обчислюється значення функції якості за умов видалення цього нейрона з мережі, і нейрон, що викликає найменше погіршення якості розпізнавання, видаляється з сеті.Етот метод націлений на збереження правильної інтерпретації відповіді мережі - щоб контрастування нейрона призводило до неправильної класифікації як можна меншого числа прикладів навчальної вибірки.
В [43] показником значущості нейрона є сума квадратів ваг синапсів нейрона (включаючи неоднорідний вхід) і ваг всіх синапсів, за якими нейрон розсилає свій вихідний сигнал.
В [44,45] разом з вагами синапсів враховуються і величини проходять по синапсах сигналів. Для кожного нейрона вважається значення критерію

, Де o _i - вихідний сигнал i-го нейрона для прикладу p навчальної вибірки, w _ij - Вага синапсу, що йде від i-го нейрона до j-му нейрона наступного шару. Видаляються нейрони з найменшим значенням критерію. Тобто значущі нейрони - ті, які часто порушуються і розсилають свій сигнал по синапсах зі значними (по модулю) величинами ваг. В [46] проводиться подальша модифікація: в критерій входить ще й вихідний сигнал j-го нейрона наступного шару:

. Тобто передбачається, що значущі нейрони мають властивості з [44,45] (сильне збудження і великі ваги вихідних синапсів) до того ж призводять до порушення нейронів наступного шару.
На основі методу контрастування синапсів другого порядку [36] запропоновано метод контрастування нейронів другого порядку, де показником значущості нейрона є сума творів усіх других приватних похідних цільової функції за вагою синапсу на квадрат ваги синапсу, взята за всіма вхідним синапсах нейрона і синапсах, за якими нейрон розсилає свій вихідний сигнал.
В [48] запропоновано показником значущості нейрона вважати показник значущості першого порядку виду [16-17,20,26] його вихідного сигналу. Також розглянуто заснований на показниках значущості синапсів першого [16-17,20,26], а не другого порядку варіант методу [47], де показником значущості нейрона вважається сума показників значущості всіх його вхідних і вихідних синапсів.
Узагальнений підхід [17,20,26] дозволяє одержувати для вихідного сигналу кожного нейрону мережі показники значимості вихідних сигналів нейронів попередніх шарів і вхідних сигналів мережі. Тому можливо контрастування нейронів не на основі оцінки зміни величини цільової функції, але і оцінки зміни вихідного сигналу мережі (вихідного сигналу деякого нейрона останнього шару мережі).
В [49-50] вводиться і в [51] виконується контрастування нейронів шляхом переупорядочивания ваг синапсів. Видаляються нейрони, що мають на навчальній вибірці найменшу дисперсію свого вихідного сигналу серед сигналів всіх нейронів, при цьому відбувається корекція терезів неоднорідних входів нейронів наступного шару на величини, що дорівнює добутку матожиданием вихідного сигналу видаляється нейрона на вагу синапсу, за яким на нейрон наступного шару приходив цей сигнал . Видаляються всі, крім одного, нейрони, що мають сильно скорреліровани вихідні сигнали, також з корекцією ваг синапсів, за якими буде розсилати сигнал залишається нейрон.

3.3.3. Контрастування вхідних сигналів нейромережі

Критичного огляду ідей, що лежать в основі методів контрастування входів мережі, присвячена робота Уоррена С. Сарла [52]. Усі наведені автором аргументи та приклади можуть бути адресовані і до розглянутих раніше методів обчислення показників значущості синапсів і нейронів мережі. Основні положення статті такі:
- Є показник значущості входу і показник чутливості вихідного сигналу мережі до зміни на вході. Це - різні показники, і їх треба розділяти.
- Не можна визначати значимість входу через зміну залишкової дисперсії моделі після видалення цього входу і відповідної перебудови моделі - при наявності корельованих ознак залишаються ознаки компенсуватиме відсутність віддаленого.
- Використовувати як показник значущості абсолютне значення ваги синапсу при вхідному параметрі не можна - можуть бути і різні діапазони зміни входів, і різні їх дисперсії. Нормування входів проблему не вирішує, оскільки використовувані при нормалізації отримані за вибіркою оцінки можуть сильно відрізнятися від дійсних значень.
- Використання твору ваги синапсу, по якому проходить вхідний сигнал на вагу синапсу, за яким нейрон розішле свій вихідний сигнал далі, і усереднення цих творів по всіх вихідним синапсах нейрона (див. [44,45]) не враховує вплив функції активації нейрона (додаткове домноженіе на величину активації, як зроблено в [46], буде правильніше).
- Розгляд компоненти градієнта вихідного сигналу мережі по вхідному сигналу краще розглядів ваг синапсів. Проте спиратися лише на величини похідних недостатньо в разі, коли планується кардинальна зміна мережі - контрастування входу.
- Усереднення похідних по всьому діапазону зміни входу у великому числі точок (тобто отримання репрезентативної вибірки значень похідних) вимагає зведення їх в одне число - показник значимості. Просте підсумовування (або пошук середнього) тут застосовуватися не може через те, що похідні можуть мати як позитивний, так і негативний знаки і при усередненні дати середнє поблизу нуля, хоча їх абсолютні значення можуть бути дуже великими. Усереднювати потрібно модулі або квадрати значень похідних.
- Кінцеві різниці, коли в якості однієї точки виступає поточний стан входів, а в якості другої - стан після передбачуваної модифікації, краще похідних.
- Є проблема вибору константного значення, яким буде замінюватися отконтрастірованний вхідний сигнал. Тут ми стикаємося з проявом нелінійності моделі (може бути, при обраному значенні нейромережа буде видавати сильно відрізняється сигнал), до того ж вхідний сигнал може бути розподілений по будь-якого закону, тому середнім значенням інтервалу зміни замінювати більшість сигналів не можна.
- Шум у даних, інші чинники теж вимагають обліку шляхом обов'язкового оперування з навчальною вибіркою - розгляду тільки нейронної мережі недостатньо.
Тепер розглянемо існуючі методи контрастування вхідних сигналів у світлі критичних положень статті У. Сарла.
В [17,20,26] запропоновано підхід першого порядку, усереднюючий твори приватних похідних цільової функції по входах мережі на плановані зміни величин сигналів. Усереднення ведеться в деякій нормі по всіх прикладів навчальної вибірки і декількох точок у просторі адаптивних параметрів мережі. Тут задовольняється більшість вимог У. Сарла: використовується усереднення модулів значень творів похідних по вибірці і в кількох точках і виробляється множення на плановану зміну величин сигналів. Замість похідних цільової функції можна використовувати похідні вихідних сигналів мережі за вхідними сигналами.

3.3.4. Бінаризація синапсів

В [16,17,26] для бінаризації застосовується показник значущості синапсу першого порядку при заміні ваги синапсу на виділене значення. Для задачі контрастування виділеним вагою синапсу був 0, для завдання бінаризації формується набір виділених значень.
Для синапсу обчислюються показники значущості для кожного виділеного значення і знаходиться виділений значення, відповідне мінімального значення показника чутливості.
Така операція проводиться для всіх синапсів мережі і синапс з найменшим показником значущості бінарізуется до знайденого для нього виділеного значення
Також для бінаризації може застосовуватися метод контрастування [16], який додає до функції оцінки штрафний член, "що притягає" ваги синапсів до виділеного значенням.
У [54] представлений алгоритм квантування ваг синапсів, яка відрізняється тим, що кількість і величини виділених дискретних значень синапсів задаються не користувачем, а визначаються самим алгоритмом.
Інші методи бінаризації, засновані не на показниках значущості і не на штрафних функціях, а на вимозі до мінімального зміни вихідного сигналу суматора на вибірці, введені в [17,18].

3.3.5. Спрощення нелінійних перетворювачів нейронів

У [55] представлений метод заміни гладких нелінійних функцій нейронів константами, лінійними, пороговими або кусково-лінійними функціями.
На навчальній вибірці для кожного нейрона обчислюється мінімальний і максимальний вихідні сигнали його суматора і на отриманому відрізку обчислюється інтеграл різниці вихідної нелінійної функції нейрона і нової замісної функції (помилка). Спрощується нейрон з найменшим значенням інтеграла помилки.
Недолік запропонованого алгоритму - неможливість оптимального підбору параметрів замещающей функції. Оскільки введення в нейромережа порогового або кусково-лінійного нейрона не дозволяє потім дообучать мережа градієнтними методами, то для підбору параметрів замещающей функції можуть знадобитися додаткові експерименти.

3.3.6. Додаткові модифікації алгоритмів контрастування

Контрастування не обов'язково вести як процес тільки виключення незначущих елементів. В [17,57] запропоновано на деякому кроці спрощення додатково повертати в мережу частина раніше отконтрастірованних елементів.
Дійсно, мережа після кроку контрастування модифікувалася. У зв'язку з цим змінилася і значимість раніше відкинутих елементів.
Можна визначити цю нову значимість і повернути в мережу кілька найбільш значущих раніше відкинутих елементів. Це може допомогти отконтрастіровать надалі більшу кількість елементів [27].

3.3.7. Методи модифікації структури навченої мережі

Існують методи, які не можна віднести до методів спрощення мережі, оскільки спрощення структури мережі при цьому не виконується. Однак ці методи проводять таку еквівалентну модифікацію мережі (із збереженням досягнутого при навчанні мережі навички вирішення завдання), яка може бути корисна для подальшого процесу здобування знань.
Так, для нейрона з сігмоідной нелінійною функцією виду

(Або інший симетричною відносно нуля нелінійною функцією) можлива одночасна зміна знака ваг всіх його синапсів і всіх синапсів, за якими розсилається вихідний сигнал нейрона, зі збереженням правильності рішення нейромережею завдання [56]. Тому з'являється можливість, наприклад, приведення загального числа негативних ваг синапсів мережі до мінімуму (якщо задана гіпотеза, що саме така структура мережі спростить надалі вилучення та інтерпретацію знань).

3.4. Вимоги до процесу спрощення мережі для здобуття знань

Перейдемо до оцінки застосовності описаних методів спрощення мережі до задачі добування знань. Розглянуті раніше методи контрастування синапсів, нейронів і вхідних сигналів можна розбити на 2 групи методів:
1. Методи, що не дозволяють задавати число контрастіруемих елементів мережі (методи, засновані на модифікації штрафний функції).
2. Методи, які виконують покрокове спрощення нейронної мережі. На кожному кроці видаляється найменш значущий елемент мережі (або кілька найменш значущих елементів - [57]), потім після донавчанням видаляється наступний найменш значущий елемент і т.д. Такі методи дозволяють видаляти з нейромережі задане число елементів і будувати власні стратегії спрощення шляхом послідовного застосування різних методів, що контрастують різні елементи.
Представляється, що методи з першої групи мало придатні для спрощення мережі при подальшому вилученні з неї знань із-за недостатньої гнучкості і неможливості конструювання комбінованих алгоритмів, так як у користувача зазвичай є деякий міркування про оптимальну структуру мережі. Оптимальність зазвичай досягається не по одному якомусь критерію (наприклад, "мінімальність числа нейронів", "мінімальність числа входів", ...), а за кількома. І якщо послідовно застосовувати методи з першої групи, то досягнення одного критерію можливо, а наступних-проблематично, оскільки застосований для досягнення першого критерію оптимальності метод контрастування отконтрастіровал мережу до мінімуму за цим критерієм і залишив дуже мало надмірності в мережі, щоб можна було досягти загального оптимуму шляхом подальшого контрастування за іншими критеріями.
Тому можна сформувати такі вимоги до процесу спрощення нейромережі для задачі подальшого вилучення з її знань. Ці вимоги накладають певні обмеження на можливість використання тих чи інших методів спрощення:
1. Процес спрощення повинен дозволяти користувачеві вибирати контрастіруемие структурні елементи мережі (нейрони, входи, синапси, ...) шляхом вибору окремих елементарних спрощують операцій.
2. Процес спрощення повинен дозволяти задавати послідовність проведення різних обраних в п.1 спрощують операцій.
3. Можливість задавати число контрастіруемих елементів як для кожного кроку окремої спрощує операції, так і для всього процесу в цілому.
4. Можливість визначати умова зупинки контрастування (по кожній спрощує операції) замість контрастування мережі "до межі".
5. Процес спрощення повинен бути налаштовуємо під вимоги конкретного методу вилучення знань з нейронної мережі. Іншими словами, процес спрощення повинен сформувати нейромережа, оптимальну для подальшої роботи конкретного алгоритму здобування знань.
Вимога до можливості вибирати і задавати послідовність виконання спрощують операцій потребує введення номенклатури елементарних спрощують операцій.

3.5. Спрощують операції над нейронної мережею

Введемо номенклатуру елементарних спрощують операцій [22,23,58]:
- Видалення вхідного сигналу (див. розділ 3.3.3).
- Видалення синапсу мережі (розділ 3.3.1).
- Видалення нейрона мережі (розділ 3.3.2).
- Бінаризації синапсу мережі (розділ 3.3.4).
- Модифікація нелінійного перетворювача нейрона мережі (розділ 3.3.5).
- Еквівалентна перетворення структури мережі, що приводить до оптимізації структури мережі по деякому критерію (розділ 3.3.7).
Для всіх цих операцій можливе призначення "області дії" як завдання фрагмента нейромережі (шляхом перерахування елементів і сигналів мережі), усередині якого на кожному кроці спрощення і буде проводитися контрастування.
Шляхом завдання послідовності застосування елементарних спрощують операцій, критерію зупинки виконання операції, завдання вимог до результуючою увазі нейромережі стратегії спрощення нейромережі настроюються під переваги користувача і алгоритму здобування знань.

3.6. Процедура комплексного спрощення нейронної мережі

Для задачі вилучення явних знань з даних введемо поняття логічно прозору мережу [17,18,20,23,58]. Під логічно прозорої розуміється нейромережа, що володіє мінімальною структурною складністю і при цьому задовольняє вимогам (перевагам) користувача (якщо користувач сам буде вручну проводити процес вилучення знань - осмислення та інтерпретації структури мережі) та / або вимогам алгоритму автоматизованого здобуття знань до виду результуючої мережі.
Формалізуємо процес отримання логічно прозору мережу, що задовольняє введеним в * ПАРАГРАФІ 3.2 вимогам (процес спрощення повинен бути налаштовуємо під конкретний метод вилучення знань з нейронної мережі, тобто повинен формувати нейромережа, оптимальну для конкретного алгоритму здобуття знань).
1. Вводяться необхідні критерії логічної прозорості. Критеріями можуть бути як перераховані в попередньому підрозділі критерії простоти мережі, так і інші вимоги. Наприклад, може знадобитися квантування внутрішніх, що проходять по нейронної мережі сигналів. Критерії логічної прозорості визначають необхідний в даний час користувачеві клас логічно прозорих мереж - безліч варіантів структур мережі, що задовольняють поставленим вимогам.
2. Для кожного критерію вводиться дискретна шкала, по якій відраховується віддаленість поточного стану нейронної мережі від класу логічно прозорих мереж, як число сигналів або елементів мережі, не задовольняє вимогам критерію. Оскільки для кожного критерію може вводитися число елементів або сигналів, які необхідно залишити в мережі неотконтрастірованнимі та / або немодифікованими, або іншу умову зупину, то цим числом або умовою визначається нуль дискретної шкали.
3. Проводиться процедура спрощення нейронної мережі. Спрощення будується так, щоб мінімізувати "відстань" від поточної нейронної мережі до класу логічно прозорих функцій. "Відстань" обчислюється як зважена сума тих критеріїв, за якими мережа не задовольняє вимогам логічної прозорості. На кожному кроці спрощення серед всіх доступних елементарних операцій вибирається така операція, яка призводить до найбільшого зменшення "відстані". Якщо вибрана операція не може бути виконана (наприклад, через досягнення мінімуму за цим критерієм логічної прозорості), то вибирається наступна операція. Якщо досягнуто умови зупинки, процес спрощення закінчується.
4. Якщо вимоги деяких критеріїв не досягнуто, але ніяка з спрощують операцій не може бути виконана, то можливе повернення в нейромережа деяких раніше отконтрастірованних елементів або сигналів (див. розділ 3.3.6). Повертати в мережу потрібно ті елементи, які не призводять до зростання поточного відстані до класу логічно прозорих мереж або дають мінімальне зростання відстані. Потім здійснюється чергове виконання кроку 3. Природно, потрібно приймати деякі заходи проти зациклення кроків 3-4.

Глава 4. Методи видобування знань з штучних нейронних мереж

4.1. Існуючі методи видобування знань з навченої нейромережі

Як і для методів спрощення нейромережі, для методів вилучення з мережі знань можна теж ввести кілька класифікацій. Так, в [59] представлено ранжування методів здобуття знань за наступним властивостям:
- Накладаються чи обмеження на можливий вид нейромережі (на структуру мережі, число нейронів, входів та виходів мережі, вид вхідних і вихідних сигналів мережі).
- Модифікується чи ні навчена мережа при вилученні з неї знань.
- Ділиться чи непреривнозначная вхідна та / або проміжна (сигнал нейрона) змінна на інтервали, яким потім можна зіставити лінгвістичні категорії. Як відбувається процес цього поділу.

4.1.1. Методи на основі квантування сигналів мережі

Квантування непреривнозначних сигналів має на меті отримання для кожної вхідної змінної таких інтервалів її зміни, кожному з яких можна в подальшому зіставити деяку лінгвістичну категорію. Породжувані лінгвістичні категорії можна використовувати для процесу пояснення прийняття мережею рішення. Деякі методи дозволяють перехід від непреривнозначних сигналів до діскретнозначним або шляхом співставлення з кожним інтервалом деякого дискретного значення (і надалі дискретизації кожної непреривнозначной змінною по співставленим з нею значенням), або шляхом певної модифікації мережі.
У [53] розроблено метод породження і перевірка гіпотез про структурну і функціонального зв'язку між входом і виходом, що складається з трьох етапів:
1. Визначення "меж розв'язання" - розбиття діапазонів значень безперервних вхідних ознак на піддіапазони, всередині яких правила прийняття рішення будуть різнитися. Робота ведеться на вже навченої мережі. Для кожного i-го вхідного сигналу будується графік показника чутливості вихідного сигналу мережі до зміни i-го сигналу в точці x, з діапазону значень сигналу:

, Де j - номер прикладу навчальної вибірки, O _j (i) - вихідний сигнал мережі при заміні значення i-го вхідного сигналу j-го прикладу на задану величину. Вхідні сигнали, що містять кордону рішення, будуть мати високі піки на своїх графіках (відповідні великим значенням похідної вихідного сигналу). Неінформативні сигнали піків мати не будуть, висота їх графіків буде малою.
2. Аналіз чутливості виходу до входу для визначення причинно-наслідкового зв'язку - шляхом обчислення показника значущості входу як суми по всіх прикладів вибірки модуля різницевої апроксимації приватної похідною вихідного сигналу по вхідному. Формула аналогічна накопиченню показників значущості в нормі "сума модулів" [17,26], але заснована на різницевої апроксимації похідної вихідного сигналу мережі по вхідному. Самостійного значення цей етап не має, використовується всередині етапу 3.
3. Перевірка гіпотези про існування кордону рішення. Для найбільш чутливого сигналу ділимо вибірку на поднабор (залежно від числа піків на графіку чутливості для цього сигналу з п.1.), Всередині яких сигнал приймає значення з відповідного діапазону. Усередині кожного інтервалу досліджуємо значимість сигналів (п.2.) По відповідному поднабор вибірки. Якщо межа рішення існує, то всередині цих інтервалів буде різна чутливість виходів по входах - кожного разу будуть значимі інші входи. Далі можна використовувати звичайний регресійний аналіз - у нас вже є виділення значущих ознак для кожного інтервалу, і можна сподіватися, що всередині цих інтервалів залежність виходу від відповідних інтервалу найбільш значущих вхідних сигналів може бути лінійна.
Аналогічний підхід до визначення меж розв'язання на основі аналізу похідних вихідного сигналу мережі (саме вихідного сигналу, а не функції якості) за вхідним сигналам використаний в [59].
В [59] розглянуто витяг нечітких правил з мережі-класифікатора з непреривнозначнимі вхідними сигналами. Для кожного вхідного сигналу формуються кілька лінгвістичних категорій (наприклад, "малий", "нижче середнього", "середній", "вище середнього", "високий" або інші в залежності від фізичного змісту сигналу) і відповідні кожної лінгвістичної категорії нечіткі функції приналежності. Процес побудови правил використовує тільки вхідні і вихідні сигнали мережі і виконується шляхом перебору всіх можливих поєднань лінгвістичних категорій на входах з обчисленням нечітких значень на виходах при роботі мережі. Для кожного поєднання категорій виходить набір нечітких значень на виходах мережі, і для класу з найбільшим значенням записується правило виду if-then, де в правій частині правила коефіцієнт впевненості приймає значення обчисленої нечіткої величини. Побудови ієрархії правил (по числу шарів нейромережевого класифікатора) в [59] не робиться. Правила в лівій частині містять значення вхідних змінних, а в правій - вихідних змінних нейромережі. Практично аналогічний метод вилучення нечітких правил запропонований в [60] - фаззификації і введення лінгвістичних категорій для вхідних сигналів мережі, побудова набору нечітких правил, що видають по фаззіфіцірованним вхідним сигналам відповідь, близький до відповіді мережі (необхідному вихідному сигналу). Тобто структура мережі знову до уваги не береться, фактично, можна обійтися просто навчальною вибіркою.
Найбільш недавні роботи [62,63] пропонують вільний від семантики, напівавтоматизованих визначення числа і меж діапазонів значень. У [62] пропонується наступний процес вилучення знань:
- Виділення діапазонів значень (і відповідних їм лінгвістичних змінних) для непреривнозначних вхідних сигналів. Виконується шляхом аналізу гістограм (у випадках, коли величини сигналів розподілені по мультимодальній закону), використовуючи методи лінійного поділу за змінної (у разі рішення задачі класифікації), .. або з використанням підходу з [63].
- Нарощування нейронної мережі над сформованим набором слінгвістіческіх змінних - до тих пір, поки додавання нейронів не буде підвищувати точності прогнозу мережі.
- Оптимізація правил шляхом спрощення сформованого логічного вислови та скорочення числа лінгвістичних категорій шляхом їх об'єднання. На новому наборі лінгвістичних змінних може бути повторений попередній крок побудови мережі і т.д. до збіжності процесу.
Більш докладно механізм визначення діапазонів розглянуто в [63]. Функція приналежності формується як різниця вихідних сигналів двох сігмоідних нейронів з різними значеннями ваг неоднорідних входів

і однаковими (єдиними) вхідними сигналами з однаковими ж вагами синапсів. Тобто таким чином кодується лінгвістична змінна для інтервалу

. Якщо цей різницевий сигнал використовується далі з негативним вагою, то лінгвістична змінна виходить для інтервалу

. Одна сигмоїда може кодувати змінну ³ a ₀ або £ a _0. Фактично, пропонується будувати додатковий кодує шар нейронів (самий перший), де для кожного непреривнозначного вхідного сигналу будуть бути декілька пар нейронів (їх навчання повинно йти зі збереженням однакових значень ваг синапсів в кожній парі), і два додаткових нейрона для представлення лінгвістичних змінних виду ³ a ₀ або £ a _0. Навчання нейромережі і контрастування такого шару остаточно сформує інтервали для лінгвістичних змінних, а їх число буде оптимізовано в порівнянні з вихідним числом кодують нейронів для кожного сигналу.

4.1.2. Методи видобування знань паралельно з навчанням нейромережі

Окремі методи спираються на процес навчання нейромережі.
В [64] досліджується можливість застосування "структурного навчання" і його модифікацій [28-33] не тільки як методу контрастування синапсів, але і як методу вилучення знань. Підкреслюється необхідність спрощення мережі для одержання більш компактного і зрозумілого набору правил. Запропоновано побудову ієрархії правил - виділення спочатку домінантних правил, а потім доповнень і винятків з правил (або, іншими словами, правил, що визначають основні залежності, і правил, які уточнюють деталі). Процес - установка порівняно великого значення величини параметра регуляризації і навчання мережі до отримання простої структури, запис правил (найбільш домінантних) за отриманою мережі, фіксація і виведення з навчання отриманої структури мережі (ненульових ваг синапсів), зменшення значення параметра регуляризації, навчання мережі (щоб досягти більшої точності рішення, деякі раніше отконтрастірованние синапси отримають ненульові ваги і сформують ієрархію правил рівнем нижче), і запис додатково сформованих менш домінантних правил і т.д. до тих пір, поки сумарний набір правил (саме набір правил, а не нейромережа) не буде працювати на навчальною / тестової вибіркою із заданою точністю.
Однак процес вибору початкового значення параметра регуляризації та стратегії його зменшення неоднозначний. До того ж, використовувана в [64] оцінка МНК може призводити до надмірної складності набору правил для мереж-класифікаторів. Також не обговорюється механізм власне запису правил (тестовий приклад в [64] працював з булевими вхідними змінними) обговорюється тільки механізм спрощення мережі для формування структури правил, отранжірованних за шкалою спільності (домінування) - деталізації.
Як доопрацювання методу можна запропонувати побудову графіка залежності точності рішення прикладів навчальної вибірки від числа елементів в мережі або числа правил, породжуваних по мережі (ці величини, у свою чергу, залежать від величини параметра регуляризації). Найімовірніше, на графіку будуть спостерігатися кілька стрибкоподібних змін точності розпізнавання - див., наприклад, приклад в [60]. Видається, що, при формуванні ієрархії правил, "природною" буде ієрархія, відповідна піднаглядним стрибкоподібним змінам точності.
В [65] розглядається метод, що формує правила паралельно з навчанням мережі. Якщо поточний прогноз мережі правильний, то в набір правил вводиться правило, забезпечує таку ж відповідь на даній ситуації, і робиться спроба переформулювання деяких наявних і додається правил - наприклад, шляхом об'єднання кількох приватних правил в одне більш універсальне правило. Якщо відповідь мережі невірний, то набір правил модифікується для недопущення помилки. Тобто правила формуються не за нейронної мережі, а на підставі навчальної вибірки. У порівнянні з витяганням знань після навчання мережі, такий підхід формує більш "сирий" і "пухкий" набір правил і може залишати рудиментарні правила. Але для ситуацій, коли необхідне формування знань у режимі on-line (коли неможливо заздалегідь сформувати навчальну вибірку), така ідея досить перспективна для подальшого розвитку.

4.1.3. Методи видобування знань з навченої нейромережі

В [66-68] запропоновано метод вилучення знань, що спирається тільки на структуру і ваги синапсів навченої нейромережі, що не вимагає навчальної вибірки і не розглядає природу вхідних і проміжних сигналів мережі. Для кожного нейрона зважена з вагами синапсів сума його вхідних сигналів (тобто вихідний сигнал суматора нейрона) порівнюється зі значенням неоднорідного входу нейрона. Перевищення / неперевищення оформляється в окреме правило виду "якщо ..., то". У разі сігмоідних або порогових функцій перевищення або неперевищення зваженою сумою значення неоднорідного входу описує рівень активації вихідного сигналу нейрона.
В [69] розглядалися схожі ідеї, але з аналізом породжуваних на навчальній вибірці проміжних сигналів нейромережі - величин активації нейронів. Розглядалася ситуація активації / неактіваціі нейрона при конкретних комбінаціях значень бінарних вхідних сигналів нейрона. Будувалися правила виду "M of N", описують накладаються на значення вхідних сигналів умови для отримання того чи іншого вихідного стану нейрона. При цьому під час запису правил відсівалися ті вхідні сигнали нейрона, зміна значень яких не призводить до зміни вихідного стану при фіксованих значеннях інших входів.
MofN-правила - продукційні правила виду:
"ЯКЩО хоча б / рівно / щонайменше M з N умов C _1, C _2, .., C _N виконані, ТО ..., ІНАКШЕ ..."
Такі правила більш гнучкі ніж найпростіша форма "якщо ..., то ...".
В алгоритмі [70] витягуються правила найпростішого виду, до того ж містять в лівій і правій частинах правила тільки по єдиному атрибуту. Це призводить до необхідності подальшої оптимізації та переформулювання получающегося великої кількості простих продукційних правил, наприклад, в набір меншого числа правил виду MofN.
У [71] пропонується метод побудови багатокрокової схеми логічного висновку, де на кожному кроці виведення можуть використовуватися як концепти попереднього кроку, так і концепти всіх більш ранніх кроків і первісні вхідні дані - це відрізняє запропонований метод від більшості інших методів, де у формуванні концептів деякого рівня беруть участь тільки концепти попереднього рівня. Тут концепти формуються в ході перегляду навчальної вибірки шляхом об'єднання зустрічаються 2 і більше разів комбінацій значень дискретних вхідних ознак у величину з деяким значенням, якою можна дати лінгвістичний опис. Після породження концепту він починає брати участь у формуванні концептів наступного рівня поряд з усіма раніше сформованими концептами.
Більшість методів вилучення знань націлене на роботу з нейромережі, які отримують на вхід і видають на виході бінарні, номінальні або порядкові величини. При обробці ж безперервних величин кожна величина розбивалася на кілька інтервалів, причому практично завжди розбиття на інтервали проводилося вручну без урахування статистичної природи величини.
Інші методи почали своє життя як методи уточнення наявних явних знань, коли проводилося вбудовування наявних наборів правил у нейромережа, потім проводилося навчання мережі та витяг уточнених знань.
Саме як методи уточнення наявних апріорних знань спочатку були представлені методи [69,70,72-74]. При цьому в нейромережа вбудовується наявний набір правил виведення, який не повинен обов'язково бути ні повним, ні несуперечливим. Правила оперують бінарними або номінальними величинами, вхідні / проміжні сигнали реалізує ці правила нейромережі теж робляться квантованими. Для обробки вхідної інформації кожна непреривнозначная величина розбивається користувачем на кілька інтервалів. Нейромережа "добудовується" до повного розміру набором зв'язків з невеликими вагами і набором додаткових нейронів. Після навчання мережі витягуються відкориговані правила логічного висновку виду M of N. Висока або низька активація нейронів інтерпретується як істинне або помилкове значення обчислюється нейроном булевої змінної. Такий метод вилучення знань називається в [73,74] KBANN-алгоритмом.
Обмеження KBANN-алгоритму в тому, що, фактично, не породжується нових правил. При формуванні мережі робиться так, щоб додаються синапси мали малі ваги і додаються нейрони мали низьку активацію. При навчанні мережі коригуються як додані елементи, так і зіставлені з початковими символьними правилами елементи. Але оскільки останні спочатку мають великі значення синапсів і високі активації нейронів, то вони і сформують кластеру активності, а додані елементи будуть використовуватися на етапі видобування правил. Фактично з мережі витягується трохи скоригований набір вихідних правил.
Визначенню необхідності додавання і числа додаються до мережі нейронів у ході її формування присвячені роботи [75,76], що по зазначене обмеження KBANN-методу. TopGen-розширення KBANN-алгоритму здійснює евристичний пошук оптимальних модифікацій мережі на основі навчальних даних, що виходить набору символьних правил і поведінки мережі. Інші алгоритми нарощують мережу при малій швидкості збіжності навчання та / або великий помилку навчання / узагальнення і т.д. TopGen ж націлений на роботу з KBANN-мережами і при своїй роботі використовує витяг з мережі і аналіз символьних правил для того, щоб визначити, в якому місці мережі потрібна корекція. При роботі алгоритму коректується символьне уявлення правил та їх ієрархічна структура разом з їх адаптацією шляхом навчання мережі. Ще одна особливість алгоритму - прагнення не надто порушувати вставлені в нейромережа вихідні формалізовані правила, а інакше після вилучення правил можна отримати правила, кардинально відрізняються від початкових і складні в інтерпретації. Тобто додаються в мережу елементи повинні навчитися за навчальною вибіркою розпізнавати виключення з вихідних правил та / або навчитися коригувати відповідь цих правил, якщо останні надто вже погано працюють на вибірці.
Метод вилучення знань, який використовували в складі KBANN-алгоритму [73,74], був адаптований і для здобуття знань з нейромереж без початкового вбудовування в них правил. Ідея вихідного методу - при навчанні отримати нейромережа, в якій значення ваг синапсів і активацій нейронів групуються у кластери, і лінгвістично інтерпретувати отримані кластери. Були запропоновані наступні варіанти доробки:
1. У [77] використовується процедура корекції, яка після звичайного навчання мережі групує значення ваг синапсів кожного нейрона в кластери (ваги синапсів потім замінюються значеннями центрів кластерів) і коригує значення неоднорідного входу нейрона так, щоб компенсувати внесені в мережу зміни, і таким чином робить можливим застосування старого варіанту методу вилучення знань.
2. У [78] на основі пошукового алгоритму розроблено метод побудови набору правил, приблизно еквівалентних правилами, сформованим деякої довільної мережею без обмежень на її топологію. Не потрібно квантування величин активацій нейронів при навчанні мережі, і потрібно тільки рівність вихідних сигналів мережі і нового набору правил на навчальній вибірці, що дає свободу у застосуванні правил різного виду і не прив'язує ієрархію витягнутих правил до структури мережі.
3. В [78,79] на основі ідей [76,77] запропоновано алгоритм TREPAN побудови побудови ієрархії правил, причому число рівнів ієрархії може не збігатися з числом шарі нейронів мережі. При цьому також використовується навчальна вибірка.
Найбільш недавня робота [79] дає початок новому етапу розвитку методів вилучення знань з нейромереж. Існує два основних підходи до вилучення знання з нейромережі - це аналіз топології мережі і аналіз поведінки мережі в термінах відображення вхід-вихід і / або активації нейронів. Існуючі методи інтерпретації топології нейромережі "локальні" і не враховують "розподіленого" по нейромережі знання про алгоритм вирішення задачі. Дуже рідко при добуванні правил вдається виявити саме розподілені правила прийняття рішення. Другий же підхід більш цікавий.
До [79] фактично єдиною роботою цього підходу була робота [53], у якій проводилося формування кордонів рішення (побудова інтервалів зміни вхідних змінних, всередині яких було відміну функціональної залежності вхід-вихід від залежностей в інших інтервалах) та визначення значущості вхідних сигналів усередині кожного інтервалу з можливістю подальшого переходу від нейромережі до структурно-функціональної моделі, яка складається з набору умовних правил, в залежності від значень вхідних сигналів вибирають ту чи іншу просту (порівняно з вихідною нейронної мережею) модель відображення "вхід-вихід".
В [79] того ж запропоновано використовувати аналіз активації нейронів мережі; при цьому бажано мати порогові нейрони, або нейрони, чия активація на навчальній вибірці підпорядковується багатомодальну законом розподілу (для отримання інформації про стани нейрона можна використовувати гістограму його активації, кластерний аналіз його вихідних сигналів, ..). Аналізуючи цей закон, для нейрона можна сформувати кілька кордонів його стану (і потім семантично інтерпретувати кожне стан). Таким чином ми отримуємо знання про структуру внутрішніх сигналів мережі [69-74,77,78]. Але такий аналіз активацій теж є локальною інтерпретацією нейронів.
Також запропоновано для кожного з виділених станів нейронів перевіряти різні статистичні гіпотези для груп прикладів, формують саме цей стан. Причому гіпотези можуть стосуватися як значень вхідних змінних у групі прикладів, так і значень внутрішніх сигналів мережі на цій групі прикладів. Для кількох груп прикладів (кожна група формує свій стан нейрона) перевіряються гіпотези про рівність або відмінність матожиданием, рівність або відмінність значень сигналів, ... Така статистична інформація не витягується ні з вихідної таблиці даних, ні при аналізі нейромережі без одночасного аналізу таблиці даних. При такому аналізі можливо спрощення витягнутих з сітки правил і паралельна або альтернативна запис всього набору правил або окремих правил на іншому "мовою". Можливий розгляд вектора, складеного з вихідних сигналів нейронів (наприклад, деякого шару) мережі, і застосування кластерного аналізу для набору отриманих за вибіркою таких векторів. Для кожного кластера знову перевіряються статгіпотези. Тут може виходити менше кластерів, ніж число сполучень станів цих нейронів.

4.2. Методи видобування знань: вимоги до методів

Оглядам методів здобуття знань і вимогам до них, аналізу поточного стану проблеми присвячені роботи [80,81-83]. У цих роботах розглядаються загальні питання застосовності нейромереж для аналізу даних і отримання знань, переваги, одержувані від застосування нейромереж, методи здобуття знань з нейромереж та вбудовування знань в нейромережі, методи навчання / формування мережі, що містить явні правила.
В [80] вимоги, сформовані в [84] для задач машинного навчання в теорії класичного штучного інтелекту ("Результатом комп'ютерного індуктивного виводу повинні бути символьні опису заданих сутностей, семантично і структурно схожі на ті, які формує людина-експерт на основі огляду тих же сутностей. Компоненти цих описів повинні формувати самодостатні інформаційні сутності, прямо інтерпретовані на природному мовою, і едіноднообразно визначати як кількісні, так і якісні поняття "- [84]), переносяться і на алгоритми та методи видобування знань з нейромереж. Пояснюється, чому така вимога є важливим:
- З точки зору перевірки отриманих правил - людина повинна розуміти отримані правила, щоб їм довіряти.
- З точки зору отримання нових знань - людина повинна мати можливість зрозуміти і проінтерпретувати породжене системою знання.
- З точки зору пояснення - важливо не просто відповісти на введений запит, а й пояснити проміжні міркування, що призвели до отримання саме цієї відповіді.
- З точки зору подальшого уточнення та узагальнення знань - представлення вхідної інформації робить істотний вплив на одержуваний набір правил і можливість його узагальнення, тому аналіз витягнутого набору правил може призвести до появи більш коректної кодування вхідної інформації або до укрупнення / огрублення вхідних сутностей без втрати якості рішення завдання.
- З точки зору уточнення знань - як людиною, так і за допомогою автоматичних процедур - потрібно маніпулювання атомарними, самодостатніми сутностями.
Знання в нейронної мережі є процедурними, тому їх символьний декларативне уявлення дає як додаткове знання, так і є більш відкритим для доповнення, дає можливість використання окремих фрагментів отриманого знання.
Також показовою є недавня робота [83], яка розглядає результати десятиліття досліджень методик і алгоритмів вилучення знань з нейронних мереж. У цій роботі йдеться, що технологія добування знань ще не стала широко застосовувану на практиці і не дала таких результатів, які могла б дати. Вся справа в тому, що найбільш точні добувані моделі і знання виявляються надто складними і незрозумілими / неявними. Там же вводиться додатковий набір критеріїв для методів вилучення знань:
1. Явність / зрозумілість витягнутого набору правил для людини.
2. Точність описи вихідної нейромережі, з якої знання були вилучені.
3. Точність рішення задачі.
4. Масштабованість - застосовність методу для мереж з великою кількістю нейронів і / або вхідних сигналів і / або великий навчальною вибіркою.
5. Спільність - відсутність жорстких обмежень на архітектури мережі, алгоритми навчання, які вирішуються мережею завдання.
Критерії 2,3 необхідні тому, що ще з роботи [85] 1991р процес здобуття знань з нейронної мережі будувався в переважній більшості випадків ітеративним чином, коли з нейромережі витягується і записується в символьній формі знання про проблемну області, а потім отриманий алгоритм коригується експертом і знову вбудовується в нейромережа для корекції. Такий процес вилучення й вбудовування знань продовжується до тих пір, поки не буде отриманий алгоритм, адекватний експертних знань про проблемну області. Ітераційний процес, фактично, потрібно через двох обставин, істотних на час роботи [85] і так і не обійдених до цих пір:
- Вилучення знань проводиться з неупрощенной мережі і використовує тільки найбільші за модулем ваги синапсів, що призводить до втрати тих знань, які розподілені по великому числу синапсів з малими вагами, і тому часто дає малу точність витягнутого набору правил.
- Немає такої процедури вилучення / вбудовування знань, яка після вбудовування витягнутих знань давала б мережу, аналогічну вихідної. Вимоги користувачів до виду видобутих знань і формі їх записи можуть приводити до дуже великих відмінностей витягнутих знань від знань, що містяться у вихідній мережі.
В [62] під витяганням знань з даних розуміється найбільш компактний опис даних і правил вирішення задачі, що забезпечує достатню точність рішення. Витяг логічних правил з даних може виконуватися різними інструментами - статистикою, розпізнаванням образів, методами автоматичного навчання, нейромережевими алгоритмами та їх комбінаціями. Підкреслюється, що при вилученні знань недостатньо просто отримати знання з нейромережі і представити їх у деякому необхідному вигляді, але необхідно оптимізувати їх структуру і постійно мати на увазі аспекти подальшого їх застосування. Фактично ж дослідники роблять акцент тільки на етап здобування знань.

4.3. Методологія вилучення явних знань, що використовує технологію комплексного спрощення нейромережі

Зрозумілості видобутих знань для користувача складно або неможливо досягти автоматизованої процедурою здобуття знань. Програмна система не має ніяких експертних знань про проблемну області і не може оцінити ні рівня правдоподібності, ні рівня зрозумілості пропонованого витягнутого знання для конкретної людини, тому завдання інтерпретації знань так і залишається прерогативою користувача.
Інші ж критерії, що описують вимоги до точності і формі міркувань (знань), досяжні автоматизованими методами. Щоправда, спочатку користувач повинен уточнити ці вимоги для конкретного завдання.
Вимоги точності опису вихідної нейронної мережі і точності рішення завдання роблять неможливим використання для видобування знань тих розглянутих вище методів, які витягують опис, відповідне тільки найбільш сильно активується нейронам і / або синапсах з найбільшими вагами - при використанні таких методів може відбуватися втрата точності. З іншого боку, надмірність структури мережі буде приводити до надмірності набору правил, якщо при добуванні правил враховувати абсолютно всі елементи мережі. Ці два фактори призводять до наступного твердження: для отримання простої структури знань необхідно попереднє спрощення нейромережі з метою залишити в нейромережі тільки дійсно необхідні для вирішення задачі елементи і сигнали, а потім використання такого методу вилучення знань, який формує знання по всіх елементах і сигналами, які залишилися у мережі після спрощення.
Вимога масштабованості - застосовності методу вилучення знань для мереж великих розмірів - у багатьох випадках не буде важливим при правильному визначенні вимог до точності виконання завдання і коректну постановку задачі, оскільки спрощення мережі дасть для не надто високих вимог як досить мале число елементів у мережі, так і мале число вхідних сигналів у порівнянні з початковою. Оскільки процес інтерпретації великого обсягу правил більш тривалий у порівнянні з часом виконання спрощення мережі і подальшого процесу інтерпретації набагато меншого набору правил, то вимога масштабованості стає некритичним при обов'язковому виконанні попереднього спрощення. Досягнута до справжнього моменту продуктивність засобів обчислювальної техніки і швидкість алгоритмів навчання і контрастування мережі роблять витрати на проведення спрощення малими в порівнянні з витратами на аналіз людиною інтерпретацію системи правил.
Вимога відсутності обмежень на архітектури мережі приводить до вимоги проведення вилучення знань як поелементного опису мережі, коли вид зіставлених з елементом продукційних правил не буде залежати від місця елемента в структурі мережі. Цій вимозі задовольняють методи, що описують мережа понейронно, коли нейрону може відповідати кілька правил і вид правил не залежить від місця нейрона в структурі мережі.
Уявімо сформовані вимоги до процесу здобуття знань більш формально:
1. Обов'язкове проведення спрощення мережі перед витяганням знань.
2. Формування набору правил шляхом опису всього безлічі елементів і сигналів мережі, без поділу елементів і сигналів на значущі й незначущі (незначущі повинні повністю відсіятися при спрощенні).
3. Формування набору продукційних правил поелементно. При цьому заданий людиною вид результуючого подання правил не повинен і не буде залежати від місця елемента в структурі мережі.
4. Поставлене людиною вид результуючих правил, переваги до особливостей, властивостях і структурі правил повинні обов'язково впливати на процес проведення спрощення в п.1.
На основі цих вимог розроблено наступний процес вилучення правил [22,23,58]. Правила витягуються в ході понейронного розгляду нейромережі і для кожного нейрона можлива побудова одного або кількох правил. Нехай Y - вихідний сигнал нейрона, Y _i - i-е дискретне значення виходу (у разі діскретнозначного виходу), X _1, .., X _n - вхідні сигнали нейрона, x _ij - je дискретне значення i-го входу (у разі діскретнозначного входу), F (X _1, .., X _n) - нелінійна функція нейрона. Тут є і може використовуватися спрощує операція над нелінійною функцією нейрона, після проведення якої нейрон з сігмоідной нелінійної функцією може ставати пороговим нейроном або нейроном з кусково-лінійною функцією. Можливі різні види видобутих правил:
1. Якщо всі вхідні сигнали нейрона дискретні, то незалежно від виду нелінійної функції вихідний його сигнал буде діскретнозначен. Тому для кожної можливої комбінації значень входів буде отримано правило виду IF (X ₁ = x _1j AND X ₂ = x _2k AND ... AND X _n = x _nl) THEN Y = Y _i.
Після побудови набору атомарних правил виду "якщо-то" у варіанті 1 можливий перехід від них до прав виду MofN.Еслі ж хоча б один вхідний сигнал у нейрона безперервний, то застосовується таке:
2. Якщо нелінійна функція гладка (наприклад, сігмоідная), то будується залежність виду Y = F (X _1, .., X _n).
3. Якщо нелінійна функція порогова, то вихід дискретний і для кожного його дискретного значення можна визначити умови, які накладаються на зважену суму вхідних сигналів як IF A <(W ₁ X ₁ + W ₂ X ₂ + ... + W _n X _n) <B THEN Y = Y _i, де A, B - деякі константи, W _j - вага синапсу, на який надходить j-й сигнал. Нерівності можуть бути несуворими, а обмеження - односторонніми. Якщо при деяких комбінаціях значень дискретних входів жодні зміни значень безперервних входів не буде переводити вихід в інше дискретне стан, то для таких комбінацій будуємо умовні правила з п.1 без урахування значень безперервних входів.
4. Якщо функція кусково-лінійна, то кусково-постійні ділянки будуть описуватися умовними правилами (п.3), а кусково-лінійні - функціональними (п.2).
Видно, що вимоги користувача до виду видобутих правил призводять до необхідності виконання тієї чи іншої модифікації нелінійної функції нейрона. Задається обмеження на число сутностей (вхідних сигналів нейрона), що обліковуються в лівій частині правила, призводить до необхідності проведення операції рівномірного спрощення мережі по входах нейронів, і.т.д. У випадку, коли спрощення нейромережі не виконано або все ж таки залишило деякі надлишкові елементи, можливо огрубіння витягнутих з сітки правил з одночасним скороченням їх числа в порівнянні з вихідним числом правил. Критерієм можливості проведення огрублення виступає точність рішення задачі набором правил - якщо точність при огрубіння не опускається нижче необхідної користувачем точності, то огрубіння можна виробляти. Ось варіанти огрублюються операцій:
1. У разі використання сігмоідной нелінійної функції можна навіть при непреривнозначних вхідних сигналах нейрона перейти до опису активації нейрона в термінах високою (+1 чи інше значення в залежності від конкретної нелінійної функції) або низькою (-1 або інше значення) активації. Для цього зважена сума вхідних сигналів нейрона W ₁ X ₁ + W ₂ X ₂ + ... + W _n X _n порівнюється зі значенням неоднорідного входу нейрона W ₀ і при перевищенні значення активація нейрона вважається позитивною, а інакше - негативною. Тобто формується єдине правило виду IF (W ₁ X ₁ + ... + W _n X _n)> W ₀ THEN Y = Y _висока ELSE Y = Y _{низька.}
2. У разі сігмоідной функції можливе дослідження виду функції розподілу вихідного сигналу нейрона і при багатомодальну розподіл можливий перехід до квантованию величин активації за центрами кластерів [61,62].
3. Для k виділених кластерів активації з центрами кластерів в точках U _i і k-1 граничними значеннями активації Z _ij між кластерами i і j формується правило у вигляді ланцюжка
IF (W ₁ X ₁ + ... + W _n X _n) <Z ₁₂ THEN Y = U ₁ ELSE IF (W ₁ X ₁ + ... + W _n X _n) <Z ₂₃ THEN Y = U ₂ ELSE ... ELSE IF ( W ₁ X ₁ + ... + W _n X _n) <Z _{k-2, k-1} THEN Y = U _k-1 ELSE Y = U _k.
4. При багатомодальну розподіл значень величин активації нейрона з сігмоідной, порогової або кусково-лінійною функцією можлива перевірка різних гіпотез щодо статистичних характеристик величин вхідних і проміжних сигналів нейронної мережі при різних поділках навчальної вибірки на фрагменти. Це робить можливим заміну деякого числа продукційних правил на більш прості правила. Як початкову нелінійної функції нейрона може бути розглянута будь-яка функція, що має безперервну першу похідну. Кожній конкретну функцію зіставляється набір її негладких апроксимацій в залежності від подальших вимог семантики. Так, гауссова функція

може бути в подальшому інтерпретується як нечітка функція приналежності й аппроксіміруема прямокутної, трапецеїдальної чи трикутної негладкої функцією. Відповідно до цього змінюються описують нейрон правила і схеми огрублення. Тут можна зробити наступні висновки:
- Існує номенклатура видів витягають із мережі елементарних правил.

- Кожному виду видобутих правил можна зіставити деякий набір операцій щодо спрощення мережі, якщо з вихідної мережі цей вид елементарних правил не витягується.
- Набір витягнутих елементарних правил далі можна перетворити на менше число більш гнучких і високорівневих правил, тому не слід прагнути до первісного витяганню високорівневих правил, тим більше що зіставлені з останніми спрощують операції або будуть повністю відповідати спрощує операцій для отримання заданого виду елементарних правил, або їх буде важко ввести.

4.4. Прийоми підвищення вербалізуемості нейронної мережі

Під вербалізуемостью мережі і витягнутого з неї набору правил розуміється зрозумілість цих правил користувачеві, якщо всі задані критерії до виду правил уже задоволені на етапі видобування правил.
Вербалізацію можна проводити на основі візуального графічного подання структури мережі та / або текстуального подання набору правил, шляхом послідовного побудови симптом-синдромних структури виникаючих нових понять предметної області [22,23,48,58]. Вхідні сигнали мережі є вхідними симптомами, вихідні сигнали нейронів першого шару - синдромами першого рівня і одночасно симптомами для нейронів другого шару, що генерують синдроми другого рівня, і т.д.
Розглянемо ідеї, які можуть допомогти в процесі здобуття знань.

4.4.1. Додавання синдрому в набір вхідних симптомів

Окремі фрагменти мережі будуть досить просто інтерпретується і правдоподібні з точки зору користувача, тоді як іншим фрагментами користувач може і не дати правдоподібною інтерпретації. Тож оскільки інтерпретовані синдроми можуть бути в подальшому корисні, з точки зору користувача, для вирішення інших завдань передбачення і класифікації на цьому навчальною вибіркою, то користувач може додати до вибірці одну або декілька нових змінних - значень цих синдромів. Потім можна знову спробувати вирішити вихідну завдання на основі нового, збільшеного набору вхідних ознак. Отримана нова нейронна мережа опиниться менше за розміром, ніж вихідна і може бути більш просто інтерпретується [58].
Твердження про більш простий інтерпретації спирається на наступний факт: у шаруватої нейромережі синдром залежить тільки від синдромів (симптомів) попереднього рівня. Тому, якщо для синдрому деякого рівня потрібно сигнал не з попереднього рівня, то мережа повинна включати в себе ланцюжок елементів для передачі необхідного сигналу до даного синдрому. Цей ланцюжок будується, як кілька з'єднаних послідовно нейронів, що ускладнює інтерпретацію. До того ж, протягом ланцюжка до неї можуть "підключатися" інші сигнали. Якщо ж для породження синдрому доступний не тільки попередній рівень ієрархії симптомів, але і всі раніше отримані симптоми, то таких ланцюжків передачі інформації створювати не доведеться.
Нейронна мережа з таким набором синапсів, що кожен вхідний сигнал мережі і сигнал будь-якого нейрона може подаватися на всі нейрони наступних шарів, не формує ланцюжків елементів для передачі інформації через шари - ці елементи вже присутні в мережі. До того ж, лінії передачі інформації є простими лінійними зв'язками, а не суперпозицією функцій, обчислюваних нейронами. Однак при такій архітектурі число синапсів в мережі стає дуже великим у порівнянні з кількістю синапсів у вихідній шаруватої мережі, що подовжує час приведення такої мережі до логічно прозорого увазі.

4.4.2. Побудова ієрархії продукційних правил

Точність рішення задачі нейронної мережею регулюється цільовою функцією, що обчислює невязку між вихідними сигналами мережі і сигналами, які мають бути отримані. Чим нижче необхідна точність, тим простіша й логічно прозора мережа може вирішити задачу. Тому для завдання приведення мережі до логічно прозорого увазі треба встановлювати мінімально необхідні вимоги до точності.
Не всі приклади мережа може вирішити з однаковою точністю - у таблиці даних можуть бути присутніми приклади, які насилу вирішуються мережею в той час як інші приклади мережа вирішує добре. Причиною цього може бути некоректність поставленого завдання. Наприклад, в таблицю даних входять приклади трьох класів, а робиться спроба навчити мережу класифікації на два класи. Іншою причиною може бути, наприклад, помилка вимірів.
Для того, щоб виявити некоректність у даних (або у постановці завдання), пропонується виключати з таблиці даних найбільш "важкі" приклади (приклади з найбільшим значенням функції оцінки). Якщо мережа навчається правильно вирішувати завдання і спрощується до досить простої структури, то виключення прикладів робити не треба - завдання коректна. В іншому випадку можна запропонувати наступні варіанти.
Задамося вимогою до числа правильно вирішених прикладів. Припустимо, що нас влаштує правильність рішення 95% від загального числа прикладів, присутніх у таблиці даних. Тоді побудуємо процес навчання та спрощення мережі так, щоб мережа, правильно вирішальна 95% прикладів, вважалася правильно навченої вирішувати завдання і, відповідно, спрощувалася зі збереженням досвіду рішення 95% прикладів. При спрощення мережі приклади, що входять до складу 5% найбільш важких, можуть змінюватися. Після завершення процесу спрощення, якщо в результаті вийшла мережа, набагато простіша, ніж отримана для всього набору прикладів логічно прозора мережа, необхідно проаналізувати найбільш важкі приклади - там можуть зустрітися помилки в даних (див., наприклад, [17], стор 14 ) або ці приклади "нетипові" у порівнянні з іншими.
Якщо ж мережа з самого початку не може навчитися правильно вирішувати завдання, то будемо виключати з таблиці даних найбільш важкі приклади до тих пір, поки мережа не зможе навчитися. Далі треба досліджувати статистичні відмінності між набором залишилися і виключених даних - може виявитися, що відкинуті приклади утворюють окремий кластер. Так було під час розв'язання задачі нейромережевої постановки діагнозу вторинного імунодефіциту за імунологічними та метаболічним параметрами лімфоцитів. Тільки корекція класифікаційної моделі (з відкинутих даних сформували третій клас на додаток до двох спочатку наявним) дозволила навчити мережу правильно вирішувати тепер уже змінену завдання ([17], стор 15-16). Далі це дасть більш простий набір вирішальних правил, тому що раніше мережа була змушена фактично запам'ятовувати навчальну вибірку, а тепер класифікаційна модель відповідає природній внутрішньої кластерної структурі об'єктів проблемної області.
Ще одна складність може існувати при спробі рішення задачі, для якої зворотна задача некоректно поставлена в деяких точках області визначення - наприклад, через те, що в цих точках відбувається зміна описує дані залежності. Залежно від рівня некоректності, на деякій наборі навчальних точок мережа буде давати велику помилку навчання в порівнянні з помилкою на інших точках. Дослідження поведінки приватної похідною вихідного сигналу мережі по вхідному сигналу допомагає визначати області некоректності як кордони зміни виду рішення. Якщо межі рішення збігаються з прикладами вибірки з великою помилкою навчання, то це говорить про те, що некоректність дійсно існує і вихідна нейромережа не може апроксимувати поведінка фукнції в області некоректності з необхідною точністю. Необхідну точність можна досягти збільшенням розміру мережі (з відповідним ускладненням процесу її інтерпретації), але це небажано. Тому краще підхід [53], пов'язаний з переходом від єдиної мережі до набору малих мереж, кожна з яких працює всередині своєї області визначення, а вибір тієї чи іншої мережі здійснюється за допомогою набору умовних правил, які порівнюють значення ознак прикладу вибірки з кордонами рішення.
Гнучке управління необхідною точністю вирішення прикладів навчальної вибірки або необхідним числом правильно вирішених прикладів дозволяє запропонувати наступний механізм побудови ієрархічної структури правил виведення, від найбільш важливих правил до уточнюючих та коригуючих, як циклічне виконання наступних етапів:
- Навчання мережі до розпізнавання заданого числа прикладів навчальної вибірки (або до рішення всіх прикладів вибірки із заданою точністю),
- Спрощення мережі,
- Витяг правил,
- Фіксування отриманої мінімальної структури мережі,
- Повернення в мережу віддалених на етапі спрощення елементів,
- Збільшення необхідної кількості правильно розпізнаних прикладів (або посилення вимог до точності) - на наступній ітерації циклу це додасть до отриманої мінімальної структурі деяке число елементів, які й сформують правила наступного рівня деталізації.

4.4.3. Ручне конструювання мережі з фрагментів кількох логічно прозорих мереж

Принципово, що для однієї і тієї ж таблиці даних і різних мереж (або однієї мережі, але з різною початкової випадкової генерацією вихідних значень набору параметрів, що настроюються) після навчання, спрощення за єдиною схемою та вербалізації може вийти трохи різних логічно прозорих мереж і, відповідно, кілька алгоритмів вирішення задачі. За кінцевої таблиці даних завжди будується кілька напівемпіричних теорій або алгоритмів рішення. Далі теорії починають перевірятися і конкурувати між собою. Комбінуючи фрагменти декількох теорій, можна сконструювати нову теорію. У силу цього неєдиний одержуваного знання не представляється недоліком.
При вербалізації деякі синдроми досить осмислені і природні, інші, навпаки, незрозумілі. З набору логічно прозорих нейромереж можна відсіяти кілька найбільш осмислених синдромів, об'єднати їх у нову нейронну мережу, при цьому ввівши, якщо необхідно, деякі додаткові нейрони або синапси для зв'язування цих фрагментів між собою. Отримана нейромережа після адаптації та спрощення може бути більш зрозуміла, ніж будь-який з її предків. Таким чином, неєдиний напівемпіричних теорій може стати цінним інструментом у руках дослідників-когнітологія.
В окремі програми-нейроімітатори вбудовані спеціальні засоби візуального конструювання нейромереж. Однак ручне конструювання мережі з метою закладення в неї емпіричних експертних знань досить складно і часто практично не застосовується.
Замість конструювання нейромережі "з нуля" будемо конструювати її з фрагментів інших мереж. Для реалізації такої можливості програма-нейроімітатор повинна включати в себе досить розвинений візуальний редактор нейронних мереж, що дозволяє вирізувати з мереж окремі блоки, об'єднувати їх в нову мережу і доповнювати мережу новими елементами. Це одна з можливостей нейроімітатора NeuroPro (ідея запропонована особисто автором роботи).
Якщо в результаті донавчанням і спрощення нової мережі понимаемость використаних при конструюванні фрагментів не втрачена, то новий набір правил потенційно більш зрозумілий користувачеві, ніж кожен з початкових.
Природно, що можливі різні стратегії навчання і контрастування сконструйованої мережі: можна забороняти навчання (зміна параметрів) і контрастування фрагментів, з яких складена мережа, і розв'язувати навчання і контрастування тільки доданих елементів. Можна вирішувати тільки дообучать фрагменти, можна вирішувати і їх контрастування. Все залежить від уподобань користувача програми-нейроімітатора.

Глава 5. Нейросітковий аналіз структури індивідуального простору смислів

5.1. Семантичний диференціал

Слова осмислюються людиною не через "тлумачний словник", а через відчуття, переживання. За кожним словом у людини стоїть декілька цих базових переживань: собака - це щось маленьке, добродушненькое, пухнасте, з мокрим язичком, ..., але це і здоровенний, грізно гарчить звір зі злісними очима, величезними іклами, .... Більшість слів кодує деякі групи переживань, відчуттів, і визначити зміст слова, тобто ці самі переживання - досить складне завдання.
Дж. Осгуд зі співавторами в роботі під назвою "Вимірювання значень" ввели для вирішення цього завдання метод "семантичного диференціала" (огляд літератури дано в роботі [86]). Вони запропонували шукати координати слова в просторі властивостей наступним чином. Був зібраний деякий набір слів (наприклад, "мама", "тато" і т.д.) і набір ознак до цих слів (таких, як близький - далекий, хороший - поганий, і т.д.), і опитувані люди оцінювали слова за цими шкалами. Потім відшукувався мінімальний набір координат сенсу, за яким можна відновити всі інші. Було виділено 3 базових координати сенсу, за яким всі інші можна передбачити досить точно: сильний - слабкий, активний - пасивний і хороший - поганий. З іншого боку, було виявлено величезні відмінності між культурами, наприклад, у японців та американців дуже багато речей мають суттєво різні смислові характеристики.
Існують різні способи виділення основних ознак (базових координат), наприклад, метод головних компонент, факторний аналіз і ін У даній роботі використовуються нейромережеві методи. Розробка технології скорочення опису та вилучення знань із даних за допомогою учнів і розріджує нейронних мереж почалася в 90-і роки XX століття і до теперішнього часу створені бібліотеки нейромережевих програм навіть для PC, що дозволяють будувати напівемпіричні теорії в різних областях.
У даній роботі за допомогою нейроімітатора досліджувалися індивідуальні смислові простору. Був створений запитальник, у якому визначаються координати (від -10 до 10) 40 слів по 27 параметрам і були проведені експерименти на кількох людях.
Слова:

1. Папа
2. Мама
3. Хвороба
4. Дитячий сад
5. Школа
6. Собака
7. Кіт
8. Воробей
9. Ворона
10.Апельсін
11.Яблоко
12.Дед Мороз
13.Дерево
14.Змея
15.Еда
16.Тортік
17.Горшок
18.Брат
19.Сестра
20.Работа
21.Деньгі
22.Квартіра
23.Муж (дружина)
24.Дедушка
25.Бабушка
26.Музика
27.Презідент
28.Парламент
29.Політіка
30.Наука
31.Політік
32.Учений
33.Теорема
34.Вибори
35.Коммунізм
36.Доказательство
37.Россія
38.Амеріка
39.Кітай
40.Ізраіль
41.Релігія
42.Бог

1. Щільний - пухкий
2. Молодий - старий
3. Світлий - темний
4. Розумний - нерозумний
5. Холодний - гарячий
6. Швидкий - повільний
7. Близький - далекий
8. Лякливий - безстрашний
9. Страшний - не страшний
10.Спокойний - неспокійний
11.Веселий - сумне
12.Удобний - незручний
13.Красівий - негарний
14.Опасний - безпечний
15.Пріятний - неприємний
16.Ручной - дикий
17.Утонченний - грубий
18.Умний - дурний
19.Шумний - тихий
20.Ласковий - грубий
21.Большой - маленький
22.Дружественний - ворожий
23.Мягкій - твердий
24.Добрий - злий
25.Актівний - пасивний
26.Хорошій - поганий
27.Сільний - слабкий

Технологія вилучення знань з нейронних мереж апробація проектування ПЗ використання в психолінгвістиці