Нейронні мережі з радіальними базисними функціями

Міністерство освіти і науки Російської Федерації Федеральне агентство з освіти

Амурський гуманітарно-педагогічний державний університет

Фізико-математичний факультет

Кафедра інформатики

ЛАБОРАТОРНА РОБОТА № 2

з дисципліни «Штучні нейронні мережі»

на тему «Нейронні мережі з радіальними базисними функціями»

2007

Введення

Мета лабораторної роботи: освоїти основні принципи розв'язання задачі нейронних мереж з радіальними базисними функціями.

Завдання: Використовуючи вбудовані функції пакету нейронних мереж математичної середовища Matlab, побудувати нейронну мережу з радіальними базисними функціями.

1 Теоретичні відомості

Мережі РБФ мають ряд переваг перед розглянутими багатошаровими мережами прямого поширення. По-перше, вони моделюють довільну нелінійну функцію за допомогою всього одного проміжного шару, тим самим, позбавляючи розробника від необхідності вирішувати питання про кількість шарів. По-друге, параметри лінійної комбінації в вихідному шарі можна повністю оптимізувати за допомогою добре відомих методів лінійної оптимізації, які працюють швидко і не відчувають труднощів з локальними мінімумами, так заважають при навчанні з використанням алгоритму зворотного поширення помилки. Тому мережа РБФ навчається дуже швидко - на порядок швидше, ніж з використанням алгоритму ОР (зворотного поширення).

Недоліки мереж РБФ: дані мережі володіють поганими екстраполюючих властивостями і виходять досить громіздкими при великій розмірності вектора входів.

На рис. 1 представлена структурна схема нейронної мережі з радіальними базисними функціями.

Нейронна мережа радіальних базисних функцій містить у найбільш простій формі три шари: звичайний вхідний шар, що виконує розподіл даних зразка для першого шару ваг; шар прихованих нейронів з радіально симетричної активаційний функцією, кожен j-й з яких призначений для зберігання окремого еталонного вектора у вигляді вектора ваг wj (h); вихідний шар

Для побудови мережі РБФ необхідне виконання наступних умов.

По-перше, наявність еталонів, представлених у вигляді вагових векторів нейронів прихованого шару. По-друге, наявність способу вимірювання відстані вхідного вектора від еталону. Зазвичай це стандартне евклідова відстань. По-третє, спеціальна функція активації нейронів прихованого шару, що задає обраний спосіб вимірювання відстані. Зазвичай використовується функція Гауса, істотно підсилює малу різницю між вхідним і еталонним векторами. Вихідний сигнал еталонного нейрона прихованого шару aj - це функція (гауссіан) тільки від відстані p j між вхідним і еталонним векторами.

Рис. 1. Мережа з радіальними базисними функціями

Таким чином, вихідний сигнал шаблонного нейрона - це функція тільки від відстані між вхідним вектором х і збереженим центром w ^v

Навчання шару зразків-нейронів мережі мають на увазі попереднє проведення кластеризації для знаходження еталонних векторів і певних евристик для визначення значень -.

Нейрони прихованого шару з'єднані по полносвязной схемою з нейронами вихідного шару, які здійснюють зважене підсумовування

Для знаходження значення ваг w від нейронів прихованого до вихідного прошарку використовується лінійна регресія.

У загальному випадку активаційні функції нейронів прихованого шару можуть відображати закони розподілу випадкових величин (імовірнісні нейронні мережі) або характеризувати різні аналітичні залежності між змінними (регресійні нейронні мережі).

До недоліків мереж РБФ можна віднести те, що заздалегідь повинно бути відомо число еталонів, а також евристики для побудови активаційних функцій нейронів прихованого шару.

У моделях РБФ можуть бути використані різні способи вимірювання відстані між векторами, а також функції активації нейронів прихованого шару.

Радіальна, базисна мережа загального вигляду - це двошарова нейронна мережа з R входами, кожен з яких може складатися з декількох елементів. Передавальною функцією нейронів вхідного шару є колоколообразная симетрична функція наступного виду:

Ця функція має максимум, рівний 1, при n = 0 і плавно зменшується при збільшенні n, досягаючи значення 0.5 при n = ± 0.833. Передавальною функцією нейронів вихідного шару є лінійна функція perelin.

Функція зважування для вхідного шару обчислює евклідова відстань між кожним рядком матриці ваг і кожним стовпцем матриці входів:

Потім ця величина множиться на зміщення нейрона і надходить на вхід передавальної функції, так що

a {i} = radbas (net.prod (dist (net.IW {1, 1}, p). net.b {i})).

Для нейронів вихідного шару функцією зважування є скалярний твір dotprod, а функцією накопичення - функція підсумовування зважених входів і зваженого зсуву netsum.

Для того щоб зрозуміти поведінку радіальної базисної мережі загального вигляду, необхідно простежити проходження вектора входу p. При завданні значень елементів вектора входу кожен нейрон вхідного шару видає значення відповідно до того, як близький вектор входу до вектора ваг кожного нейрона. Таким чином, нейрони з векторами ваг, значно відрізняються з вектором входу p, будуть мати виходи, близькі до 0, і їх вплив на виходи лінійних нейронів вихідного шару буде незначне. Навпаки, вхідний нейрон, ваги якого близькі до вектора p, видасть значення, близьке до одиниці.

Для побудови радіальних базисних мереж загального вигляду і автоматичної настройки ваг і зсувів використовуються дві функції newrbe і newrb. Перша дозволяє побудувати радіальну базисну мережу з нульовою помилкою, друга дозволяє управляти кількістю нейронів вхідного прошарку. Ці функції мають наступні параметри:

net = newrbe (P, T, SPREAD),

net = newrb (P, T, GOAL, SPREAD),

де P - масив розміру RxQ вхідних векторів, причому R - число елементів вектора входу, а Q - число векторів в послідовності;

T - масив розміру SxQ з Q векторів ланцюга і S класів;

SPREAD - параметр впливу, що визначає крутизну функції radbas, значення по умовчання якого дорівнює одиниці;

GOAL - середня квадратична помилка, при цьому значення за замовчуванням дорівнює 0.0.

Параметр впливу SPREAD істотно впливає на якість апроксимації функції: чим більше його значення, тим більше гладкою буде апроксимація. Занадто велике його значення призведе до того, що для отримання гладкої апроксимації швидко змінюється функції потрібно велику кількість нейронів: занадто мале значення параметра SPREAD зажадає більшої кількості нейронів для апроксимації гладкої функції. Зазвичай параметр впливу SPREAD вибирається більшим, ніж крок розбиття інтервалу завдання навчальної послідовності, але меншим розміру самого інтервалу.

Функція newrbe встановлює ваги першого шару рівним P., а зміщення - рівними 0.8326 / SPREAD, в результаті радіальна базисна функція перетинає значення 0.5 при значеннях евклідового відстані ± SPREAD. Ваги другого шару LW {2,1} і зміщення b {2} визначаються шляхом моделювання виходів першого шару A {1} та подальшого вирішення системи лінійних рівнянь:

[LW {2,1} b {2}] * [A {1}; ones] = T.

Функція newrb формує мережу наступним чином. Спочатку перший шар не має нейронів. Мережа моделюється і визначається вектор входу з найбільшою похибкою, додається нейрон з функцією активації radbas і вагами, рівними вектору входу, потім обчислюються вагові коефіцієнти лінійного шару, щоб не перевищити середній допустимої квадратичної помилки.

2 Методика виконання лабораторної роботи

Завдання. Використовуючи вбудовані функції пакету нейронних мереж математичної середовища Matlab, побудувати нейронну мережу з радіальними базисними функціями.

P = zeros (1,20);

for i = 1:20

P (i) = i * 0.1;

end

T = [-2.09 -1.66 -1.06 -0.65 -0.25 0.10 0.56 0.85 1.07 1.16 1.52 1.63 1.78 2.07 2.09 2.10 2.12 2.17 2.21 2.31]

[Net, tr] = newrb (P, T);

y = sim (net, P);

figure (1);

hold on;

xlabel ('P');

ylabel ('T');

plot (P, T, P, y, 'o'), grid;

Робота мережі представлена на рис.1

Форми навчання НС.

Існує три основні парадигми (форми) навчання нейронних мереж:

- Навчання з учителем

- Навчання з критиком - посилене, підкріплене навчання;

- Навчання без вчителя) - самоорганізуються навчання, самонавчання.

У першому випадку навчання здійснюється під наглядом зовнішнього «вчителя». Нейронної мережі пред'являються значення як вхідних, так і бажаних вихідних сигналів, і вона по деякому внутрішньому алгоритмом підлаштовує ваги своїх синаптичних зв'язків.

У другому випадку навчання включає використання «критика», за допомогою якого проводиться навчання на основі методу проб і помилок.

У третьому випадку виходи нейронної мережі формуються самостійно, а ваги і зміщення змінюються за алгоритмом, що враховує тільки вхідні і похідні від них сигнали. Тут за основу взято принципи самоорганізації нервових клітин. Для навчання без учителя не потрібно знання необхідних відповідей на кожний приклад навчальної вибірки. У цьому випадку відбувається розподіл зразків за категоріями (кластерів) у відповідності з внутрішньою структурою даних або ступенем кореляції між зразками.

Розглядають також і змішане навчання, при якому вагові коефіцієнти однієї групи нейронів настроюються за допомогою навчання з учителем, а іншої групи - на основі самонавчання.

Основні правила навчання нейронних мереж

Відомі чотири основні правила навчання, зумовлені пов'язаними з ними архітектурами мереж: корекція помилки, правило Больц-мана, правило Хебба і метод змагання.

1) Корекція помилки

Для кожного вхідного прикладу задано потрібний вихід і, який може не збігатися з реальним у. Правило навчання при корекції помилково полягає у використанні різниці (с? - У) для зміни ваг, з метою зменшення помилки неузгодженості. Навчання проводиться тільки в разі помилкового результату. Відомі численні модифікації цього правила навчання.

2) Правило Больцмана

Правило Больцмана є стохастичним правилом навчання, обумовленим аналогією з термодинамічними принципами. У результаті його виконання здійснюється настроювання вагових коефіцієнтів нейронів відповідно до необхідного розподілом ймовірностей. Навчання правилом Больцмана може розглядатися як окремий випадок корекції помилково, в якому під помилкою розуміється розбіжність кореляцій станів у двох режимах.

3) Правило Хебба

Правило Хебба є самим відомим алгоритмом навчання нейронних мереж, суть якого полягає в наступному: якщо нейрони з обох сторін синапсу збуджуються одночасно і регулярно, то сила синаптичної зв'язку зростає. Важливою особливістю є те, що зміна синаптичного ваги залежить тільки від активності пов'язаних цим синапсом нейронів. Запропоновано велика кількість різновидів цього правила, що розрізняються особливостями модифікації синап-тичні ваг.

4) Метод змагання

На відміну від правила Хебба, в якому безліч вихідних нейронів можуть збуджуватися одночасно, тут вихідні нейрони змагаються між собою. І вихідний нейрон з максимальним значенням зваженої суми є «переможцем» («переможець забирає все»). Виходи ж інших вихідних нейронів встановлюються у неактивний стан. При навчанні модифікуються тільки ваги нейрона - «переможця» у бік збільшення близькості до даного вхідного прикладу.

До складу пакету ППП Neural Network Toolbox входить М-функція hardlim, що реалізує функцію активації з жорсткими обмеженнями.

Лінійна функція активації purelin. Ця функція описується співвідношенням, а = purelin (n) = n

Логістична функція активації logsig. Ця функція описується співвідношенням, а = logsig (n) = 1 / (1 + ехр (-n)). Вона належить до класу сигмоїдальних функцій, і її аргумент може приймати будь-яке значення в діапазоні від - до +, а вихід змінюється в діапазоні від 0 до 1. У пакеті

ППП Neural Network Toolbox вона представлена М-функцією logsig.

Завдяки властивості диференційовності ця функція часто використовується в мережах з навчанням на основі методу зворотного поширення помилки.