Нейронні мережі 2 лютого

Завдання 1. Нейронні мережі

Дві базові архітектури комп'ютерів - послідовна обробка символів за заданою програмою і паралельне розпізнавання образів з навчальних прикладів - з'явилися практично одночасно.

Концептуально вони оформилися в 30-40-х роках. Перша - в теоретичній роботі Тьюрінга 1936 р., який запропонував гіпотетичну машину для формалізації поняття обчислюваної функції, і потім вже в практичній площині - узагальнив уроки створення першої ЕОМ ENIAC і який запропонував методологію конструювання машин з запам'ятовуються програмами (ENIAC програмувався штекерами). Так, в якості базових елементів ЕОМ фон Нейман запропонував модифіковані формальні нейрони Мак-Каллока і Піттса - засновників нейромережевої архітектури.

Що стосується нейромережевої архітектури, то, незважаючи на численні реверанси в бік нейронних мереж з боку класиків кібернетики, їх вплив на промислові розробки аж до недавнього часу було мінімальним. Хоча наприкінці 50-х - початку 60-х з цим напрямком пов'язували великі надії, в основному завдяки Френку Розенблатту, який розробив перші навчальні нейромережне пристрій для розпізнавання образів, персептрон (від англійського perception - сприйняття).

Персептрон був вперше змодельовано в 1958 році, причому його навчання вимагало близько півгодини машинного часу на одній з найпотужніших у той час ЕОМ IBM -704. Апаратний варіант - Mark I Perceptron - був побудований у 1960 р. і призначався для розпізнавання зорових образів. Його рецепторное поле складалося з матриці фотоприймачів 20х20, і він успішно справлявся з вирішенням ряду завдань.

Тоді ж виникли перші комерційні нейрокомпьютінговие компанії. У 1969 році Марвін Мінський випустив разом з південноафриканським математиком Пейпертом книгу "Персептрон". У цій фатальною для нейрокомп'ютингу книзі була строго доведена принципова обмеженість персептрон. Дослідження в цьому напрямку були згорнуті аж до 1983 року, коли вони, нарешті, отримали фінансування від Агентства перспективних військових досліджень США (DARPA). Цей факт став сигналом до початку нового нейромережевого буму.

Інтерес широкої наукової громадськості до нейромереж прокинувся після теоретичної роботи фізика Джона Хопфілда (1982 р), який запропонував модель асоціативної пам'яті в нейронних ансамблях. Холфілд і його численні послідовники збагатили теорію нейромереж багатьма ідеями з арсеналу фізики, такими як колективні взаємодії нейронів, енергія мережі, температура навчання і т.д. Проте справжній бум практичного застосування нейромереж почався після публікації в 1986 році Давидом Румельхартом з співавторами методу навчання багатошарового персептрона, названого ними методом зворотного поширення помилки (error back - propagation). Обмеження персептроном, про які писали Мінський і Пейперт, виявилися переборними, а можливості обчислювальної техніки-достатніми для вирішення широкого кола прикладних задач. У 90-х роках продуктивність послідовних комп'ютерів зросла настільки, що це дозволило моделювати з їх допомогою роботу паралельних нейронних мереж з числом нейронів від кількох сотень до десятків тисяч. Такі емулятори нейромереж здатні вирішувати багато цікавих з практичної точки зору завдання.

В основу штучних нейронних мереж покладено такі риси живих нейронних мереж, що дозволяють їм добре справлятися з нерегулярними завданнями:

простий обробляє елемент - нейрон (рис.1.1);

дуже велике число нейронів бере участь в обробці інформації;

один нейрон зв'язаний з великим числом інших нейронів (глобальні зв'язку);

змінюються за вагою зв'язку між нейронами;

масована паралельність обробки інформації.

Прототипом для створення нейрона послужив біологічний нейрон головного мозку. Біологічний нейрон має тіло, сукупність відростків - дендритів, за якими в нейрон надходять вхідні сигнали, і відросток - аксон, що передає вихідний сигнал нейрона іншим клітинам. Точка з'єднання дендрита і аксона називається синапсом. Спрощено функціонування нейрона можна представити наступним чином (рис.1.2):

1) нейрон отримує від дендритів набір (вектор) вхідних сигналів;

2) у тілі нейрона оцінюється сумарне значення вхідних сигналів.

Однак входи нейрона нерівнозначні. Кожен вхід характеризується деяким ваговим коефіцієнтом, що визначає важливість надходить по ньому інформації.

Таким чином, нейрон не просто підсумовує значення вхідних сигналів, а обчислює скалярний добуток вектора вхідних сигналів і вектора вагових коефіцієнтів;

Рис.1.1 Біологічний нейрон

Рис.1.2 Штучний нейрон

3) нейрон формує вихідний сигнал, інтенсивність якого залежить від значення обчисленого скалярного твору. Якщо воно не перевищує деякого заданого порогу, то вихідний сигнал не формується зовсім - нейрон "не спрацьовує";

4) вихідний сигнал надходить на аксон і передається дендрита інших нейронів.

Поведінка штучної нейронної мережі залежить як від значення вагових параметрів, так і від функції збудження нейронів. Відомі три основних види функції збудження: порогова, лінійна і сигмоїдальна. Для порогових елементів вихід встановлюється на одному з двох рівнів залежно від того, більше або менше сумарний сигнал на вході нейрона деякого порогового значення. Для лінійних елементів вихідна активність пропорційна сумарному зваженому входу нейрона. Для сигмоїдальних елементів залежно від вхідного сигналу, вихід варіюється безперервно, але не лінійно, по мірі зміни входу. Сигмоїдальні елементи мають більше схожості з реальними нейронами, ніж лінійні або порогові, але будь-який з цих типів можна розглядати лише як наближення.

Нейронна мережа являє собою сукупність великої кількості порівняно простих елементів - нейронів, топологія з'єднань яких залежить від типу мережі. Щоб створити нейронну мережу для вирішення якої-небудь конкретного завдання, ми повинні вибрати, яким чином слід з'єднувати нейрони один з одним, і відповідним чином підібрати значення вагових параметрів на цих зв'язках. Чи може впливати один елемент на інший, залежить від встановлених з'єднань. Вага з'єднання визначає силу впливу.

Нейронні мережі належать до класу конекціоністські моделей обробки інформації. Основна їх риса - використовувати зважені зв'язку між обробними елементами як принципове засіб запам'ятовування інформації. Обробка в таких мережах ведеться одночасно великим числом елементів, завдяки чому вони терпимі до несправностей і здатні до швидких обчислень.

Поставити нейронну мережу, здатну вирішити конкретне завдання, це значить визначити модель нейрона, топологію зв'язків, ваги зв'язків. Нейронні мережі різняться між собою найменше моделями нейрона, а в основному топологією зв'язків та правилами визначення ваги або правилами навчання (рис.1.3), програмування.

Рис.1.3 Процес навчання нейромережі

Виходячи з вищевикладеного, можна зробити висновок, що для вирішення завдань прогнозування найбільш підходить мережу зі зворотним розповсюдженням. Вона дозволяє формальним чином навчити мережу прогнозувати зміну вимоги на основі історичних даних про вимогу. Процес застосування нейромережі наведено на малюнку 1.4

Рис.1.4 Процес застосування нейромережі

Для опису алгоритмів і пристроїв у нейроінформатіке вироблена спеціальна "схемотехніка", в якій елементарні пристрої - суматори, синапси, нейрони і т.п. об'єднуються в мережі, призначені для вирішення завдань.

Самий заслужений і, ймовірно, найбільш важливий елемент нейросистем - це адаптивний суматор. Адаптивний суматор обчислює скалярний добуток вектора вхідного сигналу x на вектор параметрів a. На схемах будемо позначати його так, як показано на рис.1.5 Адаптивним називаємо його з-за наявності вектора параметрів, що настроюються a. Для багатьох задач корисно мати лінійну неоднорідну функцію вихідних сигналів. Її обчислення також можна представити за допомогою адаптивного суматора, що має n +1 вхід і отримує на 0-й вхід постійний одиничний сигнал (рис.1.6).

Нелінійний перетворювач сигналу зображений на ріс.1.7 Він отримує скалярний вхідний сигнал x і переводить його в j (x).

Точка розгалуження служить для розсилки одного сигналу по декількох адресах (рис.1.8). Вона отримує скалярний вхідний сигнал x і передає його всім своїм виходам.

Рис.1.5 Адаптивний сумматорРіс.1.6 Неоднорідний адаптивний суматор

Ріс.1.7 Нелінійний перетворювач сигналу

Рис.1.8 Точка розгалуження

Рис.1.9 Формальний нейронРіс.1.10 Лінійна зв'язок (синапс)

Елементи шаруватих і повнозв'язних мереж можуть вибиратися по-різному. Існує, втім, стандартний вибір - нейрон з адаптивним неоднорідним лінійним суматором на вході (рис.1.9).

Лінійна зв'язок - синапс - окремо від суматорів не зустрічається, проте для деяких міркувань буває зручно виділити цей елемент (ріс.1.10). Він множить вхідний сигнал x на "вагу синапсу" a.

Ваги синапсів мережі утворюють набір адаптивних параметрів, налаштовуючи які, нейронна мережа навчається вирішення завдання. Зазвичай на діапазон зміни ваг синапсів накладаються деякі обмеження, наприклад, приналежності ваги синапсу діапазону [-1,1].

Серед усієї безлічі нейромережевих архітектур можна виділити дві базові архітектури - шаруваті і повнозв'язних мережі.

Шаруваті мережі: нейрони розташовані в кілька шарів (ріс.1.11). Нейрони першого шару отримують вхідні сигнали, перетворять їх і через точки галуження передають нейронам другого шару. Далі спрацьовує другий шар і т.д. до k-го шару, який видає вихідні сигнали. Якщо не обумовлено протилежне, то кожен вихідний сигнал i-го шару подається на вхід всіх нейронів i +1- го. Число нейронів у кожному шарі може бути будь-яким і ніяк заздалегідь не пов'язане з кількістю нейронів в інших шарах. Стандартний спосіб подачі вхідних сигналів: кожен нейрон першого шару отримує всі вхідні сигнали. Особливого поширення набули тришарові мережі, в яких кожен шар має своє найменування: перший - вхідний, другий - прихований, третій - вихідний.

Ріс.1.11 Шарувата мережу

Повнозв'язна мережі: мають один шар нейронів, кожен нейрон передає свій вихідний сигнал іншим нейронам, включаючи самого себе. Вихідними сигналами мережі можуть бути всі або деякі вихідні сигнали нейронів після декількох тактів функціонування мережі. Всі вхідні сигнали подаються всіх нейронів.

Можна виділити два класи завдань, що вирішуються учнями нейронними мережами. Це завдання передбачення і класифікації.

Завдання передбачення чи прогнозування є, по суті, завданнями побудови регресійної залежності вихідних даних від вхідних. Нейронні мережі можуть ефективно будувати сильно нелінійні регресійні залежності. Специфіка тут така, що, оскільки вирішуються в основному неформалізовані задачі, то користувача цікавить в першу чергу не побудова зрозумілою і теоретично обгрунтованої залежності, а отримання пристрої-провісника. Прогноз такого пристрою безпосередньо не піде у справу - користувач буде оцінювати вихідний сигнал нейромережі на основі своїх знань і формувати власну експертний висновок. Винятки становлять ситуації, на основі навченої нейронної мережі створюють пристрій керування для технічної системи.

При вирішенні задач класифікації нейронна мережа будує розділяє поверхню в просторі ознак, а рішення про приналежність ситуації того чи іншого класу приймається самостійним, не залежним від мережі пристроєм - інтерпретатором відповіді мережі. Найбільш простий інтерпретатор виникає в задачі бінарної класифікації (класифікації на два класи). У цьому випадку достатньо одного вихідного сигналу мережі, а інтерпретатор відносить, наприклад, ситуацію до першого класу, якщо вихідний сигнал менше нуля, і до другого, якщо він більше або дорівнює нулю.

Класифікація на кілька класів вимагає ускладнення інтерпретатора. Широко використовується інтерпретатор "переможець забирає все", де число вихідних сигналів мережі дорівнює числу класів, а номер класу відповідатиме номеру максимального вихідного сигналу.

Одна нейронна мережа може одночасно передбачати кілька чисел, або одночасно вирішувати завдання і прогнозування, і класифікації. Потреба в останньому виникає, однак, украй рідко, і краще вирішувати різнотипні завдання окремими нейронними мережами.

У літературі зустрічається значне число ознак, якими повинна володіти завдання, щоб застосування нейромереж було виправдано і нейронна мережа могла б її вирішити:

відсутній алгоритм або не відомі принципи вирішення завдань, але накопичено достатню кількість прикладів;

проблема характеризується великими обсягами вхідної інформації;

дані неповні або надлишкові, зашумлені, частково суперечливі.

Таким чином, нейронні мережі добре підходять для розпізнавання образів і рішення задач класифікації, оптимізації і прогнозування.