1   2   3   4   5   6   7   8   9   ...   23
Ім'я файлу: Богайчук Нейронні мережі.docx
Розширення: docx
Розмір: 1578кб.
Дата: 14.03.2021
скачати
Пов'язані файли:
strategichniy_menedzhment_.doc

Відмінність між вхідними та вихідними змінними



Наприкінці даного розділу відзначимо одну істотну відмінність способів кодування вхідних і вихідних змінних, що випливає з визначення градієнта помилки. А саме, входи беруть участь в навчанні безпосередньо, тоді як виходи

  • лише опосередковано - через помилку верхнього шару. Тому при кодуванні категорій в якості вихідних нейронів можна використовувати як логістичну функцію активації , визначену на відрізку [0,1], так і її антисиметричний аналог для відрізка [-1,1], наприклад: . При цьому кодування вихідних змінних з навчальної вибірки буде або {0,1} , або {- 1,1} [31]. Вибір того чи іншого варіанту ніяк не позначиться на навчанні.

У випадку зі вхідними змінними справа йде по-іншому: навчання ваг нижнього шару мережі визначається безпосередньо значеннями входів: на них множаться невязки, що залежать від виходів. Тим часом, якщо з точки зору операції множення значення 1 та -1 рівноправні, між 0 і 1 є істотна асиметрія: нульові значення не дають ніякого вкладу в градієнт помилки. Таким чином, вибір схеми кодування входів впливає на процес навчання. В силу логічної рівноправності обох значень входів, більш кращою виглядає симетрична кодування: {-1,1}, яке зберігає цю рівноправність в процесі навчання.

Як входами, так і виходами нейромережі можуть бути абсолютно різнорідні величини. Очевидно, що результати нейромережевого моделювання не повинні залежати від одиниць виміру цих величин. А саме, щоб мережа трактувала їх значення одноманітно, всі вхідні і вихідні величини повинні бути приведені до єдиного одиничного масштабу. Крім того, для підвищення швидкості і якості навчання корисно провести додаткову передобробку даних, яка вирівнює розподіл значень ще до етапу навчання.
      1. Індивідуальне нормування даних



Приведення даних до одиничного масштабу забезпечується нормуванням кожної змінної на діапазон розкиду її значень. У найпростішому варіанті це - лінійне перетворення:

в одиничний відрізок . Узагальнення для відображення вхідних даних в інтервал [-1,1], що рекомендується для вхідних даних, тривіально [31].

Лінійне нормування оптимальне, коли значення змінної щільно заповнюють певний інтервал. Але подібний "прямолінійний" підхід застосуємо далеко не завжди. Так, якщо в даних є відносно рідкісні викиди, які набагато перевищують типовий розкид (Рис. 1.2), саме ці викиди визначать згідно попередньої формули масштаб нормування. Це призведе до того, що основна маса значень нормованої змінної зосередиться поблизу нуля.


Рис 1.2 Гістограма значень змінної при наявності рідкісних, але великих за амплітудою відхилень від середнього

Набагато надійніше, тому, орієнтуватися при нормуванні не на екстремальні значення, а на типові, тобто статистичні характеристики даних, такі як середнє і дисперсія:

У цьому випадку основна маса даних матиме одиничний масштаб, тобто типові значення всіх змінних будуть порівнюванні.

Однак, тепер нормовані величини не належать гарантовано одиничному інтервалу, більш того, максимальний розкид значень заздалегідь не відомий. Для вхідних даних це може бути і не важливо, але вихідні змінні будуть використовуватися в якості еталонів для вихідних нейронів. У разі, якщо вихідні нейрони – сігмоїдної функції, вони можуть набувати значень лише в одиничному діапазоні. Щоб встановити відповідність між навчальною вибіркою і нейромережею в цьому випадку необхідно обмежити діапазон зміни змінних.

Лінійне перетворення, як ми переконалися, не здатне віднормувати основну масу даних і одночасно обмежити діапазон можливих значень цих даних. Природний вихід із цієї ситуації - використовувати для попередньої обробки даних функцію активації тих же нейронів. Наприклад, нелінійне перетворення



нормує основну масу даних одночасно гарантуючи, що [31] (див. Рис. 1.3).

Рис. 1.3 Нелінійне нормування, що використовує логістичну функцію активації

Як видно з наведеного вище рисунка, розподіл значень після такого нелінійного перетворення набагато ближче до рівномірного.

До сих пір ми намагалися максимізувати ентропію кожного входу (виходу) окремо. Але, взагалі кажучи, можна домогтися набагато більшого максимізуючи їх спільну ентропію. Розглянемо цю техніку на прикладі спільного нормування входів, маючи на увазі, що з таким же успіхом її можна застосовувати і для виходів а також для всієї сукупності входів-виходів.


      1. 1   2   3   4   5   6   7   8   9   ...   23

        скачати

© Усі права захищені
написати до нас