Основні можливості та класифікація нейронних мереж сторінка 6

1 2 3 4 5 6 7 8 9 ... 23

Ім'я файлу: Богайчук Нейронні мережі.docx
Розширення: docx
Розмір: 1578кб.
Дата: 14.03.2021
скачати
Пов'язані файли:
strategichniy_menedzhment_.doc

Збільшення навчальної множини

Додавання даних є одним з найпростіших і ефективних способів поліпшити якість навчальної множини та вирішення описаних проблем. При цьому просте додавання даних довільного виду не завжди ефективно, часто потрібно додати дані певного різновиду для підвищення якості розпізнавання. Поширеним підходом є програмна генерація. У разі використання синтетичних

навчальних даних зручніше всього згенерувати відсутні навчальні приклади. Однак не у всіх завданнях допустимо використання програмно згенерованих даних. У таких випадках доводиться застосовувати складніші методи додавання даних. Більш ефективним підходом є так зване “збільшення даних” (data augmentation). Згідно дослідженної літератури, аугментація (роздуття, збільшення) тренувальних даних можлива як в просторі даних, так і в просторі ознак [11, 24].

Аугментація в просторі даних

Модифікація наявних зображень з метою розширити навчальної множини активно застосовується при навчанні глибоких нейронних мереж, а також в умовах дефіциту розмічених даних. Застосовуються стиснення, розтягування, горизонтальне відображення, поворот, випадковий зсув в колірному просторі, випадкова або закономірна зміна деяких пікселів, обрізання частини зображення. Вважається, що додавання повністю випадкового шуму неефективно, слід додавати шум, обумовлений даними (який потенційно можливий в реальних даних). Цей метод дозволяє гнучко доповнювати простір навчальних даних саме тими значеннями, які є дефіцитними, тобто заповнювати “пробіли” (“sparse areas”) [9].

Оскільки глибинні мережі повинні бути навчені на величезній кількості тренувальних даних для досягнення задовільних результатів, якщо початковий набір зображень досить обмежений, то є доцільним застосувати методи збільшення даних для підвищення продуктивності. Збільшення даних стає звичним і навіть необхідним етапом роботи при підготовці сучасної глибокої мережі.

Є багато способів виконати збільшення даних, найпопулярніші з яких вже були згадані вище. Крім того, ефективним є поєднання декількох різних обробок, наприклад, роблячи обертання і випадкове масштабування одночасно. Крім того, існують більш складні техніки, наприклад можна підняти

насиченість і значення (компоненти S і V колірного простору HSV) всіх пікселів зображення в интервалі між 0,25 і 4, помножити ці значення на коефіцієнт від 0,7 і 1.4, і додати до них значення від -0,1 до 0,1. Крім того, можна додати значення між -0.1, 0.1 до компоненти відтінку (H компонента HSV) всіх пікселів в зображенні / контурі [2].

A. Krizhevsky і ін. запропонували техніку “fancy PCA” при підготовці знаменитого Alex-Net в 2012 році. Fancy PCA змінює інтенсивності RGB каналів в тренувальних зразках. На практиці, по-перше виконується PCA на множині піксельних значень RGB над множиною тренувальних образів. І потім, для кожного тренувального образу, додається деяка величина до кожного пікселя зображення RGB, яка є випадковою величиною взятою з гауссового розподілу з нульовим середнім і стандартним відхиленням 0,1. Важливо, що кожне відхилення використовується тільки один раз для всіх пікселів конкретного тренувального зображення та до тих пір, поки зображення не буде використовуватися для навчання знову. Тобто, коли модель отримуватиме те ж навчальне зображення знову, для нього буде випадковим чином згенероване інше відхилення для збільшення даних. При використанні цієї техніки на конкурсі ImageNet 2012 року, було отримано зниження помилки “топ-1” більш ніж на 1% [2].

Для нових графічних даних можна створювати правдоподібні перетворення існуючих зразків, які зберігають інформацію, необхідну для навчання, з перевіркою цілісності зображення, виконуваною людиною спостерігачем (чи може все ще людина розпізнати об'єкт). Одним із значних поліпшень в продуктивності класифікаторів на базі MNIST був шляхом введення пружних деформацій [24], в доповненні до існуючих афінних перетворень, для збільшення даних. Пружна деформація (elastic deformation) виконується шляхом визначення нормованого поля випадкових зсувів u(х, у), що для кожного місця розташування пікселя (х, у) в зображенні задає вектор зміщення, таким чином, що Rw = Ро + αu, де Rw і Ро описують розташування пікселів в оригінальних і викривлених зображеннях відповідно. Сила зсуву в

пікселях задається альфа. Гладкість поля зсувів контролюються параметром u, який є стандартним відхиленням гаусового розподілу, який згорнутий з матрицями рівномірно розподілених випадкових величин, які утворюють виміри х і у поля зміщень u.

Для відомого датасету MNIST було виявлено, що великі деформації, зі зміщенням альфа ≥ 8 пікселів, можуть призвести до символів, які важко розпізнати за допомогою спостерігача-людини, що означає що інформація для навчання не була збережена. Ця втрата цілісності зображення викликається зсувом критичної частини символу за межі кордону зображення, або шляхом введення «зламу», що вносить суттєву нерозбірливість, як показано на рисунку

1.5. Були емпірично встановлені зналення α = 1,2 пікселів з σ = 20 засновані на виконанні алгоритму CELM.

Рис. 1.5 Штучні приклади, створені за рахунок еластичних деформацій, в яких присутні викривлення що призводять до втрати цілісності. Оригінальний датасет MNIST в порівнянні з зразками з значеннями α = 1.2 (зліва) та α = 8 pixels (зправа).

1 2 3 4 5 6 7 8 9 ... 23

скачати

© Усі права захищені
написати до нас