1   2   3   4   5   6   7   8   9   ...   23
Ім'я файлу: Богайчук Нейронні мережі.docx
Розширення: docx
Розмір: 1578кб.
Дата: 14.03.2021
скачати
Пов'язані файли:
strategichniy_menedzhment_.doc

Спільне нормування: «вибілювання» входів



Якщо два входи статистично не незалежні, то їх спільна ентропія менше суми індивідуальних ентропій:

Тому домігшись статистичної незалежності входів ми, тим самим,

підвищимо інформаційну насиченість вхідної інформації. Це, однак, потребує більш складної процедури спільного нормування входів.

Замість того, щоб використовувати для нормування індивідуальні дисперсії, будемо розглядати вхідні дані в сукупності. Ми хочемо знайти таке лінійне перетворення, яке максимізувало б їх спільну ентропію. Для спрощення

завдання замість складнішої умови статистичної незалежності вимагатимемо, щоб нові входи після такого перетворення були декореліровані. Для цього розрахуємо середній вектор і коваріаційну матрицю даних за формулами:



Потім знайдемо лінійне перетворення, що діагоналізує коваріаційну матрицю. Відповідна матриця складена з стовпців - власних векторів коваріаційної матриці:

Легко переконатися, що лінійне перетворення, зване вибілюванням (whitening)



перетворить всі входи в некорельовані величини з нульовим середнім і одиничною дисперсією [30].

Якщо вхідні дані представляють собою багатовимірний еліпсоїд, то графічно вибілювання виглядає як розтягнення цього еліпсоїда по його головним осях (див. Рис. 4).



Рис. 1.4 Вибілювання вхідної інформації: підвищення інформативності входів за рахунок вирівнювання функції розподілу
    1. Проблема незбалансованих датасетів



Нерідко виникають ситуації, коли в навчальному наборі даних частка прикладів деякого класу занадто мала (цей клас називають міноритарним, а інший, сильно представлений, - мажоритарним). Такі тенденції добре помітні в кредитному скорингу, в медицині, в маркетингу. Побудований на таких наборах даних класифікатор може виявитися абсолютно неефективним [6].

Слід зазначити те, що можуть відрізнятися і витрати помилкової класифікації. Причому невірна класифікація прикладів міноритарного класу, як правило, обходиться в рази дорожче, ніж помилкова класифікація прикладу мажоритарного класу.

Одним з підходів для вирішення зазначеної проблеми є застосування різних стратегій семплінгу, які можна розділити на дві групи: випадкові і спеціальні.

Відновлення балансу класів може проходити двома шляхами. У першому випадку видаляють деяку кількість прикладів мажоритарного класу (undersampling), у другому - збільшують кількість прикладів міноритарного (oversampling) [11].

Перейдемо до коротким теоретичним відомостями про найбільш поширених стратегіях семплінгу, а потім деякі з них можна порівняти, застосувавши на наборі даних з незбалансованими класами.

Набір даних незбалансований, якщо класи в ньому представлені не приблизно однаково. Дисбаланс на порядок 100 до 1 є звичайним явищем при отриманні початкового необробленного набору даних, в той час як в інших випадках може бути присутній дисбаланс 100000 до 1 [7].

Продуктивність алгоритмів машинного навчання, як правило, оцінюється за допомогою точності прогнозування (predictive accuracy). Тим не менш, це не підходить, коли дані незбалансованої і / або вартість різних помилок помітно різниться. Як приклад, розглянемо класифікацію пікселів в зображеннях мамографії, як тих що свідчать про ракову пухлину [15]. Типовий набір даних

мамографії може містити 98% нормальних пікселів і 2% аномальних пікселів. Проста стратегія вгадування класу більшості за замовчуванням буде давати прогностичну точність 98%. Проте, характер застосування вимагає досить високої точності правильного виявлення в міноритарному класі і дозволяє малу точність в мажоритарному класі. Звична прогностична точність явно не підходить в таких ситуаціях. Характеристика ROC є стандартним методом для оцінки продуктивності класифікатора в діапазоні між позитивними і помилковими позитивними частотами помилок [23]. Площа під кривою (AUC) є визнаною традиційною метрикою продуктивності для кривої ROC. Опукла ROC оболонка може бути також використана в якості надійного методу ідентифікації потенційно оптимальних класифікаторів. Якщо лінія проходить через точку на опуклій оболонці, то немає ніякої іншої лінії з тим же нахилом, що проходить через іншу точку з більшим істинним позитивним (TP). Таким чином, класифікатор в цій точці є оптимальним при будь-яких припущеннях розподілу з цим нахилом.

В питаннях машинного навчання проблема з класовим дисбалансом вирішується в двох напрямках. Одним з них є призначення різної ваги навчальним прикладам [17]. Інший метод полягає в зміні вибірки оригінального набору даних, або шляхом збільшення (over-sampling) міноритарного класу і / або зменшення (under-sampling) мажоритарного класу [17]. Найбільш передовим підходом є поєднання over-sampling міноритарного класу та under- sampling мажоритарного класу.


    1. 1   2   3   4   5   6   7   8   9   ...   23

      скачати

© Усі права захищені
написати до нас