Ім'я файлу: 202099NAUK.docx
Розширення: docx
Розмір: 159кб.
Дата: 17.10.2021
скачати


202099NAUK Прогнозирования структурной сложности нейронной сети по сложности выборки

Прогнозирования структурной сложности нейронной сети по сложности выборки

12. Інформаційні технології

12.1 Инженерия програмного обеспечения

Ключевые слова: структурная сложность, автокодировщик, обучение без учителя, глубокое обучение, нейронные сети

Введение: В данной работе решается задача многоклассовой классификации временных рядов акселерометра по классам физической активности человека. В работе рассматривается задача классификации по четырем классам активности – бег, ходьба, сидение и стояние. В данной работе задача решается методами глубокого обучения методами, которые дополняют алгоритм обратного распространения ошибки фазой предобучения без учителя. Тем самым позволяя более точно оптимизировать нейронные сети с большим количеством скрытых слоев.

В частности в работе было выведено эмпирическое правило Уидроу, которое задает минимально необходимое количество параметров весов необходимое для обобщения выборки мощности N нейронной сетью:



где W количество параметров сети, а ε допустимая часть неправильно классифицированных объектов.
  1. Постановка задачи


Поставим задачу классификации. Задана выборка D из генеральной совокупности Dgen:



где xiRnвектор, набор n-точечных временных рядов, а yi{1,2,...,k}метка класса из номинальной шкалы. Требуется найти модель:



из множества f F нейронных сетей, которая классифицирует генеральную совокупность Dgen.
    1. Автокодировщик


Метод обратного распространения ошибки не применяется для оптимизации параметров нейронных сетей с большим количеством скрытых слоев из-за очень низкой скорости сходимости метода, а также сходимости к незначительным локальным минимумам. Однако если его применять к сети с параметрами находящимися в окрестности своих оптимальных значений, то он показывает себя хорошо. Для приближения к оптимальным значениям параметров нейронная сеть разбивается на слои, называемые автокодировщиками и оптимизирует параметры, минимизируя функцию ошибки автокодировщика.

Автокодировщик h это монотонное нелинейное отображение входного вектора свободных переменных x Rn в скрытое представление h Rν следующего вида:



Скрытое представление h создает линейную реконструкцию вектора x:

(1)

Параметры автокодировщика оптимизированы таким образом, чтобы сделать реконструкцию r(x) максимально близкой к x. Реконструкция r(x) получится значимо отличной от x если размерность скрытого представления ν слишком мала и если компоненты xjвектора x независимы друг от друга, например если все xjнезависимые одинаково распределенные нормальные величины. Однако если входной вектор x имеет структуру, например, если некоторые из его компонент между собой корреллируют, то автокодировщик может обнаружить эти корреляции. Рассуждения выше основываются на том, что размерность скрытого представления ν меньше чем число элементов nвектора x, однако их можно обобщить на произвольный размер скрытого отображения h, наложив ограничение разреженности на процедуру реконструкции. Разреженность состоит в том, чтобы большинство компонент скрытого представления h были 0. Другими словами, разреженность равносильна малости для каждого jсреднего значения j-ой компоненты вектора h по всей выборке D:

(2)

Следовательно требуется выполнения равенства ρˆj= ρ, где ρпараметр разреженности (малая величина, например 0.05). Для реализации этого ограничения к функции ошибки добавляется дополнительное штрафное слагаемое, например:

(3)

где KL(Pρ||Pρˆj) дивергенция Кульбака-Лейблера между распределением бернулевской случайной величины со средним ρи бернулевской случайной величины со средним ρˆj. Здесь

разумно применять дивергенцию Кульбака-Лейблера, т.к. это стандартная мера схожести двух распределений. Итоговая функция ошибки автокодировщика:



где первое слагаемое отвечает за среднеквадратичную ошибку реконструкции (1), второе слагаемое есть регуляризация, а третье слагаемое разреживает значения скрытого представления (3). Тут mколичество элементов в обучающей выборке, βвес разреживающего слагаемого, ρпараметр разреженности, желаемое среднее значение каждой компоненты скрытого представления h, а ρˆjсреднее значение j-ой компоненты вектора h (2).

Функции структурной сложности модели

Будем вводить критерий структурной сложности так, чтобы чем выше была структурная сложность, тем выше был объем вычислений требуемый для оптимизации параметров. Таким образом, при равном качестве классификации двух моделей предпочительно выбирать модель с меньшей структурной сложностью.

Визуализация работы автокодировщика


Работа автокодировщика проиллюстрирована на задаче понижения размерности четырехмерного множества точек до трех и двухмерной размерности. На рис. 1 изображено обрабатываемое множество, которое произвольным преобразованием поворота было переведено в четырехмерное пространство. На рис. 2 показаны продукты отображения обрабатываемого множества в трехмерную и двумерную области с помощью автокодировщика. Проекции полученные автокодировщиком сравнивается с методом главных компонент(PCA) для тех же обрабатываемых данных рис. 3. На рис. 4 визуализирована процедура оптимизации параметров автокодировщика. Так как количество параметров автокодировщика существенно больше трех, то на рисунке изображена процедура оптимизации проекции вектора параметров λ на трехмерную плоскость с помощью произвольной матрицы поворота Z: тут Wколичество параметров. Из-за того что процесс оптимизации представляет собой задачу поиска минимума многоэкстремальной функции, то результат сильно зависит от начального приближения. Радиус окружности обратно пропорционален ошибке S(λ).



Рис. 1: Оригинал(3d)



Рис. 2: Восстановленное автокодировщиком из 4d(слева) и из 3d(справа)



Рис. 3: Понижение размерности с помощью PCA 3d и 2d



Рис. 4: Обучение параметров автокодировщика при различных начальных приближениях

Практическая задача исследования зависимости между структурной сложностью модели и сложностью выборки


Вычислительный эксперимент состоит из двух этапов, сначала исследуется зависимость на выборках с малой геометрической сложностью(<20), для классификации которых хватает нейронной сети с 1-2-мя скрытыми слоями. На выборках с малой сложностью отбираются пары сложностей хорошо согласующиеся с моделью линейной регрессии. После чего отобранные пары исследуются на выборках с высокой геометрической сложностью (>20), для классификации которых требуются нейронные сети с количеством скрытых слоев слоев более одного.

Заключение


  • Реализован и исследован алгоритм прогнозирования структурной сложности нейронной сети по сложности выборки.

  • Предложены четыре критерия структурной сложности универсальной модели нейросети.

Список литературы


  • Kwapisz J.R. Activity Recognition using Cell Phone Accelerometers// ACM SIGKDD Explorations Newsletter , 2010, 12, Pp. 74–82.

  • Hinton G. E., Salakhutdinov R. R Reducing the dimensionality of data with neural networks// Science, Vol. 313. No. 5786, Pp. 504–507.

  • Bengio Y., Lamblin, P., Popovici D., Larochelle H. Greedy Layer-Wise Training of Deep Networks// Advances in Neural Information Processing Systems, Vol. 19, 2006, Pp. 153–160.

  • Widrow B., Stearns, S.D. Adaptive Signal Processing// Prentice-Hall, 1985.


скачати

© Усі права захищені
написати до нас