Аналіз існуючих підходів до систем локалізації області губ людини на зображенні

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Зміст

1 Відомості про об'єкт дослідження 3

2 Мета роботи 4

3 Вибір напрямку дослідження 5

3.1 Коротка характеристика та оцінка стану розглянутої проблеми 5

3.1.1 Розпізнавання контурів губ в відеопотоці 6

3.1.2 П рімененіе прихованих Марковських моделей 9

3.2 Актуальність роботи 13

3.3 Обгрунтування вибраного методу напрямки дослідження 13

5. Очікувані результати 16

Список використаних джерел 17

1 Відомості про об'єкт дослідження

У розпізнаванні мовлення, необхідному для розвитку і вдосконалення інтерфейсів між людиною і комп'ютером, все більш значну роль набуває візуальна система введення інформації, заснована на завданні читання по губах. Одним із способів отримання вхідних даних для даної задачі є пошук характерних точок, зокрема розпізнавання контурів губ. Об'єктом даного дослідження є методи комп'ютерної обробки та аналізу цифрового зображення, а предметом можна вважати цифрове зображення, що містить губи людини, та методи їх локалізації. Від точності рішення задачі локалізації багато в чому залежить точність рішення задач аналізу зображення області губ більш високого рівня. Розробки, розглянуті в даній роботі, є важливим етапом на шляху до удосконалення інтерфейсу між людиною і комп'ютером.

2 Мета роботи

Мета написання роботи - аналіз існуючих підходів до вирішення задачі локалізації області губ людини на зображенні. А так само ознайомитися з застосуванням різноманітних методів розпізнавання.

3 Вибір напрямку дослідження

3.1 Коротка характеристика та оцінка стану розглянутої проблеми

Технології автоматичного виявлення і розпізнавання особи використовуються у ряді сучасних систем комп'ютерного зору: біометрична ідентифікація, людино-машинний інтерфейс, зір роботів, комп'ютерна анімація, відеоконференції. Основна відмінність даних додатків між собою - це цільові класи, які є об'єктами розпізнавання. Цільовими класами в задачі розпізнавання особи можуть бути: особа, особа з елементами перекриттів, морда тварини, обличчя людини, живе обличчя людини, міміка обличчя, риси обличчя, стать, раса, особистість людини. Вибір одного з таких цільових класів визначає специфіку алгоритму розпізнавання, інші класи є другорядними і швидше відіграють роль ознак при розпізнаванні цільового класу.

Основним способом отримання даних про мовлення з відеоінформації є аналіз рухів губ, або читання по губах. Головним джерелом отримання вхідних даних для даної задачі є пошук характерних точок, зокрема розпізнавання контурів губ. У більшій частині досліджень, присвячених задачі розпізнавання мови, пошук контурів губ здійснюється за допомогою активних контурних моделей.

Існує також інший можливий спосіб отримання інформації про губи, що полягає у виділенні особливостей області рота без пошуку характерних точок.

У даній роботі розглядається задача розпізнавання контурів губ у кольоровому відеопотоці і локалізація за допомогою прихованих Марковських моделей.

3.1.1 Розпізнавання контурів губ в відеопотоці

У даній задачі розпізнавання контурів губ в відеопотоці предметом аналізу є кольорові зображення за умови фронтального розташування особи. Крім того, розглядається відеопотік низького дозволу, характерний для побутових відеокамер. Така постановка задачі накладає обмеження на швидкість роботи алгоритму, розпізнавання контурів повинно залишати достатньо часу для розпізнавання мови. Важливими чинниками для вирішення цього завдання є використання кольору в якості головного джерела інформації, стійкість архітектури, а також застосування швидкого алгоритму пошуку контурів.

Для розпізнавання використовується колірна інформація. Виділення за кольором людської шкіри і губ досить стійко, їх колірні характеристики практично не залежать від освітлення. Тому колірне простір, в якому буде здійснюватися пошук, не повинно враховувати освітлення. Цій умові задовольняє колірне простір (r / g, b / g), яке використовується при побудові колірних класів.

Для поліпшення якості розпізнавання виділяються два колірних класу - шкіра і губи. У використовуваному двомірному колірному просторі на основі виділених на зображеннях областей будуються двомірні гістограми (рис. 1). Припускаючи нормальний розподіл квітів, можна скоротити опис колірних класів з двомірної гістограми до п'яти параметрів. Функція приналежності колірному класу має значення в діапазоні [0,1].

На основі визначених колірних класів будується оцінна функція; функція приналежності колірному класу шкіри враховується зі зворотним знаком. Незважаючи на можливість використання узагальнених колірних класів, для отримання кращих результатів використовується попередня підстроювання під користувача.

Стійкість алгоритму забезпечує архітектура IFA, при якій алгоритм розділений на декілька етапів. Дані, отримані на попередньому етапі, уточнюються на наступному, і, таким чином, неуспішний пошук на поточному етапі означає повернення до попереднього. У відповідності з архітектурою IFA рішення задачі розпізнавання контурів розбито на три етапи. Перший етап - приблизний пошук області губ на зображенні, другий - обмеження контуру губ еліпсом, третій - уточнення контуру алгоритмом, заснованому на радіальному розширенні.

r / g

b / g

Малюнок 1. Двомірна гістограма, губи

Для розпізнавання важливо, щоб характеристики губ, отримані у результаті, були інваріантні щодо висвітлення і положення особи на зображенні. Перший етап - це попередній пошук положення губ на зображенні. На цьому етапі відбувається пошук початкового наближення. Припускаючи приблизний розмір області губ, на зображенні здійснюється пошук галузі відповідної площі. На цьому етапі обчислюються приблизні координати центру області губ.

Припускаючи роботу в реальному часі, завдання пошуку положення можна спростити, так як вона може проводитися не у всіх кадрах. Для роботи в кожному кадрі використовуються в якості початкового значення результати пошуку становища на попередньому кадрі.

На другому етапі область губ обмежується еліпсом за допомогою статистичних методів. Розглядаються значення оціночної функції в області, знайденої на попередньому етапі. Розглядаються точки, в яких оцінна функція вище порогового значення. Значення f оціночної функції в точці зображення (xi, yi) інтерпретується як кількість влучень випадкових величин X і Y в діапазон ≤ <+1, ≤ <+1 i i i i x X x y Y. Для випадкових величин X і Y обчислюються математичні очікування і матриця коваріації. Осі координат суміщаються з напрямками, відповідними власним векторах матриці. Для випадкових величин X 'і Y', відповідних новій системі координат, вважається середнє квадратичне відхилення. Математичні очікування xm, ym, кут повороту α і середні квадратичні відхилення dx, dy однозначно визначають еліпс з центром в (xm, ym), повернений щодо осі на кут α і з радіусами dx і dy.

На третьому етапі визначаються характеристики форми губ, потрібних для подальшого розпізнавання. Контур уточнюється за допомогою алгоритму радіального розширення. В якості початкового наближення для контура використовуються точки на еліпсі, отриманому на попередньому етапі. Точки на еліпсі беруться відповідно з точками специфікації MPEG4. Точки переміщуються по радіусах еліпса в залежності від дії сил. Сили для точки xi визначаються як

F i   F i out   F i in i int,

F i out = k out,

i int =- k in,

i int =- k int

Де k - коефіцієнти, vi - напрямок переміщення точки xi.

За рахунок накладення більш жорстких обмежень на форму контуру даний алгоритм дозволяє виробляти більш точне і швидке розпізнавання, ніж алгоритми на основі активних контурних моделей. Кількість ітерацій також скорочується за рахунок отримання хорошого початкового наближення на другому етапі.

У результаті роботи побудований ефективний алгоритм пошуку контурів губ для задачі розпізнавання мови. На відміну від алгоритмів на основі активних контурних моделей, цей алгоритм дає прийнятні результати при меншій кількості ітерацій (4-8). Алгоритм дозволяє надійно і швидко шукати контури губ в відеопотоці, звільняючи більше часу для задачі читання по губах.

3.1.2 Застосування прихованих Марковських моделей

Першим етапом вирішення задачі читання по губах є виділення контурів губ; це виробляється за допомогою алгоритму виділення контурів губ на кольоровому зображенні, заснованого на алгоритмі радіального розширення.

Для роботи алгоритму виділення контурів губ необхідна підготовка зображень. Зображення переводяться в колірний простір (r / g, b / g), що дозволяє уникнути впливу освітлення. На основі декількох зображень з виділеними областями шкіри обличчя і губ стоятся колірні класи. Опис колірного класу представляє собою параметри еліпса, всередині якого знаходиться більшість точок класу на двовимірної гістограмі в просторі кольорів (r / g, b / g). На основі визначених колірних класів будується оцінна функція; функція приналежності колірному класу шкіри враховується зі зворотним знаком.

Надалі здійснюється пошук контуру за допомогою оцінної функції. Перший крок алгоритму знаходить приблизне положення центру області губ на зображенні. Другий крок знаходить еліпс, що описує область губ. Третій крок знаходить уточнений контур, за допомогою модифікованого алгоритму радіального розширення. Схема алгоритму зручна для застосування до відеопослідовності. У цьому випадку замість першого кроку для пошуку положення центру області губ можна скористатися положенням центру області губ на попередньому кадрі відеопослідовності. Процедура виділення контурів губ визначає еліпс, що описує область рота і набір координат точок. Контур виділяється на наборі зображень, що відбиває більшість можливих станів губ. Для розпізнавання рухів губ необхідно виділити вектора ознак з отриманих даних.

Процедура пошуку контуру губ знаходить n точок, пронумерованими від p1 до pn за годинниковою стрілкою. Використовувані координати точок нормалізуються: середня точка еліпса вважається початком координат, вісь x направлена ​​у напрямку більшого радіуса еліпса, великий радіус еліпса вважається одиницею. Крім координат точок, в процесі виділення контурів губ знаходяться параметри еліпса, що описує область губ на вихідному зображенні. Параметри еліпса дозволяють зробити висновки про такі загальних параметрах області рота, як відкритий рот або закритий. Нумерація контуру починається з місця перетину контуру губ лівим великим радіусом еліпса.

Потім виконуємо пошук кутів (мал. 2). Серед отриманих точок необхідно визначити правий і лівий кут. Незважаючи на нумерацію точок, це не завжди точки p1 та pn / 2. Правим кутом вважається точка, що знаходиться в правій половині контуру (між pn / 4 і p3n / 4), у якої кут α є найменшим. Кут α - це кут між середніми qnext і qprev. Тут qnext = (pi +1 + ... + pi + k) / k, qprev = (pi-1 + ... + pi-k) / k, k = n / 5. Аналогічне правило використовується для лівого кута.

Рисунок 2 - Пошук кутів

Наступним кроком після знаходження кутів є перетворення набору вихідних даних в набір векторів ознак. В якості декількох перших елементів у векторі ознак використовуються ознаки, отримані окремо від координат - відношення висоти еліпса області губ до його ширини. Подальші елементи вектора ознак - це координати лівого і правого кута контуру, координати верхньої та нижньої точок контуру, координати інших точок контуру. Розглянемо варіанти аналізу отриманих даних методом головних компонент. Виділення базису методом головних компонент дозволяє знайти основні напрями, за якими змінюються вектора ознак. Це дає можливість значно знизити розмірність векторів ознак. Метод головних компонент застосовується до набору векторів ознак, отриманих з набору даних, що відображають більшість можливих станів губ.

Кожному вектору ознак необхідно поставити у відповідність символ прихованої Марківської моделі. Для цього використовуємо метод векторної квантизації. За допомогою цього методу простір векторів ознак розбивається на кластери, за принципом близькості до центрів кластерів - кодовою словами. Набір кодових слів називається кодовою книгою. Основна складність методу полягає в побудові кодової книги векторів. Розмір кодової книги визначається кількістю станів губ у вихідних даних. Кодова книга відомого розміру k будується алгоритмом K середніх.

На першому кроці алгоритму випадковим чином вибираються k векторів, що вважаються кодовими словами (центрами кластерів). На наступному кроці кожен вхідний вектор приписується до того кластеру, чиє кодове слово знаходиться на найменшій відстані від нього. На третьому кроці кодові слова кожного кластера перераховуються. Кожне кодове слово робиться рівним середньому арифметичному серед усіх векторів кластеру. Другий і третій кроки повторюються до тих пір, поки зміни кодових слів не стануть достатньо малі.

Цей алгоритм повільний, але застосування аналізу головних компонент перед квантуванням дозволяє знизити розмірність і, тим самим, значно прискорити процес побудови кодової книги. Нові вихідні дані перед використанням у процесі розпізнавання квантуються: кожному вектору ставиться у відповідність найближчий вектор з кодової книги, і надалі замість вектора як символ прихованої Марковської моделі використовується його індекс у кодовій книзі.

Розпізнавання по зображенню не може працювати на рівні візем, так як віземи для різних фонем досить близькі. При цьому розпізнавання на основі послідовностей візем - дифонів, Трифонов - набагато більш надійно. Для розпізнавання використовується система ергодичної прихованих Марковських моделей. Кожному дифонів відповідає своя СММ. СММ инициализируются рівними ймовірностями для символів і переходів між станами. Навчання системи СММ проводиться за допомогою послідовності квантованих векторів ознак. Вихідні дані вручну розбиваються за учнем дифонів, після чого відповідна СММ оновлюється за алгоритмом Баума-Велша. Результуюча СММ видає максимальні значення ймовірності на послідовностях, близьких до набору для навчання свого дифонів.

У результаті роботи будується ефективний алгоритм побудови векторів ознак губ для задачі розпізнавання мови. Алгоритм дозволяє перетворити дані контурів губ в набори ознак, придатних для розпізнавання. Алгоритм має властивості надійності і стійкості і легко інтегрується з системою розпізнавання мови на основі прихованих Марковських моделей.

3.2 Актуальність роботи

Розвиток комп'ютерної техніки веде до вдосконалення інтерфейсів між людиною і комп'ютером. Один з найважливіших способів людської комунікації - мова, тому надійний введення мовної інформації є важливим напрямом удосконалення людино-машинних інтерфейсів. Навіть у самих надійних систем розпізнавання мовлення, заснованих лише на звуці, точність різко погіршується при спотворенні звукової інформації шумами різної природи. За наявності декількох говорять система розпізнавання мови стикається з проблемою ідентифікації мовця в даний момент. Тому доцільно використання також відеоінформації, що також є важливою частиною людського сприйняття мови. Експерименти вчених, даній галузі, показують, що аудіовізуальна система введення інформації більш надійна, ніж просто аудіо система, а значить, актуальна в наш час.

3.3 Обгрунтування вибраного методу напрямки дослідження

Вході проведеного аналізу існуючих підходів до вирішення задачі локалізації області губ людини на зображенні, були виявлені переваги і недоліки методів. У методі розпізнавання контурів губ в відеопотоці, за рахунок накладення більш жорстких обмежень на форму контуру, алгоритм дозволяє виробляти більш точне і швидке розпізнавання. Кількість ітерацій також скорочується за рахунок отримання хорошого початкового наближення на другому етапі і на відміну від алгоритмів на основі активних контурних моделей, цей алгоритм дає прийнятні результати при меншій кількості ітерацій. Розглядаючи застосування методу прихованих Марковських моделей можна виділити деякі переваги і недоліки. Такий метод дозволяє працювати безпосередньо із стисненими зображеннями, такими як JPEG і MPEG, в які на сьогоднішній день є поширеними форматами зберігання зображень і відео, що є великою перевагою. А так само одним з корисних властивостей СММ є здатність сегментувати распознаваемое зображення. Метод прихованих Марковських моделей дозволяє врахувати локальні деформації і взаємне розташування ділянок зображень. Але на відміну від оптичних потоків та інших методів зіставлення деформаціями, псевдодвумерная модель враховує характер деформацій, а то якими саме можуть бути можливі деформації, псевдодвумерние СММ засвоюють у процесі навчання. Ще одним недоліком є те, що приховані Марківські моделі не мають розрізняє здатністю. Тобто алгоритм навчання тільки максимізує відгук кожної моделі на свої класи, але не мінімізує відгук на інші класи, і не виділяються ключові ознаки, що відрізняють один клас від іншого.

Дана галузь дослідження є актуальною в наш час і не може не зацікавити, тому як методи локалізації недостатньо вивчені і потребують подальших розробок.

4. Етапи виконання НДРС

Таблиця 1 - Етапи розробки

Етапи розробки

Тижня

1.

Відомості про об'єкт дослідження

1-3

2.

Мета роботи

3-5

3.

Вибір напрямку дослідження

5-8

4.

Захист НДРС

10

5. Очікувані результати

У подальших роботах планується усунення недоліків методу прихованих Марковських моделей, а саме поліпшення способів початкового представлення зображення і алгоритмів тренування, що дозволило б підвищити точність розпізнавання при меншому обсязі інформації. А так само ця розробка повинна підвищити точність системи розпізнавання мовлення за рахунок використання додаткової візуальної інформації. Це, зокрема, сприяє удосконаленню інтерфейсу між людиною і комп'ютером.

Список використаних джерел

  1. Michael J. Jones, James M. Rehg, Statistical Color Models with Application to Skin Detection. In CVPR, 1999

  2. BD Zarit, BJ Super, and FKH Quek, Comparison of five color models in skin pixel classification. In Proceedings of the International Workshop on Recognition, Analysis, and Tracking of Faces and Gestures in Real-Time Systems, pages 58-63, Kerkyra, Greece, September 1999.

  3. Вежневець В. П. Локалізація людського обличчя на кольоровому растровому зображенні / / Праці конференції «Математичні методи розпізнавання образів» (ММРО - 10). - 2001

  4. Самаль Д.І., Старовойтов В.В. Вибір ознак для розпізнавання на основі статистичних даних / / Цифрова обробка зображень. - Мінськ: ІТК, 1999. - С. 105-114.

  5. Самаль Д.І., Старовойтов В.В. Методика автоматизованого розпізнавання людей по фотопортрета / / Цифрова обробка зображень. - Мінськ: ІТК, 1999. - С. 81-85.

Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Наукова робота
56.1кб. | скачати


Схожі роботи:
Аналіз існуючих підходів до систем локалізації області губ чол
Аналіз існуючих підходів оцінки психологічної стійкості особистості при роботі з конфіденційною
Аналіз існуючих інформаційно-пошукових систем
Аналіз існуючих систем електронного навчання
Методи вивчення і аналізу існуючих систем управління
Позовна давність 2 Аналіз існуючих
Толстой л. н. - Художнє новаторство в зображенні людини
Аналіз підходів до навчання Толмена і Уотсона
Аналіз альтернативних підходів до формування структури організації
© Усі права захищені
написати до нас