Гомоморфной обробка мови

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Білоруський державний університет
ІНФОРМАТИКИ І РАДІОЕЛЕКТРОНІКИ
факультет телекомунікацій
кафедра Мереж і пристроїв телекомунікацій
РЕФЕРАТ
На тему:
«Гомоморфной обробка мови»
МІНСЬК, 2008

1 Структурні схеми гомоморфной обробки та аналізу мовних сигналів
Одне з основних припущень полягає в тому, що мовний сигнал трактується як сигнал на виході лінійної системи з повільно змінними параметрами. Це припущення дозволяє вважати, що на коротких сегментах мовний сигнал можна розглядати як сигнал на виході лінійної системи з постійними параметрами, порушуємо або послідовністю імпульсів, або випадковим шумом .. Оскільки сигнал збудження і імпульсна характеристика фільтра взаємодіють через операцію згортки, завдання аналізу мови може розглядатися як завдання поділу компонент, що беруть участь в операції згортки. Таке завдання іноді називається завданням зворотного згортки.
Гомоморфним щодо згортки системи. Гомоморфним щодо згортки системи задовольняють узагальненому принципом суперпозиції. Принцип суперпозиції для лінійних систем можна представити у вигляді наступних співвідношень
(1)
(2)
де L - лінійний оператор.
Принцип суперпозиції встановлює, що якщо сигнал на вході є лінійною комбінацією елементарних сигналів, то і сигнал на виході буде представлений у вигляді лінійної комбінації відповідних сигналів.
Прямим наслідком принципу суперпозиції є той факт, що сигнал на виході лінійної системи може бути представлений у вигляді дискретної згортки:
(3)
де - Імпульсний відгук лінійної системи.
Цей принцип ілюструється на рис. 1, де символ «+» на вході і виході означає, що адитивна комбінація сигналів на вході призводить до адитивної комбінації вихідних сигналів.

а) б)
Рис. 1. Представлення лінійної системи, для якої виконується принцип суперпозиції (а) і гомоморфной щодо згортки (б)
Символ «*» означає згортку в дискретному часі. За аналогією з принципом суперпозиції для звичайних лінійних систем визначимо клас систем, що задовольняють узагальненому принципом суперпозиції, в якому складання замінюється згорткою (легко показати, що згортка володіє такими ж алгебраїчними властивостями, як і складання:
(4)
Системи, що володіють властивістю (4), названі гомоморфним щодо згортки системами. Ця термінологія пояснюється тим, що дані перетворення виявляються гомоморфним перетвореннями лінійного векторного простору. При зображенні таких систем (рис. 1, б) операцію згортки представляють в явному вигляді на вході і виході системи. Гомоморфним фільтр є гомоморфной системою, яка має таку властивість, що одна компонента (виділяється) проходить через цю систему без змін, а інша - усувається. У співвідношенні (4), наприклад, якщо - Небажана компонента, то необхідно зажадати, щоб вихід, відповідний , Являв собою одиничний відлік, в той час як вихід, відповідний , Близько збігався б з .
Важливим аспектом теорії гомоморфним систем є те, що будь-яка з них може бути представлена ​​у вигляді каскадного з'єднання трьох гомоморфним систем (2) для випадку систем, гомоморфним щодо згортки. Перший блок перетворює компоненти на вході, представлені у вигляді згортки, в адитивну суму на виході. Другий блок - звичайна лінійна система, що задовольняє принципам суперпозиції відповідно до (1).

Рис. 2. Канонічна форма системи, гомоморфной щодо згортки
Третій блок є зворотним перше, тобто перетворює сигнали, представлені у вигляді суми, в сигнали, представлені у вигляді згортки. Важливість даного канонічного подання полягає в тому, що розробка гомоморфной системи зводиться до розробки лінійної системи. Блок, що позначається і званий характеристичним блоком гомоморфной щодо згортки системи, фіксований при канонічному поданні (рис. 2). Очевидно, що зворотне перетворення також фіксоване. Характеристична система для гомоморфной зворотного згортки підпорядковується узагальненому принципом суперпозиції, в якому операція на вході - згортка, а на виході - звичайне додавання. Властивості характеристичної системи визначаються виразом
(5)
Аналогічно зворотна характеристична система задовольняє співвідношенню
(6)
Математичне опис характеристичної системи визначається вимогами до вихідного сигналу. Якщо на вході є сигнал згортки, то
                                                 (7)
і z-перетворення вхідного сигналу має вигляд
. (8)
З (5) очевидно, що z-перетворення сигналу на виході системи має представляти собою суму z-перетворень компонент. Таким чином, в частотній області характеристична система для згортки повинна мати наступну властивість: якщо на вході є твір компонент, то на виході має виникнути їх сума. Один із підходів до синтезу такої системи представлений на рис. 3.


Рис. 3. Представлення системи, гомоморфной щодо згортки в частотній області
Цей підхід заснований на тому, що логарифм твори дорівнює сумі логарифмів співмножників, т. е.
(9)
Якщо необхідно представляти сигнали в тимчасовій, а не в частотній області, то характеристична система прийме вигляд, представлений на рис. 4.

Рис. 4. Представлення характеристичної системи, гомоморфной щодо згортки
Аналогічне зворотне перетворення показано на рис. 5.

Рис.5. Представлення характеристичної системи, зворотного гомоморфной системі
Подання прямого і зворотного характеристичних систем залежить від справедливості співвідношення (9). Таким чином, логарифм повинен бути визначений так, щоб логарифм проізвеленія дорівнював сумі логарифмів співмножників. Це тривіально для дійсних позитивних величин. Проте в загальному випадку z-перетворення має комплексний характер і питання єдиності логарифма комплексної випадкової величини надзвичайно важливий. З точки зору обчислень доцільно розглянути випадок, коли (9) справедливо на одиничному колі, тобто для .
Для розв'язуваних задач цифрової обробки цілком підходить визначення логарифма у вигляді
(10)
У цьому співвідношенні дійсна частина не викликає труднощів. Проблема єдиності виникає при визначенні уявної частини (тобто ), Яка представляє собою фазовий кут z-перетворення, обчисленого на одиничному колі. Одним з підходів до вирішення проблеми єдиності є припущення, що фазовий кут являє собою безперервну непарну функцію. У цих умовах рівняння (9) справедливо.
З урахуванням можливості обчислення комплексного логарифма, що задовольняє (9), зворотне перетворення комплексного логарифма перетворення Фур'є вхідного сигналу, що є виходом характеристичної системи для згортки, має вигляд
(11)
Вихід характеристичної системи названий «комплексним кепстром» (термін «кепстр» є в даний час загальноприйнятим для позначення зворотного перетворення Фур'є логарифма спектра потужності сигналу; термін «комплексний кепстр» означає, що застосовується комплексний логарифм).
Термін «кепстр» використовується для величини
(12)
Послідовність с (п) представляє собою парну частина комплексного кепстра : .
Таким чином, визначена характеристична система для гомоморфной згортки і канонічна форма всіх гомоморфним систем щодо згортки. Всі системи цього класу відрізняються тільки лінійною частиною. Вибір лінійної системи визначається властивостями вхідного сигналу. Отже, для правильної побудови лінійної системи необхідно перш за все визначити вид і структуру сигналу на виході характеристичної системи, тобто розглянути властивості комплексного кепстра для типових вхідних сигналів.
2. Комплексний кепстр мови
Моделі сигналів, з одного боку, і методи аналізу в тимчасовій області - з іншого, можна об'єднати і ефективно використовувати в теорії гомоморфной фільтрації мови. Згадаймо, що модель мовотворення обов'язково складається з лінійної системи з повільно змінюються в часі параметрами і сигналу збудження у вигляді послідовності імпульсів або білого шуму. Тому короткий сегмент вокалізованих мовного сигналу доцільно розглядати як результат впливу сигналу збудження у вигляді послідовності імпульсів на лінійну систему з постійними параметрами. Аналогічно короткий сегмент невокалізованного сигналу можна представити як результат порушення лінійної системи з постійними параметрами випадковим шумом.
Короткий сегмент вокалізованих мови можна представити у вигляді
         (13)
де - Періодична імпульсна послідовність з періодом N p відліків; - Імпульсна характеристика лінійної системи, що відображає ефект форми джерела порушення g (n), імпульсну характеристику мовного тракту та імпульсну характеристику
Короткий сегмент невокалізованной мови можна представити у вигляді
(14)
де - Сигнал порушення у вигляді випадкового шуму; - Імпульсна реакція системи, яка об'єднує вплив мовного тракту і випромінювання.
Для випадку вокалізованих мови передатна функція лінійної системи має вигляд
(15)
Для невокалізованной мови отримуємо
  (16)
Комплексний кепстр швидко згасає із зростанням п. Крім того, відзначимо, що внесок в комплексний кепстр від періодичного збудження проявиться в наявності імпульсів в точках, кратних періоду збудження. Приклад аналізу (рис.6) ілюструє основні особливості вокалізованих мовного сигналу.

а) б)

в) г)

д) е)
Рис. 6. Гоморфний аналіз вокалізованих мови: а) зважений мовний сигнал, б) логарифм модуля короткочасного Фур'є; в) значення фази; г) «розгорнута» фаза; д) комплексний кепстр; е) кепстр
На рис. 6, а показаний сегмент вокалізованих сигналу, зважений з вікном Хеммінга. На рис.6, б представлений логарифм модуля дискретного перетворення Фур'є. У цій функції є періодична компонента, обумовлена ​​періодичним характером вхідного сигналу. На рис.6, в представлений розривної характер головного значення фази, а на рис. 6, м - фазова крива, позбавлена ​​розривів. Результат перетворення Фур'є в комплексний кепстр кривих на рис.6, б і 6, м представлений на рис.6, д.
Відзначимо наявність піків в позитивному і негативному часу і швидке загасання компонент в області малих часів, що обумовлено спільним впливом мовного тракту, джерела порушення і випромінюванням. Кепстр, що є зворотним перетворенням Фур'є логарифма амплітуди модуля спектра, показаний на рис.6, тобто У даному випадку збережені всі основні особливості комплексного кепстра, оскільки він є парною частиною комплексного кепстра.
Послідовність графіків на рис.6 показує, як можна використовувати гомоморфну ​​фільтрацію для аналізу мовного сигналу. Перш за все відзначимо, що імпульс у кепстре, обумовлений квазіпериодичним збудженням, виявляється відокремленим від інших компонент. Це призводить до відповідної системи гомоморфной фільтрації мовного сигналу, представленої на рис. 7.

Рис. 7. Реалізація системи гомоморфной фільтрації мови
Сегмент мовного сигналу зважується з деякими вікном і необхідні компоненти кепстра виділяються з використанням «вікна по кепстру» . Якщо вибрати відповідно ссотношеніем
(17)
де   вибрано меншим, ніж період основного тону , То вихідний сигнал апроксимує імпульсну реакцію, яка визначається (13). Цей вид фільтрації іноді називають «частотно-інваріантної лінійної фільтрацією».
Якщо вибрати 1 {п) таким чином, щоб відновити компоненти збудження, тобто
(18).
то вихідний сигнал апроксимує імпульсну послідовність збудження, амплітуди якої затухають відповідно до вагами вікна Хеммінга, застосованого при зважуванні вхідного сигналу.
У результаті зважений комплексний кепстр піддається зворотному перетворенню для отримання необхідних компонент.
Таким чином, за допомогою гомоморфной фільтрації можна виділити ряд важливих компонент мовного сигналу. Частіше стикаються з необхідністю оцінки таких параметрів, як період основного тону і частоти формант. Для цих цілей кепстральних аналіз вельми ефективний. Для вокалізованих сегмента мови пік в кепстре виникає при затримці, що відповідає періоду основного тону. Для невокалізованного сегмента такі піки в кепстре не виникають. Це властивість кепстра може бути використано для класифікації вокалізованих / невокалізованний і для періоду основного тону на вокалізованих мови.
Частоти формант також можна визначити з використанням логарифма модуля передатної функції мовного тракту, яка обчислюється за кепстру за допомогою кепстральних вікна (17).
3. Оцінювання основного тону на основі кепстра
Метод оцінювання основного тону на основі кепстральних аналізу досить простий. Обчислений кепстр досліджується з метою відшукання піку в області можливих значень основного тону. Якщо пік в кепстре перевищує поріг, то сегмент класифікується як вокалізованих, а координата піку дає хорошу оцінку періоду основного тону. Якщо максимум кепстpa нe перевищує-порогу, то сегмент класифікується як невокалізованний. Зміна у часі типу порушення та періоду основного тону можна оцінити з використанням залежного від часу кепстра, що досягається на основі обчислення залежить від часу перетворення Фур'є. Зазвичай кепстр обчислюється 1 раз через кожні 10 - 20 мс, оскільки в нормальної мови параметри збудження не змінюються швидше.
Гомоморфним аналіз дозволяє побудувати дуже простий і ефективний алгоритм виділення основного тону і класифікації промові на вокалізованих / невокалізованную. На жаль, є ряд практичних питань і труднощів, які виникають при побудові кепстральних аналізаторів основного тону.
По-перше, наявність викиду в кепстре в діапазоні 3-20 мс дуже точно вказує на те, що даний сегмент є вокалізованих. Однак відсутність піку або наявність слабкого піка не означає, що даний сегмент є невокалізованним. Амплітуда або навіть просто існування піку в кепстре залежить від цілого ряду чинників, включаючи довжину вікна, використовуваного для зважування вхідного сигналу, і формантной структури самого сигналу. Зауважимо,, що найбільша амплітуда піку в кепстре дорівнює одиниці. Це досягається лише в разі абсолютного збігу періодів основного тону. Це, звичайно, зовсім не досяжно в реальному випадку, навіть якщо використовувати прямокутне тимчасове вікно, що включає ціле число періодів. Прямокутні часові вікна застосовуються досить рідко внаслідок гірших результатів, які дають ними при оцінюванні спектру. У випадку, наприклад, вікна Хеммінга очевидно, що як протяжність вікна, так і його відносне розташування по відношенню до мовному сигналу матимуть значний вплив на величину найбільшого піку в кепстре.
Як крайній випадок припустимо, що вікно має протяжність менше двох періодів основного тону. Очевидно, що при цьому важко очікувати точного оцінювання періодичності по спектру або кепстру сигналу. Таким чином, протяжність вікна може бути така, що з урахуванням зменшення амплітуди даних до кордонів вибірки, принаймні, два періоду основного тону пропадуть у зважених даних. Для чоловічої мови з низькою частотою основного тону потрібно вікно близько 40 мс. Для голосів з більш високою частотою основного тону потрібні пропорційно менші вікна. Бажано, звичайно, вибирати вікно настільки малим, наскільки це можливо, щоб уникнути значних змін параметрів сигналу протягом використовуваного сегмента. Чим довше вікно, то більша зміни параметрів у межах вікна і тим більше відхилення від прийнятої моделі аналізу. Один із способів вибору вікна, при якому воно було і не занадто довгим і не дуже коротким, полягає в адаптації довжини вікна з урахуванням попередніх (або можливо середнього значення) оцінок періодів основного тону.
Інша причина, по якій сигнал може сильно відрізнятися від описуваного моделлю, полягає у надмірному обмеженні смуги. Яскравим прикладом подібної неадекватності може служити синусоїдальний сигнал. У логарифм спектру такий сигнал дасть тільки один пік. Оскільки в спектрі немає періодичних коливань, в кепстре не буде піків. У мовному сигналі вокалізованих сегменти зазвичай дуже вузькополосні з погано вираженої гармонійний структурою на частотах вище декількох сотень герц. У цьому випадку піки в кепстре відсутні. На щастя, для будь-яких значень періоду, за винятком самих коротких, область, в якій виникають піки в кепстре, не містить інших компонент, крім основного тону. Таким чином, для визначення положення імпульсу основного тону можна використовувати досить низький поріг (близько 0,1).
При правильно підібраною протяжності вікна на вході положення і амплітуда імпульсу кепстра забезпечують у більшості випадків хорошу оцінку періоду основного тону і класифікації тон / шум. У тих випадках, коли кепстральних аналіз не дозволяє точно відповісти на питання про наявність імпульсів основного тону і значення періоду, для винесення остаточного рішення можна залучити додаткову інформацію про вид функції середнього числа переходів через нуль, енергії сигналу.
4. Гомоморфним вокодер
Гомоморфной обробка мовного сигналу призводить до дуже зручному опису, де основні параметри сигналу відокремлені один від одного, тобто інформація про сигнал збудження розташована в області великих часів, а інформація про мовному тракті і формою імпульсу збудження - в області малих часів кепстра. Залежний від часу комплексний спектр фактично містить ту ж інформацію, що і поточний спектр сигналу, який, у свою чергу, є точним описом мовного сигналу. Кепстральних подання, однак, не використовує інформації про фазу сигналу, що міститься в перетворенні Фур'є, і тому короткочасний кепстр не дозволяє єдиним чином описати мовне коливання. Тим не менше на основі кепстра можна оцінити формантний-частоти, період основного тону і класифікувати сигнал як вокалізованих або невокалізованний. Кепстр використовується також для безпосереднього опису мовлення в системах, званих гомоморфним вокодера.
У гомоморфной вокодер кепстр обчислюється 1 раз через кожні 10 -20 мс. Період основного тону і ознака тон / шум оцінюються за кепстру, а компоненти кепстра в області малих часів (приблизно перші 30 відліків) квантуються і кодуються для передачі або зберігання. За квантованим відліках кепстра в області малих часів у синтезаторі відновлюється імпульсна реакція h v (n) або h u (n) і обчислюється згортка з функцією збудження, відновленої в синтезаторі за інформацією про основний тоні, ознаці тон / шум і відповідних амплітудах. Цей алгоритм представлений на рис. 8.

Рис.8. Структурна схема гомоморфной вокодера: а) аналізатор; б) синтезатор
На рис.8, а показаний аналізатор. Спочатку обчислюється кепстр, а потім за допомогою кепстральних вікна виділяється область малих часів. Для цього використовується зазвичай перші 26 відліків кепстра. Повний кепстр використовувався також для виділення інформації та про основний тоні і ознаці тон / шум. Інформація про сигнал збудження спільно з квантованими значеннями кепстра використовувалася для цифрового представлення сигналу і передавалася по каналу 50 - 100 разів на секунду. Для синтезу вхідного сигналу по кепстральних опису обчислювалася імпульсна реакція. Оскільки кепстр - це парна функція часу, то для побудови кепстра достатньо знати лише його частина, локалізовану в області позитивного часу.
Перетворення Фур'є частини кепстра в області малих часів призводить до логарифму передавальної функції, що описує спільне вплив мовного тракту, форми імпульсу збудження і випромінювання. Проте фаза в даному випадку дорівнює нулю. У схемі на рис. 8, б перетворення Фур'є змінюється для отримання дійсного парного перетворення, зворотне перетворений якого є «імпульсну характеристику». є парною функцією. Імпульсну характеристику, отриману таким чином по кепстру, можна звернути з послідовністю імпульсів, що віддалені один від одного на період основного тону для вокалізованих мови, і з равноотстоящей послідовністю імпульсів випадкової полярності для невокалізованних сегментів.
За логарифмическому спектру можна отримати і мінімально-фазову імпульсну характеристику, для чого слід використовувати кепстральних вікно виду
(19}
Тести на слухове сприйняття показали, що мінімально-фазовий опис є найкращим. Це цілком природно внаслідок того, що мінімально фазовий сигнал найбільш відповідає мовному сигналу.
Гомоморфним вокодер, як і будь-які вокодерная системи, в яких намагаються розділити параметри мовлення на сигнал збудження і параметри мовного тракту, дозволяє досягти малій швидкості передачі і додаткової гнучкості при обробці мови ціною ускладнення в описі і втрат в якості. Дана система має ту перевагу, що кепстр, що вимагає для. свого обчислення найбільших витрат, дозволяє оцінити як параметри мовного тракту, так і параметри збудження. Даний метод найбільш привабливий, якщо є можливість використання БІС для обчислення ДПФ.

Література
1. Блейхут Р. Швидкі алгоритми цифрової обробки сигналів: Пер. з англ.-М.: Світ, 2002.
2. Гольденберг Л.М. та ін Цифрова обробка сигналів: Довідник .- М.: Радіо і зв'язок, 2007.
3. Рабинер Д., Гоулд Б. Теорія і застосування цифрової обробки сігналов.-М.: Світ, 2005.
4. Ахмед М., Рао К.Р. Ортогональні перетворення при обробці цифрових сігналов.-М.: Зв'язок, 2003.
Додати в блог або на сайт

Цей текст може містити помилки.

Комунікації, зв'язок, цифрові прилади і радіоелектроніка | Реферат
49.5кб. | скачати


Схожі роботи:
Алгоритмічні мови обробка масивів
Алгоритмічні мови обробка одновимірних масивів
Обробка сировини виробництво напівфабрикатів обробка овочів і грибів
Гідроабразивне обробка Обробка вибухом
Питання розвитку мови і навчання рідної мови в педагогічній системі КД Ушинського
Питання розвитку мови і навчання рідної мови в педагогічній системі К Д Ушинського
Інтерферуючі вплив рідної мови при сприйнятті звуків англійської мови
Особливості російської мови Фразеологізми та їх значення у розвитку образності мови
Аналіз програми та підручників з української мови щодо вивчення частин мови в початковій школі
© Усі права захищені
написати до нас