Розпізнавання мовлення

У міру розвитку комп'ютерних систем стає все більш очевидним, що використання цих систем набагато розшириться, якщо стане можливим використання людської мови при роботі безпосередньо з комп'ютером, і зокрема стане можливим управління машиною звичайним голосом у реальному часі, а також введення і виведення інформації у вигляді звичайної людської мови.

Існуючі технології розпізнавання мови не мають поки достатніх можливостей для їх широкого використання, але на даному етапі досліджень проводиться інтенсивний пошук можливостей вживання коротких багатозначних слів (процедур) для полегшення розуміння. Розпізнавання мови в даний час знайшло реальне застосування в житті, мабуть, тільки в тих випадках, коли використовуваний словник скорочений до 10 знаків, наприклад при обробці номерів кредитних карт і інших кодів доступу в базуються на комп'ютерах системах, що обробляють передані по телефону дані. Так що насущне завдання - розпізнавання принаймні 20 тисяч слів природної мови - залишається поки недосяжною. Ці можливості поки недоступні для широкого комерційного використання. Однак ряд компаній своїми силами намагається використовувати вже існуючі в даній галузі науки знання.

Для успішного розпізнавання мови варто вирішити наступні завдання:

Ю обробку словника (фонемний склад),

Ю обробку синтаксису,

Ю скорочення мовлення (включаючи можливе використання твердих сценаріїв),

Ю вибір диктора (включаючи вік, стать, рідна мова і діалект),

Ю тренування дикторів,

Ю вибір особливого виду мікрофона (беручи до уваги спрямованість і місце розташування мікрофона),

Ю умови роботи системи й одержання результату із зазначенням помилок.

Існуючі сьогодні системи розпізнавання мови грунтуються на зборі всієї доступної (часом навіть надлишкової) інформації, необхідної для розпізнавання слів. Дослідники вважають, що таким чином задача розпізнавання зразка мови, заснована на якості сигналу, підданого змінам, буде досить для розпізнавання, але тим не менш в даний час навіть при розпізнаванні невеликих повідомлень нормальної мови, поки неможливо після одержання різноманітних реальних сигналів здійснити пряму трансформацію в лінгвістичні символи, що є бажаним результатом.

Замість цього проводиться процес, першим кроком якого є початкове трансформування інформації, що вводиться для скорочення оброблюваного обсягу так, щоб її можна було б піддати комп'ютерного аналізу. Прикладом є «техніка зіставлення відрізків», що дозволяє скоротити вводиться інформацію з 50'000 до 800 бітів у секунду. Наступним етапом є спектральне уявлення мови, що вийшло шляхом перетворення Фур'є. Результат перетворення Фур'є дозволяє не тільки стиснути інформацію, але і дає можливість сконцентруватися на важливих аспектах мови, які інтенсивно вивчалися в сфері експериментальної фонетики. Приклад такого подання см на рис. Спектральне подання досягнуто шляхом використання широко-частотного аналізу запису.

Хоча спектральне уявлення промови дуже корисно, необхідно пам'ятати, що досліджуваний сигнал дуже різноманітний. Різноманітність виникає з багатьох причин, включаючи:

Ю відмінності людських голосів;

Ю рівень мові говорить;

Ю варіації у вимові;

Ю нормальне варіювання руху артикуляторів (язика, губ, щелепи, піднебіння).

Для усунення негативного ефекту впливу варіювання голосового тракту на процес розпізнавання мови було використано безліч методів. Першим ділом розглядалася характеристика простору траєкторії артікуляторних органів, включаючи голосні, використовувані мовцем. Найбільш вдалі форми трансформації, використаної для зменшення нерівностей, були вперше представлені Сако & Чібо і називалися динамічними спотвореннями (dynamic time warping). Техніка динамічного спотворення використовується для тимчасового витягування і скорочення відстані між спотвореним спектральним поданням і шаблоном для мовця. Використання даної техніки дало поліпшенні точного розпізнавання (~ 20-30%). Метод динамічного спотворення використовують практично всі комерційно доступні системи розпізнавання, що показують високу точність повідомлення при використанні. Техніка динамічного спотворення представлена на рис.2. Спочатку сигнал перетворюється в спектральне уявлення, де визначається нечисленний, але високоінформативний набір параметрів. Потім визначаються кінцеві вихідні параметри для варіювання голосу (слід зазначити, що дана задача не є тривіальною) і виробляється нормалізація для складання шкали параметрів, а також для визначення ситуаційного рівня мови. Вищеописані змінені параметри використовуються потім для створення шаблону. Шаблон включається до словника, який характеризує проголошення звуків при передачі інформації мовцем, що використовують цю систему. Далі в процесі розпізнавання нових мовних зразків (вже зазнали нормалізації і отримали свої параметри), ці зразки порівнюються з шаблонами, вже наявними в словнику, використовуючи динамічне спотворення і схожі метричні виміри. В даний час цей метод вивчається і доповнюється.

Очевидно, що спектральне уявлення мовлення дозволяє характеризувати особливості голосового тракту людини і спосіб використання його мовцем. Самий звичайний спосіб моделювання специфічних ефектів "модель-джерело" - використання фільтрів. Мовний апарат моделюється з використанням джерел, що викликають резонанс, що веде до піковим точкам інтенсивності звуку в сусідстві з окремими частотами, званими формантами. При проголошенні звуків вібрація голосових зв'язок є джерелом порушення, і ці короткі імпульси викликають резонанс між голосовими зв'язками і губами. Так як мова, щелепа, губи, зуби і альвеолярний апарат рухаються, розмір і місце цих резонансів змінюються, даючи можливість відтворення особливих параметрів звуків.

Можливо побудувати дуже точну модель, також прямо змоделювати руху артикуляторів фізіологічно реальним шляхом. Використання цих моделей призвели до розуміння шляху, в якому відбувається мовний сигнал. Але так як спостереження над артикулятора утруднено, залишаються недоліки. Хоча природа вокального тракту дуже сильно впливає на вихідний сигнал мови, це не єдине обмеження, яке необхідно приймати до уваги, так як контроль над м'язами звукового тракту обумовлений сигналами моторного кортекса мозку. Можливо всі аспекти впливу акустичної структури контролюють сигнали і форму звукового виходу мови (хоча це не може бути доведено з систематичною точки зору).

Аспекти впливу акустичної структури містить у собі:

Ю природу сегментів індивідуального звуку (голосні / приголосні),

Ю структуру складу,

Ю структуру морфем (приставки, коріння, суфікси),

Ю лексикон,

Ю рівень синтаксису фраз і пропозицій та

Ю довгострокові обмеження мови (long-term discourse constraints).

Нижче розглядається вплив обмежень і спосіб їх впливу виробництво сигналу мовлення. Треба також взяти до уваги той факт, що людський апарат сприйняття також повинен бути змодельований, він сам по собі накладає на процес сприйняття додаткові обмеження. Нещодавно процес сприйняття був вивчений за допомогою методу сигнального придушення барабанних перетинок через збудження нервових клітин, які утворюють приблизно 30 тисяч нервових закінчень слухового нерва. Але вивчення нервових закінчень здатне тільки прояснити формування простих синтетичних голосних. Перед дослідниками встало нове головний напрямок у галузі вивчення відтворення мови, пов'язане з інтеграцією всій фізіології сприйняття людини. На даний момент з'являються деякі моделі явищ, що відбуваються у вусі, і не без підстав можна очікувати подальшого поліпшення розуміння процесу розпізнавання мовлення з-за більш повного розуміння характеристик цього впливу.

Що стосується рівня артикуляторного контролю, першим рівнем є індивідуальний фонетичний сегмент, інакше кажучи, - фонема. У багатьох природних мовах їх приблизно 40. Але їх набір істотно разлічатется. Тому, наприклад, англійські голосні можуть бути носовими, навіть ненавмисно, в той час як у французькому носалізація голосних є фонетичним контрастом, і тому впливають на значення вимовного. У французькій мові носова коартікуляція домінує в голосних і істотно впливає на сприйняття фонем і отже на головний сенс значення. Хоча всі говорять мають однаковий голосовий апарат, використання його різне. Так наприклад, використання кінчика язика або клацанням, як у деяких африканських мовах. Ясно, що природа артикуляційних рухів має сильний вплив на метод відтворення мови. Ці обмеження завжди активно використовуються в практичних системах.

На наступному рівні лінгвістичної структури фонетичні сегменти згруповані в приголосні / голосні, а отже і в склади. Далі, в залежності від ролі фонетичного сегмента усередині цих складів їх реалізація може бути сильно змінена. Так наприклад, початковий приголосний в складі може бути реалізований як абсолютно відмінний від кінцевої позиції. Приголосні дуже міцно зв'язуються між собою, що знову ж таки впливає на наступні обмеження. Наприклад, в англійській якщо початкова група приголосних складається з трьох фонем, перша фонема повинна бути / s /, наступного фонемой повинен бути невимовними приголосними, третьою або / r / або / l /, як наприклад, у слові / scrape / або / split / . Ті, що говорять рідною мовою уникають цих обмежень або можуть активно їх використовувати під час процесу сприйняття. З вище наведених прикладів очевидно, що хоча й існують сильні обмеження, що впливають на слухача, але їх сила не є вирішальною під час виголошення промови. Тобто будь-яке моделювання процесу сприйняття може бути активним і може надати велику допомогу в розумінні головного сенсу.

Інший приклад, що показує необхідність застосування сфокусованого пошуку, може бути представлений у сприйнятті кінцевого приголосного. Серед багатьох ключових слів для розпізнавання кінцевого приголосного існує спектральна природа шуму, який відтворюється при звільненні кінцевої перемички і переходу резонансу другий форманти в голосний, наступний за цією перемичкою. Багато дослідників вивчали ці впливи, і результати їх досліджень показали, що обмежує вплив обох вищеописаних характеристик на сприйняття варіюється природою наступного голосного, і отже, потужна стратегія розпізнавання повинна мати деякі знання про твердої позиції голосного перед кінцевим приголосним перед тим, як буде зроблено саме розпізнавання кінцевого приголосного. Кінцеві приголосні дають яскравий приклад дуже цікавого комплексу фонетики, використовуваного для лінгвістичної забарвлення. Наприклад, при розгляді слів rapid і rabid виявляється 16 фонетичний відмінностей.

Крім сегментного і складового рівнів існують обмежені впливу через структуру морфем, які є мінімальними синтаксичними одиницями мови. Вони включають в себе приставки, коріння, суфікси. Можна собі уявити, що це синтаксис на складовому і на морфемному рівнях, також як і нормально розпізнаний синтаксис, характеризується способом, в якому англійські слова об'єднуються у фрази і пропозиції. Можливо представити дані обмеження як наслідки розгляду граматики поза контекстом. У цьому виді обмежень багато "гучних" варіацій сегментів мовлення, які так само ставляться і до ієрархічним синтаксичним обмеженням.

Додаткові обмеження на природі входу нової лексики в мову можуть бути рівнем слова. Численні дослідження виявили, що характеристика слів при введенні розбиття на 5 жорстких класів фонетичних сегментів може бути скорочена до мінімуму, часто маючи єдине у своєму роді розпізнавання. Далі занадто посилюється ефект близько двох літер та фонетичних сегментів з тих пір як у вивченні англійських і французьких словників було виявлено, що понад 90% слів мали єдине значення і лише 0,5% мали 2 і більше альтернатив. На фонемної рівні було виявлено, що всі слова в англійському словнику з 20 тисяч слів мали одне значення через безладних фонемних пар. Цей приклад допомагає показати, що все ще існує обмежувальний вплив на лексичному рівні, яке ще не визначено в сучасних системах розпізнавання мови. Природно, що дослідження в цій області продовжуються.

Крім рівня слів синтаксис має додаткове обмежувальне вплив. Його вплив на послідовний порядок слів часто характеризується в системах чинником, який у свою чергу характеризує кількість можливих слів, які можуть слідувати за попереднім словом у процесі виголошення. Синтаксис також має обмежувальні впливу на просодичні елементи, такі як наголос, наприклад у випадку, коли наголос слів в incline і survey варіюється в залежності від частини мови. Можливо для того, щоб охарактеризувати наголос у слові, потрібно взяти до уваги не тільки індивідуальне слово, але вищенаведені додаткові обмеження синтаксису.

Далі, крім синтаксичного рівня обмеження домінують над семантикою, прагматикою і мовою, що погано усвідомлюється людьми, проте має дуже важливе значення для процесу розпізнавання.

Незважаючи на складність опису характеристик джерел різних обмежень, важливу роль відіграють сучасні системи впливу, які представлені всіма можливими варіантами вимовляння звуків. Наприклад, система HARPI університету Сarnegie-Mellon University є системою, в якій звуковідтворення описується як шлях через комплексну мережу. У цьому способі обмеження структури складу, слова та синтаксису пов'язані однією структурою. Структура контролю, використовувана для пошуку, є адаптацією динамічною програмної техніки. Більш сильний підхід був запропонований моделями використання ланцюгів Маркова. Ці моделі використовувалися як єдина структура, де можливості можуть бути точно вивчені експериментальним шляхом. Закодовані подання спектральної трансформації відтворення мови використовуються для знаходження самого правильного шляху через мережу, і нещодавно були отримані дуже хороші результати. Дуже важливо підкреслити використання такого формально-структурного підходу, який сприяє автоматично визначення класів символів через структурування та параметризацію.

При іншому підході бази даних, і пов'язані з ними процеси обробки використовуються структурою контролю. Цей підхід був вивчений системою HEARSAJ 2, яка була розроблена в інституті Сarnegie-Mellon University, і системою HWIM (hear what I mean). У цих системах комплексна структура даних, яка містить всю інформацію про відтворення звуків, вивчається з точки зору конкретних обмежень. Але як вище зазначено, кожне з цих обмежень має особливу внутрішню модель, і повний аналіз не може бути здійснений. Для проведення аналізу в цілому структура даних повинна мати взаємодія між різними процесами, а також засоби для інтеграції. Незважаючи на те, що структура включає в себе кілька дуже різних джерел знань та її внесок у розуміння мови дуже загальний, вона також має велику кількість ступенів свободи, які можуть бути використані для ретельного системного відтворення. На відміну від цього, техніка, заснована на ланцюгах Маркова, має математичну підтримку. Щоб мати можливість сфокусованого дослідження обмежень взаємодії та інтеграції в контексті, необхідно застосовувати обидві системи. Ті системи, які описують обмеження взаємодії, сфокусовані багато в чому на відтворенні знань, і вони відносно слабо контрольовані, а систем з математичної підтримкою, які в свою чергу мають чудову техніку для встановлення параметрів і оптимізації вивчення, не дістає використання комплексної структури даних, необхідних для характеристики обмежень високого рівня, таких як синтаксис. Обидва напрямки в даний момент знаходяться в процесі розвитку.

На закінчення слід зробити акцент на вплив виробничої технології на ці системи. Технологія інтеграції не є великою проблемою для систем розпізнавання мовлення, навпаки, це є архітектурою цих систем, включаючи спосіб подання обмежень. Необхідно провести грандіозні експерименти і знайти нові способи, які необхідні для обмежувального впливу взаємодії.

У багатьох способи розпізнавання мови має типовий приклад стрімко розвивається класу високо інтегрованих комплексних систем, які повинні використати кращу комп'ютерну техніку і самі останні досягнення сучасного математичного забезпечення.