Принцип аналогії в морфології

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

У роботі Белоногова Г. Г. та Зеленкова Ю. Г. описується принцип побудови алгоритму морфологічного аналізу текстів на основі принципу аналогії. Даний принцип використовується в системах орфографічного контролю російських текстів, системах автоматичного індексування документів і системах машинного перекладу текстів з російської мови на англійську і з англійської мови на російську. Продуктивність програми на комп'ютері з процесором від 386 і вище складає близько 400 слів / с.

При автоматичній обробці тексту виникає проблема "нових" слів. Для синтаксичного аналізу і синтезу необхідно знати граматичні характеристики слів. Якщо слова у словнику немає, то морфологічний аналіз не може бути виконаний, а отже не можуть бути визначені граматичні характеристики слова.

Для того, щоб визначити граматичні характеристики слів без словника, Белоногов запропонував принцип аналогії. Він заснований на тому, що існує сильний кореляційний зв'язок між граматичними характеристиками слів і літерним складом їх кінців. Наприклад: організація, приватизація, концентрація мають ж. р., ім. п. і од. ч.; працюють, розуміють, привертають - це дієслова в 3-му особі мн. ч. і т. д.

Принцип аналогії перевірявся на ряді індоєвропейських мов: (російська, болгарська, латиська, іспанська, англійська) і виявився ефективним. Спочатку він застосовувався для визначення граматичних характеристик слів, не включених в машинний словник. Потім виникла ідея при проведенні морфологічного аналізу відмовитися від машинного словника.

Якщо за текстами великого обсягу скласти словник словоформ і призначити кожній словоформі деякі граматичні ознаки, а потім перетворити в даний словник зворотний словник словоформ, то можна виявити, що багато ділянок словника мають однакові набори ознак.

Зворотний словник словоформ являє собою список словоформ з такими характеристиками як ознака довжини граматичного закінчення, номер флективної класу (типу словозміни) і числовий індекс, що характеризує такі ознаки як "глагольность", "займенник", "порівняльна ступінь". Наприклад:

масштабу 01/001/01

служба 01/056/01

виникли 02/105/10

батальйон 00/021/01

розраховуючи 00/152/10

Зворотний словник використовується для автоматичного морфологічного аналізу текстів, якщо складові їх словоформи ототожнювати зі словоформами словника і приписувати їм граматичну інформацію, зазначену в словнику. Словоформами тексту, які не перебувають у словнику, можна приписувати граматичну інформацію тих словоформ словника, кінці яких у максимальному ступені збігаються з кінцями цих нових словоформ тексту.

Обсяг зворотного словника можна скоротити, якщо на всіх його ділянках залишити по дві словоформи: початкову та кінцеву. Більше того з цих двох словоформ можна залишити тільки одну, і якщо словоформа тексту не співпаде з жодною словоформою зворотного словника, то їй приписується інформація безпосередньо попередньої словоформи цього словника.

Даний скорочений словник можна ще скоротити, якщо виключити з нього початкові літери словоформ, що не роблять вплив на результати морфологічного аналізу. При цьому у кожної пари, що стоять поруч словоформ залишаються праворуч збігаються кінцеві буквосполучення і ще по одній букві, які не збігаються. Наприклад:

аба 01/001/01

ЄБА 01/044/01

неба 01/071/01

авшіе 02/105/10

батальйон 00/021/01

бовуючи 00/152/10

Після виконання всіх операцій обсяг словника скорочується в 8 разів. На точність спочатку включених до словника словоформ це не вплине, а точність аналізу інших словоформ російської мови буде досить високою.

Для морфологічного аналізу текстів на основі методу аналогії достатньо мати зворотним словником кінців слів. Але автори розробки зробили ще "Словник службових і коротких слів". У цей словник були включені спочатку прийменники, займенники, частинки, союзи і короткі слова до 5 букв. Потім до нього увійшли також словоформи, які за методом аналогії аналізувалися невірно. У результаті цей словник збільшився до 11 тисяч словоформ.

Таким чином, в процесі морфологічного аналізу словоформи шукаються в словнику "Службових і коротких слів", а потім у словнику решт словоформ. Результати аналізу, отримані за першим словником, вважаються більш надійними, і словоформи, знайдені в цьому словнику, подальшій обробці не піддаються.

В даний час ймовірність правильного аналізу слів при обробці текстів будь-якої тематики перевищує 99%.

У розробці даної системи разом з авторами цієї статті брали участь наукові співробітники відділу лінгвістичних досліджень ВІНІТІ: А. П. Новосьолов, Є. Ю. Рижова, С. А. Самодєлкіна, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Є. Г. Дружиніна.

Додати в блог або на сайт

Цей текст може містити помилки.

Іноземні мови і мовознавство | Твір
9.5кб. | скачати


Схожі роботи:
Аналогії у праві
Принцип громадянства та універсальний принцип дії кримінального закону Поняття злочину та його
Шпаргалка з морфології
Опричнина її соціально-політичне значення та історичні аналогії
Аналогії пугачовщини в Капітанської доньки та дійсні події
Діалектні відмінності у морфології
Фізіологія з основами морфології
Теоретичні аспекти морфології
Основні етапи вивчення морфології
© Усі права захищені
написати до нас