Огляд методів обробки природної мови в задачах дистанційного навчання.
Завдання обробки природної мови за допомогою ЕОМ з кожним днем стає все актуальнішою і актуальніше. Розвиток науково-технічного прогресу в усьому світі призвело до того, що обсяг нової інформації постійно зростає зі стрімко наростаючою швидкістю. Людина у багатьох випадках стає не в змозі самостійно переробити всю необхідну для його професійної діяльності інформацію. І тоді комп'ютерні системи, що використовують новітні алгоритми обробки природної мови, можуть надати йому реальну допомогу.
Останнім часом комп'ютери стали активно впроваджуватися в систему освіти / 1,2,3 /. Створено величезну кількість програмних продуктів, спрямованих на навчання різного роду предметів. Якщо раніше дисципліни, що вивчаються за допомогою комп'ютерних програм ставилися в основному до технічних, то тепер комп'ютер широко використовується і при підготовці фахівців з гуманітарних предметів, провідну роль серед яких, безперечно, займають іноземні мови. Підвищення інтересу до іноземних мов, і особливо до англійської, за останні кілька років легко пояснюється змінами політичного та економічного характеру, і як наслідок, зростанням ролі знання іноземної мови.
Потреби нашого суспільства в комп'ютеризації навчання мови сьогодні різко зросли у зв'язку з наступними чинниками:
- Неможливість проходження спеціальних мовних курсів без відриву від основної роботи;
- Постійне зростання оснащеності персональними комп'ютерами населення Росії;
- Орієнтація учнівської молоді на ЕОМ як на головний засіб автоматизації інтелектуальної праці;
- Гострий дефіцит кадрів педагогів мовних дисциплін;
та ряд інших.
Стрімкий розвиток комп'ютерних та інформаційних технологій природним чином позначилися і на системі освіти. Можливості, які з'явилися завдяки впровадженню передових мережевих технологій (Internet - технологій) на території Росії, послужили приводом для початку серйозних проектів, пов'язаних з новим типом навчання - дистанційним навчанням (ДН). Під терміном ДО розуміється навчання, при якому викладач і учень розділені просторово.
Трохи про історію та розвиток ДВ / 1 /. ДО виникло більш як століття тому. Прийнято розрізняти 4 покоління розвитку ДН.
Перше покоління ДО почало розвиватися в кінці 19, на початку 20 століття. Найбільш поширеними тоді матеріалами були видрукувані в друкарнях підручники та збірники вправ до них. Взаємодія учня з викладачем відбувалося за допомогою звичайної поштового зв'язку (обмін листами).
Друге покоління ДО почало розвиватися в 70-і роки. Був створений ряд університетів (в основному в Англії), мета яких була готувати студентів, які з тих чи інших причин не мали можливості навчатися в очній формі. Навчальні матеріали давалися з використанням місцевого телебачення і радіо або шляхом пересилання поштою аудіо записів курсів. Аудіо-конференції з використанням телефонних систем, теж є частиною другого покоління розвитку ДН.
Третє покоління ДО (початок 80-х років) пов'язують з появою супутникових технологій і розвитком комп'ютерної техніки. Доставка інформації стала можлива за допомогою комп'ютерних мереж у цифровому вигляді. До третього покоління розвитку ДО також відносять відеоконференції і використання носіїв CD-ROM.
Четверте покоління ДО виникло з моменту розповсюдженням Internet-технології по всьому світу. Internet набагато полегшив доступ у інформації. Зробив можливим як синхронне (chat, відео та аудіо конференції), так і асинхронне (e-mail) взаємодія учня з викладачем. Використання в ДО технологій базуються на WEB дає можливість застосовувати під час навчального процесу не тільки текстову інформацію, але й звук і відео.
Як видно з вище сказаного, основним питанням в організації ДН є спосіб доставки та організації навчального матеріалу / 1 /. Одним з перспективних способів передачі інформації під час організації ДН є e-mail. За останні роки в різних університетах світу проводилося навчання за експериментальною методикою, особливість якої була в тому, що взаємодія учнів (студентів других і 3-х курсів) і викладачів, або повністю, або частково, відбувалося за допомогою e-mail / 2 /. Курсові матеріали, використані в експериментах, були добре структуровані і підготовлені для самостійного освоєння. У результаті було показано, що засвоєння пройденого матеріалу студентами навчаються за допомогою e-mail, відбувається не гірше, а на деяких курсах краще студентів, що навчаються традиційно. Так само викладачами та студентами, які беруть участь в експерименті, було відзначено ряд переваг такого підходу до навчання / 2 /.
Викладачами були відзначені такі позитивні якості цього методу:
- Студент практично не залежить від розкладу;
- Доставка і "читання" матеріалів курсу реєструється викладачем (при відкритті листа учням, автоматично надсилається лист викладачу);
- Робота з курсом практично не вимагає папери, що забезпечує зручність роботи і швидкість копіювання матеріалу;
- Одного разу підготовлений курсової матеріал може бути використаний в наступні роки.
Так само важливо відзначити ряд переваг використання e-mail, які знайшли для себе учні:
- Використання e-mail не вимагає присутності на лекціях курсу;
- Можливість роботи з матеріалом у зручний для учнів час;
- Весь курсової матеріал добре систематизований і може бути легко відтворений в повному обсязі самостійно навіть після закінчення навчання.
Всі перераховані вище переваги лише мала частина того, що може дати утворення використання інформаційних технологій та методів ДО в порівнянні з традиційними підходами.
Які нові можливості дозволяє використовувати ДО в порівнянні з широко відомою заочною формою?
1. Можливість оперативного обміну інформації з досліджуваної проблеми, як з викладачем, так і з іншими учасниками, які вивчають курс.
2. Доступ до різних джерел інформації, у тому числі віддалених і розподілених баз даних, численним конференцій по всьому світу, величезній кількості бібліотек.
3. Можливість організації спільних міжнародних конференцій з досліджуваної проблеми, можливість запиту та отримання відповіді на питання, що цікавлять через електронні конференції.
4. Можливість навчання у престижних закордонних вузах, не залишаючи при цьому свого будинку.
З вище сказаного можна зробити висновок про необхідність і перспективність розвитку ДО. Важливо сформулювати основні вимоги до створюваних продуктів, орієнтованим на застосування для дистанційного навчання іноземної мови. Основні вимоги:
- Організація знань про мову у вигляді цілісної моделі;
- Представлення цієї моделі на ЕОМ в доступній для учня формі;
- Використання алгоритмів і методів штучного інтелекту (ШІ) з метою підвищення ефективності учня комплексу;
- Забезпечення контролю знань учня за допомогою ЕОМ;
- Забезпечення роботи системи, як у локальній мережі, так і в глобальній мережі Internet;
- Забезпечення відкритості системи для зручності наповнення та коригування бази знань та тренажерів;
- Забезпечення платформної незалежності системи;
- Забезпечення модульності системи з метою швидкої заміни, додавання або видалення додатків, використовуваних у навчанні;
- Забезпечення зв'язку з викладачем.
У даній роботі приділяється особлива увага питанню використання в такого роду проектах методів ШІ. Мова піде про алгоритми роботи з текстовою інформацією.
Завдання інтелектуальної обробки текстів природною мовою вперше з'явилася на рубежі 60-х-70х рр.. / 7 /. З тих пір було зроблено безліч різних спроб її вирішення, створені десятки експериментальних програм, здатних вести діалог з користувачем на природній мові. Однак широкого поширення такі системи поки не отримали - як правило, з-за невисокої якості розпізнавання фраз, жорстких вимог до синтаксису "природної мови", а також великих витрат машинного часу і ресурсів, необхідних для їх роботи. Практично у всіх системах машинного розуміння тексту використовується обмежений природний мову, оскільки повної і суворої формальної моделі ні для однієї природної мови поки не створено.
Тим не менш природно-мовні засоби спілкування людини з ЕОМ постійно розвиваються, залишаючись одним з найбільш перспективних способів побудови користувальницького інтерфейсу до складних інформаційних систем.
Дослідження цієї області в Європі і США привертають увагу найбільших приватних фірм і державних організацій самого високого рівня. Серйозна робота в напрямку вирішенні проблем автоматичної обробки ЕЯ почалася з заснованих ARPA програм у 1980-х роках / 7 /, серед яких:
- Програма розпізнавання мови ATIS;
- Програма, спрямована на вирішення завдань розуміння та вилучення інформації з текстів IE (Information Extraction);
- Програма TIPSTER, що існувала з 1991 по 1998 рік, основною метою якої було порівняння та оцінка результатів роботи різних пошукових систем і систем реферування.
Необхідно відзначити, що такі завдання як розпізнавання та генерації мови, створення пошукових систем і систем реферування, до теперішнього часу вирішуються з мінімальною участю лінгвістів. Це зумовлено використанням при вирішенні вищезазначених завдань в основному статистичних методів.
Незважаючи на це, за довгі роки чітко визначилися області, в яких найбільш сильні позиції професійних лінгвістів. Це лексико-граматичний аналіз (Part of Speech tagging) пропозиції / 4,5,6 /, синтаксичний аналіз (Text Parsing) пропозиції, знаходження власних назв у тексті і автоматичне реферування.
Завдання лексико-граматичного аналізу - автоматично розпізнати, якої частини мови належить кожне слово тексті. На рис.1 показаний приклад пропозиції, в якому кожному слову поставлений у відповідність лексико-граматичний клас.
The / AT man / NN still / RB saw / VBD her / PPO. /.
Позначення
RB - прислівник
AT - опр. артикль
NN - іменник
VB - дієслово
VBD - дієслово в минулому часі
PPO - об'єктне займенник
PP $ - особиста займенник
. - Точка
Рис.1
Дану задачу не важко виконати для російської мови завдяки його розвиненою морфології практично зі стовідсотковою точністю. В англійській мові простий алгоритм, що привласнює кожному слову в тексті найбільш ймовірний для даного слова лексико-граматичний клас (частина мови) працює з точністю близько 90%, що обумовлено лексичної багатозначністю англійської мови.
Для поліпшення точності лексико-граматичного аналізу використовуються два типи алгоритмів: ймовірнісно-статистичні і засновані на продукційних правилах, що оперують словами і кодами.
Більшість ймовірнісно-статистичних алгоритмів / 4 / використовує два джерела інформації:
1. Словник словоформ мови / 5 /, в якому кожній словоформі відповідає безліч лексико-граматичних класів, які можуть бути у даної словоформи. Наприклад, для словоформи well в словнику зазначено, що вона може бути прислівником, іменником, прикметником і вигуком. Для кожного лексико-граматичного класу словоформи вказується частота його зустрічаємості щодо інших лексико-граматичних класів даної словоформи. Частота зазвичай підраховується на корпусі текстів, в якому попередньо вручну кожному слову приведений у відповідність лексико-граматичний клас. Таким чином, словоформа well в словнику буде представлена наступним чином (рис.2):
Рис.2
2. Інформацію про народження всіх можливих послідовностей лексико-граматичних класів. У залежності від того, як представлена дана інформація, поділяють біграмную, тріграмную і квадріграмную моделі. У біграмной моделі використовується інформація про всі можливі послідовностях з двох кодів (мал.3):
Рис.3
У тріграмной моделі і квадріграмной моделі використовується відповідно інформація про всі можливі послідовностях з 3-х і 4-х кодів.
Розглянемо докладніше приклад розбору пропозиції, представленого на рис.1. Перш за все, визначаються всі можливі значення частин мови, що входять в речення, словоформ. Так словоформа "The" може бути тільки AT; "man" - NN або VB; "still" - NN, VB або RB; "saw" - NN або VBD; "her"-PPO або PP $. Далі скориставшись таблицею частотності, присвоюємо словоформами той чи інший лексико-граматичний клас. Приклад таблиці частотності для нашої пропозиції наведено на рис. 4.
Рис.4
Наприклад поєднання "The man" може бути або (AT-NN) або (AT-VB), c відповідними ймовірностями 186 та 1. Далі, аналогічно, порівнюються ймовірності p (AT-NN-NN) = 744, p (AT-NN-VB) = 1674 і p (AT-NN-RB) = 7440 і т.д. У результаті ми отримаємо таку комбінацію: "AT-NN-RB-VBD-PPO", що і буде результатом роботи ймовірнісно-статистичного алгоритму.
Представлена вище інформація обробляється програмою, що використовує статистичні алгоритми, найчастіше алгоритм прихованих ланцюгів Маркова / 4 / для знаходження найбільш ймовірного лексико-граматичного класу для кожного слова в реченні.
Алгоритми, засновані на продукційних правилах, використовують правила, зібрані автоматично з корпусу текстів, або підготовлені кваліфікованими лінгвістами. Прикладом можуть бути наступні правила:
- Якщо словоформа може бути як дієсловом, так і іменником, і перед нею стоїть артикль, ця словоформа в даному випадку є іменником.
- Якщо словоформа може бути як приводом, так і підрядним союзом, і якщо після неї до кінця пропозиції немає дієслова, ця словоформа в даному випадку є приводом.
Обидва підходи дають приблизно однаковий результат. При їх використанні роздільно або в різних комбінаціях точність лексико-граматичного аналізу поліпшується до 96-98%. Оскільки точність при лексико-граматичному аналізі тексту вручну також має певну похибку (0,5-2%), можна вважати, що автоматизація лексико-граматичного аналізу досягла практично такий же точності.
Синтаксичний аналіз / 8 /. На відміну від лексико-граматичного аналізу тексту, синтаксичний аналіз - розвивається область прикладної лінгвістики. Мета синтаксичного аналізу - автоматична побудова функціонального дерева фрази, тобто знаходження взаємозалежностей між різнорівневими елементами пропозиції. Вважається, що маючи успішно побудоване функціональне дерево фрази, можна виділити з пропозиції смислові елементи: логічний суб'єкт, логічний предикат, прямі і непрямі додатки і різні види обставин. Існує велика кількість різних підходів до синтаксичному аналізу текстів, наприклад система LTAG / 8 /. Головна особливість цієї системи полягає в побудові елементарних смислових дерев пропозиції. Кожне елементарне дерево містить в собі всю синтаксичну і семантичну інформацію про конкретний слові або групи слів. До цих деревах можуть бути застосовані операції примикання і підстановки. Підстановка є простою операцією - підстановкою дерева до висить вершині іншого дерева. Примикання є більш складною операцією - приєднання деякого дерева до внутрішніх вершин іншого дерева. Даний алгоритм докладно описаний у роботі / 8 /. Нижче розглянуто один із загальних підходів синтаксичного аналізу речення.
Синтаксичний розбір пропозиції відбувається шляхом набору послідовних перетворень:
- Пошук граматичних ідіом;
- Лексико-граматичний аналіз речення з усуненням неоднозначності у визначенні частин мови;
- Знаходження іменний групи об'єкта і суб'єкта;
- Знаходження дієслівної групи;
- Виділення головних і підрядних речень.
Наведемо приклад синтаксичного розбору пропозиції рис.5.
[We] {have found} / that [subsequent addition] (of [the second inducer]) (of [either system]) <after {allowing} [single induction] {to proceed} +> (for [15 minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both enzymes]).
Позначення:
[...] - Група іменника;
(...) - Група доповнення;
{...} - Дієслівна група;
/ ... \ І <...> - головні і підрядні речення;
+ - Закінчення дієслівного оточення.
Рис.5
У даній оглядовій роботі описані лише деякі алгоритми і найбільш загальні підходи до проблеми автоматичної обробки природно-мовних текстів.
Сьогодні в області комп'ютерної лінгвістики щорічно проводиться більше 40 конференцій по всьому світу, присвячених проблемам обробки природної мови. Постійно зростає кількість програмних продуктів, пов'язаних з даною темою, підвищується їх якість. Але, незважаючи на це, ті системи перекладу, реферування та експертні системи, які на сьогоднішній день вважаються кращими, далеко не ідеальні і вимагають серйозних доопрацювань. Все це говорить про необхідність продовження досліджень з питань, пов'язаних з обробкою природної мови в задачах ДН та розробки нових підходів та алгоритмів, заснованих на методах штучного інтелекту.
Завдання обробки природної мови за допомогою ЕОМ з кожним днем стає все актуальнішою і актуальніше. Розвиток науково-технічного прогресу в усьому світі призвело до того, що обсяг нової інформації постійно зростає зі стрімко наростаючою швидкістю. Людина у багатьох випадках стає не в змозі самостійно переробити всю необхідну для його професійної діяльності інформацію. І тоді комп'ютерні системи, що використовують новітні алгоритми обробки природної мови, можуть надати йому реальну допомогу.
Останнім часом комп'ютери стали активно впроваджуватися в систему освіти / 1,2,3 /. Створено величезну кількість програмних продуктів, спрямованих на навчання різного роду предметів. Якщо раніше дисципліни, що вивчаються за допомогою комп'ютерних програм ставилися в основному до технічних, то тепер комп'ютер широко використовується і при підготовці фахівців з гуманітарних предметів, провідну роль серед яких, безперечно, займають іноземні мови. Підвищення інтересу до іноземних мов, і особливо до англійської, за останні кілька років легко пояснюється змінами політичного та економічного характеру, і як наслідок, зростанням ролі знання іноземної мови.
Потреби нашого суспільства в комп'ютеризації навчання мови сьогодні різко зросли у зв'язку з наступними чинниками:
- Неможливість проходження спеціальних мовних курсів без відриву від основної роботи;
- Постійне зростання оснащеності персональними комп'ютерами населення Росії;
- Орієнтація учнівської молоді на ЕОМ як на головний засіб автоматизації інтелектуальної праці;
- Гострий дефіцит кадрів педагогів мовних дисциплін;
та ряд інших.
Стрімкий розвиток комп'ютерних та інформаційних технологій природним чином позначилися і на системі освіти. Можливості, які з'явилися завдяки впровадженню передових мережевих технологій (Internet - технологій) на території Росії, послужили приводом для початку серйозних проектів, пов'язаних з новим типом навчання - дистанційним навчанням (ДН). Під терміном ДО розуміється навчання, при якому викладач і учень розділені просторово.
Трохи про історію та розвиток ДВ / 1 /. ДО виникло більш як століття тому. Прийнято розрізняти 4 покоління розвитку ДН.
Перше покоління ДО почало розвиватися в кінці 19, на початку 20 століття. Найбільш поширеними тоді матеріалами були видрукувані в друкарнях підручники та збірники вправ до них. Взаємодія учня з викладачем відбувалося за допомогою звичайної поштового зв'язку (обмін листами).
Друге покоління ДО почало розвиватися в 70-і роки. Був створений ряд університетів (в основному в Англії), мета яких була готувати студентів, які з тих чи інших причин не мали можливості навчатися в очній формі. Навчальні матеріали давалися з використанням місцевого телебачення і радіо або шляхом пересилання поштою аудіо записів курсів. Аудіо-конференції з використанням телефонних систем, теж є частиною другого покоління розвитку ДН.
Третє покоління ДО (початок 80-х років) пов'язують з появою супутникових технологій і розвитком комп'ютерної техніки. Доставка інформації стала можлива за допомогою комп'ютерних мереж у цифровому вигляді. До третього покоління розвитку ДО також відносять відеоконференції і використання носіїв CD-ROM.
Четверте покоління ДО виникло з моменту розповсюдженням Internet-технології по всьому світу. Internet набагато полегшив доступ у інформації. Зробив можливим як синхронне (chat, відео та аудіо конференції), так і асинхронне (e-mail) взаємодія учня з викладачем. Використання в ДО технологій базуються на WEB дає можливість застосовувати під час навчального процесу не тільки текстову інформацію, але й звук і відео.
Як видно з вище сказаного, основним питанням в організації ДН є спосіб доставки та організації навчального матеріалу / 1 /. Одним з перспективних способів передачі інформації під час організації ДН є e-mail. За останні роки в різних університетах світу проводилося навчання за експериментальною методикою, особливість якої була в тому, що взаємодія учнів (студентів других і 3-х курсів) і викладачів, або повністю, або частково, відбувалося за допомогою e-mail / 2 /. Курсові матеріали, використані в експериментах, були добре структуровані і підготовлені для самостійного освоєння. У результаті було показано, що засвоєння пройденого матеріалу студентами навчаються за допомогою e-mail, відбувається не гірше, а на деяких курсах краще студентів, що навчаються традиційно. Так само викладачами та студентами, які беруть участь в експерименті, було відзначено ряд переваг такого підходу до навчання / 2 /.
Викладачами були відзначені такі позитивні якості цього методу:
- Студент практично не залежить від розкладу;
- Доставка і "читання" матеріалів курсу реєструється викладачем (при відкритті листа учням, автоматично надсилається лист викладачу);
- Робота з курсом практично не вимагає папери, що забезпечує зручність роботи і швидкість копіювання матеріалу;
- Одного разу підготовлений курсової матеріал може бути використаний в наступні роки.
Так само важливо відзначити ряд переваг використання e-mail, які знайшли для себе учні:
- Використання e-mail не вимагає присутності на лекціях курсу;
- Можливість роботи з матеріалом у зручний для учнів час;
- Весь курсової матеріал добре систематизований і може бути легко відтворений в повному обсязі самостійно навіть після закінчення навчання.
Всі перераховані вище переваги лише мала частина того, що може дати утворення використання інформаційних технологій та методів ДО в порівнянні з традиційними підходами.
Які нові можливості дозволяє використовувати ДО в порівнянні з широко відомою заочною формою?
1. Можливість оперативного обміну інформації з досліджуваної проблеми, як з викладачем, так і з іншими учасниками, які вивчають курс.
2. Доступ до різних джерел інформації, у тому числі віддалених і розподілених баз даних, численним конференцій по всьому світу, величезній кількості бібліотек.
3. Можливість організації спільних міжнародних конференцій з досліджуваної проблеми, можливість запиту та отримання відповіді на питання, що цікавлять через електронні конференції.
4. Можливість навчання у престижних закордонних вузах, не залишаючи при цьому свого будинку.
З вище сказаного можна зробити висновок про необхідність і перспективність розвитку ДО. Важливо сформулювати основні вимоги до створюваних продуктів, орієнтованим на застосування для дистанційного навчання іноземної мови. Основні вимоги:
- Організація знань про мову у вигляді цілісної моделі;
- Представлення цієї моделі на ЕОМ в доступній для учня формі;
- Використання алгоритмів і методів штучного інтелекту (ШІ) з метою підвищення ефективності учня комплексу;
- Забезпечення контролю знань учня за допомогою ЕОМ;
- Забезпечення роботи системи, як у локальній мережі, так і в глобальній мережі Internet;
- Забезпечення відкритості системи для зручності наповнення та коригування бази знань та тренажерів;
- Забезпечення платформної незалежності системи;
- Забезпечення модульності системи з метою швидкої заміни, додавання або видалення додатків, використовуваних у навчанні;
- Забезпечення зв'язку з викладачем.
У даній роботі приділяється особлива увага питанню використання в такого роду проектах методів ШІ. Мова піде про алгоритми роботи з текстовою інформацією.
Завдання інтелектуальної обробки текстів природною мовою вперше з'явилася на рубежі 60-х-70х рр.. / 7 /. З тих пір було зроблено безліч різних спроб її вирішення, створені десятки експериментальних програм, здатних вести діалог з користувачем на природній мові. Однак широкого поширення такі системи поки не отримали - як правило, з-за невисокої якості розпізнавання фраз, жорстких вимог до синтаксису "природної мови", а також великих витрат машинного часу і ресурсів, необхідних для їх роботи. Практично у всіх системах машинного розуміння тексту використовується обмежений природний мову, оскільки повної і суворої формальної моделі ні для однієї природної мови поки не створено.
Тим не менш природно-мовні засоби спілкування людини з ЕОМ постійно розвиваються, залишаючись одним з найбільш перспективних способів побудови користувальницького інтерфейсу до складних інформаційних систем.
Дослідження цієї області в Європі і США привертають увагу найбільших приватних фірм і державних організацій самого високого рівня. Серйозна робота в напрямку вирішенні проблем автоматичної обробки ЕЯ почалася з заснованих ARPA програм у 1980-х роках / 7 /, серед яких:
- Програма розпізнавання мови ATIS;
- Програма, спрямована на вирішення завдань розуміння та вилучення інформації з текстів IE (Information Extraction);
- Програма TIPSTER, що існувала з 1991 по 1998 рік, основною метою якої було порівняння та оцінка результатів роботи різних пошукових систем і систем реферування.
Необхідно відзначити, що такі завдання як розпізнавання та генерації мови, створення пошукових систем і систем реферування, до теперішнього часу вирішуються з мінімальною участю лінгвістів. Це зумовлено використанням при вирішенні вищезазначених завдань в основному статистичних методів.
Незважаючи на це, за довгі роки чітко визначилися області, в яких найбільш сильні позиції професійних лінгвістів. Це лексико-граматичний аналіз (Part of Speech tagging) пропозиції / 4,5,6 /, синтаксичний аналіз (Text Parsing) пропозиції, знаходження власних назв у тексті і автоматичне реферування.
Завдання лексико-граматичного аналізу - автоматично розпізнати, якої частини мови належить кожне слово тексті. На рис.1 показаний приклад пропозиції, в якому кожному слову поставлений у відповідність лексико-граматичний клас.
The / AT man / NN still / RB saw / VBD her / PPO. /.
Позначення
RB - прислівник
AT - опр. артикль
NN - іменник
VB - дієслово
VBD - дієслово в минулому часі
PPO - об'єктне займенник
PP $ - особиста займенник
. - Точка
Рис.1
Дану задачу не важко виконати для російської мови завдяки його розвиненою морфології практично зі стовідсотковою точністю. В англійській мові простий алгоритм, що привласнює кожному слову в тексті найбільш ймовірний для даного слова лексико-граматичний клас (частина мови) працює з точністю близько 90%, що обумовлено лексичної багатозначністю англійської мови.
Для поліпшення точності лексико-граматичного аналізу використовуються два типи алгоритмів: ймовірнісно-статистичні і засновані на продукційних правилах, що оперують словами і кодами.
Більшість ймовірнісно-статистичних алгоритмів / 4 / використовує два джерела інформації:
1. Словник словоформ мови / 5 /, в якому кожній словоформі відповідає безліч лексико-граматичних класів, які можуть бути у даної словоформи. Наприклад, для словоформи well в словнику зазначено, що вона може бути прислівником, іменником, прикметником і вигуком. Для кожного лексико-граматичного класу словоформи вказується частота його зустрічаємості щодо інших лексико-граматичних класів даної словоформи. Частота зазвичай підраховується на корпусі текстів, в якому попередньо вручну кожному слову приведений у відповідність лексико-граматичний клас. Таким чином, словоформа well в словнику буде представлена наступним чином (рис.2):
Словоформа | Частина мови | Частота |
Well | іменник | 4 |
Well | прислівник | 1567 |
Well | прикметник | 6 |
Well | вигук | 1 |
2. Інформацію про народження всіх можливих послідовностей лексико-граматичних класів. У залежності від того, як представлена дана інформація, поділяють біграмную, тріграмную і квадріграмную моделі. У біграмной моделі використовується інформація про всі можливі послідовностях з двох кодів (мал.3):
Послідовність | Частота |
неопр.артікль + сущ.ед.ч | 35983 |
неопр.артікль + сущ.мн.ч | 7494 |
Опр.артікль + сущ.ед.ч | 13838 |
неопр.артікль + сущ.мн.ч | 47 |
У тріграмной моделі і квадріграмной моделі використовується відповідно інформація про всі можливі послідовностях з 3-х і 4-х кодів.
Розглянемо докладніше приклад розбору пропозиції, представленого на рис.1. Перш за все, визначаються всі можливі значення частин мови, що входять в речення, словоформ. Так словоформа "The" може бути тільки AT; "man" - NN або VB; "still" - NN, VB або RB; "saw" - NN або VBD; "her"-PPO або PP $. Далі скориставшись таблицею частотності, присвоюємо словоформами той чи інший лексико-граматичний клас. Приклад таблиці частотності для нашої пропозиції наведено на рис. 4.
NN | PPO | PP $ | RB | VB | VBD | . | |
AT | 186 | 0 | 0 | 8 | 1 | 8 | 9 |
NN | 4 | 1 | 3 | 40 | 9 | 66 | 186 |
PPO | 7 | 3 | 16 | 164 | 109 | 16 | 313 |
PP $ | 176 | 0 | 0 | 5 | 1 | 1 | 2 |
RB | 5 | 3 | 16 | 164 | 109 | 16 | 313 |
VB | 22 | 694 | 146 | 98 | 9 | 1 | 59 |
VBD | 11 | 584 | 143 | 160 | 2 | 1 | 91 |
Наприклад поєднання "The man" може бути або (AT-NN) або (AT-VB), c відповідними ймовірностями 186 та 1. Далі, аналогічно, порівнюються ймовірності p (AT-NN-NN) = 744, p (AT-NN-VB) = 1674 і p (AT-NN-RB) = 7440 і т.д. У результаті ми отримаємо таку комбінацію: "AT-NN-RB-VBD-PPO", що і буде результатом роботи ймовірнісно-статистичного алгоритму.
Представлена вище інформація обробляється програмою, що використовує статистичні алгоритми, найчастіше алгоритм прихованих ланцюгів Маркова / 4 / для знаходження найбільш ймовірного лексико-граматичного класу для кожного слова в реченні.
Алгоритми, засновані на продукційних правилах, використовують правила, зібрані автоматично з корпусу текстів, або підготовлені кваліфікованими лінгвістами. Прикладом можуть бути наступні правила:
- Якщо словоформа може бути як дієсловом, так і іменником, і перед нею стоїть артикль, ця словоформа в даному випадку є іменником.
- Якщо словоформа може бути як приводом, так і підрядним союзом, і якщо після неї до кінця пропозиції немає дієслова, ця словоформа в даному випадку є приводом.
Обидва підходи дають приблизно однаковий результат. При їх використанні роздільно або в різних комбінаціях точність лексико-граматичного аналізу поліпшується до 96-98%. Оскільки точність при лексико-граматичному аналізі тексту вручну також має певну похибку (0,5-2%), можна вважати, що автоматизація лексико-граматичного аналізу досягла практично такий же точності.
Синтаксичний аналіз / 8 /. На відміну від лексико-граматичного аналізу тексту, синтаксичний аналіз - розвивається область прикладної лінгвістики. Мета синтаксичного аналізу - автоматична побудова функціонального дерева фрази, тобто знаходження взаємозалежностей між різнорівневими елементами пропозиції. Вважається, що маючи успішно побудоване функціональне дерево фрази, можна виділити з пропозиції смислові елементи: логічний суб'єкт, логічний предикат, прямі і непрямі додатки і різні види обставин. Існує велика кількість різних підходів до синтаксичному аналізу текстів, наприклад система LTAG / 8 /. Головна особливість цієї системи полягає в побудові елементарних смислових дерев пропозиції. Кожне елементарне дерево містить в собі всю синтаксичну і семантичну інформацію про конкретний слові або групи слів. До цих деревах можуть бути застосовані операції примикання і підстановки. Підстановка є простою операцією - підстановкою дерева до висить вершині іншого дерева. Примикання є більш складною операцією - приєднання деякого дерева до внутрішніх вершин іншого дерева. Даний алгоритм докладно описаний у роботі / 8 /. Нижче розглянуто один із загальних підходів синтаксичного аналізу речення.
Синтаксичний розбір пропозиції відбувається шляхом набору послідовних перетворень:
- Пошук граматичних ідіом;
- Лексико-граматичний аналіз речення з усуненням неоднозначності у визначенні частин мови;
- Знаходження іменний групи об'єкта і суб'єкта;
- Знаходження дієслівної групи;
- Виділення головних і підрядних речень.
Наведемо приклад синтаксичного розбору пропозиції рис.5.
[We] {have found} / that [subsequent addition] (of [the second inducer]) (of [either system]) <after {allowing} [single induction] {to proceed} +> (for [15 minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both enzymes]).
Позначення:
[...] - Група іменника;
(...) - Група доповнення;
{...} - Дієслівна група;
/ ... \ І <...> - головні і підрядні речення;
+ - Закінчення дієслівного оточення.
Рис.5
У даній оглядовій роботі описані лише деякі алгоритми і найбільш загальні підходи до проблеми автоматичної обробки природно-мовних текстів.
Сьогодні в області комп'ютерної лінгвістики щорічно проводиться більше 40 конференцій по всьому світу, присвячених проблемам обробки природної мови. Постійно зростає кількість програмних продуктів, пов'язаних з даною темою, підвищується їх якість. Але, незважаючи на це, ті системи перекладу, реферування та експертні системи, які на сьогоднішній день вважаються кращими, далеко не ідеальні і вимагають серйозних доопрацювань. Все це говорить про необхідність продовження досліджень з питань, пов'язаних з обробкою природної мови в задачах ДН та розробки нових підходів та алгоритмів, заснованих на методах штучного інтелекту.