Огляд методів обробки природної мови в задачах дистанційного навчання

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Огляд методів обробки природної мови в задачах дистанційного навчання.
Завдання обробки природної мови за допомогою ЕОМ з кожним днем ​​стає все актуальнішою і актуальніше. Розвиток науково-технічного прогресу в усьому світі призвело до того, що обсяг нової інформації постійно зростає зі стрімко наростаючою швидкістю. Людина у багатьох випадках стає не в змозі самостійно переробити всю необхідну для його професійної діяльності інформацію. І тоді комп'ютерні системи, що використовують новітні алгоритми обробки природної мови, можуть надати йому реальну допомогу.
Останнім часом комп'ютери стали активно впроваджуватися в систему освіти / 1,2,3 /. Створено величезну кількість програмних продуктів, спрямованих на навчання різного роду предметів. Якщо раніше дисципліни, що вивчаються за допомогою комп'ютерних програм ставилися в основному до технічних, то тепер комп'ютер широко використовується і при підготовці фахівців з гуманітарних предметів, провідну роль серед яких, безперечно, займають іноземні мови. Підвищення інтересу до іноземних мов, і особливо до англійської, за останні кілька років легко пояснюється змінами політичного та економічного характеру, і як наслідок, зростанням ролі знання іноземної мови.
Потреби нашого суспільства в комп'ютеризації навчання мови сьогодні різко зросли у зв'язку з наступними чинниками:
- Неможливість проходження спеціальних мовних курсів без відриву від основної роботи;
- Постійне зростання оснащеності персональними комп'ютерами населення Росії;
- Орієнтація учнівської молоді на ЕОМ як на головний засіб автоматизації інтелектуальної праці;
- Гострий дефіцит кадрів педагогів мовних дисциплін;
та ряд інших.
Стрімкий розвиток комп'ютерних та інформаційних технологій природним чином позначилися і на системі освіти. Можливості, які з'явилися завдяки впровадженню передових мережевих технологій (Internet - технологій) на території Росії, послужили приводом для початку серйозних проектів, пов'язаних з новим типом навчання - дистанційним навчанням (ДН). Під терміном ДО розуміється навчання, при якому викладач і учень розділені просторово.
Трохи про історію та розвиток ДВ / 1 /. ДО виникло більш як століття тому. Прийнято розрізняти 4 покоління розвитку ДН.
Перше покоління ДО почало розвиватися в кінці 19, на початку 20 століття. Найбільш поширеними тоді матеріалами були видрукувані в друкарнях підручники та збірники вправ до них. Взаємодія учня з викладачем відбувалося за допомогою звичайної поштового зв'язку (обмін листами).
Друге покоління ДО почало розвиватися в 70-і роки. Був створений ряд університетів (в основному в Англії), мета яких була готувати студентів, які з тих чи інших причин не мали можливості навчатися в очній формі. Навчальні матеріали давалися з використанням місцевого телебачення і радіо або шляхом пересилання поштою аудіо записів курсів. Аудіо-конференції з використанням телефонних систем, теж є частиною другого покоління розвитку ДН.
Третє покоління ДО (початок 80-х років) пов'язують з появою супутникових технологій і розвитком комп'ютерної техніки. Доставка інформації стала можлива за допомогою комп'ютерних мереж у цифровому вигляді. До третього покоління розвитку ДО також відносять відеоконференції і використання носіїв CD-ROM.
Четверте покоління ДО виникло з моменту розповсюдженням Internet-технології по всьому світу. Internet набагато полегшив доступ у інформації. Зробив можливим як синхронне (chat, відео та аудіо конференції), так і асинхронне (e-mail) взаємодія учня з викладачем. Використання в ДО технологій базуються на WEB дає можливість застосовувати під час навчального процесу не тільки текстову інформацію, але й звук і відео.
Як видно з вище сказаного, основним питанням в організації ДН є спосіб доставки та організації навчального матеріалу / 1 /. Одним з перспективних способів передачі інформації під час організації ДН є e-mail. За останні роки в різних університетах світу проводилося навчання за експериментальною методикою, особливість якої була в тому, що взаємодія учнів (студентів других і 3-х курсів) і викладачів, або повністю, або частково, відбувалося за допомогою e-mail / 2 /. Курсові матеріали, використані в експериментах, були добре структуровані і підготовлені для самостійного освоєння. У результаті було показано, що засвоєння пройденого матеріалу студентами навчаються за допомогою e-mail, відбувається не гірше, а на деяких курсах краще студентів, що навчаються традиційно. Так само викладачами та студентами, які беруть участь в експерименті, було відзначено ряд переваг такого підходу до навчання / 2 /.
Викладачами були відзначені такі позитивні якості цього методу:
- Студент практично не залежить від розкладу;
- Доставка і "читання" матеріалів курсу реєструється викладачем (при відкритті листа учням, автоматично надсилається лист викладачу);
- Робота з курсом практично не вимагає папери, що забезпечує зручність роботи і швидкість копіювання матеріалу;
- Одного разу підготовлений курсової матеріал може бути використаний в наступні роки.
Так само важливо відзначити ряд переваг використання e-mail, які знайшли для себе учні:
- Використання e-mail не вимагає присутності на лекціях курсу;
- Можливість роботи з матеріалом у зручний для учнів час;
- Весь курсової матеріал добре систематизований і може бути легко відтворений в повному обсязі самостійно навіть після закінчення навчання.
Всі перераховані вище переваги лише мала частина того, що може дати утворення використання інформаційних технологій та методів ДО в порівнянні з традиційними підходами.
Які нові можливості дозволяє використовувати ДО в порівнянні з широко відомою заочною формою?
1. Можливість оперативного обміну інформації з досліджуваної проблеми, як з викладачем, так і з іншими учасниками, які вивчають курс.
2. Доступ до різних джерел інформації, у тому числі віддалених і розподілених баз даних, численним конференцій по всьому світу, величезній кількості бібліотек.
3. Можливість організації спільних міжнародних конференцій з досліджуваної проблеми, можливість запиту та отримання відповіді на питання, що цікавлять через електронні конференції.
4. Можливість навчання у престижних закордонних вузах, не залишаючи при цьому свого будинку.
З вище сказаного можна зробити висновок про необхідність і перспективність розвитку ДО. Важливо сформулювати основні вимоги до створюваних продуктів, орієнтованим на застосування для дистанційного навчання іноземної мови. Основні вимоги:
- Організація знань про мову у вигляді цілісної моделі;
- Представлення цієї моделі на ЕОМ в доступній для учня формі;
- Використання алгоритмів і методів штучного інтелекту (ШІ) з метою підвищення ефективності учня комплексу;
- Забезпечення контролю знань учня за допомогою ЕОМ;
- Забезпечення роботи системи, як у локальній мережі, так і в глобальній мережі Internet;
- Забезпечення відкритості системи для зручності наповнення та коригування бази знань та тренажерів;
- Забезпечення платформної незалежності системи;
- Забезпечення модульності системи з метою швидкої заміни, додавання або видалення додатків, використовуваних у навчанні;
- Забезпечення зв'язку з викладачем.
У даній роботі приділяється особлива увага питанню використання в такого роду проектах методів ШІ. Мова піде про алгоритми роботи з текстовою інформацією.
Завдання інтелектуальної обробки текстів природною мовою вперше з'явилася на рубежі 60-х-70х рр.. / 7 /. З тих пір було зроблено безліч різних спроб її вирішення, створені десятки експериментальних програм, здатних вести діалог з користувачем на природній мові. Однак широкого поширення такі системи поки не отримали - як правило, з-за невисокої якості розпізнавання фраз, жорстких вимог до синтаксису "природної мови", а також великих витрат машинного часу і ресурсів, необхідних для їх роботи. Практично у всіх системах машинного розуміння тексту використовується обмежений природний мову, оскільки повної і суворої формальної моделі ні для однієї природної мови поки не створено.
Тим не менш природно-мовні засоби спілкування людини з ЕОМ постійно розвиваються, залишаючись одним з найбільш перспективних способів побудови користувальницького інтерфейсу до складних інформаційних систем.
Дослідження цієї області в Європі і США привертають увагу найбільших приватних фірм і державних організацій самого високого рівня. Серйозна робота в напрямку вирішенні проблем автоматичної обробки ЕЯ почалася з заснованих ARPA програм у 1980-х роках / 7 /, серед яких:
- Програма розпізнавання мови ATIS;
- Програма, спрямована на вирішення завдань розуміння та вилучення інформації з текстів IE (Information Extraction);
- Програма TIPSTER, що існувала з 1991 по 1998 рік, основною метою якої було порівняння та оцінка результатів роботи різних пошукових систем і систем реферування.
Необхідно відзначити, що такі завдання як розпізнавання та генерації мови, створення пошукових систем і систем реферування, до теперішнього часу вирішуються з мінімальною участю лінгвістів. Це зумовлено використанням при вирішенні вищезазначених завдань в основному статистичних методів.
Незважаючи на це, за довгі роки чітко визначилися області, в яких найбільш сильні позиції професійних лінгвістів. Це лексико-граматичний аналіз (Part of Speech tagging) пропозиції / 4,5,6 /, синтаксичний аналіз (Text Parsing) пропозиції, знаходження власних назв у тексті і автоматичне реферування.
Завдання лексико-граматичного аналізу - автоматично розпізнати, якої частини мови належить кожне слово тексті. На рис.1 показаний приклад пропозиції, в якому кожному слову поставлений у відповідність лексико-граматичний клас.
The / AT man / NN still / RB saw / VBD her / PPO. /.
Позначення
RB - прислівник
AT - опр. артикль
NN - іменник
VB - дієслово
VBD - дієслово в минулому часі
PPO - об'єктне займенник
PP $ - особиста займенник
. - Точка
Рис.1
Дану задачу не важко виконати для російської мови завдяки його розвиненою морфології практично зі стовідсотковою точністю. В англійській мові простий алгоритм, що привласнює кожному слову в тексті найбільш ймовірний для даного слова лексико-граматичний клас (частина мови) працює з точністю близько 90%, що обумовлено лексичної багатозначністю англійської мови.
Для поліпшення точності лексико-граматичного аналізу використовуються два типи алгоритмів: ймовірнісно-статистичні і засновані на продукційних правилах, що оперують словами і кодами.
Більшість ймовірнісно-статистичних алгоритмів / 4 / використовує два джерела інформації:
1. Словник словоформ мови / 5 /, в якому кожній словоформі відповідає безліч лексико-граматичних класів, які можуть бути у даної словоформи. Наприклад, для словоформи well в словнику зазначено, що вона може бути прислівником, іменником, прикметником і вигуком. Для кожного лексико-граматичного класу словоформи вказується частота його зустрічаємості щодо інших лексико-граматичних класів даної словоформи. Частота зазвичай підраховується на корпусі текстів, в якому попередньо вручну кожному слову приведений у відповідність лексико-граматичний клас. Таким чином, словоформа well в словнику буде представлена ​​наступним чином (рис.2):
Словоформа
Частина мови
Частота
Well
іменник
4
Well
прислівник
1567
Well
прикметник
6
Well
вигук
1
Рис.2
2. Інформацію про народження всіх можливих послідовностей лексико-граматичних класів. У залежності від того, як представлена ​​дана інформація, поділяють біграмную, тріграмную і квадріграмную моделі. У біграмной моделі використовується інформація про всі можливі послідовностях з двох кодів (мал.3):
Послідовність
Частота
неопр.артікль + сущ.ед.ч
35983
неопр.артікль + сущ.мн.ч
7494
Опр.артікль + сущ.ед.ч
13838
неопр.артікль + сущ.мн.ч
47
Рис.3
У тріграмной моделі і квадріграмной моделі використовується відповідно інформація про всі можливі послідовностях з 3-х і 4-х кодів.
Розглянемо докладніше приклад розбору пропозиції, представленого на рис.1. Перш за все, визначаються всі можливі значення частин мови, що входять в речення, словоформ. Так словоформа "The" може бути тільки AT; "man" - NN або VB; "still" - NN, VB або RB; "saw" - NN або VBD; "her"-PPO або PP $. Далі скориставшись таблицею частотності, присвоюємо словоформами той чи інший лексико-граматичний клас. Приклад таблиці частотності для нашої пропозиції наведено на рис. 4.
NN
PPO
PP $
RB
VB
VBD
.
AT
186
0
0
8
1
8
9
NN
4
1
3
40
9
66
186
PPO
7
3
16
164
109
16
313
PP $
176
0
0
5
1
1
2
RB
5
3
16
164
109
16
313
VB
22
694
146
98
9
1
59
VBD
11
584
143
160
2
1
91
Рис.4
Наприклад поєднання "The man" може бути або (AT-NN) або (AT-VB), c відповідними ймовірностями 186 та 1. Далі, аналогічно, порівнюються ймовірності p (AT-NN-NN) = 744, p (AT-NN-VB) = 1674 і p (AT-NN-RB) = 7440 і т.д. У результаті ми отримаємо таку комбінацію: "AT-NN-RB-VBD-PPO", що і буде результатом роботи ймовірнісно-статистичного алгоритму.
Представлена ​​вище інформація обробляється програмою, що використовує статистичні алгоритми, найчастіше алгоритм прихованих ланцюгів Маркова / 4 / для знаходження найбільш ймовірного лексико-граматичного класу для кожного слова в реченні.
Алгоритми, засновані на продукційних правилах, використовують правила, зібрані автоматично з корпусу текстів, або підготовлені кваліфікованими лінгвістами. Прикладом можуть бути наступні правила:
- Якщо словоформа може бути як дієсловом, так і іменником, і перед нею стоїть артикль, ця словоформа в даному випадку є іменником.
- Якщо словоформа може бути як приводом, так і підрядним союзом, і якщо після неї до кінця пропозиції немає дієслова, ця словоформа в даному випадку є приводом.
Обидва підходи дають приблизно однаковий результат. При їх використанні роздільно або в різних комбінаціях точність лексико-граматичного аналізу поліпшується до 96-98%. Оскільки точність при лексико-граматичному аналізі тексту вручну також має певну похибку (0,5-2%), можна вважати, що автоматизація лексико-граматичного аналізу досягла практично такий же точності.
Синтаксичний аналіз / 8 /. На відміну від лексико-граматичного аналізу тексту, синтаксичний аналіз - розвивається область прикладної лінгвістики. Мета синтаксичного аналізу - автоматична побудова функціонального дерева фрази, тобто знаходження взаємозалежностей між різнорівневими елементами пропозиції. Вважається, що маючи успішно побудоване функціональне дерево фрази, можна виділити з пропозиції смислові елементи: логічний суб'єкт, логічний предикат, прямі і непрямі додатки і різні види обставин. Існує велика кількість різних підходів до синтаксичному аналізу текстів, наприклад система LTAG / 8 /. Головна особливість цієї системи полягає в побудові елементарних смислових дерев пропозиції. Кожне елементарне дерево містить в собі всю синтаксичну і семантичну інформацію про конкретний слові або групи слів. До цих деревах можуть бути застосовані операції примикання і підстановки. Підстановка є простою операцією - підстановкою дерева до висить вершині іншого дерева. Примикання є більш складною операцією - приєднання деякого дерева до внутрішніх вершин іншого дерева. Даний алгоритм докладно описаний у роботі / 8 /. Нижче розглянуто один із загальних підходів синтаксичного аналізу речення.
Синтаксичний розбір пропозиції відбувається шляхом набору послідовних перетворень:
- Пошук граматичних ідіом;
- Лексико-граматичний аналіз речення з усуненням неоднозначності у визначенні частин мови;
- Знаходження іменний групи об'єкта і суб'єкта;
- Знаходження дієслівної групи;
- Виділення головних і підрядних речень.
Наведемо приклад синтаксичного розбору пропозиції рис.5.
[We] {have found} / that [subsequent addition] (of [the second inducer]) (of [either system]) <after {allowing} [single induction] {to proceed} +> (for [15 minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both enzymes]).
Позначення:
[...] - Група іменника;
(...) - Група доповнення;
{...} - Дієслівна група;
/ ... \ І <...> - головні і підрядні речення;
+ - Закінчення дієслівного оточення.
Рис.5
У даній оглядовій роботі описані лише деякі алгоритми і найбільш загальні підходи до проблеми автоматичної обробки природно-мовних текстів.
Сьогодні в області комп'ютерної лінгвістики щорічно проводиться більше 40 конференцій по всьому світу, присвячених проблемам обробки природної мови. Постійно зростає кількість програмних продуктів, пов'язаних з даною темою, підвищується їх якість. Але, незважаючи на це, ті системи перекладу, реферування та експертні системи, які на сьогоднішній день вважаються кращими, далеко не ідеальні і вимагають серйозних доопрацювань. Все це говорить про необхідність продовження досліджень з питань, пов'язаних з обробкою природної мови в задачах ДН та розробки нових підходів та алгоритмів, заснованих на методах штучного інтелекту.
Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Реферат
66кб. | скачати


Схожі роботи:
Застосування методів математичної статистики і теорії ймовірностей у задачах теоретичної лінгвістики
Навчальні модулі в системі дистанційного навчання
Розробка комунікативного класу для дистанційного навчання
Цілі дистанційного навчання Методи управління часом Трансакційні витрати
Застосування дистанційного навчання при вивченні курсу сферичної геометрії
Огляд методів оздоровлення
Огляд методів діагностики агресивності
Оптимальний вибір методів навчання з метою підвищення ефективності процесу навчання
Огляд методів розрахунку рекламного бюджету
© Усі права захищені
написати до нас