Застосування методів математичної статистики і теорії ймовірностей у задачах теоретичної лінгвістики

Застосування методів математичної статистики і теорії ймовірностей у задачах теоретичної лінгвістики при аналізі усній і звучала мовлення російською та англійською мовами

2007

Зміст

1. Введення

2. Аналіз віршів

2.1 Побудова дискретного варіаційного ряду

2.2 Безперервні варіаційні ряди

2.3 Графічне побудова дискретних лінгвістичних варіаційних рядів для розглянутих віршів

2.4 Ряди розподілу дискретних випадкових величин

2.5 Математичне сподівання дискретної випадкової величини

2.6 Дисперсія дискретної випадкової величини

2.7 Ентропія дискретної випадкової величини

2.8 Імовірність появи голосних звуків у віршах, порівняння

2.9 Коефіцієнт темпу мови

3. Об'єднаний коефіцієнт синтаксичної та ритмомелодійних складності

4. Висновок

5. Список літератури

1. Введення

В епоху науково-технічної революції математизація охоплює всі сфери людської діяльності, в тому числі і мовознавство. Проникнення математичних методів у лінгвістику зумовлено двома причинами. По-перше, розвиток мовознавчої теорії і практики вимагає введення все більш точних і об'єктивних методів для аналізу мови і тексту. Одночасно використання математичних прийомів при систематизації, вимірі та узагальненні лінгвістичного матеріалу в поєднанні з якісною інтерпретацією результатів дозволяє мовознавцям глибше проникнути в таємниці побудови мови та освіти тексту. По-друге, все розширюються контакти мовознавства з іншими науками, наприклад з акустикою, фізіологією вищої нервової діяльності, кібернетикою та обчислювальною технікою, можуть здійснюватися тільки при використанні математичної мови, що володіє високим ступенем спільності та універсальності для різних галузей знань.

Особливо наполегливо математизуються мовознавство у зв'язку з використанням природної мови в інформаційних і управлінських системах людина-машина-людина. У діючих системах машинного перекладу, автоматичного анотування, людино-машинного діалогу всяке повідомлення на природній мові перекодовується в математичному в електронному вигляді. Прикладом того є голосове управління в сучасних мобільних телефонах.

Говорячи про особливості взаємодії мовознавства і математики, слід мати на увазі, що як природну мову, так і мова математики є знаковими (семіотичний) системами передачі інформації.

Основні розбіжності між цими мовами пов'язані з різним побудовою мовного знака і знака математичного.

лінгвістичний знак (слово, словосполучення, пропозиція) зазвичай включає в себе чотири компоненти - ім'я (матеріальний носій інформації), денотат (відображення предмета із зовнішнього світу), десігнат (поняття про предмет) і коннотат (комплекс чуттєво-оціночних відтінків, пов'язаних з предметом і поняттям про нього); знак математичної мови включає тільки ім'я і десігнат - математичне поняття;

лінгвістичний знак багатозначний - значення його представляють собою нечіткі множини з розмитими межами; математичний знак має, як правило, одне концептуальне значення;

лінгвістичний знак потенційно метафоричний, біля знаку математичного метафоричність повністю відсутня.

Особливості побудови лінгвістичного мови приводять до того, що природна мова являє собою нежорстко організовану дифузну систему, яка сприймається і використовується людиною в значній мірі інтуїтивно. Навпаки, мова математики є добре організованою системою, яка існує і функціонує у вигляді логічного побудови, кожен елемент якого має усвідомлену значущість.

Конфронтація природної мови і мови математики вимагає, щоб кожному лінгвістичного об'єкту було поставлено у відповідність деякий математичний об'єкт. Лінгвістичний знак, наприклад, словосполучення чи слово і становлять цей знак фігури - фонеми, букви, склади - повинні інтерпретуватися з допомогою знаків математичних. Ця математична інтерпретація пов'язана з розчленуванням лінгвістичного об'єкта і виділенням у ньому одного смислового або сигнального компонента, який стає предметом подальшого дослідження.

Застосування математичних методів у мовознавстві має своєю метою замінити зазвичай дифузну, інтуїтивно сформульовану і не має повного вирішення лінгвістичну завдання одним або декількома більш простими, логічно сформульовані, та мають алгоритмічне рішення математичними завданнями. Таке розчленовування складної лінгвістичної проблеми на більш прості алгорітмізуемие завдання ми будемо називати математичної експлікацією лінгвістичного об'єкта чи явища.

Вибір математичного апарату в лінгвістичних дослідженнях - питання не є простим. Його рішення залежить в першу чергу від того, як визначається предмет та основні поняття мовознавства та його теоретичного ядра - структурно-математичної лінгвістики.

Деякі математики і лінгвісти вважають, що предметом математичної лінгвістики має бути вивчення граматики, що породжує текст. При цьому граматика розуміється як кінцеве безліч детермінованих правил, в тому числі неграмматіческіх, а мова розглядається як нескінченне число регулярних ланцюжків слів, породжуваних цієї граматикою. При цьому підході експлікація лінгвістичних об'єктів повинна спиратися на теорію множин, математичну логіку, теорію алгоритмів.

На основі застосування «некількісних» математичного апарату в теоретичному мовознавстві сформувався напрям, умовно зване комбінаторної лінгвістикою - в ній використовуються методи

математичної статистики

теорії ймовірностей,

теорії інформації,

математичного аналізу

Сучасні інструментальні методи експериментальної фонетики пов'язані із застосуванням різних приладів, головним чином електроакустичних (спектрографи, інтонографи тощо), а також реєструють руху органів мови (артикуляцію). Тому фонетика тісно пов'язана з фізикою, фізіологією і математикою. Методи математичної логіки застосовуються для формального опису категорій природних мов. Мовознавство виявилося тією гуманітарною наукою, яка, не пориваючи зв'язків з іншими науками про людину та її культурі, першою рішуче стала використовувати не тільки інструментальні методи спостереження (у фонетиці) та експериментальні прийоми (у психолінгвістиці), але і систематично застосовувати математичні способи (в тому числі і ЕОМ) для отримання і записи своїх висновків.

Мета мого реферату - виявити і вивчити статистичні закономірності стилю двох рівних текстів (по 105 слів у кожному) поетеси Зінаїди Гіппіус (1869 - 1945) «Вільний вірш» і англійського поета Вільяма Блейка «Колискова» (William Blake, 1757-1827, «A Cradle Song ») відповідно до звуковим характеристикам мови - наголосу, складності сприйняття, темпу мови і іншим. При аналізі я використовую наступні терміни:

ймовірність події,

варіаційні ряди,

математичне сподівання,

закон розподілу ймовірності,

дисперсія,

ентропія.

Також я наведу приклади використання методів математичної статистики і теорії ймовірностей при аналізі усній і усної мови.

2. Аналіз віршів

2.1 Побудова дискретного варіаційного ряду

«Вільний вірш»

Пріманной легкістю граючи,

Кличе, тягне вільний вірш.

І спокусив він, спокушаючи,

Ледачих малих і простих.

Обіцяє він швидкі відповіді

І досягнення без боротьби.

За мною! За мною! І ось, поети -

Стиха вільного раби.

Вони стежать його звивини,

Суху ламкість, скрип кутів,

Візерунок плямисто-хтивий

Ікающіх і п'яних слів ...

Чимало слів з подолом брудним

Увійти боялися ... А тепер

Яким струмком одноманітним

Втікають в зламану двері!

Втекли, вшумелі і впилілісь ...

Гогоче вулична рать.

Що ж! Ви недарма підкорилися:

Раби не сміють вибирати.

Без ранку пробив годину вечірній,

І гасне сіра зоря ...

Ви віддані на посміхом черні

Підступної волею царя!

А мені лукавий вірш угодний.

Ми з ним веселі друзі.

Варіаційні ряди довжин слововживання в фонемах:

7 9 6

5 6 9 4

1 9 2 10

7 5 1 7

5 2 7 6

1 10 3 5

2 4 2 4 1 3 5

5 10 4

3 6 3 6

6 7 5 5

18 Квітня

8 1 6 4

6 4 1 7

5 7 1 5

5 червня 1912

8 1 9 4

6 7 1 8

7 8 3

3 1 2 7 9

4 2 6 7

3 4 6 3 8

1 6 6 4

2 5 2 6 5

8 6 4

1 3 7 4 6

2 1 3 7 6

(Порядок проходження чисел тут повторює порядок розташування слів у вірші порядково)

Розглядаючи наведену тут послідовність чисел неважко помітити, що величина довжини словоформ варіює від однієї одиниці сукупності до іншої. Моє завдання - визначити та вивчити варіацію ознаки в даній сукупності.

Можливі значення ознаки в статистиці називають варіантами. Відмінності між варіантами можуть бути як кількісними (дискретними або неперервними) і якісними.

Тепер я побудую дискретний варіаційний ряд довжини словоформ у фонемах в даному вірші:

X	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18
N	13	10	8	13	14	18	1 січня	8	5	3	0	1	0	0	0	0	0	1

Де X - ознака, N - сума всіх варіант, - Варіанти, - Число повторень варіант

N = 105 (тому що текст складається з 105 слів, як було зазначено вище)

Тепер замість абсолютних частот вкажу відносні частоти (частості) у відсотках:

X
f * 100%	12,38%	9,52%	7,62%	12,38%	13,33%	17,14%	10,47%	7,62%	4,76%

X
f * 100%	2,85%	0%	0,95%	0%	0%	0%	0%	0%	0,95%

Найпоширеніші слова в даному вірші мають довжину в 6 фонем (17,14%)

Проведу аналогічні дії з віршем «Колискова»:

A Cradle Song

Sweet dreams form a shade,

O'er my lovely infants head.

Sweet dreams of pleasant streams,

By happy silent moony beams

Sweet sleep with soft down,

Weave thy brows an infant crown.

Sweet sleep Angel mild,

Hover o'er happy child.

Sweet smiles in the night,

Hover over my delight.

Sweet smiles Mothers smiles

All the livelong night beguiles.

Sweet moans, dovelike sighs,

Chase not slumber from thy eyes,

Sweet moans, sweeter smiles,

All the dovelike moans beguiles.

Sleep sleep happy child.

All creation slept and smil'd.

Sleep sleep, happy sleep, 1

While o'er thee thy mother weep

Sweet babe in thy face,

Holy image I can trace.

Варіаційні ряди довжин слововживання в фонемах:

4 5 4 1 5

4 3 5 7 3

4 5 4 7 6

3 4 7 4 4

4 4 4 4

3 3 5 2 6 5

4 4 6 5

6 2 3 4 5

4 6 2 2 4

6 4 3 6

4 6 5 6

2 2 7 4 7

4 5 7 4

4 3 6 4 2 3

4 5 4 6

2 2 7 5 7

4 4 4 4

2 7 5 3 6

4 4 4 4

4 4 2 2 4 3

4 4 2 2

4 3 4 2 3 5

Дискретний варіаційний ряд довжини словоформ у фонемах в даному вірші буде такий:

X	1	2	3	4	5	6	7
N	1	15	13	41	14	12	9

Де так само, як і в попередньому прикладі, X - ознака (кількість фонем у слові), N - сума всіх варіант, - Варіанти, - Число повторень варіант.

N = 105

Очевидним є те, що дискретні варіантні ряди двох віршів сильно відрізняються один від одного, це можна уявити наочніше, якщо замість абсолютних частот вказати відносні частоти у відсотках:

X
f * 100%	0,95%	14,28%	12,38%	39,04%	13,33%	11,42%	8,57%

Різниця між довжинами словоформ в розглянутих віршах полягає в тому, що у англійського автора переважають слова в чотири фонеми (39,04%), у той час як у Зінаїди Гіппіус - в шість. Так само нескладно помітити, що кількість варіантів у вірші «The Cradle Song» значно менше, ніж у «Вільний вірш».

2.2 Безперервні варіаційні ряди

Безперервні варіаційні ряди, як і дискретні, широко поширені в аналізі усній і усної мови, так як тут значення ознаки:

довжина

частота

інтенсивність звуку

можуть відрізнятися один від одного на як завгодно малу величину. Оскільки відмінності між варіантами мають безперервний характер, використовується тільки інтервальне побудова варіаційного ряду. Для дослідження даних фонетичних аспектів потрібні спеціальні вимірювальні прилади для вимірів звучання складів. Незважаючи на неможливість проведення даного аналізу, я розповім про його основному принципі.

При наявності результатів емпіричних досліджень, створюються безперервні інтервальні ряди, де - Довжина складів у мс, а інтервали варіант виглядають наступним чином - ( , ( ), ( ) І так далі.

Ширина інтервалу визначається за формулою Стерджесс:

При цьому інтервальна різниця k округлюється до найближчого цілого числа, число інтервалів l визначається з виразу

2.3 Графічне побудова дискретних лінгвістичних варіаційних рядів для розглянутих віршів

Незважаючи на його простоту, слабкою стороною табличного опису коливання ознаки є недостатня наочність. Тому для досягнення більшої наочності я використовую графічне зображення даного мене розподілу (довжин словоформ по фонемам) - багатокутник розподілу ознаки (полігон).

2.4 Ряди розподілу дискретних випадкових величин

Так як дискретна випадкова величина може приймати можливі значення з різними ймовірностями, щоб охарактеризувати її у статистичному сенсі, необхідно вказати ймовірності всіх її значень.

Законом розподілу ймовірностей дискретної випадкової величини називається таблиця відповідності між можливими значеннями цієї величини та їх імовірностями. Ця таблиця - ряд розподілу дискретної випадкової величини.

Для першого вірша:

	8	9
	0.1238	0.0952	0.0762	0.1238	0.1333	0.1714	0.1047	0.0762	0.0476

X	10	11	12	13	14	15	16	17	18
	0.0285	0	0.0095	0	0	0	0	0	0.0095

Для другого вірша:

X	1	2	3	4	5	6	7
	0. 095	0. 1428	0. 1238	0. 3904	0. 1333	0. 1142	0.0 857

За визначенням, сума ймовірностей подій у кожному з віршів повинна бути дорівнює 1

Зроблю перевірку результатів. Для першого вірша:

0.1238 + 0.0952 + 0.0762 + 0.1238 + 0.1333 + 0.1714 + 0.1047 + 0.0762 + 0.0476 + 0.0285 + 0.0095 + 0.0095 = 0.9997 -

підрахунки зроблені з невеликою похибкою

Для другого вірша:

0.095 + 0.1428 + 0.1238 + 0.3904 + 0.1333 + 0.1142 + 0.0857 = 0.997 1

З даних результатів випливає, що попередні дослідження зроблено без помилок.

2.5 Математичне сподівання дискретної випадкової величини

Математичним очікуванням дискретної випадкової величини Х називається сума добутків її всіх можливих значень на відповідні ймовірності, позначається через М (Х).

Якщо випадкова величина приймає значення , Відповідно з ймовірностями , ... , То

Варто зауважити, що математичне очікування є величиною постійною, його часто називають статистичними значенням випадкової величини, а також центром розподілу, так як біля нього групуються окремі значення випадкової величини.

Для «Вільного вірші»:

M (X) = 1 0.1238 + 2 0.0952 + 3 0.0762 + 4 0.1238 + 5 0.1333 +6 0.1714 + 7 0.1047 + 8 0.0762 + 9 0.0476 + 10 0.0285 + 12 0.0095 + 18 0.0095 = 5.0738

Для «The Cradle Song»:

M (X) = 1 0.095 + 2 0.1428 + 3 0.1238 + 4 0.3904 + 5 0.1333 +6 0.1142 + 7 0.0857 = 4.1797

Відповідно, M (X) > M (X) , Виходячи з даного результату можна стверджувати, що перший вірш складніше для сприйняття на слух, ніж друге, що важливо для аналізу усної мови.

2.6 Дисперсія дискретної випадкової величини

Дисперсією дискретної випадкової величини Х називається математичне сподівання квадрата її відхилення від середнього статистичного значення і позначається через D (X).

Для першого вірша:

D (X) = 0.1238 (1 - 5.0738) + 0.0952 (2 - 5.0738) + 0.0762 (3 - 5.0738) + 0.1238 (4 - 5.0738) 0.1333 (5 - 5.0738) + 0.1714 (6 - 5.0738) + 0.1047 (7 - 5.0738) + 0.0762 (8 - 5.0738) + 0.0476 (9 - 5.0738) + 0.0285 (10 - 5.0738) + 0.0095 (12 - 5.0738) + 0.0095 (18 - 5.0738) = 8.0928

Для другого вірша:

D (X) = 0.095 (1 - 4.1797) + 0.1428 (2 - 4.1797) + 0.1238 (3 - 4.1797) + 0.3904 (4 - 4.1797) + 0.1333 (5 - 4.1797) + 0.1142 (6 - 4.1797) + 0.0857 (7 - 4.1797) = 2.9732

2.7 Ентропія дискретної випадкової величини

Теорія ентропії - основа сучасної теорії інформації, яка є актуальним напрямком досліджень у галузі теорії ймовірностей і вищої математики в цілому. Ентропія є інформаційною характеристикою дискретної випадкової величини. Обчислюється вона за формулою К. Шеннона:

Для першого вірша H (X) = 3,282844098 біт

Для другого вірша H (X) = 2,675265 біт

Ентропія в лінгвістиці - це одна з найбільш універсальних теоретико-інформаційних характеристик тексту. Це показник складності тексту в теоретико-інформаційному сенсі.

З даних результатів нескладно зробити висновок, що стиль і звучання «Вільного вірші» Зінаїди Гіппіус набагато складніше вірша «The Cradle Song ». Воно більш варіативно і дещо важче сприймається на слух.

2.8 Імовірність появи голосних звуків у віршах, порівняння

Розрахувати ймовірність голосних звуків у вірші буде не складно, тим не менш, результати даного дослідження дадуть нам можливість порівняти вірші за рівнем їх співучості, плавності.

Позначимо кількість голосних звуків у першому вірші , У другому -

За результатами підрахунків = 216, = 205, але це ще не означає, що російське вірш співучої англійської, для цього слід розрахувати ймовірності і за загальною формулою

533 - для першого вірша, відповідно 439

Очевидно те, що у вірші Вільяма Блейка ймовірність появи голосних звуків перевищує відповідну ймовірність у вірші Зінаїди Гіппіус, тому можна з повною впевненістю стверджувати, що твір «The Cradle Song »названо автором як не можна до речі -" колискова "- співуча, плавна, спокійна.

2.9 Коефіцієнт темпу мови

T =

Де n - кількість знаменних слів,

Р - кількість підлягають,

S - кількість присудків,

N - кількість простих речень,

N - Кількість двусоставних пропозицій.

Для «Вільного вірші»:

T = = 9.33

Для «Колискової»:

T = 1.23

Темп мовлення першого вірша значно перевищує відповідний показник у другому, звідси випливає, що другий вірш більш спокійне, плавне, що знову підтверджує, що Вільям Блейк відмінно підібрав назву для свого творіння.

3. Об'єднаний коефіцієнт синтаксичної та ритмомелодійних складності

Так як предметами мого дослідження є два вірші, то формула для розрахунку об'єднаного коефіцієнта синтаксичної та ритмомелодійних складності може зіграти величезну роль у вивченні даних текстів з точки зору усній і звучної мови і виявленні різниці між ними.

Загальна формула виглядає наступним чином:

Сл =

Де n - кількість знаменних слів,

T - Кількість ненаголошених складів,

l - Кількість рядків,

N = 105, як нам відомо з попередніх досліджень.

Сл 1.0762

Сл 0.314

З даних підрахунків можна зробити висновок, що вірш сприймається на слух складніше, ніж вірш Вільяма Блейка.

4. Висновок

Розглянуте дослідження наочно ілюструє можливості методів математичної статистики і теорії ймовірностей у задачах математичної лінгвістики. Там, де однією тільки інтуїції читача недостатньо, так як вона завжди суб'єктивна і недостатньо достовірна, застосовується математичний підхід - суворий, об'єктивний, що грунтується на математичній моделі стилю певного виду. У моєму прикладі була розглянута імовірнісна модель тексту - найбільш поширена для вирішення складних завдань лінгвістичного аналізу, але аж ніяк не єдина.

Порівнявши «Вільне вірш» Зінаїди Гіппіус і «The Cradle Song» Вільяма Блейка за допомогою методів математичної статистики і теорії ймовірностей, я прийшла до висновку, що стиль Зінаїди Гіппіус більш різноманітний, складний, непередбачуваний, а вірш англійського поета - більш плавне, спокійне, співуче, мелодійне, легко сприймається на слух.

5. Список літератури

Р.Г. Піотровський, К.Б. Бектаев, А.А. Піотровська, Математична Лінгвістика, - М.: Вища школа, 1977

В.В. Савченко, Теорія ймовірностей і математична статистика: Конспект лекцій, - Н. Новгород: НГЛУ, 2003

В.В. Савченко, В. В. Ретівіна, Математика та інформатика для лінгвістів, короткий конспект лекцій, - Н. Новгород: НГЛУ, 2006

ВВ Власов, Конспект лекцій з вищої математики, - М.: Айріс, 1997

Р.Г. Піотровський, К.Б. Бектаев, Математичні методи в мовознавстві. Частина 2. математична статистика та моделювання тексту, Алма-ата: КазГУ, 1973