Проблеми автоматизації перекладу математичної літератури з англійської мови на російську

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

III науково-практична конференція школярів
з математики, її додатків та інформаційних технологій
«Пошук»
Навчально-дослідна робота
«Проблеми автоматизації перекладу математичної літератури з англійської мови на російську»
Учениці 9 класу
Гіназіі № 71 м. Гомеля
Баранової Валерії Вікторівни
Науковий керівник -
Горський С.М.,
вчитель інформатики
Гомель, 2008

Зміст
Введення
1. Перерахунок розмірностей
2. Імплікації в англійських науково-технічних текстах
3. Математичні штампи
Висновок
Список використаних джерел
Додаток 1

Введення
Велика кількість математичної літератури змушує шукати способи автоматичного перекладу, але низька якість програм-перекладачів змушує використовувати техніку перекладу «машина-людина», тобто на початку текст обробляє програма, а потім його коригує людина, що істотно знижує витрати на переклад.
На жаль, сучасні програми-перекладачі, такі як Prompt, не підтримують формат TeX, що став стандартом подання математичних текстів. Так само абсолютно не підтримується передача символів, назв функцій, власних імен, що стали традиційними для російськомовної математичної літератури.
Дана робота намагається заповнити цю прогалину на стадії допереводческого аналізу тексту. У першому розділі роботи обговорюються питання передачі формул (перерахунок при необхідності). Другий розділ присвячений імплікація в математичних текстах, що так само не враховується програмами-перекладачами. У третьому розділі показується, що при перекладі математичного тексту можна застосовувати технологію Translation Memory, і наведені основні математичні штампи [Сосінскій].
Дослідження, пов'язані з цією роботою дозволили написати кілька програм на мові Perl для аналізу і часткового виконання перекладу. Недолік обсягу тексту не дозволяє їх розглянути докладно. Перерахуємо дані програми:
1. Програма для передачі символів, імен власних, назв функцій, назв теорем і т. п., скорочень.
2. Програма для аналізу діалекту англійської мови (British English чи American) оскільки це впливає на перерахунок формул.
3. Програма для знаходження коментарів у текстах програм і вказівки, чи можна виробляти переклад змінних. Дана програма є актуальною, оскільки в мовах програмування типу Perl, Python неможливо відрізнити коментарі від програми, не знаючи синтаксису коментарів (На Perl навіть складають поеми).
4. Програма для пошуку імплікацій в тексті для полегшення редагування машинного перекладу.

1. Перерахунок розмірностей
Розглядаються приклади перерахунку розмірностей при переході від британської системи одиниць до метричної або до міжнародної системи (СІ). Ця операція - не проста і відповідальна, особливо коли у вихідному тексті розмірність величини представлена ​​неправильно або незвично, або коли потрібно визначити чисельний коефіцієнт у напівемпіричної розрахунковій формулі. Наведемо обгрунтування термінів, використаних при розгляді прикладів.
Звичайний перерахунок розмірності
Такий перерахунок розмірності зводиться до перемноження всіх складових її одиниць виміру, кожна з яких помножена на свій коефіцієнт перерахунку. У нижченаведеної таблиці наведені коефіцієнти перерахунку найбільш ходових одиниць вимірювання з британської системи одиниць в міжнародну. Аналогічні таблиці існують для перерахунку британських одиниць в метричні і метричних одиниць в міжнародні.
Найменування величини
Значення (Х) величини в британській системі
Коефіцієнт перерахунку з британської системи одиниць в СІ
Результат перерахунку, представлений в СІ
Довжина
Х foot (ft)
0,3048
0,3048 Х м
Площа
Х foot square (ft 2)
0,3048 × 0,3048
0,0929 Х м 2
Обсяг
Х cubic foot (ft 3)
0,3048 3 = 28,317 × 10 -3
28,317 × 10 -3 Х м 3
Маса
Х pound of mass (lb m)
0,4536
0,4536 Х кг
Час
Х second (s)
1
Х сек, або Х з
Сила
Х pound of force (lb f)
4,448
4, 448 Х Н
Швидкість
Х f / s
0,3048 / 1 = 0,3048
0,3048 Х м / с
Робота
Х lb f x ft
4,448 × 0,348 = 1,356
1,356 Х Нм
Тиск
Х lb f / in 2 (psi)
4,448 / (0,0254) 2 = 6895
6895 Х Н / м 2

Наприклад, у вихідному тексті говориться, що робочий тиск резервуара одно 980 psi. В СІ цей тиск записується як 6,757 МПа (перерахунок: 6895 × 980 Н / м 2 = 6757100 Н / м 2 »6,757 МПа).
Звичайно, таблиця відображає лише малу частину практичних випадків. Взяти хоча б довжину. В англійській мові для її виміру крім фути широко використовуються дюйм, ярд, миля, милий, мікродюйм, і, отже, кількість сполучень з використанням одиниць вимірювання довжини в розмірностях велике. Крім системних одиниць виміру існує безліч позасистемних (або «відомчих»). Наприклад, крім системної міжнародної одиниці вимірювання тиску Паскаль (тобто Н / м 2), в російській технічній літературі використовуються кгс / см 2 = кГ / см 2, кг / м 2, атм. (Атмосфера), торр (мм ртутного стовпа), бар (приблизно дорівнює атмосфері і точно дорівнює 100 кПа), пьеза, міліметр водяного стовпа.
Визначення розмірності шляхом її аналізу
Розглянемо приклад. У статті з обробки металів різанням наводиться таблиця значень питомої роботи різання U t, причому розмірність цієї величини має вигляд h. P. / In 3 / min. Така неочевидна запис розмірності неприпустима, оскільки її можна зрозуміти як (h. P. / In 3 ): min і як h. p. (in 3 / min).
Щоб перед перерахунком визначити правильну запис розмірності, перекладач міркує таким чином: h. P. - Потужність, тобто робота в одиницю часу; якщо її поділити на in 3, отримаємо питому потужність (тобто потужність, яка витрачається на одиницю об'єму металу); щоб з питомої потужності отримати питому роботу, потрібно питому потужність помножити на час. Таким чином, правильний запис має виглядати як (h. P. / In 3) · min, або h. P. · Min / in 3.
Визначення розмірності шляхом оцінки значення величини
У статті, присвяченій розрахунку градирні, дається приклад:
As an example, if l = 35 deg, T 1 = 520 deg, approach = 16.5 deg, then P = 0.47 and ψ? = 4.9.
У цьому прикладі I - різниця початкових температур води і повітря в радіаторної градирні, T 1 - температура повітря на вході в градирню, a approach - температурний напір на холодному кінці. Питається, в яких градусах - Фаренгейта, Цельсія, Ренкіна або Кельвіна - дані значення параметрів?
Перша і третя величини суть температурні різниці, тому зручніше для перевірки вибрати другу величину, тобто T 1. Якщо навіть взяти температуру води на виході з градирні збігається з T 1 (насправді вона, як ми бачимо, вище на 16,5 ° С), то ясно, що вода при тиску, близькому до атмосферного, не може існувати при 520 ° F (Тобто 271 ° С), оскільки вона закипає при 100 ° С., cследовательно, градуси Фаренгейта і Цельсія відпадають, і температура T 1 взята з термодинамічної шкалою Кельвіна або Ренкіна.
Перевіряємо «градуси» Кельвіна (точніше Кельвіна):
520 До = 520 - 273 = 247 ° С> 100 ° С,
а це значить, що кельвін не підходять. Залишається перевірити градуси Ренкіна: 520 ° R = 520 × 0,555-273 = 16 ° С. Цей результат цілком правдоподібний, а значить всі температурні параметри дані в градусах Ренкіна, які потрібно, звичайно, перевести по всій статті в Кельвіна, тобто в одиниці прийнятої в Росії термодинамічної шкали Кельвіна.
Перерахунок чисельного коефіцієнта в розрахунковій формулі
Розглянемо докладно, як цей коефіцієнт перераховується. У статті, присвяченій втомного руйнування металів наведена формула, за якою визначається довжина втомної тріщини при відомих числі циклів втомного навантаження та інтенсивності напружень в металі:
da / dn = 1.42 · 10 -13 (ΔК) 2. 02.

Тут а - довжина тріщини в дюймах [in];
п - число циклів [cycle];
da / dn - збільшення довжини тріщини за один втомний цикл [in / cycle];
К - коефіцієнт інтенсивності напружень [psi · √ in] = (lb / in 2) · in 1 / 2;
Δ К - розмах (подвійна амплітуда) коефіцієнта інтенсивності напружень (з тією ж розмірністю, що і у К).
1, 42 · 10 -13 - чисельний коефіцієнт, який при перерахунку з британської системи одиниць в метричну змінює своє значення. Це щось значення ми і повинні визначити - інакше російські інженери не зможуть користуватися формулою.
Перерахунок виконується в наступному порядку:
а) позначає чисельний коефіцієнт через D і записуємо формулу в загальному (алгебраїчному) вигляді:
da / dn = D (Δ K) α,
де α = 2,02 - безрозмірний показник ступеня.
б) Визначаємо розмірність чисельного коефіцієнта D (для цього за правилами шкільної алгебри залишаємо D на одній стороні рівняння, а все інше переносимо на іншу сторону, не забуваючи, де потрібно, підносити до степеня α):
D = in · in 2 α / (cycle · lb α · in α / 2) = in 1 +2 α-α / 2 / (cycle · lb α) = in 1 +3 / 2α / cycle · lb α.
в) Тепер знаходимо коефіцієнт перерахунку КП по загальному вже відомому нам правилом, підставивши значення α і опускаючи цикли як не потребують перерахунку:
КП = 25,4 1 +3 / 2.2, 02 / 0,454 2,02 = 25,4 4,03 / 0,454 2,02.
г) Щоб звести числа 25,4 і 0,454 в дробові ступеня, необхідно вдатися до операцій логарифмування і потенціювання, користуючись шкільної таблицею десяткових логарифмів:
lg 25,4 4,03 = 4,03 · lg 25,4 = 4,03 · 1,4048 = 5,661
Звідси чисельник (беремо антілогаріфм від 5,661) дорівнює 458100.
lg 0,454 2,02 = 2,02 · lg 0,454 = 2,02 · 1, 6571 = 2,02 (-0,3429) = -0,6926 = 1, 3074
[Жирної одиницею позначена характеристика «мінус 1»].
Звідси знаменник (беремо антілогаріфм від 1, 3074) дорівнює 0,2030.
Тепер КП = 458100: 0,203 = 2,25 · 10 6.
д) Обчислюємо новий чисельний коефіцієнт:
D '= D · КП = 1, 42.10 -13 · 2, 25.10 6 = 3,195 · 10 -7.
е) Записуємо формулу в перерахованому вигляді:
da / dn = 3,195 · 10 - 7 До) 2, 02.
Операція перерахунку навмисне розбита на дрібні легкі кроки, тому що стоїть на одному з цих легень крочків оступитися, і вся праця піде нанівець. Перерахунок чисельного коефіцієнта формули - нудна, але дуже відповідальна операція. Наприклад, за формулою, з якою ми так детально розбиралися, інженери можуть розраховувати і ротор турбіни, і корпус підводного човна, і опору морської платформи. Тому такий перерахунок вимагає від перекладача повного зосередження.
Про деякі особливості запису розмірності в США і Великобританії
Відповідно до міжнародної системи одиниць передбачені наступні найбільш часто зустрічаються приставки:
μ
micro
10 -6
Одна мільйонна
m
milli
10 -3
Одна тисячна
k
kilo
10 березня
Тисяча
M
mega
10 Червень
Мільйон
G
giga
10 вересня
Мільярд
Наприклад: $ 3 G = 3 млрд. дол США
1.5 G bbls = 1,5 млрд. барелів
Американці і англійці іноді користуються цими приставками, але частіше у них в ходу власне «внутрі» використання m і М, а саме:



Позначення
Значення
Приклади запису
Переклад
МРа
10 Червень Паскалей
Pressure of 230 МРа
Тиск 230 МПа (230 мільйонів Паскалей)
МТ; mt
10 Червень тонн
A throughput of 12 МТ / yr (250,000 bbls / day).
Пропускна здатність 12 мільйонів тонн на рік (250 000 барелів на добу)
$ M
10 Червень доларів США
Values ​​shown in $ 2001M
Значення показані в млн. доларів США у цінах 2001 року
M
10 березня (зазвичай *)
$ 755M × 5 = $ 3.775 MM
Oil Production = 70, OOO MBbl
500 MCF = 500 mille cubic feet;
2 MCFCD = 2 mille cubic feet per calendar day
755 тис. дол США × 5 = 3,775 млн. дол США
Видобуток нафти = 70 000 10 березня барелів
500 тисяч кубічних футів
2 тисячі кубічних футів на добу
MM
10 Червень
1.7 MMTPY Cracking Unit
CAPEX 800 $ MM
Крекінг-установка продуктивністю 1,7 млн. т / рік
Капітальні витрати = 800 10 6 доларів
m
I0 6
The estimated cost of the installation is $ 5.2 m
$ 500m
20 mcps = 20 megacycles per second
Орієнтовні витрати на монтаж 5,2 млн. дол США
500 млн. дол США
20 мегагерц
m
mil = 10 -3 in
Corrosion rate was 4 mpy
Швидкість корозії була (4 × 25,4) мкм / рік
МТ
metric tonne **
150 MT of propellant per week
150 т ракетного палива на тиждень
Примітки:
Навіть у словниках (див., наприклад, скорочення в Англо-російською словнику з нафтопромисловому справі, упорядник Є. Ю. Ізраїлевого) вказується, що М використовується для тисяч, a ММ - для мільйонів. Однак, як видно з трьох попередніх прикладів, М дуже часто позначає мільйони. Необхідно завжди звертати увагу авторів або замовників документа на цю обставину.
«Пастка і квадраті»: тут М і не тисяча, і не мільйон. До речі, корисно трохи докладніше зупинитися на тонні як одиниці виміру. У морських перевезеннях freight ton = 40 кубічних футів (тобто одиниця обсягу); в корабельному будівництві register ton = 100 кубічних футів (тобто знову-таки одиниця обсягу); в холодильній техніці standard ton = 3,517 кВт (одиниця потужності); в ядерній техніці ton = 4,18 ГДж (одиниця енергії, або роботи). Нарешті, в механіці тонна - це одиниця ваги, або маси; при цьому слід розрізняти метричну тонну (metric ton = Mton = 1000 кг), прийняту в США коротку тонну (short ton = just ton = net ton = 2000 фунтів = 907 кг) і прийняту у Великобританії довгу тонну (long ton = Gross ton = 2240 фунтів = 1016 кг).

2. Імплікації в англійських науково-технічних текстах
У різних мовах тенденція до імплікації, або неявному словесному вираженню, реалізується по-різному. Зокрема, російській мові чужі деякі імплікації, характерні для англійської мови. Цю обставину необхідно враховувати перекладачам з англійської та на англійську: перші повинні усувати імплікації, неприйнятні в російській мові, а другим треба використовувати англійські імплікації як прийом компресії тексту, і іноді як стилістичний засіб. А. Д. Швейцер (Швейцер А. Д. 'Переклад і лінгвістика. М., 1973, с. 121-131), ілюструючи можливості ситуативної моделі перекладу, докладно проаналізував різні форми імплікації, звичайні для англійської мови публіцистичної та суспільно-політичної літератури . Практично всі розглянуті їм форми зустрічаються і в англійській мові науково-технічної літератури. Більш того, в останньому випадку у зв'язку з сильно вираженим прагматизмом авторів (орієнтація на вузьких фахівців) асортимент імплікацій навіть ширше.
Тип I. У атрибутивної ланцюжку опускається одне з кількох іменників, в результаті чого визначення опущеного іменника можна помилково прийняти за визначення іншого іменника (У стилістиці розглядається випадок, коли спускалась іменник являє собою дійова особа. Прикметник, що служить визначенням опущеного іменника, називають «перенесеним епітетом ».). Цей тип імплікації виявляється при перекладі з-за лексичної несочетаемости російською мовою.
The annealed hardness of the material does not provide as good a correlation with the measured erosion wear.
«Відпалений твердість» не має сенсу, так як отжечь можна матеріал, але не параметр чи характеристику матеріалу. Оскільки з контексту статті випливало, що отжигу піддавався матеріал поверхневого шару деталі, перекладач легко відновив (пущене іменник (the annealed hardness> he annealed surface hardness = the hardness of the annealed surface) і дав адекватний переклад.
Твердість відпалений поверхні матеріалу не дає такою ж гарною кореляції з виміряним значенням ерозійного зносу.
Тип II. У порівняльному обороті опускається порівнювані іменник, але зберігається його визначення в загальному відмінку.
The James [2] and Smith [3] correlations show essentially the same divdictive reliability, and are somewhat poorer than Murdock.
Ми бачимо, що після порівняльної ступеня прикметника замість таких звичних варіантів, як "than Murdock correlation", "than that of Murdock", "than Murdock's one" слід "than Murdock".
У перекладі, звичайно, імплікацію потрібно усунути.
Кореляційні вираження Джеймса [2] і Сміта [3] виявляють практично однакову точність і кілька менш точні, ніж вираз Мардока.
Тип III. За аналогією з імплікації II типу в імплікація цього типу опускається слово-замінник, але зберігається його визначення.
Fig. 5 shows the results of these tests, the upper curve being the large protrusion. Абсолютно ясно, що the large protrusion = the one for the large protrusion, що і відображається в перекладі.
Результати цих дослідів показані на фіг. 5, причому верхня крива належить випадку великого виступанія бруса.
3. Математичні штампи
Ці штампи використовуються постійно в усіх математичних текстах. У звичайних англомовних статтях вони складають від 60 до 70% оборотів. Комбінуючи їх, можна в принципі виразити практично будь-яку математичну семантику. Повчально, що майже всі основні штампи послівно не переводяться, чи погано перекладаються російською - це суто англійські ідіоми.
1.  термін  IS  характеристика .
The function f is continuous.
Функція f - неперервна.
2.  термін  IS  термін .
The set R is a ring.
Безліч R є кільцем.
3. CONSIDER  термін .
Consider the point (1,1)  R 2.
Розглянемо точку (1,1)  R 2.
4. WE HAVE  виділена формула .
We have
sin 2 x + cos 2 x = 1.
(1)
Маємо
sin 2 x + cos 2 x = 1.
(1)
5. LET  символ або термін  BE  термін .
Let V be a vector space.
Нехай V - векторний простір.
6. FOR ANY  символ або термін  THERE EXISTS  термін .
For any continuous map f: II there exists a fixed point cI.
Для будь-якого відображення f: II існує нерухома точка cI.
7. BY  символ  DENOTE  термін .
By R denote the set of real numbers.
Позначимо через R безліч дійсних чисел.
8. IT FOLLOWS FROM  посилання  THAT [твердження].
It follows from Lemma 2 that α is injective.
З Леми 2 слід, що α ін'єктивні.
9.  термін  IS CALLED  визначається поняття  IF [твердження].
A manifold is called acyclic if H i (M) = 0 (i> 0).
Різноманіття називається аціклічним, якщо H i (M) = 0 (i> 0).
The map s: BE is called a section of ξ if ξ ○ s = id.
Відображення s: BE називається перерізом розшарування ξ, якщо ξ ○ s = id.
10. IF [твердження], THEN [твердження].
If D (f) is compact, then f is bounded.
Якщо D (f) - компактно, то f - обмежена.
11. [Твердження] IF AND ONLY IF [Твердження].
A closed 3 - manifold M is S 3 if and only if π 1 M = 0.
Замкнутий тривимірне різноманіття M є сферою S 3 тоді і тільки тоді, коли π 1 M = 0.
12.  термін  HAS THE FORM  формула або посилання .
The simplest parabola has the form x 2 = y.
Найпростіша парабола має вигляд x 2 = y.

Висновок
З виконану роботи можна зробити наступні висновки:
1. При автоматичному перекладі математичної літератури можна використовувати технологію Translation Memory.
2. Крім словників математичної лексики так само необхідно мати словники прізвищ, скорочень і латинізмів.
3. Необхідно проводити допереводческую обробку тексту для зміни символів, назв функцій і для перерахунку формул.

Список використаних джерел
1. Арістова В.М., Математика. Числівники. Навчальний посібник з читання та перекладу математичних текстів, знаків, символів, скорочень на англійській мові [текст] / Арістова В.М. - КДУ, Калінінград, 1999.
2. Письмовий переклад. Рекомендації перекладачеві і замовнику, Союз перекладачів Росії, М., 2004.
3. V. Zaitsev, Russian Typographical Traditions in Mathematical Literature [текст] / V. Zaitsev, A. Janishevsky, A. Berdnikov - Euro \ TeX'99 Proceedings.
4. Александров П.С., Англо-російський і російсько-англійський словники математичних термінів [текст] / під ред. Александрова П.С. - М.: Світ, 1994. - 414с.
5. Encyclopedic Dictionary of Mathematics, ed. Kiyosi Ito, Vol 1 and 2, The MIT Press, Cambridge, 1993. - 2171pp.
6. Сосінскій А.Б., Як написати математичну статтю по-англійськи [текст] / Сосінскій А.Б. - М.: Факторіал-прес, 2000. - 112с.

Додаток 1
#! / Usr / bin / perl
# Програма, яка виробляє русифікацію позначень,
# І, що робить переклад лексичних одиниць.
# Змінений текст заноситься у файл має розширення texm
#
# Відкриваємо словник
open (DICTIONARY, "dictionary.txt") | | die "помилка при відкритті словника $! n";
# Заносимо словник у пам'ять компа
while (<DICTIONARY>) {
chomp;
if (!/[#]/){
($ Word, $ tr )=/(.*); \ s +(.*)/;
$ DIC {$ word} = $ tr;}
}
# Завершуємо роботу зі словником
close (DICTIONARY);
# Починаємо роботу з файлами
# Відбираємо теховскіе файли
opendir (CURRENT ,'.');
@ Currentfiles = grep (/ \. Tex $ / i, readdir CURRENT);
# Обробляємо кожен теховскій файл
foreach (@ currentfiles) {
open (SOURCE, $_)|| die "помилка при відкритті файлу $! n";
open (DEST ,">>$_"." m ");
# Об'єднуємо всі рядки файлу в один рядок
$ Line = join ("", <SOURCE>);
# Виробляємо заміни
foreach (keys% DIC) {
$ Line = ~ s /$_/$ DIC {$_}/;}
# Виводимо перетворений текст в файл
print DEST $ line;
# Завершуємо роботу з файлами
close (SOURCE);
close (DEST);
}
# Завершуємо роботу програми
closedir (CURRENT);
print "work has done \ n";
print "please, divss enter";
$ End = <STDIN>;
Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Реферат
65.1кб. | скачати


Схожі роботи:
Особливості перекладу абревіатур та скорочень з англійської на російську мову
Суспільно-політична лексика та особливості її перекладу з французької мови на російську
Переклад дипломатичної документації з англійської мови на російську мову
Переклад англійської усної мови на російську мову на прикладі мистецтв
Теорії перекладу англійської мови
Теорія перекладу з англійської мови
Переклад англійської усної мови на російську мову на прикладі художніх фільмів
Реферат перекладу з англійської мови з книги A History of England by Keith Feiling
Проблеми перекладу термінів англійської наукової документації економі
© Усі права захищені
написати до нас