Видання класичних літературних текстів в інтернеті

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

(Вступні зауваження до теми)

Володимир Литвинов

Введення

Справжні нотатки присвячені темі, яка мене давно цікавить: що таке текст (переважно мова йтиме про текст поетичному) і яким чином можемо ми поміщати в Інтернеті тексти так, щоб не просто отримати ще одну копію відомого тексту (з цим може впоратися і ксерокс, продукт діяльності якого може бути відправлений експрес-поштою), але усвідомити ті аспекти його пристрою, які зазвичай залишаються хіба що мається на увазі (ким, коли і в якому обсязі?) і тому вислизають від уваги або ж віддаються на відкуп фахівцям, які мають доступом до всієї необхідної інформації. Мова піде про тексти переважно т.зв. "Класичних", тобто що існують порівняно великий проміжок часу і неодноразово розглядалися. Твір носить характер прагматико-есеїстичних і на науковість не претендує.

1. Текст як об'єкт

Текст в першому його розгляді є об'єктом, відокремленим від інших об'єктів: коли ми бачимо вірш, ми бачимо його в першу чергу як щось окреме від інших речей, які складаються зі слів. Кожен текст має своєю унікальною структурою, яка заслуговує окремого вивчення. Мовою робочого підходу до подання літературного тексту в Павутині це виразиться в тому, що кожен текст, обсяг якого технічно дозволяє передавати його по Мережі, повинен існувати і в якості окремого файлу. Тексти обсягу більшого, ніж відповідний для передачі по Мережі, повинні перетворюватися в гіпертекст, тобто складатися з фрагментів необхідного розміру і механізмів навігації, що забезпечують гіпертекстове єдність фрагментів. Внутрішня будова цього об'єкта можна охарактеризувати як має різнорівневу сегментацію, яка візуально представляється наступним чином: слово / рядок / віршована рядок (задається примусової розбивкою; для прозового тексту це не релевантно) / абзац / більші єдності. Це означає, що ми повинні мати якісь інструменти для відображення цієї сегментації, тобто текст повинен мати можливість проявлятися (бути показаним) відповідно до цієї сегментацією. Відповідно, кожен з таких сегментів повинен мати якийсь адреса в межах кордонів тексту, тобто, оскільки ми говоримо про текст в Мережі, якийсь (відносний?) Адреса в межах даного файлу. Пропонований варіант: установка за допомогою відповідного інструментарію індивідуальних закладок на кожному слові, рядку і більше великих сегментах. Крім того, текст повинен мати опис не тільки комп'ютерне (URL), але і "людське", тобто повинен експліцитно містити вказівку на своє походження (на книгу, своє місце в складі книги і того, хто перевів його з книги у Мережу). Фрагменти гіпертексту, спочатку колишні єдиними книгами (великими текстами), повинні також лежати у вигляді архівів (саморозкриваються) на FTP-сервер, щоб користувачі могли організовувати свої подорожі усередині цього тексту (див. нижче).

2. Текст як відношення

По-перше, ідеальні в текстологічної аспекті тексти вкрай рідкісні. Існує рукопис, в принципі представима як графічний файл (файли), існують різні редакції, чернетки і відкинуті фрагменти. Існують помилки (помилки при введенні тексту у великих кількостях практично неминучі), друкарські помилки, різночитання та ін Тому крім механізмів різноманітного представлення одного тексту потрібні механізми представлення тексту як варіативної структури і можливості одночасного перегляду різних варіантів цієї структури. З іншого боку, тексти існують і як взаємодія різних інтерпретацій, у найпростішому вигляді як текст і набір коментарів до нього. Публікувати тексти без коментарів є недостатнім, а гіпертекст в даному випадку стає нагальною необхідністю. Фреймові структури є вельми доречними для показу коментарів та іншої довідкової інформації (індексів, конкорданс тощо - див. нижче). Втім, системний адміністратор або ж веб-майстер, монопольно володіє істиною з приводу кращого коментарю і написання тексту - картина досить гротескна. Тому публікація тексту переростає в процес діалогу і поступового з'ясування переваг, що робить публікацію тексту не одноразовим актом, а інтерактивним процесом, що включає багато дійових осіб. Мережа в цьому випадку дійсно стане не іграшкою або високим ремеслом для обраних, але механізмом, задіяним за принципами, властивим і внесетевой культурі, але, хочеться вірити, що спрощує механізми обміну релевантною інформацією.

3. Математична обробка. Індекси по тексту як засіб навігації

Коли ми стикаємося з новим текстом, ми volens nolens ставимо його в ставлення до інших текстів інших авторів. Цим займатися тим зручніше, ніж більше авторів вводиться в наш розгляд і чим вони краще описані. Найповніший і найреальніший варіант опису тексту - побудова конкордансу до тексту з відсиланнями в місця вживань (згадані вище закладки) на всіх введених авторів. При цьому традиційні засоби пошуку можуть виявитися неадекватними у зв'язку з індивідуальним (іноді різко індивідуальним) слововживанням, і краще мати повний опис лексики тексту або можливість за запитом (причому запит може включати як лексеми, так і окремі форманти) отримувати відсилання на конкретні тексти, а також можливість отримати кількісне відношення до інших аналогічних елементів тексту. Тобто елементи лінгвістичного аналізу тексту можна поєднати з механізмами навігації і надати всім бажаючим. Першим кроком у цьому напрямку є програма Word Tabulator, розроблена Сергієм Логічевим (м. Снежинск) (кр. опис). Одна технічна застереження: для того щоб вихідні індекси були впорядковані з точки зору послідовності посилань, тексти в аналізованих гіпертексту краще мати з цифровими іменами, при цьому порядок повинен бути правильним з точки зору комп'ютера та людини. Текст, що йде в книзі першим, з точки зору людини повинен мати ім'я "1" (далі "2" і т.д.). З точки зору операційної системи за "1" йде не "2", а "10", тому якщо текстів багато, то перший текст повинен мати ім'я "001", другий - "002", десятий - "010", а сотий - "100", і в цьому випадку при математичній обробці тексти будуть оброблятися в заданій послідовності. Інший важливий аспект розглянутого аспекту функціонування тексту в Мережі - потенційна можливість порівняння конкретного слововживання в даному тексті з загальномовного слововживанням того часового зрізу, до якого відноситься даний текст. Чому потенційні: існують словникові бази даних (див. Бюлетень машинного фонду ІРЯ (cfrl0@cfrl.synapse.ru, cfrl1@cfrl.synapse.ru, cfrl2@cfrl.synapse.ru), які можуть бути зроблені доступними через Інтернет і забезпечені пошуковим механізмом (якщо це буде зроблено - великий прогрес, але ця справа пов'язана з чималими витратами).

4. Стара орфографія та іншомовні цитати

При публікації текстів в Інтернеті та розробці технології для публікації великої кількості текстів постає запитання, що робити з текстами, які не перевидавалися після 1918 року, тобто після реформи орфографії, яка сталася в цьому році. Як відомо, до реформи російський алфавіт включала знаки "i", іжицю, фіту і ять, причому останній був у старій орфографії вельми частотним і значимим, але в даний час не входить в кодову сторінку для кирилиці і займає найрізноманітніші місця в таблицях шрифтів. Щось потрібно вигадувати: або писати утиліту, яка автоматично перетворює стару орфографію в нову, або заводити ять в кодову таблицю, або приписувати цьому знаку позначення, як це зроблено для європейської графіки з діакритика і грецьких символів (у тому числі для іжиці і фіти ) в ISO 8859-1, або ще щось.

5. Орієнтація на користувача

Пропонований варіант здійснення публікації літературних текстів повинен задовольняти вимогам двох категорій користувачів: фахівців і нефахівців. Фахівці отримують текст, яким можна користуватися в своїх роботах, і нові інструменти аналізу тексту, а нефахівці отримують текст, який зручно читати: клац миші дає можливість побачити коментар (якщо це цікаво), а немає бажання - і пропустити цей коментар і по другому щілинку повернутися у вихідний текст, не витрачаючи часу на знаходження коментаря в примітках і знаходження того місця, яке було останнім прочитаним.

6. Вартість паперового і мережевого видавництва

За нинішньої чудовою анархії у видавничій справі дуже важко розраховувати на появу в необхідній кількості видань російської літератури, що задовольняють як фахівців, так і неспеціалістів. Мережеве видавництво, що видається менш дорогим, досить доступним і легко здійсненним, змогло б відкрити новий етап освоєння російської літератури. Можливості математичної обробки текстів он-лайн також представляються здійсненними і дуже привабливими. При мережному виданні літературних текстів можна домовитися про єдині стандарти і розподілити області вводиться літератури з кінцевою метою створення єдиного Гіпертекст, що включає все, що повинно бути включено.

Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Доповідь
18.9кб. | скачати


Схожі роботи:
Тема кохання у класичних літературних творах
Узагальнення класичних середніх величин
Статистична механіка класичних систем
Декілька класичних прикладів комп ютерних вірусів
Термодинамічне та статистичний опис класичних рівноважних ансамблів
Причини становлення класичних грецьких держав полісів
Криза класичних онтологічних моделей в XIX XX векахв
Класифікація літературних образів
До теорії літературних стилів
© Усі права захищені
написати до нас