(Вступні зауваження до теми)
Володимир Литвинов
Введення
Справжні нотатки присвячені темі, яка мене давно цікавить: що таке текст (переважно мова йтиме про текст поетичному) і яким чином можемо ми поміщати в Інтернеті тексти так, щоб не просто отримати ще одну копію відомого тексту (з цим може впоратися і ксерокс, продукт діяльності якого може бути відправлений експрес-поштою), але усвідомити ті аспекти його пристрою, які зазвичай залишаються хіба що мається на увазі (ким, коли і в якому обсязі?) і тому вислизають від уваги або ж віддаються на відкуп фахівцям, які мають доступом до всієї необхідної інформації. Мова піде про тексти переважно т.зв. "Класичних", тобто що існують порівняно великий проміжок часу і неодноразово розглядалися. Твір носить характер прагматико-есеїстичних і на науковість не претендує.
1. Текст як об'єкт
Текст в першому його розгляді є об'єктом, відокремленим від інших об'єктів: коли ми бачимо вірш, ми бачимо його в першу чергу як щось окреме від інших речей, які складаються зі слів. Кожен текст має своєю унікальною структурою, яка заслуговує окремого вивчення. Мовою робочого підходу до подання літературного тексту в Павутині це виразиться в тому, що кожен текст, обсяг якого технічно дозволяє передавати його по Мережі, повинен існувати і в якості окремого файлу. Тексти обсягу більшого, ніж відповідний для передачі по Мережі, повинні перетворюватися в гіпертекст, тобто складатися з фрагментів необхідного розміру і механізмів навігації, що забезпечують гіпертекстове єдність фрагментів. Внутрішня будова цього об'єкта можна охарактеризувати як має різнорівневу сегментацію, яка візуально представляється наступним чином: слово / рядок / віршована рядок (задається примусової розбивкою; для прозового тексту це не релевантно) / абзац / більші єдності. Це означає, що ми повинні мати якісь інструменти для відображення цієї сегментації, тобто текст повинен мати можливість проявлятися (бути показаним) відповідно до цієї сегментацією. Відповідно, кожен з таких сегментів повинен мати якийсь адреса в межах кордонів тексту, тобто, оскільки ми говоримо про текст в Мережі, якийсь (відносний?) Адреса в межах даного файлу. Пропонований варіант: установка за допомогою відповідного інструментарію індивідуальних закладок на кожному слові, рядку і більше великих сегментах. Крім того, текст повинен мати опис не тільки комп'ютерне (URL), але і "людське", тобто повинен експліцитно містити вказівку на своє походження (на книгу, своє місце в складі книги і того, хто перевів його з книги у Мережу). Фрагменти гіпертексту, спочатку колишні єдиними книгами (великими текстами), повинні також лежати у вигляді архівів (саморозкриваються) на FTP-сервер, щоб користувачі могли організовувати свої подорожі усередині цього тексту (див. нижче).
2. Текст як відношення
По-перше, ідеальні в текстологічної аспекті тексти вкрай рідкісні. Існує рукопис, в принципі представима як графічний файл (файли), існують різні редакції, чернетки і відкинуті фрагменти. Існують помилки (помилки при введенні тексту у великих кількостях практично неминучі), друкарські помилки, різночитання та ін Тому крім механізмів різноманітного представлення одного тексту потрібні механізми представлення тексту як варіативної структури і можливості одночасного перегляду різних варіантів цієї структури. З іншого боку, тексти існують і як взаємодія різних інтерпретацій, у найпростішому вигляді як текст і набір коментарів до нього. Публікувати тексти без коментарів є недостатнім, а гіпертекст в даному випадку стає нагальною необхідністю. Фреймові структури є вельми доречними для показу коментарів та іншої довідкової інформації (індексів, конкорданс тощо - див. нижче). Втім, системний адміністратор або ж веб-майстер, монопольно володіє істиною з приводу кращого коментарю і написання тексту - картина досить гротескна. Тому публікація тексту переростає в процес діалогу і поступового з'ясування переваг, що робить публікацію тексту не одноразовим актом, а інтерактивним процесом, що включає багато дійових осіб. Мережа в цьому випадку дійсно стане не іграшкою або високим ремеслом для обраних, але механізмом, задіяним за принципами, властивим і внесетевой культурі, але, хочеться вірити, що спрощує механізми обміну релевантною інформацією.
3. Математична обробка. Індекси по тексту як засіб навігації
Коли ми стикаємося з новим текстом, ми volens nolens ставимо його в ставлення до інших текстів інших авторів. Цим займатися тим зручніше, ніж більше авторів вводиться в наш розгляд і чим вони краще описані. Найповніший і найреальніший варіант опису тексту - побудова конкордансу до тексту з відсиланнями в місця вживань (згадані вище закладки) на всіх введених авторів. При цьому традиційні засоби пошуку можуть виявитися неадекватними у зв'язку з індивідуальним (іноді різко індивідуальним) слововживанням, і краще мати повний опис лексики тексту або можливість за запитом (причому запит може включати як лексеми, так і окремі форманти) отримувати відсилання на конкретні тексти, а також можливість отримати кількісне відношення до інших аналогічних елементів тексту. Тобто елементи лінгвістичного аналізу тексту можна поєднати з механізмами навігації і надати всім бажаючим. Першим кроком у цьому напрямку є програма Word Tabulator, розроблена Сергієм Логічевим (м. Снежинск) (кр. опис). Одна технічна застереження: для того щоб вихідні індекси були впорядковані з точки зору послідовності посилань, тексти в аналізованих гіпертексту краще мати з цифровими іменами, при цьому порядок повинен бути правильним з точки зору комп'ютера та людини. Текст, що йде в книзі першим, з точки зору людини повинен мати ім'я "1" (далі "2" і т.д.). З точки зору операційної системи за "1" йде не "2", а "10", тому якщо текстів багато, то перший текст повинен мати ім'я "001", другий - "002", десятий - "010", а сотий - "100", і в цьому випадку при математичній обробці тексти будуть оброблятися в заданій послідовності. Інший важливий аспект розглянутого аспекту функціонування тексту в Мережі - потенційна можливість порівняння конкретного слововживання в даному тексті з загальномовного слововживанням того часового зрізу, до якого відноситься даний текст. Чому потенційні: існують словникові бази даних (див. Бюлетень машинного фонду ІРЯ (cfrl0@cfrl.synapse.ru, cfrl1@cfrl.synapse.ru, cfrl2@cfrl.synapse.ru), які можуть бути зроблені доступними через Інтернет і забезпечені пошуковим механізмом (якщо це буде зроблено - великий прогрес, але ця справа пов'язана з чималими витратами).
4. Стара орфографія та іншомовні цитати
При публікації текстів в Інтернеті та розробці технології для публікації великої кількості текстів постає запитання, що робити з текстами, які не перевидавалися після 1918 року, тобто після реформи орфографії, яка сталася в цьому році. Як відомо, до реформи російський алфавіт включала знаки "i", іжицю, фіту і ять, причому останній був у старій орфографії вельми частотним і значимим, але в даний час не входить в кодову сторінку для кирилиці і займає найрізноманітніші місця в таблицях шрифтів. Щось потрібно вигадувати: або писати утиліту, яка автоматично перетворює стару орфографію в нову, або заводити ять в кодову таблицю, або приписувати цьому знаку позначення, як це зроблено для європейської графіки з діакритика і грецьких символів (у тому числі для іжиці і фіти ) в ISO 8859-1, або ще щось.
5. Орієнтація на користувача
Пропонований варіант здійснення публікації літературних текстів повинен задовольняти вимогам двох категорій користувачів: фахівців і нефахівців. Фахівці отримують текст, яким можна користуватися в своїх роботах, і нові інструменти аналізу тексту, а нефахівці отримують текст, який зручно читати: клац миші дає можливість побачити коментар (якщо це цікаво), а немає бажання - і пропустити цей коментар і по другому щілинку повернутися у вихідний текст, не витрачаючи часу на знаходження коментаря в примітках і знаходження того місця, яке було останнім прочитаним.
6. Вартість паперового і мережевого видавництва
За нинішньої чудовою анархії у видавничій справі дуже важко розраховувати на появу в необхідній кількості видань російської літератури, що задовольняють як фахівців, так і неспеціалістів. Мережеве видавництво, що видається менш дорогим, досить доступним і легко здійсненним, змогло б відкрити новий етап освоєння російської літератури. Можливості математичної обробки текстів он-лайн також представляються здійсненними і дуже привабливими. При мережному виданні літературних текстів можна домовитися про єдині стандарти і розподілити області вводиться літератури з кінцевою метою створення єдиного Гіпертекст, що включає все, що повинно бути включено.