В інформатиці текстом вважають послідовність будь-яких символів. Зараз комп'ютери в основному користуються алфавітами, що містять 256 знаков1. Кожному із символів відповідає свій восьмирозрядний двійковий код. Таким чином будь-який символ тексту, включаючи пробіли, займає 8 біт (1 байт) в пам'яті комп'ютера. Знаючи це, можна легко оцінити обсяг пам'яті, необхідний для зберігання того чи іншого текстового документа.
Згадаймо, як пов'язано кількість біт у коді з тим, скільки потрібно різних кодів.
Один біт (двійкова цифра) може приймати два значення, додавання кожного розряду в код подвоює кількість одержуваних комбінацій: двухбітовий код - чотири варіанти, трехбітовий - вісім, четирехбітовий - шістнадцять і т. д.
Розглянемо приклад. Машинописна сторінка стандартного формату (А4) містить близько 55 рядків. На кожному рядку міститься в середньому 60 сімволов2. Підрахуємо кількість текстової інформації на такій сторінці. Кожен символ - 1 байт інформації, а всього символів - 60 * 55 = 3300. Значить, на сторінці 3300 байт (близько 3 Кбайт). Як пов'язані двійкові коди та відповідні їм символи? Це визначається таблицею кодування. Всі використовувані на персональних комп'ютерах табліци3 засновані на американському стандарті ASCII4. Він визначає перші 128 кодів: для латинських літер, цифр, основних знаків пунктуації та математичних операцій. Решта 128 кодів використовуються для спеціальних символів і букв національних алфавітів (у тому числі, російського). І, оскільки загальноприйнятого стандарту для цього не було, виникло багато різних кодувань, у тому числі, кілька - для кірілліци5. Саме тому, отримавши від кого-небудь текст і спробувавши прочитати його на своєму комп'ютері, ми часто бачимо на екрані набір незрозумілих "закорючек".
код | CP866 | CP1251 | KOI-8R | Mac |
01011010 | Z | Z | Z | Z |
10001111 | П | | | П |
11111101 | $ | е. | Щ | е. |
У такій ситуації на допомогу приходять програми-конвертори6. Вони замінюють двійковий код кожного символу на код, яким такий символ представляється в іншому кодуванні. Це відповідність визначається таблицею перекодування. Зазвичай користувач повинен вказати, з якої кодування в яку йде перетворення, однак з'явилися й програми, які вміють автоматично визначати кодування початкового тексту.
Прагнення спростити роботу з різними текстами (спершу текстами програм, потім службовими документами, газетами, журналами, книгами і т.д.) призвело до створення безлічі програм, спеціально орієнтованих на це - текстових редакторів (або текстових процесорів).
Якими ж даними оперують ці програми? Очевидно, що найменшим об'єктом буде символ. Однак можна працювати не тільки з окремими символами, але і зі словами, рядками, абзацами, довільними фрагментами і текстом у цілому. Деякі дії можна виконати з будь-якою з цих структур, інші - тільки з какй-то визначеною. Оброблюваний текст представляється як би у вигляді рулону "папери", який можна прокручувати на екрані вперед і назад. Більшість сучасних програм дозволяє одночасно працювати з декількома текстами, кожен з яких виводиться в окреме вікно. Крім основних "листів" текстовий процесор, як і інші програми використовує "конверт" (або "кишеню"), в якому можна тимчасово зберігати фрагмент тексту при його копіювання або переміщення.
Текстовий процесор - не просто замінник друкарської машинки, а універсальний засіб для роботи з текстами. Він надає дуже широкі можливості маніпулювання текстовими документами. Окрім таких очевидних операцій як набір тексту, видалення, копіювання і переміщення його фрагментів, а також збереження на диск і друк, є можливість змінювати шрифт, його накреслення, колір і розмір. Текстовий процесор може автоматично форматувати текст (включаючи установку абзацного відступу і вирівнювання). Можна відразу у всьому тексті замінити одне задане слово на інше. Наприклад, поміняти "ЕОМ" на "комп'ютер". Багато редактори вміють перевіряти орфографію: комп'ютер шукає кожне слово в своєму словнику і, якщо не знаходить, повідомляє про це користувачеві, пропонуючи можливі варіанти виправлення.
Примітки
Новий стандарт Unicode, на який здійснюється поступовий перехід, дозволяє використовувати 216 = 65536 (а в останній версії - 232) символів. Текст в такій кодуванні буде займати істотно (у середньому - удвічі) більше пам'яті. [Примітка до примітки: реальні системи використовують не безпосередньо Unicode (UTF-32), а уявлення UTF-8 і UTF-16. У першому з них символ може займати від 1 до 6 байт, у другому - 2 або 4 байти]
Це - приблизні значення для російської друкарської машинки. В англомовних країнах зазвичай використовують більш дрібний шрифт.
Мова йде про "стандартних" шрифти. Крім них існують також шрифти, що містять (замість літер і цифр) спеціальні, наприклад декоративні, символи.
American Standard Code for Information Interchange - Американський стандартний код обміну інформацією.
У Росії широко використовуються в даний час чотири кодування:
CP866 ("DOS-альтернативна". Для PC-сумісних комп'ютерів під MS-DOS і OS / 2, а також в аматорській комп'ютерної мережі Fido);
CP1251 (Для PC-сумісних комп'ютерів під Windows, а також на більшості сайтів WWW);
KOI-8R (Комп'ютери під UNIX, електронна пошта та конференції Internet);
Mac-Cyrillic (Макінтош-сумісні комп'ютери).
Converter (англ.) - перетворювач.