Комп`ютер і текст

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

В інформатиці текстом вважають послідовність будь-яких символів. Зараз комп'ютери в основному користуються алфавітами, що містять 256 знаков1. Кожному із символів відповідає свій восьмирозрядний двійковий код. Таким чином будь-який символ тексту, включаючи пробіли, займає 8 біт (1 байт) в пам'яті комп'ютера. Знаючи це, можна легко оцінити обсяг пам'яті, необхідний для зберігання того чи іншого текстового документа.

Згадаймо, як пов'язано кількість біт у коді з тим, скільки потрібно різних кодів.

Один біт (двійкова цифра) може приймати два значення, додавання кожного розряду в код подвоює кількість одержуваних комбінацій: двухбітовий код - чотири варіанти, трехбітовий - вісім, четирехбітовий - шістнадцять і т. д.

Розглянемо приклад. Машинописна сторінка стандартного формату (А4) містить близько 55 рядків. На кожному рядку міститься в середньому 60 сімволов2. Підрахуємо кількість текстової інформації на такій сторінці. Кожен символ - 1 байт інформації, а всього символів - 60 * 55 = 3300. Значить, на сторінці 3300 байт (близько 3 Кбайт). Як пов'язані двійкові коди та відповідні їм символи? Це визначається таблицею кодування. Всі використовувані на персональних комп'ютерах табліци3 засновані на американському стандарті ASCII4. Він визначає перші 128 кодів: для латинських літер, цифр, основних знаків пунктуації та математичних операцій. Решта 128 кодів використовуються для спеціальних символів і букв національних алфавітів (у тому числі, російського). І, оскільки загальноприйнятого стандарту для цього не було, виникло багато різних кодувань, у тому числі, кілька - для кірілліци5. Саме тому, отримавши від кого-небудь текст і спробувавши прочитати його на своєму комп'ютері, ми часто бачимо на екрані набір незрозумілих "закорючек".

код CP866 CP1251 KOI-8R Mac
01011010 Z Z Z Z
10001111 П

Комп'ютер і текст

Комп'ютер і текст

П
11111101 $ е. Щ е.

У такій ситуації на допомогу приходять програми-конвертори6. Вони замінюють двійковий код кожного символу на код, яким такий символ представляється в іншому кодуванні. Це відповідність визначається таблицею перекодування. Зазвичай користувач повинен вказати, з якої кодування в яку йде перетворення, однак з'явилися й програми, які вміють автоматично визначати кодування початкового тексту.

Прагнення спростити роботу з різними текстами (спершу текстами програм, потім службовими документами, газетами, журналами, книгами і т.д.) призвело до створення безлічі програм, спеціально орієнтованих на це - текстових редакторів (або текстових процесорів).

Якими ж даними оперують ці програми? Очевидно, що найменшим об'єктом буде символ. Однак можна працювати не тільки з окремими символами, але і зі словами, рядками, абзацами, довільними фрагментами і текстом у цілому. Деякі дії можна виконати з будь-якою з цих структур, інші - тільки з какй-то визначеною. Оброблюваний текст представляється як би у вигляді рулону "папери", який можна прокручувати на екрані вперед і назад. Більшість сучасних програм дозволяє одночасно працювати з декількома текстами, кожен з яких виводиться в окреме вікно. Крім основних "листів" текстовий процесор, як і інші програми використовує "конверт" (або "кишеню"), в якому можна тимчасово зберігати фрагмент тексту при його копіювання або переміщення.

Текстовий процесор - не просто замінник друкарської машинки, а універсальний засіб для роботи з текстами. Він надає дуже широкі можливості маніпулювання текстовими документами. Окрім таких очевидних операцій як набір тексту, видалення, копіювання і переміщення його фрагментів, а також збереження на диск і друк, є можливість змінювати шрифт, його накреслення, колір і розмір. Текстовий процесор може автоматично форматувати текст (включаючи установку абзацного відступу і вирівнювання). Можна відразу у всьому тексті замінити одне задане слово на інше. Наприклад, поміняти "ЕОМ" на "комп'ютер". Багато редактори вміють перевіряти орфографію: комп'ютер шукає кожне слово в своєму словнику і, якщо не знаходить, повідомляє про це користувачеві, пропонуючи можливі варіанти виправлення.

Примітки

Новий стандарт Unicode, на який здійснюється поступовий перехід, дозволяє використовувати 216 = 65536 (а в останній версії - 232) символів. Текст в такій кодуванні буде займати істотно (у середньому - удвічі) більше пам'яті. [Примітка до примітки: реальні системи використовують не безпосередньо Unicode (UTF-32), а уявлення UTF-8 і UTF-16. У першому з них символ може займати від 1 до 6 байт, у другому - 2 або 4 байти]

Це - приблизні значення для російської друкарської машинки. В англомовних країнах зазвичай використовують більш дрібний шрифт.

Мова йде про "стандартних" шрифти. Крім них існують також шрифти, що містять (замість літер і цифр) спеціальні, наприклад декоративні, символи.

American Standard Code for Information Interchange - Американський стандартний код обміну інформацією.

У Росії широко використовуються в даний час чотири кодування:

CP866 ("DOS-альтернативна". Для PC-сумісних комп'ютерів під MS-DOS і OS / 2, а також в аматорській комп'ютерної мережі Fido);

CP1251 (Для PC-сумісних комп'ютерів під Windows, а також на більшості сайтів WWW);

KOI-8R (Комп'ютери під UNIX, електронна пошта та конференції Internet);

Mac-Cyrillic (Макінтош-сумісні комп'ютери).

Converter (англ.) - перетворювач.

Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Доповідь
11.8кб. | скачати


Схожі роботи:
Комп`ютер Фібоначчі
Комп`ютер і серце
Комп`ютер малює
Комп`ютер і безпека
Комп`ютер Атанасова
Комп`ютер-зв`язківець
Як з`явився комп`ютер
Чи може комп`ютер мислити
Комп ютер на уроці математики
© Усі права захищені
написати до нас