КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ.

12 3 4 5 6 Следующая ⇒

ЛЕКЦИЯ № 1.

ПРЕДСТАВЛЕНИЕ (КОДИРОВАНИЕ) ИНФОРМАЦИИ В ЭВМ.

План:

1. Кодирование чисел. Позиционные системы счисления.

2. Кодирование текстовой информации.

3. Кодирование графики и звука.

4. Меры и единицы количества и объема информации. Подходы к измерению информации.

КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ.

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами.

Кодирование символа – это присвоение символу конкретного числового кода.

При вводе в компьютер текстовой информации происходит ее двоичное кодирование. Т.е. кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111.

Код символа хранится в оперативной памяти компьютера. В процессе вывода символа на экран производится обратная операция – декодирование, т.е. преобразование кода символа в его изображение.

Как правило, для хранения кода символа используется 1 байт (8 бит), поэтому коды символов могут принимать значения от 0 до 255. Такие кодировки называют однобайтными. Они позволяют использовать 256 символов (N=2^I=2⁸=256).

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Алфавит компьютера включает в себя 256 символов, каждый символ занимает 1 байт памяти.

Поскольку всякая информация представляется в памяти ЭВМ в двоичном виде, следовательно, каждый символ представляется 8-разрядным двоичным кодом. Удобство побайтового кодирования символов очевидно, поскольку байт – наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста.

Таблица кодировки – это стандарт, ставящий в соответствие каждому символу алфавита свой порядковый номер. В этом и заключается правило цифрового представления символов. Наименьший номер – 0, наибольший – 255. Двоичный код символа – это его порядковый номер в двоичной системе счисления. Таким образом, таблица кодировки устанавливает связь между внешним символьным алфавитом компьютера и внутренним двоичным представлением.

Таблица однобайтных кодов символов называется ASCII (American Standart Code for Information Interchange – Американский стандартный код для обмена информацией ). Таблица кода ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы (т.е. символы с номерами от 0 до 127), которая содержит: коды управляющих символов, коды цифр, арифметических операций, знаков препинания, некоторые специальные символы, коды больших и маленьких букв.

Вторая часть таблицы ASCII (коды от 128 до 255) бывает различной в разных компьютерах. Она содержит коды букв национального алфавита, коды некоторых математических символов и коды символов псевдографики. Для русских букв в настоящее время имеется 5 различных кодовых таблиц: КОИ-8, Mac, Windows-1251, ISO, CP866.

На практике можно встретиться и с другой таблицей – КОИ-8 (Код Обмена Информацией), которая используется, например, в глобальных компьютерных сетях, на ЭВМ, работающих под управлением операционной системы Unix.

Введен новый международный стандарт Unicode. Это 16-разрядная кодировка, т.е. в ней отводится по 2 байта для кодирования символа, поэтому с его помощью можно закодировать 65536 различных символов (N=2¹⁶=65536). Коды символов могут принимать значения от 0 до 65535.

12 3 4 5 6 Следующая ⇒

Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2026 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных