ТОР 5 статей: Методические подходы к анализу финансового состояния предприятия Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века Характеристика шлифовальных кругов и ее маркировка Служебные части речи. Предлог. Союз. Частицы КАТЕГОРИИ:
|
КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ.ЛЕКЦИЯ № 1. ПРЕДСТАВЛЕНИЕ (КОДИРОВАНИЕ) ИНФОРМАЦИИ В ЭВМ. План: 1. Кодирование чисел. Позиционные системы счисления. 2. Кодирование текстовой информации. 3. Кодирование графики и звука. 4. Меры и единицы количества и объема информации. Подходы к измерению информации.
КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ. С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами. Кодирование символа – это присвоение символу конкретного числового кода. При вводе в компьютер текстовой информации происходит ее двоичное кодирование. Т.е. кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Код символа хранится в оперативной памяти компьютера. В процессе вывода символа на экран производится обратная операция – декодирование, т.е. преобразование кода символа в его изображение. Как правило, для хранения кода символа используется 1 байт (8 бит), поэтому коды символов могут принимать значения от 0 до 255. Такие кодировки называют однобайтными. Они позволяют использовать 256 символов (N=2I=28=256). Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления. Алфавит компьютера включает в себя 256 символов, каждый символ занимает 1 байт памяти. Поскольку всякая информация представляется в памяти ЭВМ в двоичном виде, следовательно, каждый символ представляется 8-разрядным двоичным кодом. Удобство побайтового кодирования символов очевидно, поскольку байт – наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. Таблица кодировки – это стандарт, ставящий в соответствие каждому символу алфавита свой порядковый номер. В этом и заключается правило цифрового представления символов. Наименьший номер – 0, наибольший – 255. Двоичный код символа – это его порядковый номер в двоичной системе счисления. Таким образом, таблица кодировки устанавливает связь между внешним символьным алфавитом компьютера и внутренним двоичным представлением. Таблица однобайтных кодов символов называется ASCII (American Standart Code for Information Interchange – Американский стандартный код для обмена информацией ). Таблица кода ASCII делится на две части. Международным стандартом является лишь первая половина таблицы (т.е. символы с номерами от 0 до 127), которая содержит: коды управляющих символов, коды цифр, арифметических операций, знаков препинания, некоторые специальные символы, коды больших и маленьких букв. Вторая часть таблицы ASCII (коды от 128 до 255) бывает различной в разных компьютерах. Она содержит коды букв национального алфавита, коды некоторых математических символов и коды символов псевдографики. Для русских букв в настоящее время имеется 5 различных кодовых таблиц: КОИ-8, Mac, Windows-1251, ISO, CP866. На практике можно встретиться и с другой таблицей – КОИ-8 (Код Обмена Информацией), которая используется, например, в глобальных компьютерных сетях, на ЭВМ, работающих под управлением операционной системы Unix. Введен новый международный стандарт Unicode. Это 16-разрядная кодировка, т.е. в ней отводится по 2 байта для кодирования символа, поэтому с его помощью можно закодировать 65536 различных символов (N=216=65536). Коды символов могут принимать значения от 0 до 65535.
Не нашли, что искали? Воспользуйтесь поиском:
|