Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика1.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
132.03 Кб
Скачать

Часть I. Информация, системы счисления, основы логики, информационные модели 13

большой. Если буквы, входящие в текст, могут быть только латинскими или русскими, то для кодирования одного символа достаточно использо­вать 8 битовых ячеек памяти, т. е. 1 байт памяти (поскольку с помощью 8 ячеек памяти можно закодировать 28 = 256 различных символов). При этом надо договориться о том, какой именно комбинацией активных и неактивных ячеек будет кодироваться каждый символ. Например, можно считать, что символ пробела кодируется комбинацией 00100000, а прописная русская буква А — комбинацией 11000000.

В настоящее время имеется несколько однобайтных (8-битных) кодировок символов, включающих русские буквы. Среди них можно отметить кодировки Windows-1251 и КОИ-8. В заданиях ЕГЭ иногда упоминается кодировка ASCII, определяющая коды первых 127 симво­лов кодовой таблицы. Кодировка ASCII входит, в качестве составной части, в большинство однобайтных кодировок, поэтому при выполне­нии заданий ЕГЭ кодировку ASCII следует считать однобайтной1 (см., например, задачу 1.13).

Подчеркнем, что в любой однобайтной кодировке каждый символ имеет размер 1 байт (говорят, что информационный объем символа равен 1 байту). Если текст состоит из N символов (включая пробелы, знаки препинания и другие специальные символы), то информационный объем такого текста равен N байт (или, что то же самое, ZN бит) независимо от смысла самого текста. Так, сообщение из двух слов Выпала решка по смыслу содержит 1 бит информации (мы узнали, что произошло одно событие из двух возможных), однако при его кодировании в памяти компьютера потребуется использовать 12 байт для хранения 11 букв и одного пробела между ними, поэтому информационный объем данного текста (иначе говоря, объем памяти, необходимый для сохранения этого текста в компьютере) равен 12 байт, или 96 бит. Определенный информационный объем содержит любой текст, даже если он является бессмысленным с точки зрения обычного языка. Например, текст АБ-БВВВ имеет информационный объем 6 байт.

С распространением Интернета возникла необходимость в ис­пользовании такого набора символов, который содержал бы буквы всех существующих языков. Этот набор символов был разработан и получил название Unicode (Юникод). Имеется несколько кодировок,

1 На самом деле кодировка ASCII входит в качестве составной части и в ко­дировку UFT-8 набора Unicode, описываемого далее, однако при выполнении заданий ЕГЭ это обстоятельство не следует принимать во внимание.

14

Информатика

связанных с Юникодом. В задачах ЕГЭ под кодировкой Unicode всегда подразумевается двухбайтная (16-битная) кодировка UTF-16, в которой для кодирования большинства символов используются 2 байта, или 16 битовых ячеек памяти. Следует, однако, заметить, что имеются и другие варианты кодировки Юникода, например, кодировка UTF-8, в которой первые 127 символов (символы ASCII) кодируются одним байтом, следующие 1920 символов (включающие буквы европейских, ближневосточных и среднеазиатских алфавитов, в частности, кирилли­цу) кодируются двумя байтами, а прочие символы (например, китайские иероглифы) кодируются тремя или четырьмя байтами.

Замечание. В наборе символов Unicode теоретически может содер­жаться более миллиона символов; в настоящее время в нем определено около 100 000 символов. Поскольку с помощью 16 битов можно зако­дировать только 2'6 = 65 536 различных символов, некоторые группы символов в кодировке UTF-16 приходится кодировать не двумя, а четырьмя байтами. Например, четырьмя байтами кодируются сим­волы древних языков, знаки музыкальной нотации, некоторые редко используемые китайские иероглифы. Разумеется, при решении задач ЕГЭ следует считать, что любые символы, которые могут встретиться в текстах с 16-битной кодировкой, кодируются двумя байтами.

Решение типовых задач

1.1. Считая, что каждый символ кодируется одним байтом, опреде­ лите информационный объем следующего предложения из пушкинских строк:

Певец Давид был ростом мал, Но повалил же Голиафа! 1)400 бит 2) 50 бит 3)400 байт 4) 5 байт

Решение

В тексте содержится 50 символов, включая пробелы и знаки препина­ния. Каждый символ кодируется одним байтом, информационный объем сообщения из 50 символов равен 50 байтам. Поскольку среди ответов нет подобного варианта, переведем объем в биты. Один байт равен 8 бит, поэтому информационный объем сообщения равен 400 бит.

Ответ: 1.

1.2. Автоматическое устройство осуществило перекодировку инфор­ мационного сообщения на русском языке, первоначально записанного