Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Донецкий национальный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Konspekt1.doc

Скачиваний:

Добавлен:

21.11.2018

Размер:

3.2 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 4212 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

1.2 Измерение количества информации

В качестве единицы информации Клод Шеннон предложил принять один бит (англ, bit - binary digit — двоичная цифра).

Бит в теории информации - количество информации, необходимое для различения двух равновероятных сообщений или «орел - решка», «чет - нечет» и т. п.

В вычислительной технике битом называют наименьшую «порцию» памяти компьютера, необходимую для хранения одного из двух знаков 0 и 1, используемых для машинного представления данных и команд.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

Поскольку бит — слишком мелкая единица измерения, на практике чаще применяется более крупная единица — байт, равная восьми битам.

В частности, восемь бит требуется для того, чтобы закодировать любой из 256 символов основного компьютерного кода ASCII (256 = 2⁸).

Используются также более крупные производные единицы информации:

Килобайт (Кбайт) - 1024 байт = 2¹⁰ байт;

Мегабайт (Мбайт) - 1024 Кбайт = 2²⁰ байт;

Гигабайт (Гбайт) - 1024 Мбайт = 2³⁰ байт.

В последнее время в связи с увеличением объемов обрабатываемой информации входят в употребление такие производные единицы, как:

Терабайт (Тбайт) - 1024 Гбайт = 2⁴⁰ байт;

Петабайт (Пбайт) - 1024 Тбайт =2⁵⁰ байт;

Экзобайт (Эбайт) - = 10¹⁸ Мбайт и пр.

Для описания скорости передачи данных можно использовать термин бод.

Число бод равно количеству значащих изменений сигнала (потенциала, фазы, частоты), происходящих в секунду. Первоначально бод использовался в телеграфии. Для двоичных сигналов нередко принимают, что бод равен биту в секунду, например 1200 бод = 1200 бит/с.

Однако единого мнения о правильности использования этого термина нет, особенно при высоких скоростях, где число бит в секунду не совпадает с числом бод.

1.3 Кодирование символьной информации

Код (code) — совокупность знаков, символов и правил представления информации.

В частности, можно различать двоичный и троичный код. Алфавит первого ограничен двумя символами (0, 1), а второго — тремя символами (-1, 0, +1). Сигналы, реализующие коды, обладают одной из следующих характеристик:

униполярный код (значения сигнала равны 0, +1, либо 0, -1);
полярный код (значения сигнала равны -1, +1);
биполярный код (значения равны -1, 0, +1).

Биполярные коды часто используются в каналах передачи данных (рис. 1.7). Здесь единицы представляются чередующимися положительными и отрицательными импульсами. Отсутствие импульсов определяет состояние «нуль».

Биполярное кодирование обеспечивает обнаружение одиночной ошибки. Так, если вместо нуля появится единица, либо единица ошибочно сменится на нуль, то это легко обнаруживается. В обоих случаях нарушается чередование полярности импульсов.

Рассмотрим методы дискретного представления информации, или кодирования (которые, надо сказать, появились задолго до вычислительных машин).

Первым широко известным примером является Азбука Морзе, в которой буквы и цифры кодируются сочетаниями из «точек» и «тире».

Кодируемые (обозначаемые) элементы входного алфавита обычно называют символами

Символом (служит условным знаком какого-нибудь понятия, явления) как правило, является цифра, буква, знак пунктуации или иероглиф естественного языка, знак препинания, знак пробела, специальный знак, символ операции. Кроме этого, учитываются управляющие («непечатные») символы.

Кодирующие (обозначающие) элементы выходною алфавита называются знаками, количество различных знаков в выходном алфавите назовем значностью количество знаков в кодирующей последовательности для одного символа — разрядностью кода.

Последовательным кодом является такой, в котором знаки следуют один за другим во времени (например, радио- или оптические сигналы либо передача по двум проводам, 2-жильному кабелю).

Параллельным кодом является тот, в котором знаки передаются одновременно образуя символ (например, по четырем проводам, 4-жильному кабелю т. е. символ передается в один прием, в один момент времени).

Применительно к азбуке Морзе (AM).

символами являются элементы языкового алфавита (буквы A—Z или А—Я) и цифровой алфавит (здесь — цифры 0—9);
знаками — «точка» и «тире» (или «+» и «-» либо «1» и «0», короче — два любых разных знака);
поскольку знаков два (точка и тере), AM является двузначным (бинарным, двоичным) кодом, а если бы их было три, то мы имели бы дело с троичным, тернарным, трехзначным кодом;

• поскольку число знаков в AM колеблется от 1 (буквы Е, Т) до 5 (цифры), здесь имеет место код с переменной разрядность.

Поскольку знаки передаются последовательно (электрические импульсы, звуковые или оптические сигналы разной длины, соответствующие «точкам» и «тире»), AM есть последовательный код.

Первые опыты телеграфной и радиосвязи осуществлялись именно посредством AM, причем приемное устройство записывало импульсы переменной длины в виде «точек» и «тире» на движущуюся телеграфную ленту, однако уже в начале XX в. был осуществлен переход на 5-разрядный (5-битовый) телеграфный код.

В табл. 1.8 приводится перечень наиболее известных кодов, некоторые из них использовались первоначально для связи, кодирования данных, а затем для представления информации в ЭВМ:

код Бодо (IA-1 — international alphabet #1) — 5-разрядный код, бывший в прошлом европейским стандартом для телеграфной связи;
М-2 (российское обозначение) или IА-2 (международное обозначение) — телеграфный код, предложенный Международным Комитетом по телефонии и телеграфии (МККЛТ) и заменивший код Бодо;
ASCII (American Standard Code for Information Interchange) —стандартный 7-битовый код для передачи данных, поддерживает 128 символов, включающих заглавные и строчные символы латиницы, цифры, специальные значки и управляющие символы. Этот код, к которому были добавлены некоторые национальные символы (10 бинарных комбинаций), был принят Международной организацией по стандартизации (ISO) как стандарт ISO-7;

EBCDIC (Expanded Binary Coded Decimal Interchange Code) 8-разрядный код, предложенный фирмой IBM для машин серий IBM/360-375 (внутреннее представление данных в памяти), а затем распространившийся и на системы других производителей;
ASCII-8 — 8-разрядный код, принятый для внутреннего и внешнего представления данных в вычислительных системах. Включает стандартную часть (128 символов) и национальную (128 символов);
код Холлерита, предложенный для ПК (1913г.), затем использовавшийся для кодирования информации перед вводом в ЭВМ с перфокарт.

Одним из «последних слов» в процессе развития систем символьного кодирования является универсальный код UNICODE (UNIversal CODE) — стандарт 16-разрядного кодирования символов.

Стандарт UNICODE разработан техническим комитетом, в который вошли представители ряда ведущих фирм. Он определяет коды, обеспечивающие идентификацию различных символов: букв, иероглифов, цифр и т. д. Код может использоваться вместо 7—8-битовых, в том числе и ASCII. Поскольку в 16-разрядном UNICODE можно закодировать 65 536 символов вместо 128 в ASCII, то отпадает необходимость в создании модификации таблиц кодов. Это существенно упрощает обработку текстовых файлов, хотя и несколько увеличивает их размеры

UNICODE охватывает 28 000 букв, знаков, слогов, иероглифов национальных языков мира и 30 000 мест в UNICODE зарезервировано. Использование этого резерва дает возможность пользователям вводить математические или технические символы, а также создавать свои собственные символы.

Единая стандартизация языковых форматов наводит порядок в международном кодировании алфавитов различных языков. Здесь учтено также то, что в таких языках, как иврит и арабский, текст пишется справа налево.

При передаче данных часто используются избыточные коды, т. е. такие, которые за счет усложнения структуры позволяют повысить надежность передачи данных. К ним, в первую очередь, относятся коды с обнаружением ошибок. Чаще всего это циклические избыточные коды. Простая разновидность такого кода — код с контролем по четности.

Широко используется для обнаружения ошибок в блоках данных также код контроля циклической избыточности CRC. Он определяется на основе содержимого блока данных перед его передачей, включается в одно из полей блока, а затем повторно вычисляется после передачи. Несовпадение результатов свидетельствует об ошибке в передаваемом содержимом.

Важное значение имеют коды с исправлением ошибок. Использование этих кодов позволяет с большой вероятностью не только обнаруживать, но и исправлять возникшие при передаче ошибки (код Хемминга, позволяющий исправлять одиночные ошибки, появляющиеся в блоках данных).

Лекция 5

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 4212 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
16.03.2016127.42 Кб316Kolokvium.docx
#
13.04.201530.72 Кб39Kolokvium_SPR.doc
#
13.04.201554.46 Кб34Kolsoglashenie.docx
#
05.09.201976.8 Кб23Konflikt_1-13.doc
#
10.08.201954.78 Кб26Konkurentsia_i_monopolia_01.doc
#
21.11.20183.2 Mб84Konspekt1.doc
#
01.03.20252.35 Mб9KONSPEKT_LEKTsIJ.docx
#
16.03.20163.3 Mб1425konspekt_lektsiy_po_TV.docx
#
01.05.2025406.53 Кб2Konspekt_lektsy.doc
#
13.04.201550.69 Кб34Konspekt_lektsy_-1_Mat_met_v_biol_ZO_2013-14.doc
#
14.09.20194.34 Mб29Konspekt_zaochnikam_2012_89_str_1.doc