Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kadan - шпоры.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
197.91 Кб
Скачать

1.Предмет теории информации. Непрерывная и дискретная информация

Теория информации рассматривается как существенная часть кибернетики.

Кибернетика - это наука об общих законах получения, хранения, передачи и переработки информации.

Ее основной предмет исследования - это так называемые кибернетические системы,рассматриваемые абстрактно, вне зависимости от их материальной природы.Примеры систем: автоматические регуляторы в технике, ЭВМ, мозг человека или животных, биологическая популяция, социум.

Основными разделами современной кибернетики

  • теория информации,

  • теория алгоритмов,

  • теория автоматов,

  • исследование операций,

  • теория оптимального управления

  • теория распознавания образов.

Основная категория кибернетики - управление (Винер)

  • Выделение категории управления позволило Винеру воспользоваться понятием информации, положив в основу кибернетики изучение законов передачи и преобразования информации.

  • Информация - в широком смысле абстрактное понятие, имеющее множество значений, в зависимости от контекста.

  • В настоящее время не существует единого определения термина информация. С точки зрения различных областей знания, данное понятие описывается своим специфическим набором признаков.

Информация в кибернетике - основополагающее понятие, как точка в геометрии. Винер: «Информация есть информация, а не материя и не энергия» Это обозначение содержания, полученное нами из внешнего мира в процессе приспосабливания к нему нас и наших чувств. Информация - нематериальная сущность, при помощи которой с любой точностью можно описывать реальные (материальные), виртуальные (возможные) и понятийные сущности. Информ. противопол. неопред.

Сущность принципа управления-движение и действие больших масс или передача и преобразование больших количеств энергии направляется и контролируется при помощи небольших количеств энергии, несущих информацию.

Основа - теория вероятностей и математическая статистика, а также прикладная алгебра, которые предоставляют для нее математический фундамент, является математический фундамент теории связи.

Виды инф. Дискретная характеризуется последовательными точными значениями некоторой величины, а непрерывная -непрерывным процессом изменения некоторой величины. Непрерывную информацию может, например, выдавать датчик атмосферного давления или датчик скорости автомашины. Дискретную информацию можно получить от любого цифрового индикатора: электронных часов, счетчика магнитофона и т.п. Кодирование - преобразование дискретной информации одним из след. способов: шифрование,сжатие,защита от шума.

Перевод непрерыв. в дискретн

частота дискретизации F, определяет

период (Т = 1/ F) между измерениями значений непрерывной величины. Эту частоту разумно увеличивать только до предела, определяемого теоремой о выборках(для точной дискретизации ее частота должна быть не менее чем в два раза выше наибольшей частоты гармоники, входящей в дискретизируемую величину ∆t<1/2Fmax).

Ухо обычного человека способно различать звуки с частотой до 20КГц

=> записывать более высокие звуки бессмысленно

Согласно теореме о выборках частоту дискретизации нужно выбрать не меньшей 40КГц (в промышленном стандарте на компакт-диске используется частота 44.1КГц).+АЦП,ЦАП-преобразователи

2.Общая схема передачи информации

к одирование канал связи декодиpoвание

источник----передатчик---приемник---- получатель

Информацию можно передавать последовательно, т.е. бит за битом, и параллельно, т.е. группами фиксированного количества бит. Параллельный способ быстрее, но он часто технически сложнее и дороже особенно при передаче данных на большие расстояния. Параллельный способ передачи используют, как правило, только на расстоянии не более 5 метров. Канал связи - это среда передачи информации, которая характеризуется в первую очередь макс. возможной для нее скоростью передач данных(емкостью канала).Шум - это помехи в канале связи при передаче информации. Скорость передачи информации измеряется в количестве переданных за одну секунду бит или в бодах (baud): 1бод = 1бит/сек (bps).

Устройства для преобразования непрерывной информации в дискретную обобщенно называются АЦП (аналого-цифровой преобразователь) или ADC (AnalogtoDigitalConvertor, A/D); для преобразования дискретной информации в аналоговую - ЦАП (цифро-аналоговый преобразователь) или DAC (DigitaltoAnalogConvertor, D/A).

Вычислительные машины 2-х видов:

  • ЦВМ - цифровые ВМ (любые задачи) преобразующая величины, представленные в виде набора цифр (чисел).компы и т.д.

АВМ - аналоговые ВМ (задачи дифференцирования и интегрирования функций f(x) - F(x) или f'(x)) - электронная схема.автоматические трансмиссии, музыкальные синтезаторы, аналоговые компьютеры используются для решения специфических вычислительных задач практического характера, применяются там, где необходима повышенная точность результатов

Гибридные ВМ

3.Мера информации по Шеннону.

1)a = b заключает информацию о том, что a равно b.

a2 = b2 несет меньшую информацию, чем первое, т.к. из первого следует второе, но не наоборот. Равенство a3 = b3 несет в себе информ. по объему такую же, как и 1-е.

2)некоторые измерения с некоторой погрешностью, чем больше измерений, тем больше информации об измеряемой сущности будет получено

3) Пусть передатчик описывается случайной величиной, X. Тогда из-за помех на приемник будет приходить С.В., Y = X + Z , где – Z-С.В., описывающая помехи. В этой схеме можно говорить о количестве информации, содержащейся в случайной величине Y, относительно X. Чем ниже уровень помех (дисперсия мала), тем больше информации можно получить из Y. При отсутствии помех Y содержит в себе всю информацию об X.

В основе теории информации лежит предложенный Шенноном способ измерения количества информации, содержащейся в одной случайной величине, относительно другой случайной величины.

Этот способ приводит к выражению количества информации числом.

Для дискретных случайных величин X и Y, заданных законами распределения P(X= X1) = Pi, P(Y= Yj) = qi и совместным распределением , P(X = Xs, X= Xi) = pij-количество информации, содержащейся в X относительно Y равно

Для непрерывных случайных величин, X и Y, заданных плотностями распределения вероятностей , Px(t1) , Py(t2) и Pxy(t1t2), количество информации, содержащейся в X относительно Y равно

I(X, Y)=( ∫∫)Pxy(t1,t2)log2(((Pxy(t1,t2))/Px(t1)Py(t2))dt1dt2)

R2 // это типа двойной интеграл по R2

Энтропия-мера неопределённости, связанной со случайной величиной (с.в.); определяет количество информации, содержавшейся в сообщении (обычно в битах или битах на символ); минимальная длина сообщения, необходимая для передачи информации; также абсолютный предел наиболее возможного сжатия без потерь любого сообщения: при представлении сообщения рядом символов, кратчайшее представление, необходимое для передачи сообщения — этоэнтропия Шеннона в битах на символ, умноженная на число символов в исходном сообщении.

Свойства:1)I(X,Y)≥0, I(X,Y)=0↔X и Y- независимы

2)I(X,Y)=I(Y,X)

3)HX=0↔X-константа

4)I(X,Y)=HX+HY-H(X,Y),-ф-я от Y

Если X - инъективная функция от Y, то I(X,Y)=I(X,X)

4.Смысл энтропии Шеннона

Информационная энтропия равна нулю, когда информация полностью предсказуема и не несёт ничего нового для приёмника, т.е. когда какая-либо вероятность равна единице, а остальные — нулю. Энтропия принимает наибольшее значение для равновероятного распределения, когда все вероятности pk одинаковы; т.е. когда неопределённость, разрешаемая сообщением, макс

Энтропия Д.С.В. - это минимум среднего количества бит, которое нужно передавать по каналу связи о текущем значении данной Д.С.В.

Пример 1. Скачки без фаворита.В заезде участвуют 4 лошади с равными шансами на победу (Pj = 1/4).Номер победившей лошади - Д.С.В. Х.Закон распределения:

X 1 2 3 4

p 1/4 1/4 1/4 1/4

□ Энтропия HX = -∑i=1..4 pi log2pi = 2 б/с

Передаем сообщение о победе

X 1 2 3 4

code 00 01 10 11

HX = ML(X)

L(X)-Длина сообщения, кодирующего данн. значение Х

ML(X) - мат.ожидание L(X), т.е. средняя длина сообщения, кодирующего Х

В этом примере:MX=ML(X)=2

Пример 2. Закон распределения:

X 1 2 3 4

p 3/4 1/8 1/16 1/16

Префиксное кодирование -

каждой код НЕ является префиксом (началом) другого кода

X 1 2 3 4

код 0 10 110 111

ML(X) = 1.375 бит/симв

Примеры в ПДФке(3)

5.Преобразование информации.

Цель сжатия - уменьшение количества бит, необходимых для хранения или передачи заданной информации(Rar, Zip, Arj, GZ и др.)

Кодирование- процесс преобразования сигнала из формы, удобной для непосредственного использования информации, в форму, удобную для передачи, хранения или автоматической переработки(Цифровое,Аналоговое,Таблично-символьное,Числовое) преобразования сообщения в комбинацию символов в соответствии с кодом

Шифрова́ние — способ преобразования открытой информации в закрытую и обратно

Для формального определения предела сжатия рассматриваем любое информационное сообщение длины n как

■ последовательность независимых, одинаково распределенных Д.С.В. X,- или

■ как выборки длины n значений одной Д.С.В. Х.

Пределы сжатия. Теорема 1. Среднее количество бит,

приходящихся на одно кодируемое значение д.с.в. X, не может быть меньшим, чем энтропия HX этой д.с.в., т.е. ML(X) HX для любой д.с.в. X и любого ее кода.

Теорема 2. Существует такое кодирование (Шеннона-Фэно), что HX ML(X) - 1.

6.Основная теорема о кодировании при отсутствии помех

Торема.С ростом длины сообщения, при кодировании методом Шеннона-Фэно всего сообщения целиком среднее количество бит на единицу сообщения будет сколь угодно мало отличаться от энтропии единицы сообщения.

Док-во.

Рассмотрим д.с.в.X1 и X2, независимые и одинаково распределенные. НХ1 = НХ2 и I(X1,X2) = О, следовательно,H(X1,X2) = HX1 + НХ2 - I(X1,X2)=2HX1.

Вместо X1 и X2 можно говорить о двумерной д.с.в.X =(X1,X2 Аналогичным образом для n-мерной д.с.в. X=(X1,X2..,Xn) можно получить, чтоHX = nНХ1

Пусть L1(X)=L(X)/n, где X =(X1,X2..,Xn) т.е. L1(X) - это количество бит кода на единицу сообщения X. Тогда ML1(X) - это среднее количество бит кода на единицу сообщения при передаче бесконечного множества сообщений X. Из ML(X) — 1 ≤ НX≤ML(X) для кода Шеннона-Фэно для X следует ML1(X) — 1/n≤ HX1 ≤ML1(X) для этого же кода

7.Сжатие информации. Метод блокирования

Метод блокирования – для повышения степени сжатия

По выбранному значению ε>0 можно выбрать такое s, что если разбить все сообщение на блоки длиной s (всего будет n/s блоков), то кодированием Шеннона-Фэно таких блоков, рассматриваемых как единицы сообщения, можно сделать среднее количество бит на единицу сообщения большим энтропии менее, чем на ε. Действительно, пусть Y=(Y1, Y2,…,Yn/s), Y1=(Х1,Х2,…,Хs), Y1=(Х1,Х2,…,Хs), Y1=(Хs+1,Хs+2,…,Х2s)и т.д

Тогда HY1 и sHX1) и sML1(Y1)=ML(Y1)≤HY1+1=sHX1+1, следовательно, ML1 (Y1)≤HX1+1/s, т.е. достаточно брать s= 1/ ε. Минимум s по заданному ε может быть гораздо меньшим 1/ ε

8.Сжатие информации. Метод Шеннона-Фэно

1)Значения д.с.в. располагают в порядке убывания их вероятностей.2)Затем последовательно делят на две части с приблизительно равными вероятностями.3)К коду первой части добавляют 0, а к коду второй – 1 ит.д.

недостатки:

  • С ростом длины сообщения трудоемкость построения кода становится недопустимо большой.

  • Такое кодирование делает невозможным отправку сообщения по частям, что необходимо для непрерывных процессов передачи данных.

  • Дополнительный недостаток - необходимость отправки или хранения полученного кода вместе с кодовой таблицей, что снижает эффект от сжатия.\

Полученный код: A — 11, B — 101, C — 100, D — 00, E — 011, F — 010

X Р code(X)

А 0,4 0

В 0.2 11

С 0.4 10

ML(X) = ML1(X) = 1.6 бит/сим, НХ = log2 5 - 0.8= 1.523 бит/сим

X Р code(X)

00 9/16 0

01 3/1С 10

10 3/16 ПО

11 1/16 111,

MLi(X) = 27/32=0.84375бит/символ

9.Сжатие информации. Метод Хаффмена

  • Более практичен и никогда по степени сжатия не уступает методу Шеннона-Фэно, более того, он сжимает максимально плотно.

  • Код строится при помощи двоичного (бинарного) дерева. Вероятности значений д.с.в. приписываются его листьям; все дерево строится, опираясь на листья.

  • Величина, приписан к узлу дерева, наз-ся весом узла.

  • Два листа с наименьшими весами создают родительский узел с весом, равным сумме их весов; в дальнейшем этот узел учитывается наравне с оставшимися листьями, а образовавшие его узлы от такого рассмотрения устраняются.

  • После постройки корня нужно приписать каждой из ветвей, исходящих из родительских узлов, значения 0 или 1.

  • Код каждого значения д.с.в. - это число, получаемое при обходе ветвей от корня к листу, соответствующему данному значению.

Двигаясь по кодовому дереву сверху вниз, можем записать для каждого символа соответствующий ему код

с е h I akmb1

01 00 111 110 100 1011 10101 10100

10.Сжатие информации. Словарно-ориентированные алгоритмы сжатия информации

Разработан израильскими математиками Якобом Зивом (Ziv) и Авраамом Лемпелом (Lempel).

Одной из причин популярности алгоритмов LZ является их исключительная простота при высокой эффективности сжатия.

Основная идея LZ77 состоит в том, что второе и последующие вхождения некоторой строки символов всообщении заменяются ссылками на ее первое вхождение. LZ77 использует уже просмотренную часть сообщения как словарь. Чтобы добиться сжатия, он пытается заменить очередной фрагмент сообщения на указатель в содержимое словаря.

Общий подход:LZ77 использует "скользящее" по сообщению окно, разделенное на две неравные части. ■ Первая, большая по размеру, является словарем, включает уже просмотренную часть сообщения. ■ Вторая, намного меньшая, является буфером, содержащим еще незакодированные символы входного потока.

□ Обычно размер окна составляет несколько килобайт, а размер буфера - не более ста байт. Алгоритм пытается найти в словаре фрагмент, совпадающий с содержимым буфера.

□ Алгоритм LZ выдает коды, сост-ие из 3 эл-ов:

■ смещение в словаре относительно его начала подстроки, совпадающей с началом содержимого буфера;■ длина этой подстроки; ■ первый символ буфера, следующий за подстрокой

Длина кода вычисляется следующим образом: длина подстроки не может быть больше размера буфера, а смещение не может быть больше размера словаря -1.

□ Следовательно, длина двоичного кода смещения будет [log2 (размер словаря)], а длина двоичного кода для длины подстроки будет [log2(размер буфера + 1)].

□ Символ кодируется 8 битами (например, ASCII+).

□ В примере длина полученного кода равна 9*(3+3+8) = 126 бит, против 14*8=112 бит исходной длины строки.

□ Много? Это на короткой строке и повторений мало

недостати:■ нельзя кодирован.подстрок, отстоящих друг от друга на расстоян. большем длины словаря;

■ длина подстроки, которую можно закодировать, ограничена размером буфера.

□ Если увеличивать размеры словаря и буфера, то это приведет к снижению эффективности кодирования, т.к. с ростом этих величин будут расти и длины кодов для смещения и длины, что сделает коды для коротких подстрок недопустимо большими. Кроме того, резко увеличится время работы алгоритма-кодера.

В LZ88□ Не использует "скользящее" окно, он хранит словарь из уже просмотренных фраз.□ При старте алгоритма словарь содержит только пустую строку.

□ Алгоритм считывает символы до тех пор, пока накапливаемая подстрока входит целиком в одну из фраз словаря.□ Как только эта строка перестанет соответствовать хотя бы одной фразе словаря, алгоритм генерирует код, состоящий из индекса строки в словаре, которая до последнего введенного символа содержала входную строку, и символа, нарушившего совпадение.

□ Затем в словарь добавляется введенная подстрока

Процедура сжатия

СТРОКА = очередной символ из входного потока WHILE входной поток не пуст DO СИМВОЛ = очередной символ из входного потока IF СТРОКА+СИМВОЛ в таблице строк THEN СТРОКА = СТРОКА+СИМВОЛ

ELSE

вывести в выходной поток код для СТРОКА

добавить в таблицу строк СТРОКА+СИМВОЛ

СТРОКА = СИМВОЛ END of IF END of WHILE

вывести в выходной поток код для СТРОКА

Процедура распаковки□ читать старый_код;

□ вывести старый_код;□ while входной поток не пуст do; читать новый_код; строка = перевести новый_код; вывести строку; символ = первый символ строки добавить в таблицу ;перевода старый_код;

+ символ старый_код = новый_кодendofwhile;

11. Сжатие информации. Арифметическое кодирование

Цель сжатия - уменьшение количества бит, необходимых для хранения или передачи заданной информации, что дает возможность передавать сообщения более быстро и хранить более экономно и оперативно. Методы сжатия информации были разработаны как математическая теория, которая долгое время мало использовалась в компьютерах на практике.

Сжатие данных не может быть большим некоторого теоретические предела. Для формального определения этого предела рассматриваем любое информационное сообщение длины как последовательность независимых, одинаково распределенных д.с.в. или как выборки длины значений одной д.с.в.

Доказано1) , что среднее количество бит, приходящихся на одно кодируемое значение д.с.в., не может быть меньшим, чем энтропия этой д.с.в., т.еML(X)>=HX. для любой д.с.в. X и любого ее кода.

Кроме того, Доказано2) утверждение о том, что существует такое кодирование (Шеннона-Фэно, Fano), что HX>=ML(X)-1.

основная теорема о кодировании при отсутствии помех, а именно то, что с ростом длины n сообщения, при кодировании методом Шеннона-Фэно всего сообщения целиком среднее количество бит на единицу сообщения будет сколь угодно мало отличаться от энтропии единицы сообщения.

Принципиальное отличие этого кодирования в его непрерывности, т.е. в ненужности блокирования. Код здесь строится не для отдельных значений д.с.в. или их групп фиксированного размера, а для всего предшествующего сообщения в целом. Эффективность арифметического кодирования растет с ростом длины сжимаемого сообщения .Хотя арифметическое кодирование дает обычно лучшее сжатие, чем кодирование Хаффмена, оно пока используется на практике сравнительно редко, т.к. оно появилось гораздо позже и требует больших вычислительных ресурсов.

Восстановление сообщения

Шаг 1: в таблице для кодирования значений дсв определяется интервал , содержащий текущий код, - по этому интревалу определяется один символ исходного сообщения.

Шаг 2: Из текущего кода вычисляется нижняя граница содержащего его интервала , полученная разность делится на длину этого же интервала. Полученное число считаем новым текущим значением кода. Переходим к шагу 1.

12. Введение в теорию чисел. Простые и составные числа

Просто́е число́ — это натуральное число, которое имеет ровно два различных натуральных делителя: единицу и самого себя. Все остальные числа, кроме единицы, называются составными.

Деление — это такая операция, в результате которой получается число (частное), которое при умножении на делитель даёт делимое.

Если для некоторого целого числа a и целого числа b существует такое целое число q, что bq = a, то говорят, что число a делится нацело на b или, что b делит a.

При этом число b называется делителем числа a, делимое a будет кратным числа b, а число q называется частным от деления a на b.

Свойства:

Любое целое число является делителем нуля, и частное равно нулю

Любое целое число делится на единицу

На ноль делится только ноль, причём частное в этом случае не определено.

Единица делится только на единицу.

Для любого целого числа а, не равного 0, найдётся такое целое число b, не равное а, для которого b делится на a.

Всякое натуральное число a, кроме единицы, может быть представлено произведением простых множителей: a = p1p2 ... pn. Среди простых сомножителей этого представления могут встретиться равные. Если через p1, p2, ..., pk обозначить различные простые числа и допустить, что они встречаются, соответственно, n1, n2, ... , nk раз, то получим представление a = p1^n1* p2^n2* ....*pk^nk, которое называется каноническим. Так, каноническое разложение числа 360 выглядит следующим образом: 2^3*3^2*5.

Факториза́цией натурального числа называется его разложение в произведение простых множителей.

Наибольшим общим делителем (НОД) для двух целых чисел m и n называется наибольший из их общих делителей. Пример: для чисел 70 и 105 наибольший общий делитель равен 35.

Наибольший общий делитель существует и однозначно определён, если хотя бы одно из чисел m или n не ноль.

Наименьшее общее кратное (НОК) двух целых чисел m и n — это наименьшее натуральное число, которое делится на m и n. Обозначается НОК(m,n)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]