Добавил:
t.me/Plushka666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
билеты теория информации.docx
Скачиваний:
13
Добавлен:
05.05.2021
Размер:
4.41 Mб
Скачать

ДАННЫЕ, ЗНАНИЯ, ИНФОРМАЦИЯ, МУДРОСТЬ.

Данные – поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи или обработки. Данные могут фиксироваться и храниться на каком-либо материальном носителе: бумаге, компакт-диске, магнитном диске. Следовательно, данные могут обрабатываться с помощью различных технических устройств. Они могут быть преобразованы в другую форму представления, сгруппированы, отсортированы и т.д. Так, например, сведения об учениках школы могут храниться в компьютере на жёстком диске в виде базы данных. Возможны любые варианты обработки этих данных, например, их можно сгруппировать по классам или отсортировать в алфавитном порядке.

Знание – это полученная определённым способом и упорядоченная некоторым образом информация, которая с различной степенью достоверности и объективности отражает в сознании человека те или иные свойства существующей действительности, включая информацию как о внешнем мире (его объектах, предметах, явлениях и процессах), так и о самом человеке. В социальной среде статусом знания некоторая информация наделяется, как правило, в соответствии с какими-либо критериями, нормами и процедурами, принятым в том или ином сообществе. Знанием также называют [информационный] результат познавательного процесса, его итог, накапливающийся в человеческой культуре и создающий основу поведения и деятельности людей.

Термин "информация" сведения, разъяснения, изложение. В обиходе информацией называют любые данные или сведения, которые кого-либо интересуют. Например, сообщение о каких-либо событиях, о чьей-либо деятельности и т.п. "Информировать" в этом смысле означает   "сообщить нечто, неизвестное раньше"; в технике под информацией понимают сообщения, передаваемые в форме знаков или сигналов; в кибернетике под информацией понимает ту часть знаний, которая используется для ориентирования, активного действия, управления, т.е. в целях сохранения, совершенствования, развития системы (Н. Винер).

Клод Шеннон, американский учёный, заложивший основы теории информации – науки, изучающей процессы, связанные с передачей, приёмом, преобразованием и хранением информации, – рассматривает информацию как снятую неопределенность наших знаний о чем-то.

В случаях, когда говорят об автоматизированной работе с информацией посредством каких-либо технических устройств, обычно в первую очередь интересуются не содержанием сообщения, а тем, сколько символов это сообщение содержит.

Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т.п.), несущую смысловую нагрузку и представленную в понятном компьютеру виде. Каждый новый символ в такой последовательности символов увеличивает информационный объём сообщения.

Му́дрость – свойство человеческого разума, характеризующееся степенью освоения знаний и подсознательного опыта и выражающееся в способности уместного их применения в обществе, с учётом конкретной ситуации.

! независимость от контекста: Данные – информация (понимание связей) – знания (понимание шаблонов) – мудрость (понимание принципов) -> уровень понимания.

(Все виды энергообмена сопровождаются появлением сигналов, то есть, все сигналы имеют в своей основе материальную энергетическую природу. При взаимодействии сигналов с физическими телами в последних возникают определенные изменения свойств — это явление называется регистрацией сигналов. Такие изменения можно наблюдать, измерять или фиксировать иными способами — при этом возникают и регистрируются новые сигналы, то есть, образуются данные. Данные — это зарегистрированные сигналы.)

ИЗМЕРЕНИЕ КОЛИЧЕСТВА ИНФОРМАЦИИ, ЭНТРОПИЯ.

В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit – binary digit – двоичная цифра).

Бит в теории информации – количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"–"решка", "чет"–"нечет"ит.п.). В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Бит – слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также ещё более крупные производные единицы информации:

  • 1 Килобайт (Кбайт) = 1024 байт = 210 байт,

  • 1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

  • 1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

  • 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

  • 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

Информацио́нная энтропи́я – мера неопределённости некоторой системы (в статистической физике или теории информации), в частности непредсказуемость появления какого-либо символа первичного алфавита. В последнем случае при отсутствии информационных потерь энтропия численно равна количеству информации на символ передаваемого сообщения. Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотой, поэтому неопределённость появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв (в этом случае говорят об энтропии встречаются очень редко, то неопределённость уменьшается еще сильнее.

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА.

Компьютерная лингвистика – наука, которая изучает основы информатики и все аспекты связи языка и мышления, моделирования языка в компьютерной среде с помощью компьютерных программ, а ее интересы лежат в области:

  • Оптимизации номинации на основе лингвистических знаний;

  • Создании естественно-языкового интерфейса и технологий понимания языка для общения человека с машиной

С т. з. современного подхода основными направлениями к. л. являются задачи АОТ, что включает задачи анализа и моделирования языковой структуры, а именно:

  • Графематический, фонематический, морфологический, лексико-грамматический, синтаксический (парсинг) анализ текста;

  • Анализ и моделирование семантической структуры;

  • Задача синтеза языковых компонентов, в т. ч. генерация текстов.

За последнее время в области к. л. были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи. Однако эти проблемы так и остались нерешенными, поскольку оказались значительно сложнее, чем предполагалось.

Лингвистические средства, которые создаются и применяются в к. л., делятся на две части: декларативные и процедурные. К первой части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, ко второй – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. И успех в решении прикладных задач к. л. зависит от полноты и точности представления памяти ЭВМ декларативных средств и от качества процедурных средств.

СПОСОБЫ ПРЕДСТАВЛЕНИЯ В ПАМЯТИ КОМПЬЮТЕРА ЦЕЛЫХ ЧИСЕЛ.

Переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки есть кодирование информации. Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук. Для записи информации о количестве объектов используются числа. Числа записываются с использование особых знаковых систем, которые называют системами счисления. Под системой счисления понимается способ записи чисел с помощью символов (цифр, букв и т.д.). Системы счисления бывают позиционные и непозиционные. Непозиционной является, например, римская система счисления. В позиционных системах счисления любое число записывается в виде последовательности символов, количественное значение («вес») которых зависит от местоположения в числе, т.е. позиции в записи числа. Основанием позиционной системы счисления называется целое число, определяющее количество символов, используемых в ней (обозначим его через p). В позиционной системе счисления с основанием p (p-ичной системе счисления) любое число R может быть представлено в виде:

В вычислительной технике широко используются позиционные системы счисления (двоичная, восьмеричная, десятичная, шестнадцатиричная). Обычно в памяти ПЭВМ, на уровне аппаратной реализации, информация представляется в двоичной системе счисления. Двоичная система счисления. В двоичной системе счисления используются две – цифры 0 и 1. Основание двоичной системы счисления записывается в виде:

Арифметические операции в двоичной системе счисления выполняются с помощью таблиц 1, 2 по тем же правилам, что и в десятичной системе счисления.

Восьмеричная система счисления. В восьмеричной системе счисления используются цифры от 0 до 7. Основание записывается в виде

СТАНДАРТ IEEE-754.

Данный стандарт разработан ассоциацией IEEE (Institute of Electrical and Electronics Engineers) и используется для представления действительных чисел (чисел с плавающей точкой) в двоичном коде. Наиболее используемый стандарт для вычислений с плавающей точкой, используется многими микропроцессорами и логическими устройствами, а также программными средствами.

В 2008 года ассоциация IEEE выпустила стандарт IEEE 754-2008, который включил в себя стандарт IEEE 754-1985.

Стандарт IEEE 754-1985 определяет:

  • как представлять нормализованные положительные и отрицательные числа с плавающей точкой

  • как представлять денормализованные положительные и отрицательные числа с плавающей точкой

  • как представлять нулевые числа

  • как представлять специальную величину бесконечность (Infinity)

  • как представлять специальную величину "Не число" (NaN или NaNs)

  • четыре режима округления

Ieee 754-1985 определяет четыре формата представления чисел с плавающей запятой:

  • с одинарной точностью (single-precision) 32 бита

  • с двойной точностью (double-precision) 64 бита

  • с одинарной расширенной точностью (single-extended precision) >=43 бит

  • с двойной расширенной точностью (double-extended precision) >= 79 бит

Стандарт был разработан со следующими целями:

  • Упростить перенос существующего программного обеспечения на новые платформы, соответствующие данному стандарту.

  • Предоставить новые возможности, полезные и безопасные, для программистов, которые, не будучи экспертами в численном анализе, могут писать черезвычайно запутанные программы. Впрочем, иногда полезность и безопасность представляются противоречащими друг другу.

  • Предоставить возможность экспертам писать и распространять устойчивые и эффективные вычислительные программы, которые были бы хорошо переносимыми между машинами, соответствующими данному стандарту. Кроме того, программы, написанные в соответствии со стандартом, должны возвращать идентичные результаты на всех машинах.

  • Предоставить прямую поддержку диагностики времени исполнения, обработки исключительных ситуаций и интервальной арифметики.

  • Предоставить возможности для разработки стандартных элементарных функций, высокоточной арифметики и символьных вычислений.

Основные определения стандарта IEEE-754.

Смещенный порядок (biased exponent) – сумма порядка и константы (смещения), выбранной так, что сумма неотрицательна. 

Двоичное число с плавающей точкой (binary floating point number) – битовая строка, характеризующаяся тремя составляющими: знаком (sign), знаковым порядком (signed exponent) и мантиссой (significand). Ее численное значение (если оно существует) равно произведению знака, мантиссы и двойки, возведенной в степень, равную порядку. 

Денормализованное число (denormalized number) – ненулевое число с плавающей точкой, порядок которого имеет некоторое зарезервированное значение (обычно это минимальное представимое в данном формате число), и чей ведущий (явный или неявный бит) нулевой. 

Место назначения (destination) – то, куда записывается результат бинарной или унарной операции. Может быть явно назначено пользователем или неявно – системой (к примеру, промежуточные результаты вычисления выражений). Некоторые языки не позволяют пользователям распоряжаться промежуточными результатами. Тем не менее, стандарт описывает результат операции в терминах целевого формата (destination’s format) и значений операндов. 

Порядок (exponent) – одна из трех составляющих двоичного числа с плавающей точкой, обычно означающая степень двойки при вычислении значения числа. Иногда порядок называется знаковым (signed) или несмещенным (unbiased).

Дробная часть (fraction) – часть мантиссы, лежащая справа от двоичной точки.  Не-число (NaN) - символическое значение, кодируемое в плавающем формате. Существует два типа не-чисел.

Сигнализирующие не-числа (signaling NaN) генерируют возникновение исключительной ситуации INVALID в случае, когда они встречаются в качестве операндов. «Тихие» не-числа (quiet NaN) могут без всяких исключений существовать на протяжении почти всех вычислительных операций. 

Результат (result) – битовая строка (обычно представляющая некоторое число), возвращаемая в место назначения.

Мантисса (significand) – компонента двоичного числа с плавающей точкой, состоящая из явного или неявного ведущего бита слева от подразумеваемой двоичной точки и дробной части справа. 

Флаг статуса (status flag) – переменная, которая может принимать два значения. Флаг может быть установленным (set), или неустановленным (clear). Пользователь может очистить флаг, копировать его, или восстановить предыдущее состояние. Будучи установленным, флаг может содержать дополнительную информацию, зависящую от платформы, и, возможно, недоступную некоторым пользователям. Операции, определенные стандартом, могут иметь побочным эффектом выставление следующих флагов: неточный результат (inexact result), исчезновение порядка (underflow), перполнение (overflow), деление на ноль (divide by zero) и неверная операция (invalid operation). 

Представление числа в нормализованном экспоненциальном виде.

Возьмем, к примеру, десятичное число 155,625 Представим это число в нормализованном экспоненциальном виде: 1,55625∙10+2=1,55625∙exp10+2. Число 1,55625∙exp10+2 состоит из двух частей: мантиссы M=1.55625 и экспоненты exp10=+2 Если мантисса находится в диапазоне 1<=M<10, то число считается нормализованным. Экспонента представлена основанием системы исчисления (в данном случае 10) и порядком (в данном случае+2). Порядок экспоненты может иметь отрицательное значение, например, число 0,0155625=1,55625∙exp10-2.

Представление числа в денормализованном экспоненциальном виде.

Возьмем, к примеру, десятичное число 155,625 Представим это число в денормализованном экспоненциальном виде: 0,155625∙10+3=0,155625∙exp10+3. Число 0,155625∙exp10+3 состоит из двух частей: мантиссы M=0,155625 и экспоненты exp10=+3. Если мантисса находится в диапазоне 0,1<=M<1, то число считается денормализованным. Экспонента представлена основанием системы исчисления (в данном случае 10) и порядком (в данном случае +3). Порядок экспоненты может иметь отрицательное значение, например число 0,0155625=0,155625∙exp10-3.

Преобразование десятичного числа в двоичное число с плавающей точкой.

Наша задача сводится к представлению десятичного числа с плавающей точкой, в двоичное число с плавающей точкой в экспоненциальном нормализованном виде. Для этого разложим заданное число по двоичным разрядам:

155,625=1∙27+0∙26+0∙25+1∙24+1∙23+0∙22+1∙21+1∙20+1∙2-1+0∙2-2+1∙2-3 155,625=128+0+0+16+8+0+2+1+0,5+0+0,125 155,62510 = 10011011,1012 - число в десятичной и в двоичной системе с плавающей точкой. Приведем полученное число к нормализованному виду в десятичной и двоичной системе: 1,55625∙exp10+2 = 1,0011011101∙exp2+111.

В результате мы получили основные составляющие экспоненциального нормализованного двоичного числа: Мантиссу M=1,0011011101. Экспоненту exp2 = +111

Преобразование двоичного нормализованного числа в 32 битный формат IEEE 754

Основное применение в технике и программирование получили форматы 32 и 64 бита. Например, в VB используют типы данных single (32 бита) и double (64 бита). В Си аналогично используют float (32 бита) и double (64 бит). Рассмотрим преобразование двоичного числа 10011011,101 в формат single-precision (32 бита) стандарта IEEE 754. Остальные форматы представления чисел в IEEE 754 являются увеличенной копией single-precision.

Чтобы представить число в формате single-precision IEEE 754 необходимо привести его к двоичному нормализованному виду. Мы проделали это преобразование над числом 155,625. Теперь рассмотрим, как двоичное нормализованное число преобразуется к 32 битному формату IEEE 754.

Описание преобразования в 32 битный формат IEEE 754:

  1. Число может быть + или -. Поэтому отводится 1 бит для обозначения знака числа: 0-положительное, 1-отрицательное. Этот самый старший бит в 32 битной последовательности.

  2. Далее пойдут биты экспоненты, для этого выделяют 1 байт (8 бит). Экспонента может быть, как и число, со знаком + или -. Для определения знака экспоненты, чтобы не вводить ещё один бит знака, добавляют смещение к экспоненте в половину байта +127(0111 1111). То есть, если наша экспоната = +7 (+111 в двоичной), то смещенная экспонента = 7+127=134. А если бы, наша экспонента была -7, то смещенная экспонета=127-7 =120. Смещенную экспоненту записывают в отведенные 8 бит. При этом, когда нам будет нужно получить экспоненту двоичного числа, мы просто отнимем 127 от этого байта.

  3. Оставшиеся 23 бита отводят для мантиссы. Но, у нормализованной двоичной мантиссы первый бит всегда равен 1, так как число лежит в диапазоне 1<=M<2. Нет смыла, записывать единицу в отведенные 23 бита, поэтому в отведенные 23 бита записывают остаток от мантиссы.

В результате десятичное число 155,625 представленное в IEEE 754 c одинарной точностью равно 431BA000 (hex).

Преобразования числа формата 32 бит IEEE 754 в десятичное число

Чтобы записать число в стандарте IEEE 754 или восстановить его, необходимо знать три параметра:

  • S- бит знака (31-й бит)

  • E- смещенная экспонента (30-23 биты)

  • M - остаток от мантиссы (22-0 биты)

Это целые числа которые записанные в числе IEEE 754 в двоичном виде.

Приведём формулу для получения десятичного числа из числа IEEE754 одинарной точности:

 где F - десятичное число

Проверяем наш пример:  F =(-1)0∙2(134-127)∙(1+ 1810432 / 223)= 27∙(1+0,2158203125)=128∙1,2158203125=155,625

Вывод этой формулы приводить не буду, всё видно и так. Поясню только (1+ M/223) - это мантисса, единица в этой формуле- это та единица, которую мы выбросили из 23 бит, а остаток мантиссы в десятичном виде находим отношением двух целых чисел - остатка мантиссы к целому.

Формальное представление чисел в стандарте IEEE 754 для любого формата точности.

Рис. 1 Представление числа в формате IEEE 754

где:

  • S - бит знака, если S=0 - положительное число; S=1 - отрицательное число

  • E - смещенная экспонента двоичного числа; exp2 = E - (2(b-1) - 1) - экспонента двоичного нормализованного числа с плавающей точкой. (2(b-1) -1) - заданное смещение экспоненты (в 32-битном ieee754 оно равно +127 см.выше)

  • M - остаток мантиссы двоичного нормализованного числа с плавающей точкой

Формула вычисления десятичных чисел с плавающей точкой, из чисел представленных в стандарте IEEE754:

(Формула №1)

Используя формулу №1 вычислим формулы для нахождения десятичных чисел из форматов одинарной (32 бита) и двойной (64 бита) точности IEEE 754:

Рис.2 Формат числа одинарной точности (single-precision) 32 бита

Рис.3 Формат числа двойной точности (double-precision) 64 бита

Представление денормализованного числа и других чисел в формате IEEE 754

Если применить формулу №1 для вычисления минимального и максимального числа одинарной точности представленного в IEEE754, то получим следующие результаты:

  • 00 00 00 00 hex= 5,87747175411144e-39 (минимальное положительное число)

  • 80 00 00 00 hex=-5,87747175411144e-39 (минимальное отрицательное число)

  • 7f ff ff ff hex= 6,80564693277058e+38 (максимальное положительное число)

  • ff ff ff ff hex=-6,80564693277058e+38 (максимальное отрицательное число)

Отсюда видно, что невозможно представить число нуль или бесконечность в заданном формате.