Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
[ДВ] Шпаргалка к зачёту.pdf
Скачиваний:
58
Добавлен:
21.03.2016
Размер:
682.68 Кб
Скачать

^up

,

где количество символов в сообщении, мощность алфавита.

Измерение информации в теории информации (информация как снятая неопределенность)

В теории информации количеством информации называют числовую характеристику сигнала, не зависящую от его формы и содержания и характеризующую неопределенность, которая исчезает после получения сообщения в виде данного сигнала в этом случае количество информации зависит от вероятности получения сообщения о том или ином событии. Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество вероятности в сообщении о нем равно 0. Чем вероятнее событие, тем больше информации о нем несет сообщение.

Лишь при равновероятных ответах ответ "да" или "нет" несет 1 бит информации. Оценка количества информации основывается на законах теории информации. Сообщение имеет ценность, несет информацию, когда мы узнаем и понимаем смысл данного сообщения. Таким образом, с точки зрения на информацию как на снятую неопределенность количество информации зависит от вероятности получения данного сообщения. Причем, чем больше вероятность события, тем меньше количество информации в сообщении о таком событии.

Научный подход к оценке сообщений был предложен в 1928 году Р. Хартли. Расчетная формула имеет вид:

или ,

где количество равновероятных событий (число возможных выборов), количество информации.

^up

Информация. Тезаурус, дескриптор.

Информация — 1. Сведения, уменьшающие неопределенность события.

2.Сведения о событиях, фактах независимо от формы их представления.

3.Та часть материального сообщения, которая изменяет состояние тезауруса (набор дескрипторов, словарь) получателя, т.е. то, что изменяет состояние мышления.

Тезаурус

1.Информационно-поисковый тезаурус представляет собой словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка (дескрипторами) и предназначенный для поиска слов по их смысловому содержанию.

2.Информационно-поисковый тезаурус (ИПТ) - контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области.

Ив том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.

Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.

По первому способу создаются алфавитные словари. По второму способу - тезаурусы. Алфавитные словари служат для раскрытия значения данного слова. Тезаурусы служат для поиска слов для выражения данного понятия. Т.е., если в обычном словаре по слову ищется его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл выражают.

Дескриииптор (от лат. descriptor — описывающий) — лексическая единица (слово, словосочетание) информационно-поискового языка, служащая для описания основного смыслового содержания документа или формулировки запроса при поиске документа (информации) в информационнопоисковой системе. Дескриптор однозначно ставится в соответствие группе ключевых слов естественного языка, отобранных из текста, относящегося к определённой области знаний.

^up

Дескриптор HTML — элемент языка разметки гипертекста HTML. В разговорной речи дескрипторы HTML называют тегами.

Дескриптор развёртывания XML-файлы, описывающие развёртывание модулей вебприложения.

Дескриптор сегмента — служебная структура архитектуры x86 в оперативной памяти ЭВМ, определяющая сегмент.

Дескриптор шлюза — служебная структура данных архитектуры x86, определяющая различные переходы[какие?].

Файловый дескриптор — число или структура, используемая в операционной системе для доступа к файлам, папкам, сокетам и т. п.

^up

Информация. Закон Брэдфорда.

Информация — 1. Сведения, уменьшающие неопределенность события.

2.Сведения о событиях, фактах независимо от формы их представления.

3.Та часть материального сообщения, которая изменяет состояние тезауруса (набор дескрипторов, словарь) получателя, т.е. то, что изменяет состояние мышления.

Закон рассеяния научных статей в журналах был открыт в 1934 г. С. Бредфордом, который в 1948 г. дал ему следующую формулировку: “Если научные журналы расположить в порядке убывания числа помещенных в них статей по какомулибо заданному предмету, то в полученном списке можно выделить ядро журналов, посвященных непосредственно этому предмету, и несколько групп или зон, каждая из которых содержит столько же статей, что и ядро. Тогда числа журналов в ядре и в последующих зонах будут относиться как 1 : a : a^2 “

Важным свойством научных публикаций является их рассеяние. Закон рассеяния научных статей в журналах был открыт в 1934 г. С. Бредфордом, который в 1948 г. дал ему следующую формулировку: «Если научные журналы расположить в порядке убывания числа помещенных в них статей по какому-либо заданному предмету, то в полученном списке можно выделить ядро журналов, посвященных непосредственно этому предмету, и несколько групп или зон, каждая из которых содержит столько же статей, что и ядро. Тогда числа журналов в ядре и в последующих зонах будут относиться как ».

В соответствии с этим законом журналы по продуктивности можно сгруппировать так, чтобы они как бы образовали три зоны. Включенные в каждую такую зону журналы содержали бы одну треть публикаций по данному предмету, помещенных во всех этих журналах.

Первая, ядерная зона содержит публикации из небольшого числа самых продуктивных журналов

– Т1. Вторая зона содержит публикации из большего числа журналов средней продуктивности – Т2, а третья зона – из еще большего числа журналов с низкой продуктивностью – ТЗ. Тогда в соответствии с рассматриваемым законом

,

где является коэффициентом рассеяния, т. е. величиной для данного предмета и времени постоянной.

Для 248 журналов по электрохимии, которые были проанализированы С. Бредфордом, численное значение а составляло примерно 5. В ядерной зоне содержалось 8 самых продуктивных журналов, во второй зоне журналов средней продуктивности и в третьей зоне журналов.

Другими словами, если совокупность всех публикаций по какому-либо вопросу принять за целое, то в специальных журналах данного профиля (число которых невелико) помещается лишь одна треть этих публикаций.

^up

Вторая треть статей по данному вопросу оказывается опубликованной в значительно большем числе тематически родственных (смежных) журналов.Последняя треть этих публикаций рассеяна в огромном числе периодических изданий, в которых появление статей данной тематики трудно предвидеть, так как эти издания имеют широкий профиль или общенаучный характер.

Причем:

За годы, прошедшие со времени открытия этого закона, проведены сотни исследований с целью проверить его истинность и найти для него строгое математическое выражение. Они показали, что закон этот выполняется только при определенных условиях, когда предмет или тема четко сформулированы, учитываются все релевантные документы в полном перечне изданий и строго ограничено время выхода этих изданий.

Последнее условие имеет особый смысл, так как этот закон характеризует рассеяние в определенный момент. Он является частным случаем более общего распределения, описываемого законом Ципфа. Дж. Ципф установил, что если к достаточно большому тексту составить список всех встретившихся в нем слов и расположить их в порядке убывания частоты встречаемости в данном тексте, то для любого слова произведение его порядкового номера (ранга) на эту частоту есть постоянная величина, имеющая одинаковое численное значение в данном тексте:

Этому закону подчиняется распределение не только слов во всех языках мира, но и других явлений социального характера: ученых по числу опубликованных ими работ, городов по численности населения, людей по размерам дохода и даже биологических родов по числу входящих в них видов.

^up

Некоторое отличие этого закона от ципфовского распределения объясняется спецификой периодических изданий как формы квантования научной литературы. Эти издания обладают большой инерционностью: изменения в их профилях и номенклатуре происходят значительно медленнее, чем в содержании статей, которые непосредственно отражают все процессы в науке и технике.