Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Расписанные ответы на вопросы (новые).pdf
Скачиваний:
32
Добавлен:
05.06.2015
Размер:
1.82 Mб
Скачать

9.Потребители, приемники информации, информационная потребность. Понятие формальной и истинной релевантности документа.

Обобщенная информационная система “поставщик-потребитель информации” имеет

вид:

 

 

 

 

 

 

Источник информации – субъект, который

 

 

 

 

 

 

 

 

 

 

Средства,

 

предоставляет некоторую информацию.

Источник

 

 

 

 

 

обеспечива

 

Получатель информации – субъект, который

информации

 

 

ющие

 

(документ,

 

 

доступность

 

получает информацию.

 

 

 

который

 

 

информации

 

Информационная потребность - потребность,

является не

 

 

(инф-

 

 

 

поисковые

 

возникающая, когда цель, стоящая перед

только

 

 

 

носителем

 

 

системы)

 

пользователем в процессе его профессиональной

 

 

 

 

 

 

 

 

 

 

 

 

деятельности либо в его социально-бытовой

 

 

 

 

 

 

практике, не может быть достигнута без

 

Потребител

 

 

 

привлечения дополнительной информации.

 

ь

 

 

 

 

информаци

 

 

 

Релевантность – это свойство некоторой

 

 

 

 

 

и, который

 

 

 

информации (документ, факт и пр.) удовлетворять

 

обладает

 

 

 

информационную потребность пользователя АИС

 

особенностя

 

 

 

 

 

 

 

 

 

(relevant – относящийся к делу).

Истинная релевантность – это полезность каждого документа, при оценивании которой необходимо видеть предполагаемое применение информации для достижения выбранной (пусть гипотетической) цели (и не считать документ релевантным, если он не содержит ответа на вопросы темы, хотя и включает все термины запроса).

Формальная релевантность - соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи.

10.Определение ИС. Организационно-функциональная структура АИС

Система (от греч. systema — целое, соединение, составленное из частей) — совокупность элементов, взаимодействующих друг с другом и образующих определенную целостность.

Информационная система (ИС) — материальная система, организующая, хранящая и преобразующая информацию. Это система, основным предметом и продуктом функционирования которой является информация.

В основу построения автоматизированных ИС положены следующие принципы:

принцип интеграции — обрабатываемые данные, однажды введенные в систему, многократно используются для решения возможно большего числа задач, чем максимально устраняется дублирование данных и операций их преобразования;

принцип системности — обработка данных в различных «разрезах» с целью получения информации, необходимой для принятия решений на всех уровнях и во всех функциональных подсистемах;

принцип комплексности — автоматизация процедур преобразования данных на всех стадиях технологического процесса.

Основные компоненты ИС

ИС включают в свой состав вычислительные комплексы, которые составляют

физический компонент системы.

Второй компонент — это программные средства (процедуры) и технологии, обеспечивающие функционирование системы. выделяют подсистему общего

управления данными, а также процедуры специализированной функциональной

обработки, отражающие требования предметной области.

третий компонент — информационный фонд, характеризуется не только содержащейся информацией, но и способом ее организации (модель данных), а также формой представления, которая определяется возможностями лингвистического обеспечения — языками представления и управления информацией. лингвистическое обеспечение представляет существо АИС.

Примерный организационно-функциональный состав АИС:

Функциональные подсистемы реализуют и поддерживают модели, методы и алгоритмы обработки информации и формирования управляющих воздействий в рамках задач предметной области, подсистема информационной поддержки есть в составе любой деятельности.

Состав обеспечивающих подсистем:

программное обеспечение — совокупность программных компонент регулярного применения, необходимых для решения функциональных задач и программ, позволяющих наиболее эффективно использовать вычислительную технику, обеспечивая пользователям наибольшие удобства в работе; математическое обеспечение — совокупность методов, моделей и алгоритмов обработки информации, используемых в системе; лингвистическое обеспечение (ЛО) — это совокупность языковых средств,

обеспечивающих гибкость и многоуровневость представления и обработки информации в АИС, включает языки запросов и отчетов, специальные языки определения и управления данными.

разработка ИС должна начинаться именно с организационного обеспечения: обоснования целесообразности системы, экономических показателей, определяющих ее деятельность, состава функциональных подсистем, организационной структуры управления, технологических схем преобразования информации, порядка проведения работ и т. д.

11.Назначение и классификация информационных систем. Конкретная и абстрактная ИПС.

Отличия документальных и фактографических ИПС.

С точки зрения назначения и применения ИС могут классифицироваться по следующим признакам:

1)по характеру использования результатной информации:

информационно-поисковые, обеспечивающие сбор, хранение, выдачу информации по запросу пользователя;

информационно-советующие, используемые в качестве систем поддержки принятия решений;

информационно-управляющие, реализующие непосредственное управление процессом или сложным объектом;

2)по области (сфере) применения:

производственные;

научно-исследовательские;

библиотечные АИС, финансовые, офисные ИС и т. д.; 3)по объектам управления:

I• автоматизированного проектирования;

управления технологическими процессами;

управления предприятием1 и т. д.;

4)по степени автоматизации процессов обработки:

с ручной обработкой информации;

механизированной обработки информации;

автоматизированной обработки информации;

автоматической обработки информации;

5)по степени специализированности возможного применения:

универсальные;

специализированные (проблемно-ориентированные).

Сточки зрения информационного аспекта:

1.По типу хранимой информации - фактографические, документальные, лексикографические ИС.

Фактографические системы ориентированы на обработку данных, контекст использования которых предопределен и обычно зафиксирован в схеме данных или в процедурах обработки.

Документальные ИС подразделяются по уровню представления информации — полнотекстовые (обрабатывающие так называемые «первичные» документы) и библиографическо-рефератив-ные (обрабатывающие «вторичные» документы, отражающие на адресном и содержательном уровне первичный документ.

Лексикографические — это классификаторы, кодификаторы, словари основ слов, тезаурусы, рубрикаторы и т. д., обычно используются в качестве справочных совместно с документальными или фактографическими БД и позволяют в том числе доопределить контекст данных.

2.По типу модели данных СУБД: иерархические, сетевые, реляционные.

3.По топологии хранения данных различают локальные и распределенные ИС.

4.По оперативности использования данных операционные и справочно-информационные

5.По степени доступности информации ИС общедоступные и те, которые имеют ограничения на доступ пользователей к ресурсам системы.

12.Структурная схема процессов в абстрактной АИПС. Режимы ретроспективного поиска и ИРИ.

Обобщённая схема абстрактного технологического процесса, рассматриваемого с «информационной» точки зрения.

Целевая обработка – это функционально-ориентированное преобразование входных или хранимых объектов обработки, обеспечивающее получение проектного результата под управлением субъекта. Объектом и результатом обработки может быть и информация: это соответствует понятию информационной деятельности. В этом случае ИТ, непосредственно реализующие уже какую-либо целевую функциональную технологию, представляют собой прикладные информационные технологии.

Информационные ресурсы – это внешние источники информации, использование которых обычно позволяет обеспечить эффективность целевой обработки.

Интерфейсные средства реализуют тот или иной способ взаимодействия субъекта с компонентами функциональной обработки.

Режимы ретроспективного поиска и избирательного распределения информации. Существует две классические технологии обработки запросов (режимы информационного поиска): режим ретроспективного поиска и режим избирательного распределения информации.

При ретроспективном поиске очередной ПОЗ (поискового образа запроса) сравнивается со всеми ПОД (поисковой образ документа). Реально поиск производится только в части пространства вспомогательных структур (инвертированной форме), но построенных по всему массиву ПОД.

В режиме избирательного распределения информации схема обратная (зеркально симметричная): ПОД каждого вновь загружаемого документа сравнивается со всеми поисковыми образами запросов.

То есть, в первом случае запросы обрабатываются после создания массива ПОД, накапливаясь, формируют ретроспективную БД, а во втором – массив ПОЗ создаётся до обработки документов (при этом хранится массив ПОЗ и необязательно ПОД). Поэтому эти режимы иначе называют режимами обработки разовых и постоянно действующих запросов.

13.Состав, назначение, требования к ИПЯ. Классификация дескрипторных ИПЯ.

Информационно-поисковый язык — искусственный язык, созданный в целях лучшей реализации основной функции языка коммуникативной, т. е. функции передачи информации. В информационном языке за счет однозначности записи информации устраняется вариантность обозначения понятий: исключается синонимия и омонимия; действует более простой, чем в естественном языке аппарат грамматики.

Внутренняя структура языка характеризуется следующими составляющими — лексикой, грамматикой и словообразованием.

Лексика (или словарный состав) — это вся совокупность слов, входящих в состав языка.

Грамматика — это система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из морфологии и синтаксиса. Морфология —- это совокупность действующих в языке способов и средств построения слов.

Синтаксис — это совокупность действующих в языке способов и средств построения предложений.

Словообразование определяется как совокупность способов и средств образования слов на базе уже существующих.

Парадигмами называются лексико-семантические группы слов ИПЯ — это искусственный язык, специально сконструированный для удобного

(человеку) выражения основного смыслового содержания документов и запросов с целью последующего их сопоставления (системой).

Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания содержания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий либо из текста документа и обозначающих основные понятия этого документа.

Типы дескрипторных ИПЯ Дескрипторы — это предназначенные для координатного индексирования документов

и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного естественного языка и у которых искусственно устранены синонимия, полисемия и омонимия.

Дескрипторным языком называется специальный ИПЯ, словарный состав которого состоит из дескрипторов, а грамматика, по крайней мере, из способа построения ПОД и поисковых предписаний путем координации соответствующих дескрипторов^

Существуют ИПЯ, в которых словосочетания и фразы, выражающие сложные понятия двух и более простых заданы в словаре наряду со словами, выражающими простые понятия - предкоординированные . для обозначения основного смыслового

содержания документов можно использовать только отдельные слова, словосочетания и фразы, взятые из словарного состава данного языка. предкоординированным языкам органически присуща недостаточность словарного состава, а следовательно, и небольшая семантическая сила.

Другой тип, в которых лексические единицы (термины, слова) объединяются в «предложения» (поисковые образы) лишь во время индексирования документов ил даже в процессе их поиска называются посткоординируемыми. До индексирования лексические единицы посткоординируемых языков не связаны никакими синтагматическими отношениями.

типология ИПЯ с точки зрения их семантической силы.

Еще раз отметим, что главная особенность классификаций состоит в том, что их словарный состав задается в виде фиксированного списка терминов — шифров, слов, словосочетаний и фраз.

14.Парадигматические и синтагматические отношения между лексическими единицами ИПЯ. Меры близости лексических единиц.

Парадигматические отношения (или аналитические, базисные отношения) — логические отношения, существующие между лексическими единицами языка независимо от контекста их конкретного употребления. Можно сказать, что парадигматические отношения предопределяют отбор слов для какого-либо сообщения, но сами могут оставаться за его пределами.

Синтагматические отношения (или текстуальные, синтетические, синтаксические отношения) — это связи между лексическими единицами языка, выражающие действительные логические связи между соответствующими понятиями в тексте сообщения, которые, в свою очередь, отражают конкретные ситуативные отношения между обозначаемыми ими объектами, описываемыми в сообщении.

15.Предкоординированные и посткоординированные информационно-поисковые языки.

ИПЯ, в которых словосочетания и фразы, выражающие сложные понятия заданы в словаре наряду со словами, выражающими простые понятия. в таких словосочетаниях или фразах образующие их слова были связаны координатной или какой-либо иной связью до процесса индексирования. ИПЯ такого типа называются предкоординированными (pre-coordinate). К предкоординированным языкам относятся, например, как перечислительные, так и анали-тико-синтетические классификации. для обозначения основного смыслового содержания документов можно использовать только отдельные слова, словосочетания и фразы, взятые из словарного состава данного языка. т. е., по существу, проводится классификация документов — их отнесение к классам, обозначенным лексическими единицами этого языка. Семантическая сила предкоординированного языка определяется главным образом тем, насколько тщательно и исчерпывающе разработана его лексика. При составлении словаря для такого языка необходимо предвидеть изменения информационных потребностей в будущем. предкоординированным языкам органически присуща недостаточность словарного состава, а следовательно, и небольшая семантическая сила.

ИПЯ в которых лексические единицы (термины, слова) объединяются в «предложения» (поисковые образы) лишь во время индексирования документов ил даже в процессе их поиска называются посткоординируемыми. До индексирования лексические единицы посткоординируемых языков не связаны никакими синтагматическими отношениями. Очевидно, что такие языки будут семантически более сильными, чем предкоординируемые.

типология ИПЯ с точки зрения их семантической силы.

16.Индексирование и кодирование информации. Особенности представления информации в документальной и фактографической ИС.

Системы кодирования информации Запись идентификации объекта проводится с помощью условных обозначений в виде знака или группы знаков по определенным правилам. Условное обозначение объекта при этом называется кодом, а совокупность методов и правил условного обозначения — системой кодирования.

кодирование — это процесс присвоения условных обозначений (кодов) объектам и классификационным группам в соответствии с определенной системой кодирования. Код в системе кодирования задается тройкой: с=(А, L, S), где А — алфавит (множество символов, используемых при записи кода), L — длина (число позиций в коде);

S — структура кода (порядок расположения в коде символов, используемых для обозначения классификационного атрибута). Различают следующие типы алфавитов: цифровой, буквенный и смешанный. Структура кода представляет собой, как правило, графическое изображение последовательности расположения символов алфавита.

Системы кодирования, поддерживающие методы логического упорядочения объектов с дальнейшим присваиванием отдельному объекту некоторого кода, определяющего место объекта в принятом логическом порядке, называют регистра-

ционными. I

При использовании классификационных схем для идентификации группы объектов кодирование отдельного объекта состоит в присвоении объекту кода определенного класса классификации, системы кодирования могут быть названы

классификационными.

С точки зрения длины кода: системы кодирования кодами фиксированной длины и системы кодирования кодами переменной длины. В кодах фиксированной длины каждый разряд идентифицирует конкретный атрибут классификационной схемы. Коды переменной длины ориентированы на идентификацию значений только тех характеристических атрибутов, которые определяют классификационную группу.

Классификационное кодирование применяется при кодировании объектов на основании предварительной их классификации (правила кодирования в системе кодирования определяются классификационной схемой). Различают последовательное и параллельное классификационное кодирование.

Последовательное используется для иерархической классификационной структуры: сначала записывается код класса 1-го уровня, затем код класса 2-го уровня, затем код класса 3-го уровня и т. д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о значении определенного характеристического атрибута объекта. Объекты с одинаковыми кодами составляют класс иерархической классификации.

Параллельное кодирование используется для фасетной системы классификации: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации. основано на предварительной фасетной классификации.

Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую системы.

Порядковая предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Каждый из объектов классифицируемого множества кодируется путем присвоения ему текущего порядкового номера.

Серийно-порядковая предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия при этом также будет иметь порядковую нумерацию. удобна, когда количество групп невелико. кодами служат числа натурального ряда с закреплением отдельных серий этих чисел за объектами классификации с одинаковыми признаками.

Координатное индексирование базируется на положении, что смысловое содержание документа и информационной потребности может быть с достаточной степенью точности и полноты выражено соответствующим списком так называемых ключевых слов, которые явно или в скрытом виде содержатся в тексте. Под ключевыми словами понимаются наиболее существенные для этой цели слова и словосочетания, обладающие назывной функцией. Кроме назывных в качестве ключевых слов могут выступать также соответствующие численные характеристики, хронологические данные, диапазоны температур, давлений и т. д. координатное индексирование — это способ выражения основного смыслового содержания документа или информационной потребности в виде определенной совокупности ключевых слов.

При «чистом» координатном индексировании ключевые слова в поисковых образах никак не связаны одно с другим и функционируют самостоятельно. Для отыскания документов необходимо выполнить определенные логические операции над классами, которые обозначены ключевыми словами поисковых образов документов. В простейшем случае, когда поисковое предписание сформулировано в виде логического произведения (конъюнкции) некоторого множества ключевых слов, документ считается отвечающим на информационный запрос и подлежит выдаче, если в поисковом образе этого документа одновременно содержатся все ключевые слова поискового предписания.