Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Печать_ТИПИС.doc
Скачиваний:
10
Добавлен:
08.08.2019
Размер:
323.07 Кб
Скачать
  1. Особенности разработки информационно-поисковой системы. Оценка эффективности информационно-поисковой системы. Критерии поиска в информационно-поисковой системе. Возможности количественной оценки

Исходно в истории развития поиска существовало два направления:

  1. Системы поиска для систем управления;

  2. Системы поиска для систем научно-технической информации.

Системы управления должны были иметь цель управления, т.е. функциональную часть, и средство для достижения цели – обеспечивающая часть. Основные этапы: сбор, анализ и подготовка рекомендаций. Для получения упр. рекомендаций развивались математические методы.

Системы НТИ исходно были чисто информационными. Основные этапы: создание, хранение и поиск информации. Развивались семантический анализ, компьютерная лингвистика, теория информационного поиска, семиотика.

Следствие: необходимость разработки ИПЯ.

Для оценки эффективности информационных ресурсов необходимо оценивать не только затраты на их создание, но и их вклад в эффективность функционирования системы управления. Нужно оценивать их влияние на систему управления.

Были предложены меры удовлетворения информационной потребности в теории информации: методы релевантности (соответствие выданному запросу) и пертинентности (соответствие выдачи потребности). Косвенные характеристики в задаче оценки значимости ресурса:

  1. Частота обращений;

  2. Число обслуживаемых пользователей;

  3. Объём хранимой информации.

Критерии выдачи (или критерии смыслового соответствия) – являются основой для алгоритма поиска. Различают следующие критерии:

  • На полное вхождение – полное совпадение поисков образа документации и образа запроса;

  • Частичное вхождение – поисковый образ запроса должен входить в образ документальной фразы. Поисковый образ должен быть больше, чем эта фраза;

  • Критерии смыслового соответствия с учётом базисных соотношений – фраза, разбитая на слова, поиск ведётся во всех документах;

  • Критерий смыслового соответствия с учётом синтаксического соотношения – смысловой образ (иерархическая структура).

  1. Информационно-поисковые языки как основа информационно-поисковых систем. Сложность задачи индексирования

Исходно в истории развития поиска существовало два направления:

  • Системы поиска для систем управления;

  • Системы поиска для систем научно-технической информации.

Системы управления должны были иметь цель управления, т.е. функциональную часть, и средство для достижения цели – обеспечивающая часть. Основные этапы: сбор, анализ и подготовка рекомендаций. Для получения упр. рекомендаций развивались математические методы.

Системы НТИ исходно были чисто информационными. Основные этапы: создание, хранение и поиск информации. Развивались семантический анализ, компьютерная лингвистика, теория информационного поиска, семиотика.

Следствие: необходимость разработки ИПЯ.

ИПЯ обладают высокими смысловыразительными способностями. В настоящее время под ИПЯ понимают формализованные семантические системы, обеспечивающие передачу (запись) информации в объеме, необходимом для цели поиска, то есть для формирования запросов поиска должно употребляться такое количество информации для организации поиска наиболее эффективным образом. В качестве стандартных единиц используют ключевые слова или ключевые слова в некоторых стандартных отношениях (стандартизированные предложения запросов).

Система индексирования. Под индексированием понимается процесс перевода с естественного языка на ИПЯ (Пример: система шифров УДК библиотеки). Процесс должен быть автоматизирован, поскольку является весьма трудоемким. Автоматизация процесса – есть система индексирования.

Типы систем индексирования:

  1. Свободное индексирование – использование ключевых слов;

  2. Полусвободное индексирование (ключевые слова анализируются, если они совпадают со словами тезауруса, иначе они игнорируются). Первое и второе недостаточно используют ключевые слова;

  3. Статистический подход. Ключевые слова сами вырабатываются системой на основе статистического анализа текста. Анализируемый текст и слова из тезауруса встречаются и относятся к ключевым словам;

  4. Индексирование, контролируемое тезаурусом. Каждое слово текста с точностью до основы сравнивается со словарём и вырабатывается весовой коэффициент совпадения. Совпадения записываются в поисковый образ документа. Такая система индексирования применяется в глобальных сетях.