
- •Москва 2004
- •Раздел 1. Информация и информационные технологии
- •Тема 1. Информация и информатизация
- •Тема 2. Информационные системы и технологии
- •Тема 3. Информационные процессы
- •Тема 4. Автоматизация информационных процессов
- •Раздел 2. Техническая база информационных технологий
- •Тема 5. Носители информации
- •Флэш-носители информации
- •Тема 6. Технические средства информатизации
- •Тема 7. Технические средства мультимедиа
- •Раздел 3. Программные средства информационных технологий
- •Тема 8. Программное обеспечение информационных технологий
- •Интерфейсы информационных систем
- •Интерфейсы АИС
- •Тема 9. Текстовый редактор Word
- •Тема 10. Работа с электронными таблицами Excel
- •Тема 11. Программы подготовки презентаций (PowerPoint и др.)
- •Раздел 4. Хранение и хранилища данных
- •Тема 12. Программно-технические средства хранения данных
- •Тема 13. Информационные хранилища данных
- •Состав и структура
- •Раздел 5. Средства телекоммуникаций
- •Тема 14. Технические средства передачи информации. Связь
- •Тема 15. Сетевые информационные технологии
- •Типы и топология сетей
- •Тема 16. Сервисы, услуги и информационные ресурсы Интернета
- •Почтовая программа
- •Как идет письмо
- •Структура электронного письма
- •Тема 17. Проектирование и сопровождение сайтов в Интернете
- •Тема 18. Поиск информации в Интернете
- •Раздел 6. Интегрированные информационные технологии
- •Тема 19. Интеграция информационных ресурсов и систем
- •Архитектура распределенной обработки данных
- •Архитектура сервера баз данных
- •Архитектура «один к одному»
- •Многопотоковая односерверная архитектура
- •Серверные архитектуры с параллельной обработкой запроса
- •Использование библиотек доступа и встраиваемого SQL
- •Программный интерфейс уровня вызовов
- •Открытый интерфейс доступа к базам данных
- •Мобильный интерфейс к базам данных на платформе Java
- •Тема 20. Оргтехника и полиграфическое оборудование
- •Оргтехника
- •Типизация «вирусов»
- •Тема 22. Эргономика
- •Раздел 8. Информационные технологии в образовании
- •Размещаемые в Интернете ЭОР можно разделить на:
- •Информационные ресурсы системы высшего образования РФ
- •Электронная периодика
- •Принятые сокращения
- •Полное название
- •Литература
- •Глоссарий
- •Приложение 1
- •Обзор зарубежных поисковых систем
- •Обзор русскоязычных поисковых систем

найти документы, вовсе не содержащие слов из названия заданной темы, однако имеющие к ней отношение.
Характер использования терминологических структур в процессах информационного поиска приведен в таблице 13-1.
Таблица 13-1
Характер использования терминологических структур в процессах информационного поиска
|
|
|
|
|
|
|
|
|
|
Использование при |
|
|||
Название |
Состав и структура |
|
Использование при |
формировании |
|
|||||||||
|
поиске |
|
информационных |
|
||||||||||
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
массивов |
|
|||
Словарь |
Термины, |
не |
являющиеся |
Применяется |
на |
этапе |
Используется |
при |
||||||
стоп-слов |
информативными |
|
анализа |
поискового |
построении |
частотных |
||||||||
|
(запрещены |
|
к |
запроса. |
Если |
в |
словников. Запрещенные |
|||||||
|
использованию) |
|
запросе |
|
|
есть |
слова не |
заносятся |
в |
|||||
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
неинформативные |
словарь |
|
|
|
|
||||
|
|
|
|
|
термины, то поиск по |
|
|
|
|
|
||||
|
|
|
|
|
ним не проводится |
|
|
|
|
|
||||
Тезаурус |
Дескрипторы |
и |
Используется |
|
для |
Используется |
|
|
||||||
|
ключевые |
|
слова, |
фиксирования |
|
|
|
|
|
|
|
|||
|
связанные |
|
между |
переходов |
от |
многих |
|
|
|
|
|
|||
|
собой |
|
|
|
синонимов |
к |
единым |
|
|
|
|
|
||
|
парадигматическими |
классам понятий. |
|
|
|
|
|
|
||||||
|
отношениями |
|
|
|
|
|
|
|
|
|
|
|
||
Морфолог |
Словарь |
|
|
основ, |
Используется |
|
для |
Используется |
для |
|||||
ический |
приставок, окончаний. |
нормализации лексики |
нормализации |
|
|
|||||||||
словарь |
|
|
|
|
поисковых запросов. |
поисковых |
|
образов |
||||||
|
|
|
|
|
|
|
|
|
|
документов |
|
|
|
|
Словарь |
Для каждого |
входа |
Используется |
|
для |
Используются |
для |
|||||||
синонимов |
словаря |
определяется |
составления |
|
и |
индексирования |
|
|
||||||
|
одна |
или |
больше |
расширения |
запросов |
информационного |
|
|||||||
|
синонимичных |
|
(путем добавления к |
массива |
|
ключевыми |
||||||||
|
категорий |
|
|
терминам |
|
запроса |
словами |
|
|
|
|
|||
|
|
|
|
|
синонимов). |
|
|
|
|
|
|
|
||
Словарь |
Словосочетания |
- |
Используется |
|
при |
Используется |
для |
|||||||
словосочет |
наиболее |
|
часто |
составлении |
запросов |
анализа |
|
содержания, |
||||||
аний |
встречающиеся |
|
для |
|
замены |
выделяя |
|
|
для |
|||||
|
комбинации слов |
последовательности |
идентификации |
|
|
|||||||||
|
|
|
|
|
слов словосочетанием |
содержания |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
однозначные |
|
|
||
|
|
|
|
|
|
|
|
|
|
словосочетания |
вместо |
|||
|
|
|
|
|
|
|
|
|
|
двух |
или |
более |
||
|
|
|
|
|
|
|
|
|
|
неоднозначных слов |
|
|||
Частотный |
Дескрипторы |
и |
Используется |
частота |
Используется |
для |
||||||||
словарь |
ключевые |
|
слова, |
встречаемости термина |
индексирования |
|
|
|||||||
|
упорядоченные |
в |
в |
информационном |
информационного |
|
||||||||
|
алфавитном |
порядке |
массиве |
|
|
для |
массива |
в |
системах |
с |
||||
|
или по частоте |
|
расширения, |
усечения |
фиксированным |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
263

|
|
|
запроса |
|
|
словарем |
|
|
|
|
|
|
|
|
|||
Иерархиче |
Термины, |
|
Позволяет для данного |
Используется |
для |
|||
ская |
упорядоченные |
на |
входа |
словаря |
найти |
индексирования |
|
|
организац |
основе иерархической |
более |
широкое |
информационного |
|
|||
ия |
классификации |
|
понятие, или |
более |
массива |
ключевыми |
||
терминов |
|
|
узкое. |
Используется |
словами. |
|
|
|
|
|
|
при |
формировании |
|
|
|
|
|
|
|
поискового запроса |
|
|
|
264

Поисковый аппарат. Информационно-поисковый язык
Поскольку автоматизированная система является инструментом,
используемым человеком при поиске, а не интеллектуальным автоматом для поиска информации (готовых решений задач основной деятельности), эффективность её использования зависит от того, насколько хорошо человек знает природу объектов и свойства инструмента, посредством которого он с этими объектами работает.
Особенностью поискового процесса, рассматриваемого как взаимодействие двух систем представления знаний, является многоуровневость и, часто, неоднородность объектов в цепи информационных преобразований. Операционными объектами, непосредственно участвующими во взаимодействии (сравнении потребности и документов в базе данных), являются поисковый образ документа и поисковый образ запроса, соответствие которых на формальном уровне устанавливается поисковым механизмом АИПС. Установление истинного соответствия предполагает соотнесение содержания на смысловом уровне: пользователь практически реконструирует возможное содержание по перечислению основных понятий и далее полученный образ соотносит с реальной потребностью. При этом адекватность образа действительному содержанию документа определяется не только качеством процесса свертки информации, но и уровнем знания субъектом средств отражения – концептуальной схемы предметной области и возможностей информационно-поискового языка.
Дадим определения, связанные с данным понятием.
Информационно-поисковый язык – искусственный язык,
предназначенный для выражения содержания документов и информационных запросов или описания фактов с целью обеспечения поиска в автоматизированных информационных системах (АИС), в т.ч. – автоматизированных информационно-библиотечных системах (АИБС) [91]. В дополняющей первое определение, дефиниции говорится, что
информационно-поисковые языки – искусственные языки,
предназначенные для формирования специальных характеристик (индексов, дескрипторов, тезаурусов, ключевых слов и др.) объектов (документов, фактов и т.п.), хранящихся в БД с целью обеспечения поиска с получением результата, релевантного запросу пользователя. Они образуются на основе специальных правил, в том числе грамматики, систем обозначения (алфавит) и др. В настоящее время естественный язык ещё не может быть полноценно использован с этой целью из-за сложности его представления в машинную форму, а также многозначности, неформализуемости некоторых связей между словами и т.п.
Рассмотрим виды ИПЯ.
Ключевое слово (КС) – отдельное слово или словосочетание естественного языка, выделяемое из текста документа или запроса и
265

несущее существенную смысловую нагрузку с точки зрения информационного поиска. КС отражает основное содержание документа при индексировании. Ключевые слова представляются в тезаурусе в унифицированной грамматической форме, устанавливаемой в рамках системы стандартом на информационно-поисковый тезаурус или методикой [90].
Кроме ключевых слов широко используются различные классификации, обычно представляемые в виде таблиц классификации.
Под классификацией в данном аспекте понимают совокупность элементов, сгруппированных в классификационную систему, состоящую из кода класса, его названия и методических указаний, раскрывающих содержание деления, ссылок и т.п.
Классификационные системы отражаются в таблицах классификации, подразделяющиеся на универсальные и отраслевые.
Рубрикатор представляет иерархическую классификационную таблицу, содержащую полный перечень включенных в систему классов и предназначенную для систематизации информационных фондов, массивов и изданий, а также поиска в них.
Для обозначения в классификационной системе отдельных понятий в ней используется индексация множества символов и специальные правила их применения.
Термин индексирования – одна или несколько связанных лексических единиц (ЛЕ), представленных в поисковом образе документа (ПОД) и оформленных по правилам определенного ИПЯ. В классификации ИПЯ он выражен с помощью полного классификационного индекса, в предметизационном – в виде совокупности предметных рубрик [98].
Предметизация – вид индексирования, при котором содержание документа и (или) запроса выражено предметными рубриками в соответствии с правилами какого-либо предметизационного ИПЯ [97].
Тезаурус – своего рода «обращенный» толковый словарь. Если в обычном толковом словаре по слову находится его значение, то в тезаурусе по записанному определённым способом значению находят слово или несколько слов, выражающих искомое значение.
Термин «тезаурус» впервые в XIII веке использовал Б. Латини в труде «Книга о сокровище». Первые тезаурусы не были связаны с потребностями информационной деятельности. В библиотечноинформационных системах разработка тезауруса реальна лишь для отдельных отраслей. Тезаурус в ИС можно воспринимать, как её семантическое наполнение. Универсальные библиотеки используют имеющиеся иерархические классификации или предметные рубрики
[90].
Дескриптор (от англ. «to describe» — описывать), словарная единица ИПЯ, выраженная словом, словосочетанием или кодом, включающая эквивалентные или близкие по смыслу ключевые слова,
266

используемая для координатного индексирования документов и (или) информационных запросов; лексическая единица информационнопоискового тезауруса (ИПТ), под которой понимается нормализованное слово или словосочетание, выбранное из множества синонимических или близких по значению ключевых слов.
Под дескриптором понимают термин, нотацию или другой ряд символов, используемых для обозначения предмета какого-либо произведения [65]. Дескриптор как термин, предназначенный для однозначного описания понятий, в 1950 году ввёл американский математик К. Мэрс. Он же предложил составлять для контроля лексики специальные дескрипторные словари.
Критериями выбора одного из терминов в качестве дескриптора служат полнота выражения смысла, краткость, понятность и частота встречаемости термина в текстах документов и запросов. Лексическая единица ИПТ, входящая в класс эквивалентности данного дескриптора, которую он заменяет при индексировании документов и запросов, называется аскриптором (недескриптор). При этом дескрипторный словарь представляет алфавитный перечень дескрипторов и аскрипторов
[82].
Информационно-поисковый тезаурус – разновидность тезауруса, словарь ЛЕ дескрипторного информационно-поискового языка или нормативный словарь дескрипторов и ключевых слов с зафиксированными парадигматическими отношениями между этими единицами. Предназначен для координатного индексирования документов и информационных запросов. В упрощенном виде ИПТ – список терминов, их синонимов и связей [90].
Средства поиска, обеспечивающие нормализацию лексики ИПЯ
Грамматический строй естественных языков нередко расходится с логической структурой мышления, и поэтому при поиске информации необходимо полностью или частично исключить влияние аффиксов и окончаний слов естественных языков.
Для этого можно предусмотреть наращивание документов всеми потенциально возможными словоформами, которые можно составлять, например, на базе основ слов, первоначально содержащихся в документах. Наличие в очередной паре «документ–запрос» словоформ, совпадающих с точностью до общности их корней, в результате такого наращивания привело бы к появлению в документе словоформы, полностью совпадающей со словоформой, имеющейся в запросе. Таким образом, такое наращивание снимало бы различие употреблений словоформ в документах и запросах. Заметим, что наращивание словоформ может осуществляться как на уровне документов, так и на уровне запросов.
Другой технологический вариант, позволяющий снимать различие
267

употреблений словоформ, состоит в использовании кодирования слов. Сущность метода автоматического кодирования слов с помощью
наперёд заданных словарей аффиксов и окончаний заключается в автоматической проверке на наличие в словах естественных языков элементов, вошедших в наперёд заданные (составленные экспертамилингвистами) словари аффиксов и окончаний, и отсечении их, если они имеются.
От качества составления словарей аффиксов и окончаний в значительной мере зависит качество автоматического кодирования слов естественных языков, а, следовательно, и функциональная эффективность ИПС в целом. Ошибки могут быть следствием такого алгоритма, когда после включения очередной морфемы в словарь, она отсекается из всех слов естественно-языкового употребления в БД, независимо от того, является ли для конкретно рассматриваемого слова морфемой или частью корня. Для каждого естественного языка статистические характеристики вычисляются путём автоматической обработки достаточно представительных фрагментов текстов данного языка.
Оценка и обработка результатов поиска
Учитывая, что идеальный результат поиска должен удовлетворять требованиям единственности, полноты и непротиворечивости, получаем, что различные виды поиска определяют различные требования к функциональным возможностям системы в части оценивания результата. Однако, только для случая предметного поиска доказательство полноты является тривиальным: непустой результат поиска подтверждает факт существования (или отсутствия) объекта, обладающего искомыми свойствами. Результат тематического поиска в этом смысле множественен и, соответственно, требует последующей систематизации – ещё одного процедурного шага для упорядочения полученного множества объектов по значениям не определенного явно основания. В свою очередь, проблемный поиск предполагает уже двухуровневую систематизацию.
Соответственно, такая дополнительная, и отдельная во времени, обработка требует наличия в системе средств идентификации получаемых объектов (как отдельных элементов, так и их композиций, возможно, связываемых с методами их получения), а также средств их выборочного использования.
Интерфейсные средства обработки результата и развития поиска используют два типа операционных объектов – отдельные документы или коллекции документов. Особенностью предложенной схемы является функциональное подобие интерфейсных блоков и то, что, помимо функций обработки материала документов, система предоставляет средства развития процесса поиска либо путём
268

модификации выражения, либо путем реформулирования запроса по обратной связи по релевантности.
Вопросы для самопроверки:
1.Базы и банки данных (определения и характеристика).
2.СУБД (определение, типы и возможности).
3.Классификация СУБД.
4.Требования, предъявляемые к БД.
5.Типология БД.
6.Типология баз данных с точки зрения информационных процессов.
7.Программные средства баз данных (ИПС, АИС и др.).
8.Компоненты БД.
9.Организация данных на машинных носителях.
10.Обобщенная схема информационного поиска.
11.Средства и интерфейсные объекты в поисковых технологиях.
12.Информационно-поисковый язык.
13.Оценка и обработка результатов поиска.
269