- •Р. С. Гиляревский основы информатики Курс лекций
- •Содержание
- •Вводная лекция Информатика как научная дисциплина
- •Становление информатики
- •Предмет и объекты исследования
- •Информатика и другие науки и научные дисциплины
- •Информация – знание – наука
- •Информация и данные
- •Свойства информации
- •Структура информации
- •Особенности информации
- •Информация научная и техническая
- •Наука как социальное явление
- •Р. Мертон
- •М. Поланьи
- •К. Поппер
- •Перспективы развития науки
- •Интеллектуальная коммуникация Основные понятия
- •Система научной коммуникации
- •Библиотечная и информационная деятельность
- •Научно-информационная деятельность
- •Этапы и задачи коммуникации
- •Информационное обслуживание
- •Перспективы развития
- •Человек в процессе коммуникации Потребители информации
- •Эгалитарность информационного обслуживания
- •Информационные потребности в развитии
- •Литература как источник информации Основные понятия, эволюция и типология
- •Закономерности роста и старения
- •Закон рассеяния
- •Перспективы развития
- •Информационные издания и услуги Основные виды
- •Реферирование и библиографирование
- •Реферативный журнал винити
- •Зарубежные реферативные журналы
- •Электронная информация и базы данных
- •Сети передачи и средства хранения и обработки данных
- •Информационные услуги
- •Информационные структуры и инфраструктура
- •Информационный поиск Предыстория и сущность
- •Процедуры и понятия
- •Координатное индексирование
- •Цитирование, библиографическое сочетание, социтирование
- •Цитирующие документы
- •Цитируемые документы
- •Иерархические и фасетные классификации
- •Рубрикаторы информационных изданий
- •Разные типы информационно-поисковых языков
- •Базы и банки данных
- •Информационные системы Информационно-поисковые системы
- •Интеллектуальные информационные системы
- •Гипертекстовые системы Возникновение и развитие идеи гипертекста
- •Логико-смысловой граф и логика связности
- •Гипертекст как развитие функций чтения и письма
- •Отечественные гипертекстовые системы гиперлог и семпро
- •Системы гипермедиа как развитие гипертекста
- •Системы машинного перевода
- •Информационная технология о понятии информационной технологии
- •Тенденции развития информационных технологий
- •Влияние информационных технологий на развитие науки
- •Социальные последствия новой технологии
- •Компьютерные средства коммуникации Электронные вычислительные машины
- •Новые поколения компьютеров
- •Персональный компьютер и персональные вычисления
- •Работа с текстом на компьютере о языках программирования
- •Прикладные программы подготовки текстов
- •"Понимание" текста на естественном языке
- •Электронная книга Новая концепция книги
- •Сущность, особенности и разновидности электронной книги
- •Электронный журнал: проблемы распространения и хранения
- •Организационные и юридические проблемы
- •Электронная библиотека реальная и виртуальная
- •Лучше ли электронная книга традиционной печатной? Доводы за электронную книгу
- •Доводы против электронной книги
- •Заменит ли электронная книга бумажную?
- •Сведения об Интернет Интернет как глобальная компьютерная сеть
- •Организация доступа к первоисточникам Научно-техническая информация
- •Политическая информация
- •Новости и литература в электронной форме
- •Развлекательная и бытовая информация
- •Образование
- •Музеи, галереи и художественные выставки
- •Информация по Интернет
- •Заключительная лекция Идеи и методы информатики
- •Поиски фундаментального закона
- •Определение и предметная область информатики
- •Перспективы информатики
- •Словарь терминов
Разные типы информационно-поисковых языков
Информатика, заявившая о себе в середине нашего века, принесла с собой не только новую и получившую распространение терминологию ("дескрипторы", "тезаурусы", "индексирование") и не только удовлетворила нашу обычную потребность в противопоставлении нового традиционному. Новым, действительно новым, оказался более широкий подход к явлениям и принципам. Понятие, например, информационно-поискового языка (ИПЯ) позволило рассматривать предметизацию, систематизацию, книгоописание, координатное индексирование как процессы, использующие искусственные языки, семантическую силу которых можно измерять по сравнению с возможностями естественного языка. Понятие информационно-поисковой системы (ИПС), как уже говорилось, объединило многие предметы, которые прежде рассматривались изолированно, например, библиотечные фонды и каталоги, различного вида самостоятельные и вспомогательные указатели, справочники, энциклопедии, автоматизированные поисковые системы. Это дало возможность выявить общие принципы их построения, найти общие критерии их эффективности и другие общие параметры.
Мы установили, что дескрипторные информационно-поисковые системы открыли принципиально новую возможность поиска необходимых документов и содержащейся в них информации по любому сочетанию заранее не предвиденных признаков. Однако за реализацию этой возможности приходится платить не только интеллектуальными потерями, но и материальными ресурсами. Эти системы приходится ориентировать на дорогостоящие компьютеры и программы, что предполагает более трудоемкий ввод информации и более строгие ограничения на число одновременных пользователей. Вполне естественно в такой ситуации попытаться сочетать уже имеющиеся поисковые средства со вновь создаваемыми. Отсюда вытекает и желание найти общие черты в этих разных системах и лежащих в их основе ИПЯ: языке предметных рубрик и дескрипторном языке, что обычно сочетается с поисками путей их совместимости.
Всегда можно найти такую удаленную позицию, такое основание деления, при которых эти языки попадут в один общий класс. В ряду искусственных языков они принадлежат к классу информационных, в ряду информационных – к подклассу информационно-поисковых. В них используются в качестве индексов слова естественного языка. При построениии этих языков применяются внешне схожие приемы: перечень предметных заголовков и словарная часть тезауруса упорядочиваются в алфавите слов. Тем не менее, учитывая эти общие и сходные черты, нельзя забывать и о принципиальных различиях данных языков. Основной словарный состав языка предметных рубрик это имена сложных классов, построенных до индексирования документов, поскольку этот язык принадлежит к типу предкоординируемых. Дескрипторный же язык является посткоординируемым, т. е. строится из имен простых классов, которые образуют необходимые понятия при их пересечении (логическом умножении) в момент индексирования и/или поиска документов.
Для того, например, чтобы индексировать статью о производстве и экспорте вычислительных и пишущих машин в США, Японии и Великобритании достаточно дескрипторов производство, экспорт, компьютер, пишущая машина и названий трех этих стран. Тогда при любой комбинации признаков при запросе (а таких комбинаций может быть 1х2хЗх4х5х6х7=5040, т. е. число перестановок из семи признаков) этот документ будет найден. Если же пользоваться языком предметных заголовков, то в зависимости от их заранее составленного перечня потребуется значительное число готовых рубрик. Оно, конечно, меньше указанного выше, но ровно настолько будет больше потерь при поиске.
Координатное индексирование в том и состоит, что для характеристики содержания документа или запроса перечисляются такие ключевые слова или дескрипторы, пересечение (логическое умножение) которых выражает основное смысловое содержание (главную тему, предмет) этого документа или запроса, тогда как в предметизации для данной цели используются заранее сформулированные заголовки и подзаголовки.
При индексировании, т. е. выражении основного смыслового содержания документа в терминах ИПЯ, процессы информационного анализа и синтеза совершаются в два этапа. Первый этап является общим для всех языков. Содержание документа анализируется как с позиций того, какие идеи и факты заложены в него автором, так и с позиций научных и практических интересов большинства его потенциальных читателей. (Если не иметь в виду узкоспециальных интересов, то обе точки зрения чаще всего совпадают). Результаты этого анализа синтезируются в виде субъективного представления индексатора об основном содержании документа.
Второй этап зависит от языка индексирования. Если это предкоординированный алфавитно-предметный язык, то свое представление о содержании документа индексатор сверяет с потенциальными запросами читателей, отраженными в перечне предметных заголовков. Для посткоординируемого дескрипторного языка аналогичному анализу подвергается тезаурус (не связанный непосредственно с потенциальными запросами потребителей) и сам текст индексируемого документа. Синтез в данном случае выражается в выборе соответствующих предметных заголовков или дескрипторов (ключевых слов).
Другими словами, при всей внешней схожести процедур индексирования посредством этих разных типов ИПЯ, характер их использования различен. В одном случае мы пользуемся готовыми продуктами в виде заголовков и подзаголовков, обозначающих класс документов определенного содержания. В другом случае это лишь исходный материал, дескрипторы и ключевые слова, при перемножении которых образуется класс, соответствующий данному содержанию. Вот почему перечень предметных заголовков и словарная часть тезауруса, при всей их внешней схожести, при том, что определенная часть слов в них может совпадать, на самом деле являются совершенно отличными друг от друга списками, слова для которых отбираются на основе разных критериев и играют различную роль.
Разные типы ИПЯ имеют свои достоинства и ограничения, которые делают их особо пригодными для решения разных поисковых задач. Возможности дескрипторного языка эффективно реализуются при узко тематическом поиске по произвольной комбинации признаков. Широкий тематический поиск по традиционным отраслям знаний и поиск по конкретным предметам, дисциплинам и их разделам в фондах документов за многие годы и в условиях одновременного обращения к ним большого числа читателей по-прежнему хорошо обеспечиваются библиотечными каталогами, основанными на иерархических и алфавитно-предметных классификациях. Выпуск информационных изданий требует разработки специальных рубрикаторов с небольшим числом уровней иерархии и подвижной, быстро меняющейся рубрикацией.