Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник.doc
Скачиваний:
1228
Добавлен:
11.04.2015
Размер:
2.16 Mб
Скачать

Глава 9. Координатное индексирование

9.1. Теоретические основы координатного индексирования

Дескрипторный язык – информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов. Дескрипторные ИПЯ начали создаваться в США в 50-е гг. Термин «дескриптор» (от английского слова descriptor – описатель) был введен в оборот математиком Кельвином Муерсом. Под дескриптором он понимал «словесный символ, предназначенный для обозначения идеи или понятия». Эти понятия он называл дескрипторами и считал, что для того, чтобы выявить основное содержание документа и перевести его на дескрипторный язык, необходимо произвести интеллектуальный анализ текста. Индексирование должно осуществляться с помощью специальных словарей.

Дальнейшее развитие теория дескрипторных ИПС получила в работах известного американского логика Мортимера Таубе. С помощью терминов математической логики Таубе определил координатное индексирование как «метод анализа информационного содержания документов таким образом, чтобы их поиск осуществлялся путем умножения, сложения и дополнения, т. е. логических операций, которые производятся над кодами, введенными в словарь. Термин «координация» относится не к геометрическим осям координат, а к логической координации».

Идею координатного индексирования он воплотил в 1952 г., разработав систему «Унитерм». В роли индексов в его системе выступали отдельные слова, выбранные из текста документа. Согласно теории Таубе, содержание любого документа может быть описано в виде набора «ключевых слов» (унитермов).

Унитермы – единичные термины, выражающие наиболее общие и сходные (унифицированные) понятия данной отрасли знания.

На каждый такой термин заводится отдельная карточка с номером документа (унитермкарта). Унитермкарты располагались в алфавитном порядке в специальной картотеке. Они должны были образовать базовую лексику соответствующей науки, т.е. комбинацию единиц, которые выразили бы любые понятия данной науки. При разработке системы соблюдались следующие требования:

  • использование одиночных слов, а не словосочетаний;

  • применение понятий одинаковой общности, объединяющих унитермы данной предметной области.

Первое требование приходилось нарушать из-за необходимости использовать в ИПЯ устойчивые словосочетания, а также синонимию, полисемию, омонимию ключевых слов.

Кроме того, практика требовала учитывать и ассоциативную связь (пересечение) унитермов и их родовидовое отношение, что противоречило второму требованию к унитермам.

Таким образом, требования к свойствам унитермов ограничивали возможности этого языка, и он получил лишь весьма ограниченное и кратковременное распространение.

Качество системы «Унитерм» оказалось низким, так как использование естественного языка для описания содержания документов и запросов приводит к большой потере информации. Естественный язык позволяет выразить одну и ту же мысль с помощью различных слов. Идентичные по смыслу слова должны иметь общие ключевые слова, но Таубе не предусматривал разработку тезауруса (словаря), что явилось причиной больших потерь информации. В связи с этим система «Унитерм» в настоящее время практически не применяется.

Необходимость учета синонимов, омонимов и некоторых связей иерархического типа требовала создания формализованного языка ключевых слов информационно-поисковой системы и специальных словарей – тезаурусов.

В переводе греческое слово «тезаурус» означает «сокровищница», «запас», «клад». Впервые близкое к этому термину значение еще в XIII в. использовал Брунетто Латини, назвав свой труд (систематизированную энциклопедию) «Книга о сокровище».

Понятие «тезаурус» имеет множество определений. Общепринятое заключается в том, что под тезаурусом понимается список особых лексических единиц, которые обычно представляются в виде слов или словосочетаний, с зафиксированными логическими отношениями, благодаря которым возможна их взаимная синонимичная замена.

Первый тезаурус такого типа был составлен П. М. Роджетом (1852 г.) в Великобритании. Этот словарь называли «словарем идей», так как в нем слова и словосочетания на английском языке были систематизированы не в алфавитном порядке, как в обычных словарях, а в соответствии с идеями, которые в них заложены.

Создавались эти словари в целях лингвистики – обозначить множество связанных по смыслу слов и словосочетаний одной идеей – названием понятийной группы, т. е. разнообразные слова в этом тезаурусе выражали одну и ту же мысль. Составление лингвистических тезаурусов было предвестником машинной обработки информации.

Впервые термин «тезаурус» в нынешнем его понимании, т. е. в связи с вычислительными машинами, употребила А. Мастерман в 1954 г. Она считала, что тезаурус можно считать общим средством для описания семантических структур естественного языка и предложила использовать его при машинном переводе.

В 1970-х гг. было проведено много исследований, посвященных использованию естественного языка в качестве универсального средства общения человека с машиной. Разработка тезаурусов в этот период была тесно связана с разработкой информационно-по­исковых систем (ИПС). С помощью тезаурусов в ИПС можно было установить соответствие между языком запросов пользователя и документами ИПС. Начиная с 1970-х гг. понятие «тезаурус» взяли на «вооружение» и лингвисты, и программисты.

В нашей стране первые тезаурусы были разработаны в начале 1960-х г. в целях их использования в информационно-поисковых системах. Ю. А. Шрейдер предложил взглянуть на тезаурус как на «систему знаний, отраженных языком», т.е. отказаться от узко­прикладных аспектов применения тезаурусов в ИПС тезаурусов. С. Е. Никитина считает, что тезаурус можно использовать не только как средство информационного поиска, но и для теоретических исследований в области семантики, лингвистики, терминоведения, гносеологии.

В 1990-е гг. в связи с тематикой перевода сложных объектов в новое качество разрабатывалась идея гиперграфового, гипертекстового тезауруса системных знаний.

Сегодня существует идея моделирования терминологической системы с помощью тезауруса, так как именно свойства терминов и терминосистем (системность, устойчивость и регулярность связей, установка на объективность описания и т. д.) предоставляют возможность моделировать терминосистемы с помощью тезаурусов. Таким образом, обосновано, что тезаурусы, терминосистемы, системы знаний – ключевые понятия для формализованного представления знаний. Многие ученые (философы, социологи, психологи и др.) считают язык сокровищницей человеческого опыта, поэтому естественный язык является одним из главных объектов изучения специалистов по информатике и смежным дисциплинам.

Развитие теоретических и практических исследований по созданию информационно-поисковых языков влияло на формирование определения понятия «информационно-поисковый тезаурус». На международной конференции по принципам построения теза­урусов (Варшава, 1970) было выработано такое определение: «Тезаурус является лексическим инструментом информационно-поисковых систем. Он состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи. Такой словарь, исчерпывающим образом покрывающий некоторую специфическую область знаний, представляет собой перечень дескрипторов и недескрипторов (вспомогательных терминов), упорядоченный по систематическому и алфавитному принципам и содержащий указание на имеющиеся между ними смысловые отношения как иерархического (родовидового), так и неиерархического типа». По сути, тезаурус представляет собой словарь понятий и словарь классификационных связей между ними.

Основное назначение тезауруса – перевод на информационно- поисковый язык смыслового содержания документов и запросов, которые относятся к различным областям науки и техники, охватываемым классификационной схемой тезауруса.

Тезаурусы помогают установить соответствие между:

  • авторской терминологией (понятиями и словами естественного языка, которые автор использует для обозначения этих понятий);

  • терминологией системы (понятиями и терминами, которые используются для выражения этих понятий при вводе документов в ИПС);

  • терминологией потребителя (понятиями и терминами, которые потребитель использует для представления этих понятий при формировании запросов).

Последнее определение информационно-поискового тезауруса (ИПТ) сформулировано более кратко: «Информационно-поисковый тезаурус – Нормативный словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц» (ГОСТ 7.74 – 96).

В зависимости от тематического профиля тезаурусы подразделяются на многоотраслевые, отраслевые и узкотематические. Известный отечественный многоотраслевой «Тезаурус научно-технических терминов (1972) опубликован под редакцией Ю. И. Шемакина. Для различных отраслей народного хозяйства, науки и техники создаются отраслевые тезаурусы. Кроме того, в нашей стране разработано большое количество узкотематических, или микротезаурусов, предназначенных для поиска информации по отдельной проблеме, теме или отдельному внутриотраслевому направлению.

По назначению тезаурусы делятся на базовые и рабочие. Базовые тезаурусы служат лексико-семантической основой при создании узкотематических рабочих тезаурусов. Они облегчают процесс создания и унификации рабочих тезаурусов. В качестве базовых могут использоваться многоотраслевые тезаурусы. Таким образом, базовые тезаурусы – это нормативные пособия, включающие только основную лексику той или иной отрасли и наиболее проявляющиеся парадигматические отношения. Рабочим тезаурусам характерно большое лексическое богатство (собственные наименования, специфические термины и т. д.), а также развитые парадигматические отношения. Иными словами, семантическая сила рабочих тезаурусов должна превосходить семантическую силу базовых тезаурусов.