Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3280.pdf
Скачиваний:
25
Добавлен:
15.11.2022
Размер:
17.07 Mб
Скачать

2.1.ИНДЕКСИРОВАНИЕ

2.1.1.Индексирование — его назначение

Индексирование занимает особое место среди различных видов свертывания, поскольку является одновременно элементом двух опера­ ций информационного обслуживания — аналитико-синтетической пе­ реработки сообщений и информационного поиска. В данном разделе рассмотрим вопросы индексирования, специфичные для информаци­ онного анализа и синтеза.

Под и н д е к с и р о в а н и е м понимают описание содержания до­ кументов и запросов с помощью того или иного информационного язы­ ка (ИПЯ). ИПЯ в свою очередь —это искусственный формализован­ ный язык, создаваемый на основе естественного языка. Результатом ин­ дексирования документа является поисковый образ документа (ПОД), а запроса — поисковый образ запроса (ПОЗ). На основе ПОЗ составля­ ется поисковое предписание (ПП), иногда несколько предписаний.

Для чего необходимо создание ПОД и ПОЗ?

В информационно-поисковых системах (ИПС) (в их решающих устройствах) обычно сравниваются, сопоставляются не сами докумен­ ты с запросами — с целью определения (выделения) релевантных за­ просу документов,— а их поисковые образы. В так называемых «руч­ ных», «традиционных» библиотечно-библиографических ИПС функ­ ции решающего устройства в процессе поиска выполняет человек (библиограф, потребитель), и в этом случае запрос обычно не индекси­ руется, он находится в голове, но индексирование документа —обяза­ тельно, поскольку документ хранится в определенном месте запомина­ ющего устройства ИПС в соответствии с его поисковым образом. От качества индексирования документов и запросов в значительной степе­ ней зависят результаты поиска — количество выданных ИПС реле­ вантных документов.

Для того чтобы лучше понять сущность индексирования и его воз­ можности с точки зрения влияния на результаты поиска, прежде всего следует рассмотреть инструмент, с помощью которого реализуется ин­ дексирование, а именно информационно-поисковые языки и их воз­ можности. Различаются обычно следующие типы ИПЯ: традиционные (используемые в современных ИПС «ручного» поиска), которые под­ разделяются на иерархические библиотечно-библиографические клас­ сификации и алфавитно-предметные классификации, и нетрадицион­ ные (применяемые в автоматизированных ИПС), подразделяющиеся

на дескрипторыые языки и языки ключевых слов. В эту же группу (не­ традиционных) включают также ИГ1Я, называемые языками семанти­ ческих кодов, по они достаточно редко употребляются па практике изза своей сложности. Необходимо отметить, что разделение языков на традиционные и нетрадиционные условно, поскольку традиционные библиотечно-библиографические классификации уже довольно давно с успехом используются в автоматизированных И ПС. Более сложно ситуация сложилась с дескринторными языками. Рожденные в 50-е го­ ды прошлого столетия для обслуживания именно механизированных и автоматизированных ИПС, они постепенно именно в автоматизиро­ ванных ИПС па практике почти сошли «на пет», несмотря па свое яв­ ное превосходство по сравнению с другими ИПЯ с точки зрения своей семантической силы и, следовательно, своей результативности. Они ус­ тупили свое место библиотечно-библиографическим ИПЯ и ИПЯ клю­ чевых слов (но сути, естественным языкам) в силу того, что обладали плохой тематической совместимостью. Это была, конечно, Пиррова по­ беда, так как недоучет в ИПЯ ключевых слов, парадигматических отно­ шений привел при поиске в современных ИПС к резкому снижению ка­ чественных показателей работы поисковых систем.

Может возникнуть вопрос, а почему естественный язык, на котором, собственно, и записаны все первичные и вторичные документы, являю­ щиеся объектом информационного поиска, почему наш «богатый и мо­ гучий» естественный язык непригоден для функционирования в ИПС? Почему в ИПС отказываются от привычного нам естественного языка и затрачивают значительные силы и средства на создание искусствен­ ных ИПЯ?

Дело в том, что естественный язык как средство поиска информации имеет существенные недостатки (подчеркиваем: эти недостатки только с точки зрения поиска информации). Эти недостатки обусловлены, прежде всего, н е о д н о з н а ч н о с т ь ю естественных языков, т. е. от­ сутствием в языке однозначного соответствия между планом выраже­ ния языка (именем, словом) и планом содержания (концептом, значе­ нием). Выражается эта неоднозначность в избыточности и недостаточ­ ности естественного языка (с точки зрения информационного поиска).

И з б ы т о ч н о с т ь естественного языка обусловлена наличием в естественном языке неключевых слов, синонимов, как лексических, так и логических, а также антонимов.

Неключевые слова — не все слова в тексте несут одинаковую смысло­ вую нагрузку с точки зрения отражения основного содержания текста. Например: «Роман, принадлежащий перу писателя XIX века»: здесь лишь три слова —«роман», «XIX» и «век» —являются ключевыми, ос­

тальные могут не приниматься во внимание для характеристики содер­ жания документа (они обычно и не включаются в дескрипторные сло­ вари).

Синонимы лексические (и близкие но смыслу слова): одно и то же содержание можно выразить различными словами. Например, сравним два текста: «Библиографические указатели по судостроению, опубли­ кованные английскими службами документации» и «Списки литерату­ ры по кораблестроению, изданные информационными центрами Вели­ кобритании». Эти тексты совершенно идентичны с точки зрения плана содержания, но различаются своим планом выражения.

Синонимы — логические: в этом случае один и тот же предмет (дено­ тат) обозначается различными словами (именами). Например: «СанктПетербург —город на Неве, Северная столица», «квадрат —равносто­ ронний прямоугольник, прямоугольный ромб» и т. и.

Антонимы —одна и та же мысль может быть выражена не только лексическими и логическими синонимами, но и словами, противопо­ ложными но значению,— антонимами. Например: «уменьшение» — «увеличение», «легкий» — «тяжелый», «сопротивление» — «проводи­ мость», «уменьшение сопротивления» — «увеличение проводимости», «удаление воздуха» —«создание вакуума» и т. п.

Не д о с т а т о ч н о с т ь естественного языка проявляется наличием

вязыке омонимов и логико-психологических эллипсов.

Омонимы полисемия как частный случай) —это проявление мно­ гозначности отдельных слов и выражений, при которых одинаковые но написанию и звучанию слова обозначают совершенно различные пред­ меты (денотаты). Например: «бак» (для жидкости) —«бак» (часть ко­ рабля) или «ключ» (для дверей) и «ключ» (скрипичный) — случай омо­ нимии, либо: «коса» (полуостров) — «коса» (орудие труда) или «кры­ ло» (птицы) — «крыло» (самолета) —случай полисемии.

Эллипсностъ естественного языка — случаи в речи (очень распро­ страненные), при которых слова, потенциально характеризующие ка­ кую-либо ситуацию, не участвуют непосредственно в ее речевом выра­ жении. Или короче —это пропуск в тексте слов, которые подразумева­ ются. Лексические эллипсы —употребление сокращенных вариантов словосочетаний: «язык» в смысле информационно-поисковый язык, «машина» в смысле электронно-вычислительная машина и т. п. Если лексическая эллипсность довольно легко устраняется по контексту, то для устранения логико-психологических эллипсов нужно владеть дан­ ным языком и знать систему понятий, относящихся к той области, о ко­ торой идет речь. Например, в статье, посвященной линейному кодиро­ ванию структурных формул, нет слов «химия», «информационный по­

иск», «автоматизация». Однако специалисту этой области знания из­ вестно, что данная статья относится к проблеме автоматизации поиска химической информации. Из-за логико-психологической эллипсности специальная литература доступна только специалистам, знающим сис­ тему понятий и ассоциаций, сложившуюся в данной области. Употреб­ ление эллипсов —в нашей повседневной жизни —позволяет нам очень экономно пользоваться лексическими средствами для выражения мыс­ лей. С другой стороны, понять чыо-либо речь (как письменно, так и уст­ но) — значит ликвидировать (компенсировать) в своей голове допу­ щенную в речи эллипсность. При «ручном» поиске (в традиционных библиотечно-библиографических И ПС) мы автоматически, опираясь на свои знания дайной предметной области, устраняем допущенную в запросе эллипсность. «Машина» (ИПС) такой способностью не обла­ дает, и потому введение в язык средств, компенсирующих эллипсность в автоматизированных ИПС, весьма желательно, но для этого нужен дескрииториый словарь, в той или иной степени организованный.

Итак, чем больше в том или ином ИПЯ устранены элементы избы­ точности и недостаточности, тем выше с е м а н т и ч е с к а я с и л а данного языка, тем выше, соответственно, качественные показатели ра­ боты конкретной ИПС. Однако полностью устранить элементы неод­ нозначности естественного языка невозможно, нельзя в ИПЯ полнос­ тью предусмотреть устранение логической синонимии и указать все ло­ гические отношения и психологические ассоциации между словами, поэтому в реально существующих ИПЯ избыточность и недостаточ­ ность скомпенсированы лишь в большей или меньшей степени. И эта «компенсация» производится поэтапно в процессе создания того или иного языка, о чем речь пойдет ниже.

В настоящее время существует большое количество различных ИПЯ, относящихся к перечисленным выше группам. Изучение этих ИПЯ способом сравнения показало возможность их единообразного описания с точки зрения основных структурных составляющих, назы­ ваемых логико-лингвистическими универсалиями. К этим универсали­ ям (непременным атрибутам ИПЯ) относятся лексические единицы, парадигматические и синтагматические отношения.

Построение плана содержания ИПЯ сводится к заданию исходных лексических единиц (лексики ИПЯ) и правил упорядочения их вдоль парадигматической и вдоль синтагматической осей. Практически все разнообразие словарей (ИПЯ) зависит от того, какие лексические еди-

иицы выбраны в качестве исходных и какие варианты группировки этих единиц разрешаются в данном ИПЯ.

Рассмотрим упомянутые выше логико-лингвистические универса­ лии.

Лексические единицы (индексы, слова ИПЯ) —наименьшие едини­ цы смысла в ИПЯ. Их план содержания соответствует значению от­ дельных слов или словосочетаний естественного языка либо понятию. Совокупность лексических единиц образует лексику ИЛЯ (рубрика­ тор, словарь, таблицы).

Лексические единицы различных ИПЯ отличаются ДРУГ от друга уровнем интеграции лексики естественного языка. Так, в ИПЯ I уровня интеграции лексики (дескринторные языки, языки ключевых слов) лексические единицы соответствуют отдельным словам или устойчи­ вым словосочетаниям естественного языка и обозначают они отдель­ ные п о н я т и я . В ИПЯ II уровня интеграции лексики естественного языка (например, УДК, ББК, предметные языки и т. п.) лексические единицы соответствуют синтагме, фразе и обозначают они отдельные т е м ы (предметы), которые априори фиксируются в ИПЯ при его раз­ работке. Языки I уровня интеграции лексики являются более гибкими, способными более точно и полно отражать содержание документа и за­ проса. В случае применения языков I уровня интеграции лексики ин­ дексатор, анализируя содержание документа, как бы «конструирует» из имеющейся у него лексики тему документа. В случае применения язы­ ков II уровня интеграции лексики индексатор, анализируя содержание документа, «подводит» это содержание иод имеющиеся в словаре уже готовые рубрики (темы).

Существуют также ИПЯ III уровня интеграции лексики или дезинтеграционные языки. В этих языках лексические единицы представля­ ются в виде конъюнкции лексических единиц ИПЯ, которые называют­ ся семантическими множителями, или семами. Например, конъюнкция таких сем, как «прибор», «преобразование», «электрический ток» обра­ зуют понятие «трансформатор». Дезинтеграция лексики естественного языка применяется в семантических кодах — сложных семантических системах, моделирующих с достаточно высокой степенью точности план содержания естественного языка.

Парадигматические (базовые, аналитические) отношения представ­ ляют собой в н е т е к с т о в ы е смысловые отношения между лексиче­ скими единицами ИПЯ, устанавливаемые на основании потребностей информационного поиска. Эти отношения учитывают связь между лек­ сическими единицами типа род —вид, целое —часть, предмет —фуик-

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]