2.1.ИНДЕКСИРОВАНИЕ

2.1.1.Индексирование — его назначение

Индексирование занимает особое место среди различных видов свертывания, поскольку является одновременно элементом двух опера ций информационного обслуживания — аналитико-синтетической пе реработки сообщений и информационного поиска. В данном разделе рассмотрим вопросы индексирования, специфичные для информаци онного анализа и синтеза.

Под и н д е к с и р о в а н и е м понимают описание содержания до кументов и запросов с помощью того или иного информационного язы ка (ИПЯ). ИПЯ в свою очередь —это искусственный формализован ный язык, создаваемый на основе естественного языка. Результатом ин дексирования документа является поисковый образ документа (ПОД), а запроса — поисковый образ запроса (ПОЗ). На основе ПОЗ составля ется поисковое предписание (ПП), иногда несколько предписаний.

Для чего необходимо создание ПОД и ПОЗ?

В информационно-поисковых системах (ИПС) (в их решающих устройствах) обычно сравниваются, сопоставляются не сами докумен ты с запросами — с целью определения (выделения) релевантных за просу документов,— а их поисковые образы. В так называемых «руч ных», «традиционных» библиотечно-библиографических ИПС функ ции решающего устройства в процессе поиска выполняет человек (библиограф, потребитель), и в этом случае запрос обычно не индекси руется, он находится в голове, но индексирование документа —обяза тельно, поскольку документ хранится в определенном месте запомина ющего устройства ИПС в соответствии с его поисковым образом. От качества индексирования документов и запросов в значительной степе ней зависят результаты поиска — количество выданных ИПС реле вантных документов.

Для того чтобы лучше понять сущность индексирования и его воз можности с точки зрения влияния на результаты поиска, прежде всего следует рассмотреть инструмент, с помощью которого реализуется ин дексирование, а именно информационно-поисковые языки и их воз можности. Различаются обычно следующие типы ИПЯ: традиционные (используемые в современных ИПС «ручного» поиска), которые под разделяются на иерархические библиотечно-библиографические клас сификации и алфавитно-предметные классификации, и нетрадицион ные (применяемые в автоматизированных ИПС), подразделяющиеся

на дескрипторыые языки и языки ключевых слов. В эту же группу (не традиционных) включают также ИГ1Я, называемые языками семанти ческих кодов, по они достаточно редко употребляются па практике изза своей сложности. Необходимо отметить, что разделение языков на традиционные и нетрадиционные условно, поскольку традиционные библиотечно-библиографические классификации уже довольно давно с успехом используются в автоматизированных И ПС. Более сложно ситуация сложилась с дескринторными языками. Рожденные в 50-е го ды прошлого столетия для обслуживания именно механизированных и автоматизированных ИПС, они постепенно именно в автоматизиро ванных ИПС па практике почти сошли «на пет», несмотря па свое яв ное превосходство по сравнению с другими ИПЯ с точки зрения своей семантической силы и, следовательно, своей результативности. Они ус тупили свое место библиотечно-библиографическим ИПЯ и ИПЯ клю чевых слов (но сути, естественным языкам) в силу того, что обладали плохой тематической совместимостью. Это была, конечно, Пиррова по беда, так как недоучет в ИПЯ ключевых слов, парадигматических отно шений привел при поиске в современных ИПС к резкому снижению ка чественных показателей работы поисковых систем.

Может возникнуть вопрос, а почему естественный язык, на котором, собственно, и записаны все первичные и вторичные документы, являю щиеся объектом информационного поиска, почему наш «богатый и мо гучий» естественный язык непригоден для функционирования в ИПС? Почему в ИПС отказываются от привычного нам естественного языка и затрачивают значительные силы и средства на создание искусствен ных ИПЯ?

Дело в том, что естественный язык как средство поиска информации имеет существенные недостатки (подчеркиваем: эти недостатки только с точки зрения поиска информации). Эти недостатки обусловлены, прежде всего, н е о д н о з н а ч н о с т ь ю естественных языков, т. е. от сутствием в языке однозначного соответствия между планом выраже ния языка (именем, словом) и планом содержания (концептом, значе нием). Выражается эта неоднозначность в избыточности и недостаточ ности естественного языка (с точки зрения информационного поиска).

И з б ы т о ч н о с т ь естественного языка обусловлена наличием в естественном языке неключевых слов, синонимов, как лексических, так и логических, а также антонимов.

Неключевые слова — не все слова в тексте несут одинаковую смысло вую нагрузку с точки зрения отражения основного содержания текста. Например: «Роман, принадлежащий перу писателя XIX века»: здесь лишь три слова —«роман», «XIX» и «век» —являются ключевыми, ос

тальные могут не приниматься во внимание для характеристики содер жания документа (они обычно и не включаются в дескрипторные сло вари).

Синонимы —лексические (и близкие но смыслу слова): одно и то же содержание можно выразить различными словами. Например, сравним два текста: «Библиографические указатели по судостроению, опубли кованные английскими службами документации» и «Списки литерату ры по кораблестроению, изданные информационными центрами Вели кобритании». Эти тексты совершенно идентичны с точки зрения плана содержания, но различаются своим планом выражения.

Синонимы — логические: в этом случае один и тот же предмет (дено тат) обозначается различными словами (именами). Например: «СанктПетербург —город на Неве, Северная столица», «квадрат —равносто ронний прямоугольник, прямоугольный ромб» и т. и.

Антонимы —одна и та же мысль может быть выражена не только лексическими и логическими синонимами, но и словами, противопо ложными но значению,— антонимами. Например: «уменьшение» — «увеличение», «легкий» — «тяжелый», «сопротивление» — «проводи мость», «уменьшение сопротивления» — «увеличение проводимости», «удаление воздуха» —«создание вакуума» и т. п.

Не д о с т а т о ч н о с т ь естественного языка проявляется наличием

вязыке омонимов и логико-психологических эллипсов.

Омонимы (и полисемия как частный случай) —это проявление мно гозначности отдельных слов и выражений, при которых одинаковые но написанию и звучанию слова обозначают совершенно различные пред меты (денотаты). Например: «бак» (для жидкости) —«бак» (часть ко рабля) или «ключ» (для дверей) и «ключ» (скрипичный) — случай омо нимии, либо: «коса» (полуостров) — «коса» (орудие труда) или «кры ло» (птицы) — «крыло» (самолета) —случай полисемии.

Эллипсностъ естественного языка — случаи в речи (очень распро страненные), при которых слова, потенциально характеризующие ка кую-либо ситуацию, не участвуют непосредственно в ее речевом выра жении. Или короче —это пропуск в тексте слов, которые подразумева ются. Лексические эллипсы —употребление сокращенных вариантов словосочетаний: «язык» в смысле информационно-поисковый язык, «машина» в смысле электронно-вычислительная машина и т. п. Если лексическая эллипсность довольно легко устраняется по контексту, то для устранения логико-психологических эллипсов нужно владеть дан ным языком и знать систему понятий, относящихся к той области, о ко торой идет речь. Например, в статье, посвященной линейному кодиро ванию структурных формул, нет слов «химия», «информационный по

иск», «автоматизация». Однако специалисту этой области знания из вестно, что данная статья относится к проблеме автоматизации поиска химической информации. Из-за логико-психологической эллипсности специальная литература доступна только специалистам, знающим сис тему понятий и ассоциаций, сложившуюся в данной области. Употреб ление эллипсов —в нашей повседневной жизни —позволяет нам очень экономно пользоваться лексическими средствами для выражения мыс лей. С другой стороны, понять чыо-либо речь (как письменно, так и уст но) — значит ликвидировать (компенсировать) в своей голове допу щенную в речи эллипсность. При «ручном» поиске (в традиционных библиотечно-библиографических И ПС) мы автоматически, опираясь на свои знания дайной предметной области, устраняем допущенную в запросе эллипсность. «Машина» (ИПС) такой способностью не обла дает, и потому введение в язык средств, компенсирующих эллипсность в автоматизированных ИПС, весьма желательно, но для этого нужен дескрииториый словарь, в той или иной степени организованный.

Итак, чем больше в том или ином ИПЯ устранены элементы избы точности и недостаточности, тем выше с е м а н т и ч е с к а я с и л а данного языка, тем выше, соответственно, качественные показатели ра боты конкретной ИПС. Однако полностью устранить элементы неод нозначности естественного языка невозможно, нельзя в ИПЯ полнос тью предусмотреть устранение логической синонимии и указать все ло гические отношения и психологические ассоциации между словами, поэтому в реально существующих ИПЯ избыточность и недостаточ ность скомпенсированы лишь в большей или меньшей степени. И эта «компенсация» производится поэтапно в процессе создания того или иного языка, о чем речь пойдет ниже.

В настоящее время существует большое количество различных ИПЯ, относящихся к перечисленным выше группам. Изучение этих ИПЯ способом сравнения показало возможность их единообразного описания с точки зрения основных структурных составляющих, назы ваемых логико-лингвистическими универсалиями. К этим универсали ям (непременным атрибутам ИПЯ) относятся лексические единицы, парадигматические и синтагматические отношения.

Построение плана содержания ИПЯ сводится к заданию исходных лексических единиц (лексики ИПЯ) и правил упорядочения их вдоль парадигматической и вдоль синтагматической осей. Практически все разнообразие словарей (ИПЯ) зависит от того, какие лексические еди-

иицы выбраны в качестве исходных и какие варианты группировки этих единиц разрешаются в данном ИПЯ.

Рассмотрим упомянутые выше логико-лингвистические универса лии.

Лексические единицы (индексы, слова ИПЯ) —наименьшие едини цы смысла в ИПЯ. Их план содержания соответствует значению от дельных слов или словосочетаний естественного языка либо понятию. Совокупность лексических единиц образует лексику ИЛЯ (рубрика тор, словарь, таблицы).

Лексические единицы различных ИПЯ отличаются ДРУГ от друга уровнем интеграции лексики естественного языка. Так, в ИПЯ I уровня интеграции лексики (дескринторные языки, языки ключевых слов) лексические единицы соответствуют отдельным словам или устойчи вым словосочетаниям естественного языка и обозначают они отдель ные п о н я т и я . В ИПЯ II уровня интеграции лексики естественного языка (например, УДК, ББК, предметные языки и т. п.) лексические единицы соответствуют синтагме, фразе и обозначают они отдельные т е м ы (предметы), которые априори фиксируются в ИПЯ при его раз работке. Языки I уровня интеграции лексики являются более гибкими, способными более точно и полно отражать содержание документа и за проса. В случае применения языков I уровня интеграции лексики ин дексатор, анализируя содержание документа, как бы «конструирует» из имеющейся у него лексики тему документа. В случае применения язы ков II уровня интеграции лексики индексатор, анализируя содержание документа, «подводит» это содержание иод имеющиеся в словаре уже готовые рубрики (темы).

Существуют также ИПЯ III уровня интеграции лексики или дезинтеграционные языки. В этих языках лексические единицы представля ются в виде конъюнкции лексических единиц ИПЯ, которые называют ся семантическими множителями, или семами. Например, конъюнкция таких сем, как «прибор», «преобразование», «электрический ток» обра зуют понятие «трансформатор». Дезинтеграция лексики естественного языка применяется в семантических кодах — сложных семантических системах, моделирующих с достаточно высокой степенью точности план содержания естественного языка.

Парадигматические (базовые, аналитические) отношения представ ляют собой в н е т е к с т о в ы е смысловые отношения между лексиче скими единицами ИПЯ, устанавливаемые на основании потребностей информационного поиска. Эти отношения учитывают связь между лек сическими единицами типа род —вид, целое —часть, предмет —фуик-

<<< < Предыдущая 1 2 3 45 / 415 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.11.20222.03 Mб03235.pdf
#
15.11.20224.72 Mб0324.pdf
#
15.11.20226.27 Mб03263.pdf
#
15.11.20221.2 Mб0327.pdf
#
15.11.20221.21 Mб0328.pdf
#
15.11.202217.07 Mб253280.pdf
#
15.11.20223.38 Mб2329.pdf
#
15.11.20222.6 Mб23294.pdf
#
15.11.20227.16 Mб13298.pdf
#
15.11.2022272.75 Кб033.pdf
#
15.11.20221.23 Mб0332.pdf