Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы_информатики.doc
Скачиваний:
6
Добавлен:
17.08.2019
Размер:
1.56 Mб
Скачать

Бурный рост информации создал необходимость автоматизации процессов накопления, обработки и выдачи информации. Устройством, способным осуществлять над информацией эти действия и является ЭВМ. А теорией решения всех возникающих при этом проблем занимается специальная наука – информатика.

Информатика – отрасль науки, изучающая вопросы связанные с поиском, сбором, хранением, преобразованием и использованием информации в самых различных сферах человеческой деятельности.

Индексирование состоит в описании содержания документов средствами некоторого формализованного языка с целью обеспечения последующего поиска информации;

Индексирование – процесс перевода содержания документа и информационного запроса с естественного языка (ЕЯ) на ИПЯ; процесс составления поисковых образов документов (ПОД) и поисковых образов запросов (ПОЗ).

Процесс индексирования состоит из двух этапов:

  1. осуществляют аналитико-синтетическую обработку документа, в результате которой индексатор определяет основное содержание документа; (этап предметизации);

  2. осуществляется перевод на ИПЯ основного содержания документа, кодирование его с помощью лексических и грамматических средств ИПЯ(этап индексирования).Результатом этого этапа является появление ПОД’ов и ПОЗ’ов.

Метод координатного индексирования базируется на представлении о том, что основное смысловое содержание документов и информационных запросов (ИЗ) может быть с достаточной степенью точности и полноты выражено списком ключевых слов (КС).

Под КС понимают наиболее существенные для той или иной предметной области слова и словосочетания, обладающие назывной, т.е. номинативной функцией.

Кроме назывных слов в функции КС могут выступать соответствующие числовые характеристики, хронологические данные, собственные имена.

Алфавитный список КС – это и есть поисковый образ документа.

Практический опыт показывает, что для координатного индексирования документа достаточно 8-12 КС.

Координатное индексирование – способ выражения основного содержания документа или информационного запроса в виде определенной совокупности КС.

Информационный поиск (ИП) – последовательность логических операций, выполняемых с целью поиска документов (отчетов, статей, книг), содержащих определенную информацию, с последующей выдачей самих документов или их копий или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы.

ИП осуществляется с помощью ИПС.

ИПС – функциональная система, представляющая собой совокупность лингвистических, алгоритмических, программных и технических средств, предназначенных для поиска, обработки, хранения и выдачи информации по запросам.

Составные части ИПС:

  1. ИЗ и информация, потенциально удовлетворяющая этим запросам;

  2. ИПЯ, обеспечивающий однозначную запись и распознавание, как самих запросов, так и удовлетворяющей им информации, хранящейся в памяти ИПС;

  3. алгоритмы, устанавливающие соответствие между запросом и искомой информацией (КСС);

  4. алгоритмы поисковой процедуры, обеспечивающие нахождение информации, требуемой в запросе;

  5. программное обеспечение этих алгоритмов;

  6. технические средства, обеспечивающие информационно-поисковые процедуры и отображение найденной информации;

  7. персонал, взаимодействующий с системой.

Типы ИПС:

  • документальные ИПС (ДИПС) - в ответ на ИЗ выдают либо сам документ, либо его копию, либо реферат, ПОД, адрес хранения документа;

  • фактографические ИПС (ФИПС) - в ответ на ИЗ выдают различные фактические данные или факты (со ссылками на источник информации);

  • документально-фактографические – комбинированные

  • ИЛС (информационно-логические) – если ИПС в ответ на ИЗ выдает только ту информацию, которая хранится в памяти ИПС, то ИЛС с помощью различных алгоритмов анализирует хранящуюся в памяти информацию синтезировать новую информацию, которая заранее не была заложена в памяти ИЛС;

  • экспертные системы (ЭС) или системы принятия решений – это разновидность ИЛС; если ИПС работают с базой данных, хранящейся в ее памяти, то ЭС работают с базой знаний. Основной трудностью в разработке этих систем является способ представления знаний;

  • системы искусственного интеллекта (И-ИС)

ИПЯ – определенная семантическая система, предназначенная для выражения основного смыслового содержания документов и ИЗ с целью поиска в массиве таких документов, которые содержат искомую информацию.

Структура ИПЯ:

  • алфавит (набор символов или знаков, используемых в языке);

  • правила построения:

морфологические – определяют процедуру построения слов из символов алфавита;

синтаксические – определяют процедуру построения предложений из слов, построенных по морфологически правилам;

  • правила интерпретации – т.е. правила перевода слов и предложений с ИПЯ на ЕЯ; эти правила задаются в виде двуязычных словарей (тезаурусов), в которых каждой лексической единице (ЛЕ) ИПЯ ставится в ­­однозначное соответствие ЛЕ ЕЯ.

Основные требования к ИПЯ:

  1. в ИПЯ должна быть устранена семантическая неоднозначность словарного состава, т.е. каждому понятию должно соответствовать одно слово и наоборот;

  2. из лексики и грамматики ИПЯ должны быть устранены все элементы, выражающие наше отношение к различным предметам, процессам, явлениям; т.е. грамматика должна быть формализована (каждое выражение на ИПЯ должно иметь одно истолкование на ЕЯ);

ИПЯ – искусственный язык, но построенный на языковой базе ЕЯ;

  1. язык должен быть нормализован (устранена синонимия, полисемия, омонимия);

Типы ИПЯ:

  • дескрипторные (ДИПЯ);

  • языки смысловых (семантических) кодов;

Каждый документ заносится в базу данных ИПС в виде поискового образа документа (ПОД), выраженное в терминах ИПЯ; основное смысловое содержание документа;

ПОД – список КС, выбранных из текста документа.

ПОЗ – выраженное в терминах ИПЯ основное содержание запроса; список КС, выбранных из текста запроса.

Тогда стратегия поиска в ИПС сводится к формальному сравнению ПОДов и ПОЗов и принятию решения о выдаче или невыдаче документов в ответ на ИЗ.

Формальное сравнение ПОДов и ПОЗов осуществляет на основании КСС (критерия смыслового соответствия).

КСС – с одной стороны - логика системы; с другой – алгоритм (набор правил), с помощью которого устанавливается степень смысловой близости или формальной релевантности ПОДов и ПОЗов, с помощью которых принимается решение о выдаче или невыдаче документов в ответ на ИЗ.

Функция ИПС состоит в извлечении из поискового массива таких документов, содержание которых соответствует информационной потребности пользователя.

Эта потребность выражается в ИЗ, при чем формулировка запроса может быть лишь более или менее приближенным выражением информационной потребности.

Существуют различия между релевантными документами, т.е. такими, которые отвечают на ИЗ в том виде, в каком он сформулирован, и документами, соответствующими информационной потребности пользователя. Релевантность может быть определена как мера информации, сообщаемая документом в ответ на ИЗ.

Документ, основное содержание которого отвечает на смысловой ИЗ, называют релевантным.

Свойство соответствия документов информационной потребности называют пертинентностью, а обладающие этим свойством документы – пертинентными. Понятия релевантности и пертинентности не эквивалентны. Они пересекаются, но не совпадают.

Вот почему для выражения информационной потребности следует составлять более одного ИЗ.

Типы КСС:

  1. критерий на полное вхождение

документ формально выдается тогда и только тогда, когда его ПОД содержит все дескрипторы запроса; другими словами, документ формально выдается, если множество дескрипторов запроса входит во множество дескрипторов документа;

  • критерий на вхождение с учетом базисных (парадигматических) отношений

документ выдается, если для каждого дескриптора запроса в ПОД встретится либо сам этот дескриптор, либо дескриптор, связанный с дескриптором запроса базисными отношениями;

  • критерий на вхождение с учетом базисных и текстуальных отношений

совпадает с предыдущим ; различие же заключается в том, что сравнение дескрипторов запроса и документа должно осуществляться с точностью до совпадения текстуальных отношений, в которые их прообразы вступают соответственно в запросе и в документе.

Д11

Д22

ПОД1={информатика(25), индексирование(40), метод координатного индексирования(15), информационный поиск(36)}={15, 25, 36, 40}

ПОД2={ИПС(23), ИПЯ(13), ПОЗ(37), ПОД(51), КСС(49)}={13, 23, 37,49, 51}

ИЗ=ИПЯ, КСС, ИПС

ИЗ=>ПОЗ={13, 23, 49}

  1. критерий на частичное вхождение

документ выдается, если хотя бы 3 дескриптора запроса совпадают с тремя дескрипторами документа

  1. критерий с весовыми коэффициентами

суть сводится к следующему: каждому информативному слову в запросе приписывается так называемый весовой коэффициент, при чем, чем большее значение придается этому слову, тем больший коэффициент ему приписывается;

выдача на запросы эшелонируется в зависимости от суммы весовых коэффициентов слов запроса, совпавших со словами, употребляемыми в документе;

количество эшелонов выдачи, а также соответствующие каждому из них значения суммы коэффициентов (порог) определяются разработчиками системы;

  1. логический критерий

работает с учетом элементов и уравнений булевой алгебры, используя ^(конъюнкция), ¬(отрицание), v(дизъюнкция);

число лексических единиц ПОД, совпавших с ПОЗ определяется значением истинности или ложности логического уравнения;

документ считается формально релевантным, если значение истинности логического уравнения =1, и нерелевантным, если =0.

Нормализация языка

  1. Устранение синонимии

  2. Устранение многозначности

  3. Отражение парадигматических отношений

  4. Отражение синтагматических отношений

Для существенного повышения точности и полноты информационного поиска необходимо:

  1. Устранить полисемию, омонимию и синонимию ключевых слов;

  2. Построить специальные словари, таблицы и схемы (тезаурус), в котором отражаются парадигматические связи между дескрипторами;

  3. Разработать для ИПЯ такой синтаксис, который бы позволял пользоваться при построении ПОДов и ПОЗов не только простую координацию дескрипторов, но и более сильные синтаксические связи

1.Устранение синонимии

Как правило, ключевые слова – это термины; в основном они однозначны, но иногда встречаются и синонимы.

Бесконтрольное употребление синонимов усложняет процедуру проведения информационного поиска, т.е. возникает информационный шум, когда информация либо не отвечает вопросам, либо теряется. Следовательно, синонимию необходимо устранять.

1)для устранения синонимии, ключевые слова объединяют в семантические ряды (т.е. группируются в классы условной эквивалентности).

2)в каждом классе условной эквивалентности выбирается доминанта, которая называет этот класс и становится дескриптором.

2.Многозначность – это способность слова иметь несколько различных значений. В естественных языках причиной многозначности слов является равноимённость, т.е. употребление одного и того же имени или знака для обозначения не одного, а нескольких различных предметов.

Равноимённость проявляется в двух языковых явлениях:

а) полисемия;

б) омонимия.

Полисемия – это перенос названия одного предмета на другой предмет, имеющий с ним какие-либо общие признаки или свойства. Омонимия – совпадение (в звучании или написании) разных слов, которые не имеют ничего общего по признакам.

Пример. Полисемия и её устранение:

  • звезда (небесное тело) – 215

  • звезда (геометрическая фигура) - 800

Итак, синонимия, полисемия и омонимия устраняются лексикографически, т.е. с помощью систем отсылок или помет при построении тезауруса.

Пример. Устранение синонимии. Возьмём три синонима:

  • абстрактный (доминанта)

  • отвлеченный

  • умозрительный

Абстрактный вкл умозрительный, отвлеченный

Б…

В…

Отвлеченный см. АБСТРАКТНЫЙ

Умозрительный см. АБСТРАКТНЫЙ

3.Парадигматические отношения – отношения между словам, означающими, которые основаны на существовании тех или иных связей между означаемыми («род-вид»).

Отражение отношений «род-вид» в тезаурусе:

--лексикографический способ (при помощи систем отсылок и помет)

Пример. Структура словарной статьи ЭВМ:

ЭВМзаглавный дескриптор

С

электронно-вычислительная машина

множество синонимов

 

 

машина

с определенными пометами

Р

устройство для вычисления

множество родовых дескрипторов

В

ПК, персональный компьютер

множество видовых дескрипторов

 

Супер ЭВМ

 

 

 

 

 

 

АД

клавиатура

ассоциативные дескрипторы

 

 

 

 

 

(чаще всего "часть-целое")

Э ВМ – заглавный дескриптор, все остальные слова – ключевые. Это значит, что при индексировании (ЕЯ ИПЯ) мы обратимся к тезаурусу и заменим электронно-выч. машины и остальные дескрипторы на ЭВМ.

--табличный способ (устранение парадигматических отношений с помощью таблицы)

Дескриптор

Синоним

Родовой дескриптор

 

Видовой дескриптор

 

Ассоциативный дескриптор

 

 

 

 

 

 

 

ЭВМ

эл. вычисл

устройство для

ПК, персональный

клавиатура, мышка,

 

машина,

вычисления

компьютер, Пентиум

процессор

 

вычисл.

 

 

 

маш.

 

 

 

 

 

--графический способ (в виде дерева)

--аналитический способ

Отражение синтагматических отношений

Синтагматические отношения – отношения, в которые вступают термины в конкретном контексте.

ПОД (список ключевых слов)

Т.к. ПОД – список дескрипторов, не связанных синтагматическими отношениями, то дескрипторы, входящие в ПОД, часто образуют ложные сочетания

Пусть в документе N говорится о производстве серной кислоты и очистке катализаторов. ПОД: производство, серная кислота, катализатор.

Итак, эти дескрипторы образуют ложные словосочетания: производство катализатора и очистка серной кислоты. В результате чего происходит поисковый шум и ИПС выдает нерелевантный документ. Следовательно, контекстуальные и синтагматические отношения следует отражать, вводить грамматику.

В качестве грамматических средств чаще всего выступают указатели роли и указатели связи.

Указатель роли – специфический символ, который приписывается к дескриптору и уменьшает объем обозначаемого им понятия. ПОД, в который вводятся указатели роли имеет следующий вид: указатели роли di1(A), di2(B),…,dik(N) где din – дескрипторы, A,B,..,N – указатели роли

Указатели связи – специфические символы, которые приписываются к дескрипторам ПОД и служат для смысловой группировки дескрипторов в ПОДах.

Указатели связи (di1, di2,…,dik) M, (di18, di10,…,dip) K Пример работы указателей роли. Темой документа является получение азотной кислоты из аммиака с помощью платины в качестве катализатора.

ПОД (азотная кислота, получение, аммиак, платина, катализатор). Чтобы предотвратить выдачу данного документа на ИЗ «получение платины», «получение аммиака из азотной кислоты», необходимо ввести грамматику, а именно, указатели роли (т.е. каждому дескриптору присвоить код)

Дескрипторы. Дескрипторные ИПЯ. Тезаурусы

Дескрипторы – это предназначенные для координатного индексирования документов и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного ЕЯ и у которых искусственно (при помощи соответственных отсылок или помет) устранены полисемия, омонимия, синонимия.

Дескрипторные ИПЯ – это специальные ИПЯ, словарный состав которых представлен дескрипторами, а грамматика состоит из правил построения ПОДов и ПОЗов путем координации соответствующих дескрипторов.

Для обозначения возможно большей полноты выдачи при информационном поиске, основанном на ДИПЯ необходимо проводить избыточное индексирование документов и информационных запросов.

Под избыточным индексированием понимают дополнение ПОДов и ПОЗов дескрипторами, которые по смыслу связаны с основными дескрипторами текста документа. При этом более предпочтительным является проводить избыточное индексирование информационных запросов.

Чтобы производить избыточное индексирование, нужно преобразовать алфавитный словарь дескрипторов в нормативный словарь-справочник, в котором были бы выражены важнейшие парадигматические связи между дескрипторами.

Такие словари-справочники предназначены для следующих целей:

  1. они служат руководством для перевода текста с ЕЯ на ДИПЯ(путем замены ключевых слов соответствующими дескрипторами);

  2. они обеспечивают возможность избыточного индексирования документов и информационных запросов;

  3. служат для нормализации языка;

  4. являются пособием, которое помогает пользователю находить правильный дескриптор для выражения его потребностей.

Особое внимание следует обратить на последний пункт и ещё раз подчеркнуть, что одной из основных трудностей, с которыми сталкиваются при информационном поиске заключается в неадекватности словесного выражения пользователем его информационной потребности.

Острота проблемы неадекватного словесного выражения информационной потребности может быть значительно уменьшена, если создать особый словарь, который бы позволял по смыслу находить слова(дескрипторы), необходимые для выражения этого смысла.

Значение в языке – отношение между именем и смыслом. Поэтому поиск значения можно начинать либо с имени, либо со смысла.

Для поиска значения по имени используется алфавитные словари, а для поиска значения по смыслу используют так называемые концептуальные словари.

В теории информационного поиска эти словари получили название тезаурусы. Thesaurus (от греческого сокровище, кладовая).

Тезаурус не является лишь идеологическим словарём, т.к. он должен выполнять функцию двуязычного словаря ЕЯ – ДИПЯ.

Обобщенная схема ТЕЗАУРУСА (обязательные части):

  • словарная часть (представляет собой общий алфавитный список дескрипторов вместе с их словарными статьями и ключевых слов, которые в данной ИПС считаются синонимами дескрипторов):

  • «семантическая карта» словарного состава ИПЯ (представляет собой систему смысловых классов, в которые сгруппированы все дескрипторы этого ИПЯ. В этом разделе тезауруса должны быть как можно более наглядно выражены важнейшие парадигматические отношения между дескрипторами или, по крайней мере, отношения «род-вид»);

- руководство по переводу ключевых слов и словосочетаний с ЕЯ на ДИПЯ.

В словарной части тезауруса дескрипторы и синонимичные ключевые слова приводятся в виде алфавитного списка, причём дескрипторы в этом списке соответствующим образом отмечены. В этом списке дескрипторы и их синонимы связаны перекрестными ссылками. Полисемия и омонимия дескрипторов и ключевых слов в ИПЯ устранены лексикографически при помощи системы помет и ссылок при построении тезауруса. В данном разделе тезауруса каждый дескриптор образует словарную статью, которая обычно строится по следующей схеме.

di (Mi1, Mi2, Mi3, Mi4), где di – заглавный дескриптор.

Mi1 – упорядоченное по алфавиту множество ключевых слов, которое в пределах данной ИПС считаются синонимами дескриптора

Mi2 – упорядоченное по алфавиту множество дескрипторов, которые связаны с заглавным дескриптором отношениями «род-вид»

Mi3 - упорядоченное по алфавиту множество дескрипторов, которые связаны с заглавным дескриптором отношениями «вид-род»

Mi4 - упорядоченное по алфавиту множество дескрипторов, каждый из которых связан с di одним из следующих парадигматических отношений:

  • целое-часть;

  • часть-целое;

  • причина-следствие.

Любое из перечисленных множеств может быть пустым или одноэлементным. Множества Mi1, Mi2, Mi3, Mi4 в словарной части обозначаются соответствующими пометами. Множество Mi1 с di образуют класс условной эквивалентности.

«Семантическая карта» словарного состава ДИПЯ может быть выполнена в любом из двух вариантах:

  1. в виде сочетания множества тематических классов с множеством тематических групп дескрипторов. В свою очередь тематические классы состоят из упорядоченных по алфавиту дескрипторов.

  2. в виде графических схем, в которых важнейшие парадигматические отношения между дескрипторами выражены при помощи соответствующих стрелок или точек.

Правила перевода ключевых слов и словосочетаний с ЕЯ на ДИПЯ регламентируют процедуру подстановки дескрипторов вместо ключевых слов и словосочетаний на заключительном этапе индексирования.

Рекомендации по построению ИПТ(информационно-поисковый тезаурус). Необходимо последовательно выполнить следующие операции:

  1. провести отбор(накопление) ключевых слов, необходимых для построения словаря дескрипторов;

  2. построить словарь дескрипторов, для чего:

  • устранить полисемию и омонимию ключевых слов;

  • сгруппировать ключевые слова в классы условной эквивалентности;

  • выбрать из числа членов каждого класса условной эквивалентности такое ключевое слово, которое далее будет использоваться в качестве имени этого класса, т.е. станет дескриптором (устранение синонимии).

  1. для каждого дескриптора построить его словарную статью, в которой сгруппировать все дескрипторы данного ИПЯ, связанные с заглавным дескриптором соответствующими парадигматическими отношениями;

  2. построить классификационные таблицы дескрипторов или графические схемы, в которых наглядно выразить связи между дескрипторами;

  3. сформулировать правило перевода ключевых слов и словосочетаний с ЕЯ на ДИПЯ.

Тезаурус научно-технических терминов (известен под редакцией Шемакина) – это политехнический тезаурус, который является нормативным собранием терминологии для унифицированных документов и запросов по различным областям знаний (33 области).

Он содержит около 19 тыс. терминов (слов и словосочетаний).

Организационная структура тезауруса включает:

  1. лексико-семантическое собрание терминов;

  2. систематический указатель дескрипторов;

  3. указатель иерархических отношений дескрипторов;

  4. ПУ – пермутационный указатель.

Основным разделом тезауруса является лексико-семантическое собрание терминов, в котором дескрипторы и условные синонимы (с их словарными статьями) располагаются в алфавитном порядке.

Всего в тезаурусе 14 993 дескриптора и 4108 синонимов, объединенные в классы условной эквивалентности. Терминологический состав тезауруса распадается на отдельные слова и словосочетания.

Статистический анализ лексики тезауруса в зависимости от структурного состава показывает, что основную часть терминологии составляют словосочетания 74%, среди которых:

  • двухсловные 39,5%

  • трёхсловные 24%

  • четырехсловные 4%

  • более 2,5%

Между терминами тезауруса существует три типа связи:

  1. предпочтительные (этот вид связи применяется для отражения отношений дескрипторов и их условных синонимов);

  2. иерархические (применяется для фиксирования уровня специфичности внутри категории дескрипторов, принадлежащей одной родо-видовой группе);

  3. ассоциативные - в данном тезаурусе круг ассоциативных связей отражен следующими отношениями:

  • связь двух предметов, являющихся целым и его частью;

  • причинно-следственная связь;

  • связь предмета и процесса;

  • связь на основе функциональной зависимости;