Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вербальные языки - студентам.docx
Скачиваний:
20
Добавлен:
05.12.2018
Размер:
106.27 Кб
Скачать

Формирование поискового образа документа с помощью ипт

Первый этап перевода содержания документа на информационо-поисковый язык заключался в полном и точном отражении явных семантических аспектов документа с помощью ключевых слов. На втором этапе необходимо произвести процесс замены ключевых слов дескрипторами тезауруса, наиболее точно отразив понятия, выраженные ключевыми словами. Это позволит достичь меньшего искажения содержащейся в документе информации при трансформировании содержания документа в его ПОД. От этого зависит эффективность информационно-поисковой системы, а также уменьшение потерь и шумов в процессе поиска.

Замена ключевых слов дескрипторами тезаypyca осуществляется двумя методами: тождественных замен и нетождественных замен.

На этапе тождественных замен выполняется:

поиск дескриптора, тождественного данному ключевому слову по смысловому значению и по форме (названию);

поиск дескриптора, тождественного по смысловому значению, но отличающегося по форме.

Эти операции позволяют с помощью дескрипторов наиболее точно отобразить основную информацию, содержащуюся в документе. Найденный дескриптор используется в поисковом образе документа.

Допустима и нетождественная замена ключевых слов дескрипторами, так как невозможно максимально точно отразить содержание абсолютно всех документов.

Нa этапе нетождественных замен осуществляется поиск дескриптора среди всех имеющихся в тезаурусе, наиболее близкого по смысловому значению ключевому слову. Этому этапу характерно искажение смысловой информации, передаваемой ключевым словом.

Системы автоматической обработки текстов Виды автоматического анализа текстов

Системы автоматической обработки текстов образуют основной класс лингвистических процессоров и в основном предназначены для автоматизации процессов создания и ведения различных словарей (компьютерная лексикография), индексирования, рубрицирования и реферирования, а также автоматической разметки документов на языках разметки.

Для автоматической обработки текстов выполняют следующие виды анализа текста:

  • морфологический,

  • синтаксический,

  • позиционный,

  • семантический,

  • статистические.

Как правило, используют не один метод, а комбинацию нескольких.

Морфологический анализ состоит в анализе структуры словоформы. Словоформа – фрагмент текста между двумя пробелами, рассматриваемый изолированно от остального текста. Наиболее распространенный тип морфологического анализа – анализ на основе словаря словоформ.

Синтаксический анализ представляет собой исследование структуры предложений с целью установления синтаксических связей между членами предложения и построения дерева зависимостей членов предложения. Для целей информационного поиска и компьютерной лексикографии используется частичный синтаксический анализ, включающий отбор слов и словосочетаний, предложений и других информативных фрагментов текста. Синтаксический анализ, как правило, выполняется на основе результатов морфологического анализа.

Позиционный анализ основаны на предположении, что информационный вес лингвистических единиц зависит от их позиции в тексте, а именно от их принадлежности к структурным фрагментам текста. В частности, выдвигаются предположения, что наибольший вес имеют заглавие документа, введение, выводы, библиография, первые и последние предложения абзаца.

Семантический анализ представляет собой анализ смыслового содержания документа и является самым сложным для автоматизации методом, до сих пор не существует практически работающих систем, использующих данный вид анализа текста.

Статистический анализ – самый распространенный вид анализа, выполняемого для автоматической обработки текстов. В основе статистического анализа лежит гипотеза о взаимосвязи между статистическими характеристиками фрагментов текста и степенью их информативности. Основные положения данной гипотезы:

  • существует зависимость между частотой использования слова и его значимостью, при этом редкие и часто используемые слова мало информативны;

  • существенным параметром является расстояние между значимыми словами в тексте, поэтому используется критерий близости расположения в тексте слов для выделения скопления значимых слов;

  • значимость предложения определяется значимостью входящих в него скоплений значимых слов;

  • важным параметром является объем текста, определяющий разрешающую силу частотных характеристик слов.

Более тонкая стратегия статистического анализа текстов основана на законах Дж. Зипфа.