Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
информатика. ответы на вопросы..doc
Скачиваний:
6
Добавлен:
28.10.2018
Размер:
441.34 Кб
Скачать
  1. Этапы автоматического анализа текста.

Несмотря  на широкое использование  мультимедиа, текст  остается одним из основных видов информации в большинстве  электронных хранилищ. Разработка эффективных  подходов к обработке  текстов с целью  фильтрации, формирования смыслового портрета, навигации по базе текстов является одним из наиболее актуальных направлений современных информационных технологий.

Существующие подходы  к анализу текстов можно разбить  на два класса.

  1. относятся простые, быстрые, не зависящие  от языка и предметной области, но грубые механизмы анализа; чаще всего  это подходы, использующие статистические методы.

  2. формируют достаточно изощренные, дающие хороший результат, но сравнительно медленные подходы, зависящие от языка и предметной области; обычно они основаны на лингвистических методах.

Эффективным можно считать такой подход, который сочетал бы в себе быстроту и независимость от языка алгоритмов первого класса с высоким качеством обработки второго.

Предлагаемый подход к анализу текстовой информации реализован на основе однородной нейросетевой (а потому статистической) обработки  информации, обладает достаточным быстродействием и не зависит от языка и предметной области, но при этом, в отличие от большинства алгоритмов обработки текстов, реализованных на основе статистического подхода, дает хорошие результаты. Так, по данным ведомственной экспертизы представленный подход, реализованный в системе TextAnalyst, признан лучшим в реализации одной из важных функций обработки текстов — построения рефератов — в сравнении с подходом, реализованным, например, на основе лингвистических алгоритмов норвежской компании CognIT [1].

Автоматический анализ текста (АА), операция, которая заключается в том, что из данного текста на естественном языке извлекается содержащаяся в этом тексте грамматическая и семантическая информация, выполняемая по некоторому алгоритму в соответствии с заранее разработанным описанием данного языка. Обратная операция называется автоматическим синтезом текста.

АА подразделяется на три этапа:     1 ) лексико-морфологический — переход от отдельной словоформы к её лексико-грамматической характеристике;     2) синтаксический — переход от цепочки лексико-грамматических характеристик, представляющих фразу, к её синтаксической структуре;     3) семантический — переход от синтаксически проанализированной фразы к её смысловой записи.

В алгоритме АА обычно различают

1)сведения о языке («грамматика»)

2) сведения о самом процессе анализа («механизм», или собственно алгоритм АА).

АА является необходимым этапом в разных видах автоматической обработки текстов: автоматического перевода, автоматического реферирования, информационного поиска и т. п. АА следует отличать от автоматического исследования текстов, при котором полностью (или почти полностью) отсутствуют сведения о языке текста и текст обрабатывается алгоритмом именно с целью построения описания языка.