Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИКТ.docx
Скачиваний:
2
Добавлен:
21.09.2019
Размер:
53.23 Кб
Скачать

Формирование краткого изложения

Когда Кельвина Кулиджа однажды спросили, что говорил священник на проповеди о грехе, он ответил: «Он рассказал, чего следует воздерживаться». Этот ответ служит примером возможностей интуитивного понимания, положенного в основу изложения – человеку, который уловил общий смысл информации, легче выделить главное и изложить вкратце ее содержание.

В отличие от линейной модели в методах подбора выдержек, для подготовки краткого изложения информации, требуются мощные вычислительные ресурсы для систем обработки естественных языков (NLP — natural language processing), в том числе грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций. Кроме того, для реализации этого метода нужны некие онтологические справочники, отражающие соображения здравого смысла и понятия, ориентированные на предметную область, для принятия решений во время анализа и определения наиболее важной информации.

Метод формирования краткого изложения предполагает два основных подхода. Первый опирается на традиционный лингвистический метод синтаксического разбора предложений.

В этом методе применяется также семантическая информация для аннотирования деревьев разбора. Процедуры сравнения манипулируют непосредственно деревьями с целью удаления и перегруппировки частей, например, путем сокращения ветвей на основании некоторых структурных критериев, таких как скобки или встроенные условные или подчиненные предложения. После такой процедуры дерево разбора существенно упрощается, становясь, по существу, структурной «выжимкой» исходного текста.

Второй подход к составлению краткого изложения уходит корнями в системы искусственного интеллекта и опирается на понимание естественного языка [5] Синтаксический разбор также входит составной частью в такой метод анализа, но деревья разбора в этом случае не порождаются. Напротив, формируются концептуальные репрезентативные структуры всей исходной информации, которые аккумулируются в текстовой базе знаний. В качестве структур могут быть использованы формулы логики предикатов или такие представления, как семантическая сеть или набор фреймов. Примером может служить шаблон банковских транзакций (заранее определенное событие), в котором перечисляются организации и лица, принимающие в нем участие, дата, объем перечисляемых средств, тип транзакции и т.д.

Этап преобразования уникален для реферирования на базе знаний. В процессе преобразования концептуальное представление претерпевает несколько изменений. Избыточная и не имеющая прямого отношения к тексту информация устраняется путем удаления поверхностных суждений или отсечения концептуальных подграфов. Затем информация подвергается дальнейшему агрегированию путем слияния графов (или шаблонов) или обобщения информации, например, при помощи таксономических иерархий отношений подклассов. Для выполнения этих преобразований предложены методологии на базе выводов, такие как макроправила, которые манипулируют логическими предположениями, или операторы, которые выделяют определяющие шаблоны в текстовой базе знаний. В результате преобразования формируется концептуальная репрезентативная структура реферата, по существу, концептуальные «выжимки» из текста.

Наличие этих формальных репрезентативных слоев (структурные и концептуальные «выжимки») отличает подход на базе знаний от подхода, не предполагающего опору на знания. Этап синтеза одинаков для обоих подходов: текстовый генератор преобразует структурное или концептуальное представление в естественно-языковую аннотацию. Некоторые системы предоставляют пользователю возможность управлять получаемыми «выжимками» методом указания, и не предполагают этапа генерации, при условии, что исходные тексты предоставляются наряду с их кратким изложением. Этот тип реферирования опирается на предварительно определенные структуры знаний, которые заранее указывают системе реферирования, какую концепцию считать более характерной, или какие концептуальные свойства (роли или поля) имеет та или иная концепция. Средство реферирования полностью представляет семантическую информацию в виде связей между узлами в концептуальном графе, как таксономические (подкласс или экземпляр) или метонимические (часть) отношения. В этом случае, он также задает направление и критерии выбора для процедуры поиска или формирования заключений. Правила вывода на базе рефератов или общие схемы вывода (такие как терминологическая классификация) используют эту информацию для определения информации, наиболее точно отражающей существо текста. Эта информация определяет, какие иерархии обобщения должны быть пройдены и какие концептуальные подграфы могут быть при необходимости сжаты.

Билет № 37

Структура и состав лингвистичексого процессора

Структура лингвистического процессора

Ядром любой естественно-языковой системы является лингвистический процессор

Естественный язык служит человеку для выражения собственных мыслей и для понимания мыслей других людей

Первому виду языковой деятельности соответствует производство естественно-языковых текстов

Второму - понимание таких текстов

ЛП представляет собой многоуровневый преобразователь

ЛП имеет четыре уровня пофразового представления текста, которые соответствуют уровням языка -морфологическому, синтаксическому, семантическому и прагматическому

Таким образом, чтобы построить ЛП, необходимо разработать:

  • формальные языки для записи (образов) предложений на морфологическом, синтаксическом, семантическом уровнях представления;

  • формальное понятие структуры предложения для каждого из этих уровней;

  • массивы правил для преобразования структур смежных уровней друг в друга;

  • морфологический, синтаксический и семантический словари, включив в них всю информацию о каждой лексеме, необходимую для осуществления соответствующего преобразования.

Анализ представляет собой переход от записи предложения в обычном орфографическом виде к его записи в семантическом и прагматическом представлениях

Синтез представляет собой обратный переход от семантического и прагматического представлений предложения к его записи в обычном орфографическом виде

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]