Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика и ВТ Брукшир.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
5.07 Mб
Скачать

10.6.2Рекурсия в естественных языках

Рекурсивные структуры, то есть предложения в предложениях, часто встречаются в английском и других языках, причем вложенное предложение называется придаточным предложением. Способы обработки подобных структур были одной из тем изучения компьютеризации систем обработки естественных языков.

Иногда рекурсия в структурах включает несколько уровней вложенности, которые размывают смысл предложения, даже если его построение грамматически верно. Например, рассмотрим предложение:

Человек, которого сбросила лошадь, не выигравшая скачку, не пострадал. В этом предложении три структуры — одна в другой. Внешнее предложение

Человек не пострадал.

Следующая внутренняя структура идентифицирует человека как того, которого сбросила лошадь. В этой структуре есть еще одно предложение, в котором говорится, что лошадь не выиграла скачку. В следующих предложениях рекурсивные структуры слегка отличаются:

Картина, которую мужчина, которого наняла женщина по соседству, повесил, упала. Новый повар, которого нанял шеф-повар, что много кричит, который не умеет жарить, был уволен.

Третий уровень анализа — контекстуальный анализ (contextual analysis). На этом уровне начинается процесс понимания контекста всего приложения. Например, в предложении

Лук выпал из его руки.

легко определить грамматическую роль каждого слова. Мы можем даже выполнить семантический анализ, выявив действие — падать, субъекта действия — лук и т. д. Но только после изучения контекста предложения становится понятным его значение. Действительно, значения будут различаться в контексте приготовления пищи и спортивных соревнований. Более того, именно на контекстуальном уровне выявляется действительный смысл вопроса «Вы знаете, который час?».

Необходимо обратить внимание, что разные уровни анализа — синтаксический, семантический и контекстуальный — не всегда не зависимы друг от друга. Подлежащее в предложении Паникеры-животные могут быть опасны.

это существительное животные (измененное существительным паникеры), если мы представляем себе животных, впадающих в панику сами по себе. Но подлежащим становится слово паникеры (с дополнением животные), если контекст — это нарушитель спокойствия, который развлекается тем, что создает панику. Следовательно, в этом предложении несколько грамматических структур, и выбор правильной зависит от его смысла.

Другая область исследования естественных языков рассматривает документы полностью, а не отдельные предложения. Вопросы этой области делятся на две категории: поиск (information retrieval) и извлечение информации (information extraction). Поиск информации — это задача определения документов, относящихся к рассматриваемой теме. Например, адвокаты сталкиваются с этой проблемой, пытаясь отыскать истории всех дел, относящихся к текущему судебному процессу. Или же пользователи всемирной сети часто разыскивают узлы с информацией по интересующему их вопросу.

Извлечение информации — это задача получения данных из документа в форме, удобной для других приложений. Это может означать поиск ответа на определенный вопрос или запись информации в форме, используя которую, на вопрос можно будет ответить позже. Такой формой может быть шаблон. Его удобно применять для опросных листов, где регистрируются определенные данные. Возьмем, например, систему для чтения газет. В ней может использоваться множество шаблонов, по одному для каждого типа статей, которые могут быть напечатаны в газете. Если система определяет, что в статье рассказывается о краже со взломом, то она попытается заполнить пробелы в шаблоне для взлома. В таком шаблоне, вероятно, необходимо будет указать адрес, где произошла кража, время и дату кражи, перечень украденных вещей и т. д. Или, например, если система увидит, что статья посвящена стихийному бедствию, она заполнит соответствующий шаблон, внеся туда тип бедствия, причиненный ущерб и подобные сведения.

Другая форма записи данных, которая используется при извлечении информации, называется семантической сетью (semantic net). Это чрезвычайно большая связная структура данных, где связи между элементами данных обозначаются указателями. На рис. 10.26 показана часть семантической сети, в которой подсвечена информация, полученная из предложения

Мэри ударила Джона.

Создание компьютеров, обладающих способностью понимать естественные языки, стало главной областью исследований искусственного интеллекта. Такие исследования демонстрируют, насколько захватывающими могут стать разработки в этой области. Как только находятся ответы на одни вопросы, сразу же возникают другие.