Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Материалы учебника по АОТ.doc
Скачиваний:
38
Добавлен:
04.11.2018
Размер:
1.66 Mб
Скачать

Семантический анализ

Семантический анализ текста базируется на результатах синтаксического анализа, получая на входе уже не набор слов, разбитых на предложения, а набор деревьев, отражающих синтаксическую структуру каждого предложения. Поскольку методы синтаксического анализа пока мало изучены, решения целого ряда задач семантической обработки текста базируются на результатах анализа отдельных слов, и вместо синтаксической структуры предложения, анализируются наборы стоящих рядом слов.

Большинство методов семантического анализа, так или иначе, работают со смыслом слов. Следовательно, должна быть какая-то общая для всех методов анализа база, позволяющая выявлять семантические отношения между словами. Такой основой является тезаурус языка. На математическом уровне он представляет собой ориентированный граф, узлами которого являются слова в их основной словоформе. Дуги задают отношения между словами и могут иметь ряд окрасок.

  • Синонимия. Слова, связанные дугой с такой окраской, являются синонимами.

  • Антонимия. Слова, связанные дугой с такой окраской, являются антонимами.

  • Гипонимия. Дуги с такой окраской отражают ситуацию, когда одно слово является частным случаем другого (например, слова "мебель" и "стол"). Дуги направлены от общего слова к более частному.

  • Гиперонимия. Отношение, обратное к гипонимии.

  • Экванимия. Дугами с такой окраской связаны слова, являющиеся гипонимами одного и того же слова.

  • Амонимия. Слова, связанные таким отношением, имеют одинаковое написание и произношение, но имеют различный смысл.

  • Паронимия. Данный тип дуги связывает слова, которые часто путают.

  • Конверсивы. Слова, связанные такой окраской, имеют "обратный смысл" (например, "купил" и "продал").

Таким образом, тезаурус задает набор бинарных отношений на множестве слов естественного языка. В настоящий момент создан тезаурус английского языка [9]; для русского языка работа по созданию тезауруса еще не завершена, хотя имеются коммерческие продукты, включающие в себя тезаурус подмножества русского языка [2], а также отдельные словари синонимов [10] и антонимов [11] для подмножества русского языка. К сожалению, в электронном виде эти словари пока не доступны.

Семантический анализ текста включает в себя ряд практически важных задач. Поэтому рассмотрим не методы анализа, а актуальные задачи и уже существующие их решения. Одна из наиболее изученных задач — контекстно-свободный поиск текстовой информации [12]. Ее смысл заключается в следующем: имеется большой набор файлов, содержащих тексты на некотором естественном языке, и задана некоторая строка. Необходимо найти все файлы, в которых она встречается или похожая текстовая информация. В подавляющем большинстве случаев необходим именно «нечеткий» поиск (т.е. поиск по смыслу слова с учетом специфики естественного языка). Большинство существующих систем основываются исключительно на морфологическом анализе слов и не задействуют более сложных схем анализа.

Наиболее важная задача — извлечение информации из текстов и представление ее в виде формальной системы знаний (в частности, в виде семантической сети). Выполнен ряд экспериментальных разработок в данном направлении, ориентированных на конкретные предметные области, однако коммерческих программных продуктов нет. Рассмотрим эту задачу подробнее.

Имеется семантическая сеть [8], состоящая из узлов и связей; каждому из узлов соответствуют некоторые атомарные данные, а каждой дуге — некоторая окраска. Если семантическая сеть построена на основе анализа некоего текста и является формализованным представлением содержащихся в нем знаний, то каждому ее элементу соответствует определенный фрагмент исходного текста. Узлам, отражающим одинаковые по смыслу данные (скажем, вес, возраст, дата рождения), соответствуют аналогичные по синтаксическому строению фрагменты исходного текста. Значит, можно ввести шаблоны, описывающие синтаксическую структуру части исходного текста и создаваемые элементы семантической сети. При описании синтаксической структуры указываются не только связи слов в предложении, но и условия, накладываемые на каждое из слов. Эти условия могут проверять как морфологические или семантические (на основе тезауруса) характеристики слова, так и смысловые пометки этого слова, поставленные при поиске других шаблонов. Если какая-то часть текста удовлетворяет всем указанным в шаблоне условиям, то происходит ее формализация.

Извлечение информации из текстов — основа для «раскопки» текста [13], а также для создания систем загрузки текстов в хранилища данных. Подобные системы существуют и предназначены для интеграции и очистки данных, помещаемых в хранилища, но они не предоставляют никаких средств ввода данных, содержащихся в текстовом виде.

Наряду с извлечением информации существует и обратная задача генерации правильно построенных текстов [14]. Исходными данными для таких систем является четко формализованные знания. На первый взгляд, эта задача может показаться странной, ведь в большинстве случаев формализованные знания можно представлять в виде бланков, имеющих четкую, заранее определенную систему полей. Но это не всегда так. Если предметная область имеет сложную и разветвленную структуру, то большинство полей бланка часто оказываются пустыми, сильно затрудняя восприятие информации; для конченого пользователя было бы гораздо проще и удобнее иметь дело не с такими бланками, а с неформализованным (но корректно построенным) текстовым описанием тех же самых данных.

С целью поиска решения двух указанных задач интересно рассмотреть методы обработки текстовой информации, разработанные Шенком [8]. Они образуют психолингвистический подход к анализу текстовой информации и основываются на двух идеях. Во-первых, для анализа одного предложения не обязательно рассматривать все его слова: смысл предложения можно определить по «ключевым» словам и наличию связей между ними. Вторая идея заключается в представлении результатов анализа текста в виде концептуальной сети, способной формально описать смысл, содержащийся в исходном тексте и являющейся семантической сетью с предопределенным набором типов узлов и дуг.

Еще две известные задачи обработки текстовой информации — автоматическое реферирование и автоматический машинный перевод.

Основные требования, предъявляемые к реферату, таковы: он должен отражать основные идеи и моменты текста, оставаясь корректно построенным текстом. Известны два основных направления в решении этой проблемы — удаление из исходного текста всех «ненужных» предложений и самостоятельное построение реферата исходного текста. Основные сложности, связанные с первым подходом, заключаются в определении ключевых предложений текста и последующем увязывании этих предложений в единый, удобочитаемый текст. Второй подход включает в себя три этапа: анализ текста и построение его формального описания; выбор из этого описания ключевых моментов; формирование реферата. На сегодняшний день имеются как научные, так и коммерческие разработки систем реферирования, способные обрабатывать русскоязычные тексты.

Автоматический машинный перевод — одна из старейших задач искусственного интеллекта. К настоящему времени представлено множество коммерческих систем, способных переводить несложные тексты.