

К ВОПРОСУ О МНОГОУРОВНЕВОЙ АНАЛИТИЧЕСКОЙ ОБРАБОТКЕ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Д.Н. Кущий, магистрант Научный руководитель – Д.В. Гринченков, к.т.н., доцент
Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова,
г. Новочеркасск E-mail: dkushchiy@rambler.ru
В настоящее время можно выделить ряд прикладных задач анализа текстовой информации, в которых требуется комплексное использование методов компьютерной лингвистики с целью выявления содержания и определения связей между ключевыми понятиями. Сюда можно отнести определение эмоциональной окраски текстов, автоматическое реферирование, построение иерархий объектов, задачи автоматической фильтрации контента, повышение практической значимости информационного поиска и т.д.
Процедура анализа текстовой информации включает несколько уровней обработки (рис. 1). Обработка на верхнем уровне не осуществима без результатов, полученных на предыдущих уровнях.
Рис. 1. Поэтапная процедура обработки и анализа текстовой информации Посредствам графематического анализа происходит преобразование исходного
неструктурированного текста в пригодное для дальнейшей обработки представление. В
большинстве случаев данная задача решается с помощью словаря разделителей и устойчивых выражений или регулярных выражений. В силу этого на практике практически отсутствуют специализированные средства для данного вида обработки текстовой информации.
На этапе морфологического анализа выполняется построение нормальной формы для каждой конкретной словоформы, а затем полученные данные используются в процессе синтаксического анализа для определения роли слов и их связи между собой.
Представление в виде дерева синтаксического разбора сохраняет информацию о связи слов в предложении, что позволяет выявлять противоречия и отрицания. Однако существуют и недостатки представления текста в виде дерева синтаксического разбора:
1.Сложность анализа и возможные потери на каждом уровне анализа текстовой информации.
2.Необходимость подготовки обучающей выборки (для каждого предложения необходимо аннотировать все узлы дерева разбора).
Предпосылками указанных проблем являются большое количество возможных
альтернативных вариантов, связанных как с многозначностью входных данных, так и неоднозначностью самих правил разбора [1].
Задача семантического анализа является наиболее трудоемкой, поскольку получаемые метаданные должны описывать объект с разных точек зрения: структуры, контекста и контента. Результат данного процесса обработки должен заключатся в построении локального тезауруса, отражающего связи между словами и словосочетаниями исходного текста в виде графа, в котором узлы представляют словоформы, а дуги задают синтаксические и семантические связи.
Семантический анализ в контексте информационного поиска представляет собой задачу извлечения фактов. Типичными примерами извлечения фактов являются:
1.Выявление именованных сущностей.
2.Выявление связей между сущностями.
3.Определение принадлежности местоимения к ранее упомянутому объекту.
4.Выявление ключевых слов и словосочетаний.
При этом точность и полнота результатов обработки варьируются в диапазонах от 50% до 95%. Кроме того, она во многом зависит от эффективности метод, использованных на этапах синтаксического и морфологического анализов [2].
Другими словами, любой анализ текст может дать несколько возможных альтернатив на одном наборе входных данных, либо один и тот же результат может получаться из совершенно разных входных данных. Для предотвращения увеличения объема обрабатываемой информации при переходе с этапа на этап целесообразно использовать представленную выше традиционную схему многоэтапной работы с целью уточнения необходимых связей при выявлении содержательного контекста текста.
Список литературы:
1.Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие/ Большакова Е.И., Клышинский Э.С., Ландэ Д.В.,Носков А.А., Пескова О.В., Ягунова Е.В. – М.: МИЭМ, 2011. – 272 с.
2.Mooney R. J. Learning for semantic parsing // Computational Linguistics and Intelligent Text Processing: Proceedings of the 8th International Conference (CICLing 2007) / Ed. by A. Gelbukh. - Mexico City, Mexico : Springer: Berlin, Germany: 2007. – February. - P. 311-324.