Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОПЛ_ответы.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.07 Mб
Скачать

15. Аннотирование корпусов. Виды разметки корпусов.

Автоматическое реферирование текстов (аннотирование, автореферирование), иными словами, извлечение наиболее важных или характерных фрагментов из одного или многих источников информации, является лучшим помощником при обработке большого массива текстов. Предоставление сжатого смысла первоисточников в виде аннотаций в несколько раз повышает скорость анализа документов. Объем аннотации, или реферата должен составлять от 5 до 30% исходного текста. Подготовка аннотаций нескольких источников информации или формирование сводок для карманных устройств предполагает еще большую степень сжатия. Существует два разных подхода к аннотированию.

1. В тексте выявляются ключевые слова и небольшое кол-во предложений, которые наиболее полно отражают основное содержание текста. Информативными предложениями считаются первое, предпоследнее и последнее, а также содержащие КС текста (или, например, термы запроса для результатов информ. поиска). В большинстве методов применяется модель линейных весовых коэффициентов. Основу аналитического этапа в этой модели составляет процедура назначения весовых коэффициентов для каждого блока (предложения) текста в соответствии с такими характеристиками, как расположение этого блока в оригинале (в начале, в середине или в конце, а также используется ли он в ключевых разделах, например, вводной части или в заключении), частота появления в тексте, частота использования в ключевых предложениях (это лексические или фразовые резюмирующие конструкции, такие как «в заключение», «в данной статье», «согласно результатам анализа» и т.д.), а также показатели статистической значимости (исследователи выявляют и оценивают целый ряд метрик, определяющих весовые коэффициенты термина). Выбранные предложения выстраиваются в порядке их следования в исходном тексте, результат представляет собой квазиреферат (термин Леонтьевой). Затем полученный текст редактируют с помощью специальных процедур (сокращают объем, убирают повторения, добавляют связности). (Например, функция AutoSummarize в Microsoft Office 97.) В других случаях выделенные КС и наиболее информативные слова вставляются в заранее подготовленные шаблоны, например «В тексте говорится о…» Итогом такого сжатия по Леонтьевой становится реферат-клише.

  1. В тексте выделяются основные смыслы, и уже эти смыслы выражаются новыми предложениями, новым текстом. Аннотация представляет собой синтезированный документ в виде краткого содержания.

Практически все современные системы аннотирования/реферирования основаны на первом варианте, однако он уступает второму по своему качеству. Для повышения качества аннотирования необходимо решить проблему обработки кореферентных ссылок (именных групп, которые обозначают один и тот же внеязыковой объект или ситуацию, т.е. имеют один и тот же референт) в русском языке. Еще одной проблемой, возникающей при синтезе аннотаций, является отсутствие средств семантического анализа и синтеза текста на русском языке, поэтому сервисы аннотирования ориентированы либо на узкую предметную область, либо требуют участия человека.

Наиболее распространенные виды сжатия текстов в зарубежной традиции: data mining, text mining, knowledge discovery, Information Extraction. Все они основаны не на полном понимании смысла текста, а на выборочном понимании, поиске связных фрагментов текста по заранее заданной информационной потребности.

Text-mining (смысловой анализ текста). Для применения необходимы следующие условия:

  • Извлекаемая информация выражена эксплицитно, дальнейшая интерпретация не требуется

  • Для обобщения релевантных частей документа достаточно небольшого количества шаблонов (н., коммерческая новость)

  • Необходимая информация выражена в рамках текста полностью.

На первом шаге разметки документа для систем text-mining в каждом документе происходит поиск (т.е., извлечение) объектов и отношений, которые кажутся значимыми и информативными. Термин отношения обозначает факты или события, включающие конкретные объекты. 4 основных типах элем-в, которые могут быть извлечены из текста:

  • Объекты. Объекты – основные строительные единицы, которые могут быть найдены в тексте. Например, люди, компании, места и др.

  • Атрибуты. Это свойства извлеченных объектов. К ним относятся, например, профессия, возраст человека, тип организации…

  • Факты. Представляют собой отношения между объектами. К примеру, трудовые отношения между человеком и компанией.

  • События. Событие – это представляющие интерес деятельность или деятельностный акт, в которых участвуют объекты, такие как террористический акт, объединение двух компаний, день рождения и другие.

Системы извлечения информации представляют документ в виде набора объектов и фреймов (структурированные объекты), что является одним из способов формального описания отношений между объектами. Иерархия отношений между объектами и фреймами обычно выглядит как простое дерево. Образно говоря, от корня отходит несколько веток – типов объектов (н., Компания, Человек), к которым автоматически добавляются конкретные объекты, как только они обнаруживаются в тексте.

Простейший тип извлечения информации – извлечение терминов.

История развития систем извлечения информации связана с разработкой правил.

Например, основной фазой работы любой системы извлечения является идентификация всех упоминаний имен собственных и наименований количества в тексте (имена, названия, даты и время, денежные суммы и т.д.) При этом не должны извлекаться имена нарицательные (н.,the plane, the company), названия группы людей и законов, которые были названы в честь людей (н., республиканцы, Нобелевская премия) и адъективные формы топонимов, н., американский, японский и др.

Пример:

оригинал: Мистер Смит был менеджером по закупкам в торговой сети.

результат: FrameType: Человек – Должность - Компания

Человек: Мистер Смит

Должность: менеджер по закупкам

Компания: торговая сеть

Статус: прошлое

Достоинства.

  • По нескольким причинам системы извлечения информации превосходят другие подходы смыслового анализа текста, например, категоризацию.

  • - Сеть из всех возможных объектов и фреймов текста открыта и обладает большими размерами, туда могут быть добавлены тысячи и даже миллионы элементов

  • - Предоставляются более точные данные в более компактном виде

  • - Извлеченная информация отражает концепты и отношения, которые наиболее значимы и напрямую относятся к области документа.

Перспективы развития систем автореферирования текста:

  1. Развитие второго подхода.

  2. Работа с несколькими источниками. Так, многочисленные ленты новостей в Web сообщают об одних и тех же событиях, и на этот случай мог бы оказаться полезен инструмент, способный выделить общие места и новую информацию.

  3. Работа с нетекстовыми источниками: мультимедийными (видео, аудио), табличными.

  4. Работа с источниками на разных языках (одноязычный реферат, охватывающий информацию из источников на разных языках, помогает решить, нужен ли более подробный перевод этих источников).

к 13, 15. - Виды и механизмы разметки в корпусах.

Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингвистическую информацию. Так в корпусной лингвистике возникла идея размечен­ного корпуса.

Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tag, tags):

  • внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое. Это кодирование информации имеет название метаразметка),

  • структурных (глава, абзац, предложение, словоформа)

  • собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста.

Принципы разметки:

  • Описание (обоснование) схемы разметки

  • Общепринятая система лингвистических понятий

  • Известная для пользователя схема анализа

  • Мотивированность введения параметров

  • Теоретически нейтральная (традиционная) схема разметки

Набор метаданных во многом определяет возможности, предоставляемые корпусами исследователям. При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков. Среди лингвистических типов разметки выделяются:

  • морфологическая разметка. В иностранной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно – частеречная разметка. В действительности морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки: Почему?

  1. большинство крупных корпусов являются как раз морфологически размеченными корпусами,

  2. морфологический анализ рассматривается как основа для дальнейших форм анализа – синтаксического и семантического

  3. успехи в компьютерной морфологии позволяют автоматически размечать корпусы больших размеров;

Элементы данных морфологической разметки включают:

  • лемму;

  • признак части речи;

  • признаки грамматических категорий.

Проблемы морфоанализа и морфоразметки:

  • анализ слов с дефисом:

        • кто-нибудь, по видимому, велико светский, полу бог);

  • нераспознавание многих имен собственных, особенно иностранных;

  • нераспознавание прилагательных и существительных, образованных от имен собственных:

        • архимедов, ахиллов, дантов, гулливеров, горациев, марфенькин;

  • неразпознование аббревиатур и сокращений:

        • г., гг., фр., д., 20 авг.<уста>, англ.;

  • сложные слова различных типов:

        • односложный, двухэтажный, трехдневный,, четырехлетний, полуотворенный, полсотни, бледночернильный, многообещавший, благорожденный;

  • словообразовательные дериваты, в том числе многочисленные уменьшительно-ласкательные и уменьшительно-пренебрежительные образования:

        • ангельчик, армячишка, барельефчик, кресельца, панталончики, сертучишка, цветничок.

  • синтаксическая разметка, являющаяся результатом синтаксического анализа, или парсинга (англ. parsing), выполняемого на основе данных морфологического анализа. Этот вид разметки описывает синтаксические связи между лексическими единицами и различные синтаксические конструкции (например, придаточное предложение, глагольное словосочетание и т.п.);

  • фиксация синтаксических связей

  • приписывание синтаксическим единицам соответствующих характеристик:

    • тип предложения

    • синтаксическая функция

    • член предложения

    • и т.п.

Сложности синтаксической разметки: разнообразие синтаксических теорий и формализмов:

      • грамматика зависимостей;

      • грамматика непосредственно-составляющих;

      • грамматика структурных схем;

      • традиционные синтаксические учения о членах предложения;

      • функциональная грамматика;

      • семантический синтаксис;

      • и др.

  • семантическая разметка. Хотя для семантики нет единой семантической теории, чаще всего семантические тэги обозначают семантические категории, к которым относится данное слово или словосочетание, и более узкие подкатегории, специфицирующие его значение

В помощью семантической разметки обозначается:

  • Значения слов

  • Разрешение омонимии и синонимии

  • Категоризация слов (разряды)

  • Тематические классы

  • Признаки каузативности

  • Оценки

  • Деривационные характеристики

  • И т.д.

  • анафорическая разметка. Фиксирует референтные связи, например, местоименные;

  • просодическая разметка. В просодических корпусах применяются метки, описывающие ударение и интонацию. В корпусах устной разговорной речи просодическая разметка часто сопровождается так называемой дискурсной разметкой, которая служит для обозначения пауз, повторов, оговорок, и т.д.

Существуют и другие типы разметки:

  • Извлечение информации (data-mining) позволяет встроить корпус в поисковую систему Интернета. Поиск и извлечение информации – на основе анализа содержания текста. Прежде всего – денотативный анализ текстов (подразумевает извлечение имен денотатов – сущ. и местоим.), на основе денотатов строится список партиципантов (участников события).

Автоматическая разметка

Фактически, корпус в его современном понимании – это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место занимают программы автоматической разметки. Разметка корпусов представляет собой трудоемкую операцию, особенно учиты­вая размеры современных корпусов. Если для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). В результате работы программ автоматического морфологиче­ского анализа каждой лексической единице приписываются граммати­че­ские характеристики, включая часть речи, лемму (нормальную форму) и набор граммем (например, род, число, падеж, одушевлен­ность/неодушевленность, переходность и т.п.). В результате работы программ автоматического синтаксического анализа фиксируются син­таксические связи между словами и словосочетаниями, а синтаксиче­ским единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.п.).