- •Компьютерная лингвистика, ее разделы и направления. Структура кл. Кл и аот
- •Автоматическое аннотирование и реферирование текстов. Формулировка задачи автоматического реферирования и аннотирования
- •Технология машинного обучения как основа современной лингвистической технологии. Технология автоматического извлечения данных и ее разновидности
- •Структура системы распознавания речевого сигнала. Лингвистическое обеспечение системы распознавания речи
- •Синтез речи. Лингвистическое обеспечение систем синтеза речи
Автоматическое аннотирование и реферирование текстов. Формулировка задачи автоматического реферирования и аннотирования
Автоматическое реферирование и аннотирование текста
Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемы методы, основные результаты описанного исследования или разработки (Зубов).
Аннотация – краткое изложение содержания документа, дающее общее представление о его теме (Зубов).
Существуют три этапа реферирование и аннотирования: 1) подготовительный; 2) аналитический (из текста выделяют значимые участки); 3) построение реферата/аннотации.
Базовые понятия: ключевые слова, словосочетания, предложения.
Ключевое (опорное слово) – это термин, относящийся к основному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).
Ключевое словосочетание – это сочетание слов, среди которых есть одно или несколько ключевых.
Ключевым предложением считается предложение, содержащее два или более ключевых слова или ключевых словосочетаний.
Три группы методов по анатомическому реферированию и аннотированию:
1) статистический: его суть заключается в том, что ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз; ключевым предложением считается предложение текста, которое имеет несколько ключевых слова, содержит ключевые слова на небольшом расстоянии друг от друга.
2) позиционный: ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе.
3) логико-семантический метод опирается на исследование структуры и семантики текстов.
Ключевые словоформы текста делятся на главные опорные слова (ГОС) и на второстепенные опорные слова (ВОС). ГОС являются особенно важными для текста. Они встречаются с наибольшей частотой в большом числе абзацев. ВОС встречаются с меньшей частотой и в меньшем числе абзацов.
Стоп-слова не несут значения в тексте: предлоги, некоторые союзы, местоимения.
Автоматическое аннотирование текста: аннотация и рефераты не должна превышать половину исходного текста.
Д ва типа кратких содержаний текста: индикативные (дают общее представление о тексте – аннотация) и информативные (реферат). Также делятся на экстракты (отрывок, состоящий из фрагментов самого текста) и абстракты (то же самое, что и экстракт, только в обработанном виде).
Алгоритм Луна 1959 года основан на законе Ципфа:
f
0 r
где f – частота, r – ранг
Зависимость между рангом есть величина постоянная.
Самыми частотными словами в массиве текста будет функциональные слова, которые являются малозначащими: предлоги, союзы, частицы, некоторые местоимения.
Первым делом по алгоритму Луна мы берем стоп-слова, затем делаем реферирование, в котором мы должны «отсеять» стоп-слова. Три этапа реферирования:
1) идентификация темы текста; 2) интерпретация; 3) генерация/синтез выходного текста.
Методы идентификация текста:
1. позиционный (если слово встретилось в заголовке)
2. метод ключевых слов (для него надо знать тематику текста)
3.* метод алгоритма Луна
4. критерий/метод пересечения запроса с «заголовком»
5. связанность текста – когезия. Связь элементов текста:
а) анафорические: замена полнозначного слова местоимением.
б) синонимия
в) метод структуры и дискурса
г) комбинация всех этих методов
Интерпретация текста: TF – частота текста IDF - обратная частота текста.
Генерация текста: отсекание одинаковых частей (компрессия текста).
Существует также многодокументное реферирование, многоязычное реферирование.
Учитывая все сказанное, сформулируем задачу автоматического реферирования и аннотирования текста следующим образом:
«На устройстве внешней памяти (например, дискете или винчестере) находится английский научно-технический текст. Начало
каждого абзаца в нем обозначено знаком *. Используя для выделения ключевых (опорных) слов текста один из вариантов
статистического метода, а именно коэффициент важности слова
а) аннотацию текста в виде релятора со следующими за ним ключевыми словосочетаниями текста. Ключевым сочетанием считается ключевое имя существительное со стоящим перед ним определением, выраженным именем прилагательным или причастием, не относящимся к числу общеупотребительных;
б) словесный реферат текста в виде последовательной цепочки ключевых предложений. Ключевым предложением текста будем считать предложение, содержащее три и более разных ключевых слова. Аннотацию и реферат вывести на экран дисплея».