Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
vopros1-5.docx
Скачиваний:
37
Добавлен:
24.09.2019
Размер:
44.41 Кб
Скачать

Автоматическое аннотирование и реферирование текстов. Формулировка задачи автоматического реферирования и аннотирования

Автоматическое реферирование и аннотирование текста

Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемы методы, основные результаты описанного исследования или разработки (Зубов).

Аннотация – краткое изложение содержания документа, дающее общее представление о его теме (Зубов).

Существуют три этапа реферирование и аннотирования: 1) подготовительный; 2) аналитический (из текста выделяют значимые участки); 3) построение реферата/аннотации.

Базовые понятия: ключевые слова, словосочетания, предложения.

Ключевое (опорное слово) – это термин, относящийся к основному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).

Ключевое словосочетание – это сочетание слов, среди которых есть одно или несколько ключевых.

Ключевым предложением считается предложение, содержащее два или более ключевых слова или ключевых словосочетаний.

Три группы методов по анатомическому реферированию и аннотированию:

1) статистический: его суть заключается в том, что ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз; ключевым предложением считается предложение текста, которое имеет несколько ключевых слова, содержит ключевые слова на небольшом расстоянии друг от друга.

2) позиционный: ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе.

3) логико-семантический метод опирается на исследование структуры и семантики текстов.

Ключевые словоформы текста делятся на главные опорные слова (ГОС) и на второстепенные опорные слова (ВОС). ГОС являются особенно важными для текста. Они встречаются с наибольшей частотой в большом числе абзацев. ВОС встречаются с меньшей частотой и в меньшем числе абзацов.

Стоп-слова не несут значения в тексте: предлоги, некоторые союзы, местоимения.

Автоматическое аннотирование текста: аннотация и рефераты не должна превышать половину исходного текста.

Д ва типа кратких содержаний текста: индикативные (дают общее представление о тексте – аннотация) и информативные (реферат). Также делятся на экстракты (отрывок, состоящий из фрагментов самого текста) и абстракты (то же самое, что и экстракт, только в обработанном виде).

Алгоритм Луна 1959 года основан на законе Ципфа:

f

0 r

где f – частота, r – ранг

Зависимость между рангом есть величина постоянная.

Самыми частотными словами в массиве текста будет функциональные слова, которые являются малозначащими: предлоги, союзы, частицы, некоторые местоимения.

Первым делом по алгоритму Луна мы берем стоп-слова, затем делаем реферирование, в котором мы должны «отсеять» стоп-слова. Три этапа реферирования:

1) идентификация темы текста; 2) интерпретация; 3) генерация/синтез выходного текста.

Методы идентификация текста:

1. позиционный (если слово встретилось в заголовке)

2. метод ключевых слов (для него надо знать тематику текста)

3.* метод алгоритма Луна

4. критерий/метод пересечения запроса с «заголовком»

5. связанность текста – когезия. Связь элементов текста:

а) анафорические: замена полнозначного слова местоимением.

б) синонимия

в) метод структуры и дискурса

г) комбинация всех этих методов

Интерпретация текста: TF – частота текста IDF - обратная частота текста.

Генерация текста: отсекание одинаковых частей (компрессия текста).

Существует также многодокументное реферирование, многоязычное реферирование.

Учитывая все сказанное, сформулируем задачу автоматического реферирования и аннотирования текста следующим образом:

«На устройстве внешней памяти (например, дискете или винчестере) находится английский научно-технический текст. Начало

каждого абзаца в нем обозначено знаком *. Используя для выделения ключевых (опорных) слов текста один из вариантов

статистического метода, а именно коэффициент важности слова

а) аннотацию текста в виде релятора со следующими за ним ключевыми словосочетаниями текста. Ключевым сочетанием считается ключевое имя существительное со стоящим перед ним определением, выраженным именем прилагательным или причастием, не относящимся к числу общеупотребительных;

б) словесный реферат текста в виде последовательной цепочки ключевых предложений. Ключевым предложением текста будем считать предложение, содержащее три и более разных ключевых слова. Аннотацию и реферат вывести на экран дисплея».

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]