Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный областной университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

vopros1-5.docx

Скачиваний:

Добавлен:

24.09.2019

Размер:

44.41 Кб

Скачать

☆

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Автоматическое аннотирование и реферирование текстов. Формулировка задачи автоматического реферирования и аннотирования

Автоматическое реферирование и аннотирование текста

Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемы методы, основные результаты описанного исследования или разработки (Зубов).

Аннотация – краткое изложение содержания документа, дающее общее представление о его теме (Зубов).

Существуют три этапа реферирование и аннотирования: 1) подготовительный; 2) аналитический (из текста выделяют значимые участки); 3) построение реферата/аннотации.

Базовые понятия: ключевые слова, словосочетания, предложения.

Ключевое (опорное слово) – это термин, относящийся к основному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).

Ключевое словосочетание – это сочетание слов, среди которых есть одно или несколько ключевых.

Ключевым предложением считается предложение, содержащее два или более ключевых слова или ключевых словосочетаний.

Три группы методов по анатомическому реферированию и аннотированию:

1) статистический: его суть заключается в том, что ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз; ключевым предложением считается предложение текста, которое имеет несколько ключевых слова, содержит ключевые слова на небольшом расстоянии друг от друга.

2) позиционный: ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе.

3) логико-семантический метод опирается на исследование структуры и семантики текстов.

Ключевые словоформы текста делятся на главные опорные слова (ГОС) и на второстепенные опорные слова (ВОС). ГОС являются особенно важными для текста. Они встречаются с наибольшей частотой в большом числе абзацев. ВОС встречаются с меньшей частотой и в меньшем числе абзацов.

Стоп-слова не несут значения в тексте: предлоги, некоторые союзы, местоимения.

Автоматическое аннотирование текста: аннотация и рефераты не должна превышать половину исходного текста.

Д ва типа кратких содержаний текста: индикативные (дают общее представление о тексте – аннотация) и информативные (реферат). Также делятся на экстракты (отрывок, состоящий из фрагментов самого текста) и абстракты (то же самое, что и экстракт, только в обработанном виде).

Алгоритм Луна 1959 года основан на законе Ципфа:

0 r

где f – частота, r – ранг

Зависимость между рангом есть величина постоянная.

Самыми частотными словами в массиве текста будет функциональные слова, которые являются малозначащими: предлоги, союзы, частицы, некоторые местоимения.

Первым делом по алгоритму Луна мы берем стоп-слова, затем делаем реферирование, в котором мы должны «отсеять» стоп-слова. Три этапа реферирования:

1) идентификация темы текста; 2) интерпретация; 3) генерация/синтез выходного текста.

Методы идентификация текста:

1. позиционный (если слово встретилось в заголовке)

2. метод ключевых слов (для него надо знать тематику текста)

3.* метод алгоритма Луна

4. критерий/метод пересечения запроса с «заголовком»

5. связанность текста – когезия. Связь элементов текста:

а) анафорические: замена полнозначного слова местоимением.

б) синонимия

в) метод структуры и дискурса

г) комбинация всех этих методов

Интерпретация текста: TF – частота текста IDF - обратная частота текста.

Генерация текста: отсекание одинаковых частей (компрессия текста).

Существует также многодокументное реферирование, многоязычное реферирование.

Учитывая все сказанное, сформулируем задачу автоматического реферирования и аннотирования текста следующим образом:

«На устройстве внешней памяти (например, дискете или винчестере) находится английский научно-технический текст. Начало

каждого абзаца в нем обозначено знаком *. Используя для выделения ключевых (опорных) слов текста один из вариантов

статистического метода, а именно коэффициент важности слова

а) аннотацию текста в виде релятора со следующими за ним ключевыми словосочетаниями текста. Ключевым сочетанием считается ключевое имя существительное со стоящим перед ним определением, выраженным именем прилагательным или причастием, не относящимся к числу общеупотребительных;

б) словесный реферат текста в виде последовательной цепочки ключевых предложений. Ключевым предложением текста будем считать предложение, содержащее три и более разных ключевых слова. Аннотацию и реферат вывести на экран дисплея».

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.08.2019116.7 Кб67The Word-Group.rtf
#
14.09.201970.19 Кб15trening_-put_k_garmonii.docx
#
23.09.201931.33 Кб7VED_32_33.docx
#
24.03.2015693.41 Кб123Verbals.pdf
#
14.11.2019391.68 Кб103Vocab in Use 1 term.doc
#
24.09.201944.41 Кб37vopros1-5.docx
#
24.09.20192.83 Mб6Voprosy_30_32_36_38_40.docx
#
26.11.2019326.14 Кб5Voprosy_ekonomika_organizatsii.doc
#
08.03.2016128.42 Кб135Voprosy_po_gos-vu.docx
#
25.09.2019470.02 Кб46Voprosy_po_IGPZS.doc
#
30.07.2019271.87 Кб11Voprosy_po_kursu_obshaya_psihologia.doc