Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Гомогенные тексты.docx
Скачиваний:
0
Добавлен:
28.01.2020
Размер:
129.54 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Государственное образовательное учреждение высшего профессионального образования

«Ижевский государственный технический университет»

Воткинский филиал

(ВФ ИжГТУ)

Кучерова Е.А.

Извлечение информации из коллекции гомогенных текстов

Методическое пособие для выполнения курсовой работы по дисциплине

" Математическая лингвистика "

Воткинск

2013

Цели:

Провести и анализировать автоматическое и ручное аннотирование (реферирование) текстов.

Задачи:

  1. Выбрать одну из представленных предметных областей.

  1. Найти и сформировать коллекцию документов, релевантных предметной области.

  1. Протестировать точность и полноту работы автоматического и ручного аннотирования.

Теоретическое положение

Аннотация – это предельно сжатая характеристика материала. В отличие от реферата, аннотация не может заменить самого материала, так как она призвана дать лишь общее представление о содержании книги или статьи. Именно поэтому для аннотирования важно определить что является самым главным. 

Ручное аннотирование(Человек)

Краткое представление о ручном аннотирование можно увидеть из таблицы ниже.

При выполнении работы по составлению аннотации человеком (референтом) обычно выделяют три этапа:

1) подготовительный — референт определяет тематическую направленность текста и пытается понять и осмыслить документ в целом;

2) аналитический — референт делит текст на некоторые фраг­менты (абзацы, аспекты и т.п.). Каждый фрагмент внимательно изучается, в нем выделяют основные смысловые единицы (пред­ложения, словосочетания, слова). Данный этап заканчивается со­ставлением плана будущей аннотации; 3) этап непосредственного построения аннота­ции — выделенные ранее смысловые единицы (их комбинации или преобразования) располагаются в единый вторичный текст в соответствии с планом аннотации.

Смысловые единицы

В качестве основных смысловых единиц, выделяемых из исходного текста на 2-м этапе, могут выступать:

  1. целые клю­чевые предложения

  2. ключевые словосочетания и слова

Ключевое (опорное) слово — это термин, относящийся к основ­ному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).

Ключевое словосочетание — это сочетание слов, среди которых есть одно или несколько ключевых.

Ключевым предложением считается предложение, содержащее два и более ключевых слова или ключевых словосочетания.

Вопрос, который необходимо рассмотреть, связан с тем, как человек выбирает из текста ключевые предло­жения, словосочетания и слова. Это делается, как уже отмеча­лось, на 2-м этапе общего процесса составления вторичного до­кумента. Читая текст повторно (первый раз он читается на подго­товительном этапе) или в третий раз, человек мысленно выделяет в нем три типа единиц (предложений, словосочетаний, слов):

1) единицы, которые обязательно должны быть включены в аннотацию. Такие единицы отражают новые идеи, гипотезы, новые методы, явления, процессы, новые результаты, т.е. все новое и оригинальное, что есть в исходном документе. Это, по существу, и есть основные смысловые единицы текста (ключе­вые предложения, словосочетания и слова);

2) единицы, которые отражают фактические данные: параметры изделий, процессов, методов и т.д. Такие единицы не являются принципиально новыми; 3) единицы, которые аргументируют и иллюстрируют едини­цы первых двух типов. Единицы первого уровня обязательно используются при со­ставлении аннотации. Из единиц второго уровня использу­ются лишь некоторые (в зависимости от типа аннотации или её потребителя). Третья группа единиц изредка переносится в аннотацию в обобщенном виде.

Смысловыми единицами аннотации могут быть:

1) ключевые слова или словосочетания исходного текста с предшествующими им специальными фразами — реляторами типа: «В статье рассматриваются следующие вопросы:...», «Книга посвящена следующим проблемам: ...» и т.п.;

2) специальные предложения, содержащие оценочные элемен­ты: «Рассматривается важная проблема...», «Статья посвящена актуальной теме...» и т.д.;

3) специальные предложения, содержащие клише, т.е. специ­ализированные словесные штампы, фиксирующие внимание чи­тателя на определенных аспектах содержания: «Недостаток... за­ключается», «Цель публикации...», «Ставится задача...», «Делает­ся попытка...» и т.д.

Смысловые ориентиры

Составление плана будущей аннотации заключа­ется в выделении некоторых смысловых ориентиров, которые на 3-м этапе будут развернуты более подробно. В качестве таких ориентиров выступают: 1) основные темы и подтемы исходного текста;

2) основные аспекты исследования;

3) основные ключевые предложения, словосочетания и слова.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]