
МИНОБРНАУКИ РОССИИ
Государственное образовательное учреждение высшего профессионального образования
«Ижевский государственный технический университет»
Воткинский филиал
(ВФ ИжГТУ)
Кучерова Е.А.
Извлечение информации из коллекции гомогенных текстов
Методическое пособие для выполнения курсовой работы по дисциплине
" Математическая лингвистика "
Воткинск
2013
Цели:
Провести и анализировать автоматическое и ручное аннотирование (реферирование) текстов.
Задачи:
Выбрать одну из представленных предметных областей.
Найти и сформировать коллекцию документов, релевантных предметной области.
Протестировать точность и полноту работы автоматического и ручного аннотирования.
Теоретическое положение
Аннотация – это предельно сжатая характеристика материала. В отличие от реферата, аннотация не может заменить самого материала, так как она призвана дать лишь общее представление о содержании книги или статьи. Именно поэтому для аннотирования важно определить что является самым главным.
Ручное аннотирование(Человек)
Краткое представление о ручном аннотирование можно увидеть из таблицы ниже.
При выполнении работы по составлению аннотации человеком (референтом) обычно выделяют три этапа:
1) подготовительный — референт определяет тематическую направленность текста и пытается понять и осмыслить документ в целом;
2) аналитический — референт делит текст на некоторые фрагменты (абзацы, аспекты и т.п.). Каждый фрагмент внимательно изучается, в нем выделяют основные смысловые единицы (предложения, словосочетания, слова). Данный этап заканчивается составлением плана будущей аннотации; 3) этап непосредственного построения аннотации — выделенные ранее смысловые единицы (их комбинации или преобразования) располагаются в единый вторичный текст в соответствии с планом аннотации.
Смысловые единицы
В качестве основных смысловых единиц, выделяемых из исходного текста на 2-м этапе, могут выступать:
целые ключевые предложения
ключевые словосочетания и слова
Ключевое (опорное) слово — это термин, относящийся к основному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).
Ключевое словосочетание — это сочетание слов, среди которых есть одно или несколько ключевых.
Ключевым предложением считается предложение, содержащее два и более ключевых слова или ключевых словосочетания.
Вопрос, который необходимо рассмотреть, связан с тем, как человек выбирает из текста ключевые предложения, словосочетания и слова. Это делается, как уже отмечалось, на 2-м этапе общего процесса составления вторичного документа. Читая текст повторно (первый раз он читается на подготовительном этапе) или в третий раз, человек мысленно выделяет в нем три типа единиц (предложений, словосочетаний, слов):
1) единицы, которые обязательно должны быть включены в аннотацию. Такие единицы отражают новые идеи, гипотезы, новые методы, явления, процессы, новые результаты, т.е. все новое и оригинальное, что есть в исходном документе. Это, по существу, и есть основные смысловые единицы текста (ключевые предложения, словосочетания и слова);
2) единицы, которые отражают фактические данные: параметры изделий, процессов, методов и т.д. Такие единицы не являются принципиально новыми; 3) единицы, которые аргументируют и иллюстрируют единицы первых двух типов. Единицы первого уровня обязательно используются при составлении аннотации. Из единиц второго уровня используются лишь некоторые (в зависимости от типа аннотации или её потребителя). Третья группа единиц изредка переносится в аннотацию в обобщенном виде.
Смысловыми единицами аннотации могут быть:
1) ключевые слова или словосочетания исходного текста с предшествующими им специальными фразами — реляторами типа: «В статье рассматриваются следующие вопросы:...», «Книга посвящена следующим проблемам: ...» и т.п.;
2) специальные предложения, содержащие оценочные элементы: «Рассматривается важная проблема...», «Статья посвящена актуальной теме...» и т.д.;
3) специальные предложения, содержащие клише, т.е. специализированные словесные штампы, фиксирующие внимание читателя на определенных аспектах содержания: «Недостаток... заключается», «Цель публикации...», «Ставится задача...», «Делается попытка...» и т.д.
Смысловые ориентиры
Составление плана будущей аннотации заключается в выделении некоторых смысловых ориентиров, которые на 3-м этапе будут развернуты более подробно. В качестве таких ориентиров выступают: 1) основные темы и подтемы исходного текста;
2) основные аспекты исследования;
3) основные ключевые предложения, словосочетания и слова.