Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 25.doc
Скачиваний:
58
Добавлен:
08.06.2015
Размер:
535.55 Кб
Скачать

1.2.4.5.1. Различия средств реферирования

Главное различие между средствами реферирования состоит в том, что они, по существу, формируют – краткое изложение или набор выдержек. Так, выдержки из Геттисбергского обращения Авраама Линкольна могут выглядеть следующим образом: «Восемьдесят семь лет назад наши отцы ступили на эту землю, чтобы создать новую нацию». Краткое изложение того же текста будет звучать так: «В этой речи Авраам Линкольн призывает вспомнить солдат, которые отдали свои жизни в битве при Геттисберге». Оба типа изложения преследуют две основных цели: определить основную (или наиболее важную) мысль оригинала и принять решение о методе сокращения (или сжатия, или «урезания») информации. Однако (39) рефераты различаются по функции[1]и целевым группам пользователей. Так, например,реферат может быть повествовательным, информативным или критическим.

Повествовательные рефератыформируются по классическому принципу извлечения информации: онипредоставляют достаточный объем информации, чтобы создать у пользователя представление о соответствующих источниках, с тем чтобы их можно было отобрать для более внимательного прочтения.

Информативные рефераты заменяют собой текст, в основном они содержат основную или новую фактическую информацию в сокращенной форме.

Критические рефераты (или обзоры) сообщают не только суть информации, но и предлагают определенное мнение о ней. Критические рефераты обладают дополнительной ценностью по сравнению с оригиналом, поскольку предлагают выводы, которых нет в самом тексте. Критический реферат Геттисбергского обращения мог бы выглядеть так: «Несмотря на свою краткость, обращение, без сомнения, можно отнести к величайшим речам и истории Америки. Наиболее сильное впечатление оставляют его заключительные слова о власти народа».

(40) Реферат может быть общим или ориентированным на специфического пользователя. Рефератыпервого типаориентируются на широкий круг читателей; к ним не предъявляются какие-либо специальные требования, поскольку реферат не предназначен для какой-то одной группы читателей. Рефератывторого типа, напротив,адресованы конкретному пользователю или группе пользователей с их специфическими потребностями(например, детям). Ориентированный на пользователя реферат обращения может быть, например, таким: «Сейчас мы ведем великую гражданскую войну... Мы должны принять главное сражение этой войны!»

До недавнего времени общие рефераты пользовались большей популярностью, однако, распространение полнотекстовых поисковых механизмов и средств фильтрации информации, адаптирующихся к требованиям конкретных пользователей, приводят к тому, что настраиваемые рефераты приобретают все большее значение.

1.2.4.5.2. (41) Методы и архитектуры

Процесс реферирования распадается на три этапа: анализ исходного текста, определение его характерных фрагментов и формирование соответствующего вывода. Большинство современных работ концентрируются вокруг разработанной технологии реферирования одного документа.

1.2.4.5.2.1. (42) Составление выдержек

Метод составления выдержек, предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов,выделяются блоки наибольшей лексической и статистической релевантности.Создание итогового документа в данном случае — просто соединение выбранных фрагментов.

(43) В большинстве методов применяется модель линейных весовых коэффициентов. Основуаналитического этапав этой модели составляетпроцедура назначения весовых коэффициентов для каждого блока текста в соответствии с такими характеристиками, как расположение этого блока в оригинале, частота появления в тексте, частота использования в ключевых предложениях, а также показатели статистической значимости.Сумма индивидуальных весов, как правило, определенная после дополнительной модификации в соответствии со специальными параметрами настройки, связанными с каждым весом, дает общий вес всего блока текстаU:

Weight(U) := Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)

(44) Весовой коэффициент расположения(Location) в данной модели зависит от того, где во всем тексте или в отдельно взятом параграфе появляется данный фрагмент — в начале, в середине или в конце, а также используется ли он в ключевых разделах, например, вводной части или в заключении.

(45) Ключевые фразыпредставляют собой лексические или фразовые резюмирующие конструкции, такие как «в заключение», «в данной статье», «согласно результатам анализа» и так далее. Весовой коэффициент ключевой фразы может зависеть также и от принятого в данной предметной области оценочного термина, типа «отличный» (наивысший коэффициент) или «малозначащий» (значительно меньший коэффициент).

(46) Кроме того, при назначении весовых коэффициентов в этой модели учитывается показатель статистической важности(StatTerm). Статистическая важность вычисляется на основании данных, полученных в результате анализа автоматической индексации, при котором исследователи выявляют и оценивают целый ряд метрик, определяющих весовые коэффициенты термина. Эти метрики позволяют выделить документ из числа других в определенном наборе документов.

Одна группа метрик, например, метрика tf.idf, характеризует баланс между частотой появления термина в документе и частотой его появления в наборе документов (как правило, используется с другими метриками частоты и средствами нормализации длины).

И, наконец, эта модель предполагает просмотр терминов в блоке текста и определение его весового коэффициента в соответствии с дополнительным наличием терминов (AddTerm) – появляются ли они также в заголовке, в колонтитуле, первом параграфе и в пользовательском профиле запроса. Выделение приоритетных терминов, наиболее точно отражающих интересы пользователя, – это один из путей настроить реферат или аннотацию на конкретного человека или группу.

Нарис. 1приведена обобщенная архитектура реферирования без опоры на знания. На аналитическом этапе применяется модель линейных весовых коэффициентов, предполагающая выполнение последовательности вычислений частоты и операций сопоставления строк или шаблонов, которые для каждого блока исходного текста выдают весовые коэффициенты четырех типов (Location, CuePhrase, StatTerm, AddTerm). Затем эти коэффициенты суммируются для каждого блока, после чего выбираются n блоков, обладающих наивысшей суммой коэффициентов (значение n может быть определено на основании степени сжатия) для включения в реферат.

Этот метод был создан еще в 60 – 70-х годах, но большинство систем, подготавливающих такого рода конспект на основе выдержек, до их пор используют подход, проиллюстрированный на рис. 1[2]. Анализ сравнительных характеристик различных моделей, произведенный с целью определить производительность [3] каждой, показал, что локализацию блоков текста можно считать одной из самых полезных функций, особенно в сочетании с функцией выявления ключевых фраз.

В большинстве систем пользователь задает параметры настройку вручную, и выбор параметров зависит скорее от текущих потребностей, поскольку относительная значимость различных характеристик может сильно различаться для текстов разного стиля. Пытаясь автоматизировать этот процесс и, возможно, повысить производительность, исследователи из Xerox PARC, такие как Джулиан Купьеч и его коллеги, разработали классификатор, способный обучаться правилам выделения фрагментов. Нарис. 2показано, как этот классификатор использует набор определенных пользователем рефератов и соответствующие исходные тексты для автоматического определения критериев адекватного выбора фрагментов.

Этот основанный на собрании документов метод, который используют системы реферирования Inxight, подходит для текстов различных стилей, но для этого пользователи должны располагать полными текстами и соответствующими рефератами для каждого стиля.

Конечно, (47) главное преимущество линейной модели заключается в простоте ее реализации. Однаковыделение предложений (или параграфов), не учитывающее взаимоотношений между ними, приводит к формированию бессвязных рефератов. Некоторые предложения могут оказаться пропущены, либо в них могут встречаться «висящие» слова или словосочетания (слово или фраза, которые невозможно понять без другого слова или фразы). Например, если в тексте содержится обоснование некоего положения, состоящее из нескольких фраз, а в реферат попадает только одна из них, смысл может быть потерян или искажен. Можно привести следующий текстовый фрагмент, который иллюстрирует эту проблему. «Билл Диксон поступил на работу в Procter & Gamble в 1994 году. В 1996 году он стал ее вице-президентом». В этом фрагменте можно указать два потенциально «висящих» слова «он» и «ее», которые не имеют смысла без предыдущей фразы, из которой становится ясно, что «он» – это Диксон, а «ее» – это компания Procter & Gamble. Если в реферате первая фраза будет потеряна, текст потеряет свою информативность.

Есть множество работ, в которых делаются попытки решить эту проблему, в основном за счет разного рода «заплаток». В ряде подходов создается специальное окно для предыдущего предложения реферата, с помощью которого можно определить наличие смыслового разрыва или «висящего» слова. В других случаях предложения, содержащие «висящие» слова, исключаются из реферата, либо делаются попытки разрешения ссылок, которые предполагают такие слова, или их сверки путем краткого лингвистического анализа. При таком подходе степень сжатия уменьшается, т. к. в реферат привносится посторонняя информация. Кроме того, когда основной реферат уже сформирован, трудно восстановить исходный процент сжатия.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]