Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 25.doc
Скачиваний:
58
Добавлен:
08.06.2015
Размер:
535.55 Кб
Скачать

1.2.4.5.3. (56) Гибридные источники

В этих приложениях средства реферирования должны извлекать информацию из отформатированных данных и из неотформатированного текста. Таковы, например, сообщения об игроке футбольной команды, в которых статистическая информация о нем объединена с информацией из базы данных, содержащей сведения о его последних успехах. Такие приложения еще очень новы и не имеют под собой серьезного теоретического фундамента.

1.2.4.5.4. (57) Большое число документов

В средствах реферирования этого типа методы реферирования одного документа должны быть распространены на большой набор документов. Объем такого набора может варьироваться от гигабайт до байт.Для обработки разных объемов нужны разные механизмы.Каждый метод предполагает анализ каждого документа набора и извлечение информации из всех в процессе преобразования и синтеза. Средства реферирования по-прежнему должны выполнять операции отсечения информации, ее объединения и обобщения, и при этом иметь дело с набором документов вместо одного.Простое объединение рефератов каждого документа не может считаться удовлетворительным, т. к. при наличии большого числа рефератов они неизбежно будут содержать избыточную информацию.

Средства реферирования должны выявлять сходства и различия во всех документах (что общего, что присуще только одному документу, в чем они различаются) путем сравнения и слияния представлений содержимого документа, полученных на этапе анализа [8, 10, 11]. Так, например, при использовании генератора естественного языка, средство реферирования может формировать по шаблону анонс новости дня о террористическом акте, причем информация о двух событиях находится в двух различных источниках.

По сообщениям агентства «Рейтер» в результате террористического акта совершенного в городе N, погибло 6 человек. Однако AP сообщает о большем количестве жертв.

Поскольку несколько отличающиеся друг от друга сообщения об одном и том же событии нередко появляется в различных источниках информации, были разработаны средства реферирования, которые отбрасывают избыточную информацию из всех сообщений и предоставляют их краткое изложение [12].

Другие средства реферирования могут отслеживать общую тему в различных сообщениях и представлять результаты своей работы при помощи диаграмм и графиков [13].

1.2.4.5.5. (58) Мультимедиа

Хотя исследования в этой области находятся еще на очень ранней стадии, растущий объем мультимедийной информации делает ее едва ли не самым важным объектом для обработки средствами реферирования.Соответствующие технологии должны обрабатывать информацию из источников разного типа на этапе анализа, на этапе извлечения и на этапе синтеза, когда происходит интеграция информации разного типа.Существующие методы работы с аудио позволяют вычленять из потока информации законченные фрагменты(иными словами, распознавать периоды тишины в разговоре, смену говорящего, снятие телефонной трубки, а также осуществлять контентный анализ).Есть также технологии обработки видео (определения ключевых элементов и логотипа, например),которые помогают определить существенные ее фрагменты. Так, например, цель одной ведущейся в настоящее время работы состоит в том, чтобы определять содержание, скажем, видеофильмов, при помощи ПО распознавания шаблонов. Оно позволяет определить, какие фрагменты содержат интересные события (например, происшествия, драки, яркие проявления характеров и другие) [14].

Рис. 5. Средство реферирования мультимедиа, использует Broadcast News Navigator, который выполняет поиск, просмотр и реферирование теленовостей. На экране представлен мультимедийный реферат информационного наполнения видеофрагмента, выданный на запрос поискового механизма. Реферат включает в себя ключевые предложения, а также информацию о наиболее важных персонах, организациях и местоположении, сопровождаемые видео. Нажатие на кадре видео активизирует воспроизведение видеофрагмента при помощи соответствующего плейера. Система предлагает также ссылки на информационные сообщения, которые считаются относящимися к делу.

На рис. 5 приведен примерный реферат, созданный системой Broadcast News Navigator [15] – средством поиска, просмотра и реферирования телевизионных новостей. BNN опирается на стратегию представления смешанной среды, объединяя ключевые кадры, автоматически извлеченные из видеофрагментов, в аннотации в закрытых текстовых вставках, образованных из захваченных текстовых фрагментов, а также с информацией об организациях, местоположении и участвующих в событиях лицах. Прогресс в области автоматического распознавания речи из аудиоисточников должен стимулировать развитие этих средств реферирования.

В перспективе, во всяком случае, в ближайшей, (59) подход, не предполагающий опору на знания, будет доминировать, особенно в сочетании с механизмами обучения выбору. Приложения на базе знаний могут получать большее распространение в тех предметных областях, для которых существуют достаточно большого размера грамматики и источники знаний. Важно учитывать, что для работы с этими источниками нужны либо специалисты, обладающие широкими познаниями в своей области, либо необходимо сделать упор на методы машинного обучения. Для того чтобы сделать возможной эмпирическую оценку автоматически сформированных рефератов, необходимы дополнительные наборы текстов (и их рефератов).

В целом, отрасль средств реферирования находится в самом начале своего развития. Существует единое мнение о необходимости лучших методов оценки, однако, большинство задач еще не решено, в том числе, сохраняется необходимость в масштабируемых методологиях создания аннотаций. Тем не менее, многие из описанных здесь технологий уже работают, и можно ожидать, что инструменты реферирования будут играть решающую роль в завоевании широких информационных пространств в будущем.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]