7.4.3. Применение программ-экстракторов

Выделение метаинформации и ключевых слов из изданий может быть выполнено с помощью специальных программ-экстракторов. Одна из первых таких программ - это Extractor, созданный в Институте Информационных Технологий Национального исследовательского Совета (NRC) Канады. В настоящее время доступна версия 7.0 этой программы.

Extractors качестве исходных данных использует текстовый документ, генерируя на выходе совокупность ключевых слов. Он обрабатывает тексты на английском, французском, японском, немецком, испанском и корейском языках. К сожалению, к русскому языку он пока не адаптирован. Алгоритм работы программы использует метод обучения на примерах. Алгоритм изначально предназначен для моделирования человеческого подхода к выбору ключевых слов. На большинстве платформа время работы программы с 10-страничным документом не превышает секунды. Пример интерфейса и результатов работы программы Extractor 7.0 с документом на английском языке представлен на рис. 7.7.

На рис. 7.7представлен набор ключевые слов и выражений (Key-phrases) и основные фрагменты текста (Highlights). Ключевые слова в основных фрагментах текста автоматически выделяются жирным шрифтом, а наименее важные слова автоматически отображаются в серых (а не черных) тонах.

Разработанная фирмой «Научно-производственный инновационный центр «Микросистемы» отечественная программа-экстрактор Text-Analyst 1.5 позволяет на первых же этапах работы с текстами ответить на естественные вопросы, возникающие по ходу анализа. Интерфейс и заставка программы представлены на рис. 7.8.

Демонстрационная версия этой программы доступна бесплатно на сайте фирмы. Применение программы резко сокращает время, необходимое эксперту для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Первые успехи эксперта при работе с анализаторами текстов, как правило, служат основой для постановки более сложных задач анализа и структурирования. И с ними TextAnalyst успешно справляется.

В настоящее время распространяется новая версия TextAnalyst 2.01, которая разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:

анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;
анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической стру ктуры текста в виде иерархии тем и подтем;
смыслового поиска с учетом скрытых смысловых связей слов запро са со словами текста;
автоматического реферирования текста - формирования его смы слового портрета в терминах наиболее информативных фраз;
кластеризации информации - анализа распределения материала текстов по тематическим классам;
автоматической индексации текста с преобразованием в гипертекст;
ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;
автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.

Результаты работы программы TextAnalyst 2.01. представлены на рис. 7.9.

В тексте выделены цветом и подчеркнуты термины, которые TextAnalyst 2.01 предлагает использовать в качестве ключевых слов, терминов, отражающих смысловое содержание работы. Пользователь может исключить часть этих слов или добавить другие, что будет учтено программой в дальнейшей работе. По нашему мнению, эта программа может успешно использоваться для автоматизации извлечения метаинформации из загружаемых в хранилище изданий.

<<< < Предыдущая 39 40 41 42 43 44 45 46 47 48 49 5051 / 6551 52 53 54 55 56 57 58 59 60 61 62 63 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.02.2016408.58 Кб7все3.doc
#
07.11.2018523.26 Кб2Вступ до предмету.2 книжка.doc
#
14.08.2019599.9 Кб1Вступ до спец. Лекція 2.docx
#
10.11.20181.6 Mб4вступ, розділ 1.doc
#
17.11.201926.72 Кб1ВСТУП.docx
#
23.02.201610.13 Mб154Вуль В_А_ Электронные издания.doc
#
02.08.2019584.12 Кб2выдп на пит з 1-12.rtf
#
09.07.2019143.36 Кб2Гайдеггер Подолання метаф_зики.doc
#
16.09.2019285.18 Кб9Геодезія.doc
#
30.08.2019158.64 Кб1Геоеокномічні та геополітичні інтереси держав у...docx
#
28.10.2018276.48 Кб6Геологія.doc