Doklad-svyaz
.pdf
10.3 С.Г. Кордонский «Информационная система Gitika-IE»
Краткое описание
Gitika-IE58 - программный комплекс, реализующий функции системы мониторинга, электронной библиотеки и концептуальной поисковой системы на основе использования технологий OBIE (Ontology-Based Information Extraction).
Система, обладает следующим функционалом:
•Осуществляет непрерывный сбор рассеянной и структурированной информации по профилю (онтологии), заданному заказчиком.
•Допускает расширение и изменение базовой онтологии (профиля), ее замену, допускает одновременное использование множества онтологий.
•Позволяет проводить автоматическую категоризацию и структурирование информационного пространства. Каждая статья (любой файл, содержащий текст) относится системой к определенным категориям в рамках используемых онтологий.
•Однажды добавленная в систему онтология позволяет системе самой классифицировать тексты в зависимости от присутствия в них тех или иных объектов по всему массиву.
•Позволяет осуществлять концептуальный поиск и поиск подобных материалов. Позволяет вести собственные архивы организаций, материалы которых могут сопоставляться с результатами мониторинга внешних источников. Например, получив определенную статью можно найти не только ей подобную по тематике, но и запросить аналитические отчеты организации (справки, приказы и пр. документы), затрагивающие упомянутую тему.
•Обеспечивает мониторинг информации согласно созданным онтологиям, результат структурируется таким образом, что отдельные члены корпорации
могут |
различать |
статьи |
актуальные |
именно |
для |
них. |
58 |
или Gitika-OBIE – от Ontology-Based Information Extraction (OBIE). Название рабочее. |
|
141
Решаемые проблемы
Рост объема информационных массивов, при отсутствии существенного прогресса в развитии поисковых систем, привел к своеобразному "возврату в прошлое". Но если раньше трудности с получением нужной информации были связаны с ее недоступностью, то теперь - с необходимостью переработки слишком больших объемов данных.
Технологии мониторинга господствующие последние 30 лет на Западе и последние 15 лет в России и ранее позволявшие отбирать из информационного потока компактные подборки "нужных" материалов, теперь порождают необозримые, малопригодные для анализа объемы данных.
Популярные поисковые системы блестяще решают важную, но единственную, и может быть не самую важную задачу – поиск текста по частично известному содержанию. Так, например, если нужно найти стихотворение содержащее фразу: "я помню чудное мгновение", Google выдаст более ста тысяч ссылок, первые три из которых, с большой вероятностью дадут искомый результат. Но, если нужно подобрать материалы по теме, вся "автоматизация" закончится выдачей ссылок для вдумчивого многомесячного чтения.
Признанным решением проблемы мониторинга является создание системы иерархической рубрикации произвольных текстов, позволяющей представить поток данных как множество специализированных разделов. Это позволяет разделить работу, дав каждому пользователю самому определять степень посильного охвата выбранной темы.
Проблема поиска тоже нашла свое теоретическое решение. Речь идет о переходе от поиска страниц сайтов к созданию семантических описаний материалов и онтологий, которые позволят превратить мировые хранилища статей во всемирную базу знаний.
Перечисленные проблемы общеизвестны, теоретические методы их решения, по крайней мере, последние десять лет, общепризнанны, но коммерческие инструменты, для решения этих задач пока не созданы. Причины:
•отсутствие методов картирования семантического пространства.
•непроработанность методов работы с противоречивыми, не полными онтологиями.
И, как следствие, отсутствие обширной онтологической базы, позволяющей определять и показывать тематические позиции произвольного текста в терминах известных онтологий.
142
Предлагаемые к продаже современные аналитические инструменты ориентированы на узкие области знаний и эффективны только для тематически ограниченных наборов текстов, написанных в рамках заданной онтологии.
Проект Gitika
Полученный в результате работ по проекту Gitika программный продукт для анализа данных теперь позволяет клиенту получать вместо безнадежно толстых подборок "одинаково-полезных" статей информационную систему, в которой эти статьи разложены по тематикам, соответствующим потребностям клиента. Более того, появилась возможность определять релевантность статей в зависимости от позиции читателя.
Так например, один из департаментов Минрегионразвития может интересоваться ЖКХ какого-нибудь региона, с точки зрения затрат на водоснабжение, а другой департамент изучать водоснабжение того же региона, как источник протестных настроений населения. Оба департамента могут получить похожий набор статей, но с разной оценкой релевантности.
Таким образом, речь идет не о снижении информационного потока за счет выбора "самых правильных источников", а о его дроблении и структуризации, позволяющей каждому из потребителей знакомиться только с информацией, касающейся его деятельности, и при необходимости с другими разделами. При этом пользователь не ограничен однажды кем-то придуманной рубрикацией и может создавать свои разделы.
Программный комплекс Gitika-IE состоит из следующих подсистем:
ISM (Internet Source Monitoring) - подсистема сбора данных из интернета и приведения полученных документов к единому формату.
ELSE (Electronic Library Search Engine) - поисковая система
"традиционного" типа, которая включает в себя систему хранения документов, словарную индексацию и поисковый web-интерфейс.
Gitika - система категоризации документов. Gitika использует систему хранения документов ELSE. Она также имеет собственный поисковый web-интерфейс, тематический индексатор категоризатор, и редактор онтологической базы категоризатора.
В минимальной конфигурации система может базироваться на одной машине - одноюнитовый 4-х процессорный сервер с 4Гб ОЗУ и 1Тб дисковым массивом. В такой конфигурации, все элементы полностью работоспособны, но имеют ограниченную пропускную способность.
143
Например, ISM - позволяет раз в час сканировать не более 3000 сайтов. А Gitika - категоризировать не более 300 000 документов в сутки. При этом поисковые интерфейсы позволяют нормально работать нескольким десяткам пользователей.
Для повышения производительности, система сбора данных, категоризатор и поисковые интерфейсы могут выносятся на отдельные сервера. В этом случае, ISM позволяет опрашивать до 6000 сайтов в час на один сервер. Гитика категоризирует до 1 миллиона документов в сутки на один сервер. Поисковые web-интерфейсы могут обслуживать одновременно 3-4 сотни пользователей на сервер.
Цель работ, затраты
На основе разработок проекта Gitika, предполагается создание линейки коммерческих продуктов Gitika-IE. Работа предполагает:
•Доработку дизайна системы, ориентированной на коммерческие продажи.
•Расширение функционала системы, в частности, по результатам внедрения.
•Выпуск материалов для внедрения продукта на рынок.
•Затраты на рекламу.
Рыночная ниша
• Сервисы Gitika-IE предназначены для:
• замены на рынке традиционных средств мониторинга информационного пространства.
•обеспечения сервиса ведения текстовых баз заказчика, с возможностью задания онтологий заказчика.
144
