- •Оглавление
- •Краткое описание предприятия
- •Описание отдела, должностные обязанности
- •Описание сути проекта, в рамках которого студент проходил производственную практику
- •Описание выполнения работ по производственной практике
- •Информационно-аналитические системы
- •Применение
- •Типовые задачи, выполняемые иас:
- •Индивидуальные особенности систем:
- •Поиск и неструктурированные данные
- •Проблемы uda
- •Сводная информация о системах
- •Детальное описание систем
- •Задачи, выполняемые иас «Астарта»:
- •Особенности системы:
- •Вместе с иас Астарта могут быть приобретены услуги:
- •Задачи, выполняемые иас «Аналитический курьер»:
- •Архитектура программного комплекса
- •Заявленные возможности системы
- •Задачи, выполняемые иас «Семантический архив»:
- •Заключение по производственной практике.
Проблемы uda
В большинстве своем структурированные данные не имеют антропогенных особенностей, а неструктурированные, напротив, за редким случаем создаются именно людьми со всеми вытекающими отсюда последствиями. В системах UDA приходится иметь дело с «человеческой информацией» и «человеческим фактором», что обусловливает, целую массу отличий.
Разнообразие. Возможно огромное количество различных способов создания и источников информации, которая по очевидным причинам не может быть структурирована и помещена в какую-то даже самую невероятную по современным представлениям СУБД, ее лишь можно записать в файлы с теми или иными форматами.
Неоднозначность. Если высказывания двух людей совпадают дословно, то это не значит, что они идентичны, а если одна и та же идея выражена разными словами, то смысл переданного различается — люди по-разному воспринимают одни и те же фразы в зависимости от своего опыта, взглядов и т. п.
Контекстная зависимость. Одно и то же слово или имя могут в разных условиях интерпретироваться по-разному («Дядя Федор» может быть чьим-то родственником или мальчиком из Простоквашино).
Динамика значения. Слова могут очень быстро менять свой смысл, например, название никому ранее не известного населенного пункта из-за происходивших в нем событий может стать нарицательным.
Этнокультурная зависимость. В разных этносах и культурах, использующих один и тот же язык, слова могут приобретать разный смысл и обозначать совершенное разное.
В таких условиях поиск по ключевым словам (пусть даже самый изощренный), это весьма слабый инструмент.
Сводная информация о системах
ИАС |
Поиск |
Мониторинг |
Рубрикация |
Хранение (БД) |
Анализ (Data Mining) |
Лингв. процессор |
Avalanche 2.5 |
Да |
Да |
Да |
Да |
Нет |
Нет |
Астарта |
Да |
Да |
Да, обучаема |
Нет |
Нет |
Нет |
Аналитический курьер |
Да |
Да |
Да, тоны, теги |
Да |
Нет |
Да |
Айкумена Аналитика |
Да |
Да |
Да |
Да |
Да |
Нет |
InfoNgen |
Да, метаданные |
Да |
Нет |
Да |
Да |
Нет |
Clarabridge |
Да |
Да, ограничен |
Нет |
Нет |
Да |
Нет |
АРИОН |
Да |
Да, ограничен |
Нет |
Нет |
Да |
Да |
Семантический архив |
Да |
Да |
Нет |
Да |
Да |
Да |
Семейство Ontos |
Да |
Да |
Да |
Да |
Нет |
Нет |
Среди отобранных систем, большинство обладают сопоставимыми возможностями поиска, основанными на технологии «web crawler» (поискового робота). Главным существенным отличием между ними являются методы построения базовых поисковых алгоритмов и возможности их настройки, таких как: глубина индексации, критерии выделения значимой информации, порядок обхода страниц и др. (см. Детальное описание систем).
Система InfoNgen использует поиск по метаданным, что может положительно влиять на качество подборки, фильтруя информацию от «фона».
Полнота материала
Эффективными в дальнейшем отборе материала и увеличении полноты выборки, могут быть системы, оснащённые лингвистическим процессором. Их применение облегчает выделение тематических групп в найденном материале. Такие системы могут представлять базовый материал в виде реферата или дайджеста (текстового массива).
Data Mining
Более половины систем этого класса, способны к сопоставлению фактов, и определению неявных или нетривиальных связей в источниках любого типа (Data Mining, глубинный анализ данных), но этот метод главным образом эффективен в работе с крупными банками структурированных данных.
Итог
Эффективность ИАС неодинакова для разных целей поиска, и готовые системы, представленные в данный момент на рынке, могут не удовлетворять некоторым узким требованиям. Наиболее рациональным будет являться решение, разработанное совместно с подрядчиком, под конкретные нужды предприятия. Все компании-разработчики представленных выше систем обладают определенной гибкостью в разработке и интеграции.
Также, среди экспертов в области поиска, считается недостижимой 100%-ая релевантность поиска в неструктурированных источниках.