Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИИС

.pdf
Скачиваний:
201
Добавлен:
12.03.2016
Размер:
5.88 Mб
Скачать

Однако концепция ВХД имеет ряд недостатков по сравнению с ХД, где информация консолидируется физически.

Источники данных, информация из которых запрашивается в ВХД, могут оказаться недоступными, если доступ к ним осуществляется по сети или если изменилось место их локализации. Временная недоступность хотя бы одного из источников может привести к невозможности выполнения запроса или к искажению представленной по нему информации.

Отсутствует автоматическая поддержка целостности и непротиворечивости данных, могут быть утеряны отдельные фрагменты документов и т. д.

Данные в источниках хранятся в различных форматах и кодировках, что может привести к ошибкам при их обработке и к искажению информации, полученной в ответ на запрос. Например, если в текстовых файлах с разделителями используются неоднотипные разделители или в файле Excel данные в одном столбце не являются типизированными, это, скорее всего, приведет к неправильной работе аналитических алгоритмов.

Из-за возможной несогласованности моментов пополнения источников данных и из-за отсутствия поддержки в них хронологии по одному и тому же запросу в различные моменты времени могут быть получены отличающиеся данные.

Практически невозможна работа с историческими данными, поскольку в ВХД доступны только те данные, которые находятся в источниках в конкретный момент времени.

160

Поскольку некоторые типы источников данных не оптимизированы по скорости доступа к ним, извлечение данных из них занимает определенное время, что снижает скорость выполнения запросов виртуальными хранилищами.

Пример. Устоявшейся практикой при использовании ХД является ночная загрузка собранных за день данных из OLTPсистем. Такой регламент позволяет уменьшить нагрузку на OLTP-систему в период ее активного использования. Однако подобная практика не обеспечивает возможности анализировать информацию в течение рабочего дня. Использование ВХД снимает эту проблему, поскольку такое хранилище не требует загрузки данных, а может предоставить актуальную информацию по первому требованию.

Таким образом, применение ВХД оказывается полезным для предприятий, которые не имеют технических средств и квалифицированного персонала для поддержки физических ХД. Особенно велики преимущества ВХД при необходимости анализировать самую свежую информацию. В ВХД отсутствует этап загрузки данных, поэтому временной интервал между появлением информации в OLTPсистеме и ее готовностью к анализу данных минимален. При этом следует учитывать, что, поскольку ВХД поддерживает историческую информацию только за период актуальности OLTP-систем, применение такого хранилища оправданно лишь тогда, когда исторические данные для анализа не требуются.

161

4.3. Средства реализации интеллектуального анализа данных

Программное обеспечение в области интеллектуального анализа данных.

Даже самые мощные технологии извлечения закономерностей и машинного обучения, такие как KDD и Data Mining, не представляют особой ценности без инструментальной поддержки в виде соответствующего

программного обеспечения. Рынок программных средств продолжает формироваться по сей день, однако в этой области уже можно выделить некоторые стандарты де-факто.

Рынок программного обеспечения KDD и Data Mining делится на несколько сегментов (рис.4.12).

Рис.4.12 Классификация ПО в области Data Mining и KDD.

Статистические пакеты с возможностями Data Mining и настольные Data Mining пакеты ориентированы в основном на профессиональных пользователей. Их отличительные особенности:

162

слабая интеграция с промышленными источниками данных;

бедные средства очистки, предобработки и трансформации данных;

отсутствие гибких возможностей консолидации информации, например, в специализированном хранилище данных;

конвейерная (поточная) обработка новых данных затруднительна или реализуется встроенными языками программирования и требует высокой квалификации; из-за использования пакетов на локальных рабочих станциях обработка больших объемов данных затруднена.

Настольные Data Mining пакеты могут быть ориентированы на решение всех классов задач Data Mining или какого-либо одного, например кластеризации или классификации. Вместе с тем эти пакеты предоставляют богатые возможности в плане алгоритмов, что достаточно для решения исследовательских задач.

Недостатком пакетов является невозможность создания прикладных решений промышленного уровня.

СУБД с элементами Data Mining. Практически все крупные производители систем управления базами данных (СУБД) включают в состав своих продуктов средства для анализа данных, OLAP, а также поддержку хранилищ данных. Эти инструменты как бы «встраиваются» в СУБД. Отличительные особенности СУБД с элементами Data Mining:

высокая производительность;

163

алгоритмы анализа данных по максимуму используют преимущества СУБД;

жесткая привязка всех технологий анализа к одной СУБД; сложность в создании прикладных решений, поскольку

работа с СУБД ориентирована на программистов и администраторов баз данных.

Аналитические платформы. В отличие от СУБД с набором алгоритмов Data Mining, аналитические платформы изначально ориентированы на анализ данных и предназначены для создания готовых решений промышленного уровня. Они позволяют наиболее полно реализовать все этапы KDD.

Аналитическая платформа — специализированное программное решение (или набор решений), которое содержит в себе все инструменты для извлечения закономерностей из «сырых» данных: средства консолидации информации в едином источнике (хранилище данных), извлечения, преобразования, трансформации данных, алгоритмы Data Mining, средства визуализации и распространения результатов среди пользователей, а также возможности «конвейерной» обработки новых данных.

Отличительные особенности аналитических платформ:

в аналитической платформе, как правило, всегда присутствуют гибкие и развитые средства консолидации (создание ХД);

наличие средств импорта данных из широкого спектра различных источников; наличие средств интеграции с промышленными источниками данных;

164

обязательное наличие инструментов очистки и преобразования структурированных данных;

хранение данных в едином источнике — в хранилище данных;

наличие репозитария моделей, описывающих выявленные закономерности, правила и прогнозы;

широкий спектр алгоритмов Data Mining;

развитый инструментарий визуализации данных и результатов анализа (моделирования).

На рис. 2 изображена типовая схема системы ИАД на базе аналитической платформы. Вообще говоря, приведенную на рис.4.13 систему можно построить с использованием нескольких программных решений, например, разделить функции извлечения/загрузки, OLAP-отчетности, хранилища данных, Data Mining между различным программным обеспечением. Но чтобы эти отдельные компоненты превратились в полноценную аналитическую систему, необходимо произвести интеграцию между ними на уровне обмена данными, а еще лучше — метаданными.

165

Рис.4.13 Типовая схема системы ИАД на базе аналитической платформы.

Аналитическая платформа Deductor.

Аналитическая платформа Deductor является одним из программных продуктов, реализующих методы ИАД. Аналитическая платформа Deductor разработана отечественной фирмой BaseGroup Labs г. Рязань

(www.basegpoup.ru).

Первая версия Deductor увидела свет в 2000 г. и с тех пор идет непрерывное развитие платформы. В 2007 г. выпущена пятая по счету версия системы, в 2009 г. – версия

5.2.

166

Сегодня Deductor – это яркий представитель как настольной, так и корпоративной системы анализа данных последнего поколения.

Аналитическая платформа Deductor состоит из пяти частей:

Deductor Warehouse – многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически обеспечивает всю необходимую поддержку процесса анализа данных. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным. Предназначен для аналитика.

Deductor Studio – программа, реализующая функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование. В Deductor Studio включен полный набор механизмов, позволяющий получить информацию из произвольного источника данных, провести весь цикл обработки (очистку, трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, диаграммы, деревья…) и экспортировать результаты на сторону. Это полностью соответствует концепции извлечения знаний из баз данных

(KDD).

Позволяет пройти все этапы построения прикладного решения. Предназначен для аналитика.

167

Deductor Viewer – рабочее место конечного пользователя. Позволяет отделить процесс построения моделей от использования уже готовых моделей. Все сложные операции по подготовке моделей выполняются аналитиками-экспертами при помощи Deductor Studio, а Deductor Viewer обеспечивает пользователям простой способ работы с готовыми результатами, скрывает от них все сложности построения моделей и не предъявляет высоких требований к квалификации сотрудников. Является средством тиражирования знаний, т.е. когда построенные аналитиком модели используют пользователи, не владеющие технологиями анализа данных.

Deductor Server – служба, обеспечивающая удаленную аналитическую обработку данных через компьютерную сеть.

Deductor Client – клиент доступа к Deductor Server.

Обеспечивает доступ к серверу из сторонних приложений и управление его работой.

Существует три типа варианта поставки платформы

Deductor:

Enterprise;

Professional;

Academic.

В зависимости от типа поставки набор доступных компонентов может различаться. Версия Enterprise предназначена для корпоративного использования. В ней присутствуют: серверные компоненты Deductor Server и Deductor Client, интерфейс доступа к Deductor через механизм OLE Automation, традиционное хранилище данных

Deductor Warehouse на трех СУБД: Firebird, MS SQL, Oracle

168

и виртуальное хранилище данных Deductor Virtual Warehouse.

Версия Professional предназначена для небольших компаний и однопользовательской работы. В ней отсутствуют серверные компоненты, поддержка OLE, виртуальное хранилище, а традиционное хранилище данных можно создавать только на СУБД FireBird. Автоматизация выполнения сценариев обработки данных осуществляется только через пакетный режим.

Версии Professional и Enterprise требуют установки драйверов Guardant для работы с лицензионным ключом.

Версия Academic предназначена для образовательных и обучающих целей. Ее функционал аналогичен версии Professional за исключением: отсутствует пакетный запуск сценариев, т.е. работа в программе может вестись только в

интерактивном режиме; отсутствует импорт из промышленных источников данных: 1С, СУБД, файлы MS Excel, Deductor Data File; некоторые другие возможности.

Архитектура системы построена таким образом, что вся работа по анализу данных в Deductor Studio базируется на выполнении следующих действий:

импорт данных;

обработка данных;

визуализация; экспорт данных.

169