Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
KIS-2012.doc
Скачиваний:
15
Добавлен:
01.03.2025
Размер:
171.52 Кб
Скачать

7. Новые концепции хранения и анализа корпоративных данных

Информационно-аналитические системы поддержки принятия решения (СППР) являются одним из видов информационных систем и развиваются уже полвека.

Для сложных систем характерно то, что управлять ими приходится, как правило, в условиях не полной информации, незнания закономерностей функционирования и постоянного изменения внешних факторов. Современные информационные технологии при поиске ответов на поставленные вопросы позволяют аналитику формулировать и решать следующие классы задач.

Аналитические задачи — вычисление заданных показателей и статистических характеристик бизнес деятельности на основе информации из баз данных.

Визуализация данных — наглядное графическое и табличное представление имеющейся информации.

Извлечение знаний — определение взаимосвязей и взаимозависимостей бизнес процессов на основе существующей информации. К данному классу можно отнести задачи проверки статистических гипотез, кластеризации, нахождения ассоциаций и др.

Имитационные задачи — проведение компьютерных экспериментов с математическими моделями, описывающими поведение сложных систем. Задачи этого класса применяются для анализа возможных последствий принятия того или иного управленческого решения (анализ “Что, если?...”).

Синтез управления — задачи этого типа применяются для оценки достижимости намеченных целей, определения множества возможных управляющих воздействий, приводящих к заданной цели.

Оптимизационные задачи позволяют выбрать на множестве возможных управлений те из них, которые обеспечивают наиболее эффективное (с точки зрения определенного критерия) продвижение к поставленной цели.

В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления накапливают большие объемы данных. И решение всех перечисленных задач опирается на использование этих данных.

Современный уровень развития аппаратных и программных средств позволяет ведение баз данных оперативной информации на разных уровнях управления. Эти данные хранят в себе большие возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.

Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин "Business Intelligence" (BI) — бизнес интеллект. Business Intelligence — программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений.

Понятие BI объединяет в себе различные средства и технологии анализа и обработки данных масштаба предприятия, цель которых — повысить качество информации для принятия управленческих решений. BI-системы также известны под названием Систем Поддержки Принятия Решений (СППР, DSS, Decision Support System). Эти системы превращают данные в информацию, на основе которой можно принимать решения, т.е. поддерживающую принятие решений.

Состав рынка систем Business Intelligence определяется как набор программных продуктов следующих классов:

  • средства построения хранилищ данных (Data Warehouse);

  • системы оперативной аналитической обработки (OLAP);

  • информационно-аналитические системы (Enterprise Information Systems, EIS);

  • средства интеллектуального анализа данных (Data Mining);

  • инструменты для выполнения запросов и построения отчетов (query and reporting tools).

Оперативная аналитическая обработка и интеллектуальный анализ данных — две составные части процесса поддержки принятия решений. Технологии OLAP тесно связаны с технологиями построения Data Warehouse и методами интеллектуальной обработки — Data Mining. Поэтому наилучшим вариантом является их комплексное использование.

Информационно-аналитические системы (ИАС) по функциональным возможностям можно разделить на статические и динамические.

1. Статические системы.

Информационно-аналитические системы, рассчитанные на непосредственное использование лицами, принимающими решения, обычно просты в применении, но жестко ограничены в функциональности. Такие системы называются Информационными системами руководителя (ИСР), или Executive Information Systems (EIS).

Они включают в себя фиксированные предопределенные множества запросов, и поэтому называются статическими. Такие системы достаточны для повседневного обзора, но не могут отвечать на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений.

Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, простота статических СППР оборачивается потерей гибкости.

2. В отличие от этого динамические ИАС ориентированы на обработку нерегламентированных запросов к данным. Работа аналитиков с этими системами состоит в последовательном интерактивном формировании запросов, и изучении их результатов. Наиболее глубоко требования к таким системам рассмотрел ЭКодд, чем положил начало концепции OLAP.

Однако динамические ИАС могут действовать не только в области оперативной аналитической обработки. Поддержка принятия управленческих решений на основе накопленных данных может обеспечиваться тремя типами методов обработки данных.

а) Работа с накопленными детальными данными.

Для решения задач, относящихся к работе с конкретными данными, хранящимися в БД, подходят реляционные СУБД. Общепризнанным стандартом языка манипулирования реляционными данными является SQL. Информационно-поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек как над отдельными базами данных транзакционных систем, так и над общим хранилищем данных. 

б) Работа с агрегированными показателями.

Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP).

в) Поиск закономерностей в данных.

Поиск закономерностей в "сырых" данных производится методами интеллектуального анализа данных (ИАД, Data Mining). Главными задачами этих систем являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

8. Data Mining

Термин Data Mining (интеллектуальный анализ данных, ИАД) получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.

Это междисциплинарная область, возникшая и развивающаяся на основе таких наук как прикладная статистика, искусственный интеллект, распознавание образов, теория баз данных и др.

Суть и цель технологии Data Mining можно охарактеризовать так — это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Неочевидных — это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Объективных — это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезных — это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.

С этой точки зрения Data Mining — процесс выявления из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.

С точки зрения информационно-аналитических систем Data Mining — это процесс поддержки принятия решений, основанный на поиске в данных скрытых в них закономерностей. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

Знания — совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д.

В общем случае процесс ИАД состоит из трёх стадий:

1) выявление закономерностей ("свободный поиск");

2) использование выявленных закономерностей для предсказания неизвестных значений ("прогностическое моделирование");

3) анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).

Все методы ИАД подразделяются на две большие группы по принципу работы с исходными ("обучающими") данными.

а) Исходные данные могут храниться в явном детализированном виде (первичные данные) и непосредственно использоваться для прогностического моделирования и/или анализа исключений. Это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является трудность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу. 

б) Информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно приведенной выше классификации, это выполняется на стадии "свободного поиска", которая у методов первой группы отсутствует в принципе.

Дялее для прогностического моделирования и анализа исключений используются результаты этих преобразований, которые гораздо более компактны, чем массивы исходных данных. При этом используемые конструкции могут быть либо "прозрачными" (интерпретируемыми), либо "черными ящиками" (нетрактуемыми).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]