
- •Информационные технологии исследования показателей бизнес-процессов.
- •Информационные технологии для извлечения данных для анализа из реляционных баз данных.
- •Применение olap – технологии анализа данных.
- •Информационные технологии интеллектуального анализа данных (Data Mining).
- •Информационные технологии решения задач классификации и кластеризации.
- •Информационные технологии решения задач прогнозирования.
- •Информационные технологии решения задач определения взаимосвязей.
Вопросы к ГАК
Информационные технологии бизнес-аналитики
Информационные технологии исследования показателей бизнес-процессов.
Исследование показателей бизнес-процессов – в настоящий момент это одна из ключевых задач управления. Каждый показатель описывается атрибутами и признаками, представленными в виде таблиц. С каждым показателем связана функция агрегирования (сумма, мин, макс, ср. значение). Часть показателей имеет алгоритм расчета. Признаки – характеризуют качественную сторону. Типы признаков: дата, строки, числа. Паспорт показателя – название, ед. измерения, целевое значение, источник.
Атрибут показателя – это признак, характеризующий определенное свойство исследуемого объекта или процесса. При построении аналитических моделей атрибуты используются в качестве зависимых (входных) или независимых (выходных) переменных. Например, в задаче кредитного скоринга атрибутами клиента банка могут быть следующие: пол, возраст, доход, наличие недвижимости и т.д.
Показатели бизнес-процессов являются фактами, обладающими описательными атрибутами или по-другому измерениями. Для каждого единичного бизнес-процесса количество измерений может исчисляться десятками, так например признаками одной сделки о продаже будут являться: наименование товара, количество, цена, условия договора, данные о продавце, данные о покупателе, дата и т.п. Для анализа такого объема данных, проверки гипотез о зависимости и получения знаний из них необходимо применять информационные системы бизнес-аналитики, с поддержкой технологий OLAP и Data mining.
Информационные технологии для извлечения данных для анализа из реляционных баз данных.
Реляционная база данных (РБД) – это база данных, вся информация которой содержится в таблицах, связанных между собой.
В каждой из этих таблиц хранится информация об объектах определенного типа. В каждой строке таблицы содержатся сведения об одном объекте, а в столбцах таблицы расположены характеристики этих объектов, их атрибуты.
Таблицы извлекаются из реляционной базы данных. Для извлечения таблицы необходимо знать схему данных, которая заключается в следующем принципе: одна таблица описывает объекты одного вида (например товар, продажи), чтобы выделить одну запись вводится понятие первичного ключа, т.е. набор атрибутов, который позволяет найти одну необходимую запись. Везде, где указывается объект, указывается значение первичного ключа. Это значение показывают ссылкой или внешним ключом.
При извлечении используются следующие методы преобразования данных: агрегирование, перекодировка, вычисления, очистка данных, находятся ошибки, возможна замена одних значений другими, группировка.
Таблицы в РБД обладают следующими свойствами:
Каждый столбец содержит информацию одного типа
Каждая строка описывает некоторый экземпляр сущности
Ячейки (поля) таблицы не содержат агрегатов (структур или списков) данных
Таблицы не содержат одинаковых строк
Порядок строк и столбцов не имеет значения
Для извлечения требуемой информации из реляционный БД применяется язык SQL (Structured Query Language – язык структурированных запросов).
Язык допускает три типа синтаксических конструкций, начинающихся с ключевого слова SELECT: спецификация курсора (cursor specification), оператор выборки (select statement) и подзапрос (subquery). В основе каждой из них лежит синтаксическая конструкция "табличное выражение (table expression)". Семантика табличного выражения состоит в том, что на основе последовательного применения разделов from, where, group by и having из заданных в разделе from-таблиц строится некоторая новая результирующая таблица с исходными данными для анализа – значениями показателей и признаков.
Кроме этого для организации процесса извлечения, преобразования и загрузки данных применяются специальные технологии ETL (Extract, Transform, Load) Приложения ETL извлекают информацию из исходных БД источников, преобразуют ее в формат, поддерживаемый БД назначения, а затем загружают в эту БД преобразованные данные.
Цель любого ETL-приложения состоит в том, чтобы своевременно доставить данные из внешних систем в систему, с которой работают пользователи. Как правило, ETL-приложения используются при переносе данных внешних источников в ХД систем бизнес-аналитики. Поэтому организация процесса ETL является составной частью проекта разработки практически любого ХД.