Скачиваний:
177
Добавлен:
02.05.2014
Размер:
478.21 Кб
Скачать

Системы поддержки принятия решений

Этот класс систем содержит в себе новые программные решения, приближающие его к ИИС. В них значительно более гибкие аналитические про­цедуры за счет предварительного вычисления производных показателей (аг­регатов), более дружественный интерфейс, использующий элементы естест­венного языка; применяются специальные структуры хранения, реализую­щие сложные пространственно-временные и концептуальные зависимости между данными. Фактически метаданные, хранящиеся в репозитарии, — частный вид базы знаний.

СППР могут быть предназначены для выбора вариантов стратегического плана развития банка, либо выбора заявок на финансирование инвестиционных проектов на основе многокритериального анализа и экспертных оценок. В результате работы СППР вычисляются оценки степени соответствия каж­дого из возможных вариантов решений предъявляемым требованиям и пред­почтениям, а все возможные варианты ранжируются по итоговой степени предпочтительности. Так, банковскими аналитиками используются СППР в областях стратегического планирования и формирования портфелей привле­чения и размещения кредитно-инвестиционных ресурсов, в инвестиционном анализе и расчете лимитов и рисков кредитования. Неотъемлемым компо­нентом СППР этого уровня являются правила принятия решений, получае­мые на основе применения специальных аналитических технологий и архи­тектур организации и хранения данных. Современные архитектуры средств хранения данных получили название хранилище данных (ХД) (Data Ware­house).

Хранилище данных (хд)

Термин «создание Хранилищ Данных» (data warehousing) описывает про­цесс сбора, очистки и просеивания данных из различных рабочих систем, а также предоставление широкой аудитории бизнес-пользователей непосредственного доступа к полученной информации. Хранилище Данных (ХД) вы­полняет функции предварительной подготовки и хранения данных для лиц, принимающих решения (ЛПР) на основе информации из базы данных пред­приятия, а также информации из сторонних источников, которые в доста­точном количестве стали доступны на рынке информации. Концепция ХД предполагает не просто единый логический взгляд на данные организации, а действительную реализацию единого многоаспектного информационного ресурса. В ХД поддерживается хронология: наравне с текущими хранятся исторические данные с указанием времени, к которому они относятся. В ре­зультате необходимые доступные данные об объекте управления собираются в одном месте, приводятся к единому формату, согласовываются, агрегиру­ются до минимально требуемого уровня обобщения.

ХД использует схемы данных, получившие названия «звезда», «созвездие» и «снежинка». Суть технологии этих схем в выделении из общего объема информации собственно анализируемых данных (или фактов) и вспомогатель­ных данных (называемых измерениями). Однако это приводит к дублирова­нию данных в Хранилище, снижению гибкости структуры и увеличению вре­мени загрузки. В процессе подготовки того или иного решения пользователь анализирует срез фактов по одному или нескольким измерениям.

Идея схемы звезды (star schema) в том, что имеются таблицы для каждого измерения, а все факты помещаются в одну таблицу, индексируемую множественным ключом, составленным из ключей отдельных измерений. Каждый луч схемы звезды задает (в терминологии Кодда) направление консолидации данных по соответствующему измерению (например, Магазин - Город/рай­он - Регион). Рекомендуется создавать таблицы фактов не для всех возмож­ных сочетаний измерений, а только для наиболее полных (тех, значения яче­ек которых не могут быть получены с помощью последующей агрегации ячеек других таблиц фактов базы данных).

В сложных задачах с многоуровневыми измерениями используется схема созвездия (fact constellation schema) и схема снежинки (snowflake schema) В этих случаях отдельные таблицы фактов создаются для возможных сочетаний уровней обобщения различных измерений. Это позволяет добиться наилучшей производительности, но часто приводит к избыточно­сти данных.

Поскольку в Хранилище Данных (наряду с детальными) должны храниться и агрегированные данные, в случае «снежинки» или «звезды» появляются таблицы агрегированных фактов (агрегатов). Подобно обычным фактам, агрегаты могут иметь измерения и должны быть связаны с детальными фактами для обеспечения возможной детализации. В очень больших организациях ХД реализуется в концепции иерархического ХД Метаданные о структуре данных Хранилища; структурах данных, импортируемых из различных источников; о самих источниках, методах загрузки и агрегирования данных, сведения о средствах доступа, а также бизнес-правилах оценки и структуре бизнес-понятий хранятся в репозитарии. Так, клиенты могут подразделяться на кре­дитоспособных и некредитоспособных, на имеющих или не имеющих льготы; они могут быть сгруппированы по возрастному признаку, по местам прожива­ния и т. п. Как следствие, появляются новые бизнес-понятия: постоянный кли­ент, перспективный клиент и т. п. Некоторые бизнес-понятия (соответст­вующие измерениям в ХД) образуют иерархии. Например, товар может включать продукты питания и лекарственные препараты, которые подразде­ляются на группы продуктов и лекарств, т.е. по сути дела в системе реализует­ся тезаурус, который входит в состав комплекса метаданных.

При описании технологии заполнения ХД будем различать три взаимо­связанные задачи: Сбор Данных (Data Acquisition), Очистка Данных (Data Cleaning) и Агрегирование Данных (Data Consolidation). Сбор Данных — это процесс, состоящий в организации передачи данных из внешних источников в Хранилище. Как правило, здесь имеется несколько возможностей. Во-первых, поддерживаются интерфейсы всех крупных производителей серве­ров баз данных (Oracle, Informix, ADABAS и т.д.); во-вторых, практически всегда имеется ODBC-интерфейс; в-третьих, можно извлекать данные из текстовых файлов в формате CSV (comma separated values).

Второй аспект процесса сбора данных (автоматизирован в некоторых продуктах) — это организация процесса пополнения Хранилища. Обычно имеется возможность строить расписание пополнения Хранилища данными либо на временной основе, либо с использованием механизма событий. При заполне­нии Хранилища агрегированными данными следует обеспечить выборку дан­ных из транзакционной базы данных и других источников в соответствии с метаданными, поскольку агрегирование происходит в терминах бизнес-понятий. Так, агрегированная величина «объем продаж продукта X в регионе Y за последний квартал» содержит понятия «продукт» и «регион» — бизнес-понятия данного предприятия. Задача выборки необходимых данных не может быть решена полностью автоматически: возможны коллизии (отсутствие не­обходимых данных, ошибки в данных и т. п.), когда вмешательство человека окажется необходимым. Далее, предполагая, что объектом анализа являются числовые показатели, связанные с бизнес-понятиями, такие как объем продаж: или прибыль, необходимо определить правила вычисления этих показателей для составных бизнес-понятий, исходя из их значений для более простых биз­нес-понятий. Это и есть правила агрегирования.

Очистка данных — это процесс модификации данных по ходу заполне­ния Хранилища: исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов (например, управляющих) и унификация типов данных, проверка на целостность. Практически все продукты располагают тем или иным набором средств очистки данных и соответствующими средствами диагностики.

Тут вы можете оставить комментарий к выбранному абзацу или сообщить об ошибке.

Оставленные комментарии видны всем.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике