- •1.Система поддержки принятия решений (сппр), ее основные задачи. Классификация сппр. Схема типичной сппр.
- •2.Сравнительный анализ аналитической и oltp систем.
- •3.Хранилище данных. История возникновения понятия, определение, основные свойства.
- •4.Основные подходы к реализации хранилищ данных.
- •Реализация хранилищ и витрин данных
- •Понятие и суть etl-процесса, основные преобразования данных.
- •Определение качества данных. Методика оценки качества, основанная на 4-х основных показателях.
- •8.Определение качества данных.Уровневая методика оценки качества.
- •11.Повышение качества данных: предварительная замена, классификация, структуризация.
- •12.Повышение качества данных: верификация, нормализация.
- •14.Понятия запроса и объекта запроса. Основные этапы поиска информации. Классификация задачи поиска.
- •15.Особенности решение задачи поиска в структурированных источниках на всех этапах.
- •Методы поиска Адресный поиск
- •Семантический поиск
- •Документальный поиск
- •Фактографический поиск
- •16.Оценка эффективности поисковых инструментов.
- •17. Суть многомерного анализа данных, основные понятия. Возможные операции над гиперкубом. Понятие olap.
- •18. 12 Правил Кодда.
- •19. 6 Дополнительных правил Кодда. Группы правил.
- •20.Определение olap через 5 ключевых понятий теста fasmi.
- •21.Основные подходы к реализации olap, их преимущества и недостатки.
- •23.Единая система нси. Требования идентифицируемости и уникальности, принципы построения.
- •Принципы построения единой системы нси.
- •24. Система нси: 1-3 типовые ошибки.
- •25.Система нси: 4-6 типовые ошибки.
- •26. Система нси: 7-10 типовые ошибки.
- •27.Понятие Data Mining. Дисциплины, использованные при создании Data Mining. Основные действия выполняемые Data Mining. Основные ограничения использования.
- •28.Основные задачи Data Mining. Классификация и кластеризация: суть, сравнительный анализ.
- •29.Основные задачи Data Mining. Поиск ассоциативных правил, прогнозирование, анализ отклонений.
- •30.Определение метода и алгоритма. Классификация стадий Data Mining. Свободный поиск.
- •31.Определение метода и алгоритма. Классификация стадий Data Mining. Прогностическое моделирование.
- •32.Определение метода и алгоритма. Классификация стадий Data Mining. Анализ исключений.
- •33.Основные этапы процесса подготовки к Data Mining. Анализ предметной области, постановка задачи, подготовка данных.
- •34.Понятие Text Mining. Основные этапы.
- •35.Понятие Text Mining. Основные задачи.
- •36. Предварительная обработка данных, основные приемы.
- •38.Oracle Data Mining (odm). Возможности, архитектура, характеристики. Используемые алгоритмы.
- •39.Функциональные возможности odm. Алгоритм Naïve Bayes.
- •40.Функциональные возможности odm. Алгоритм Support Vector Machine.
- •41.Функциональные возможности odm. Алгоритм k-means. Проверка качества кластеризации.
- •Алгоритм k-means.
- •42.Функциональные возможности odm. Алгоритмы Apriori.
- •43.Workflow.(поток работы) Суть, базовые понятия и их взаимосвязь.
- •44.Workflow. Структура системы, основные компоненты и их взаимосвязь.
- •45.Workflow. Условия представления бизнес-процесса как процесса Workflow. Порядок представления бизнес процесса в графическом виде (idef0).
- •49.Категории операций бизнес-процесса. Типовые параметры описания бизнес-процесса. Условия перехода между операциями.
- •46.Типовые цели внедрения проекта Workflow. Цикл управления эксплуатацией и развитием системы.
- •47.Понятие агентов. Типы агентов. Способности обучающихся агентов.
- •48.Понятие субагентов, типы субагентов. Свойства автономного агента
- •49.Мультиагентная система (мас). Определение, основные характеристики, классификация мас.
- •50.Методы организации работы в мас. Условия размещения агента на сервере. Операции над агентами. Примеры использования мас.
Реализация хранилищ и витрин данных
Варианты реализации хранилищ данных
Виртуальное хранилище данных
Витрины данных
Глобальное хранилище данных
Многоуровневая архитектура хранилища данных
5.Основные категории данных в хранилище.
Хранилище данных (англ. Data Warehouse) — очень большая предметно-ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес-процессов с целью поддержки принятия решений в организации. Строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений. Данные, поступающие в хранилище данных, становятся доступны только для чтения. Данные из промышленной OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы промышленной системы и не нарушал её стабильность. Данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных несколько отстает от OLTP-системы.
Смотри архитектуру данных на рисунке.
Понятие и суть etl-процесса, основные преобразования данных.
ETL (от англ. Extract, Transform, Load — извлечение, преобразование, загрузка) — один из базовых процессов управления хранилищами данных, а также наименование класса утилит автоматизации этого процесса. ETL в узком смысле относится к технологиям консолидации данных, однако, современные решения, представленные на рынке, поддерживают помимо консолидации и реализацию федерализации данных, а также обмена данными. ETL включает в себя:
извлечение данных из внешних источников;
их преобразование в соответствии с требованиями бизнес-модели;
загрузку преобразованных данных в целевую систему (например, хранилище данных).
Преобразование.1.преобразование структуры данных(Oracle Warehouse Builder).2Формат полей.
Operation
id |
number |
pk |
data |
Date(dd.mm.yyyy |
|
sum |
number |
|
id |
date |
sum |
1 |
03.05.09 |
56734 |
2 |
07июля |
5678 |
3 |
10.17.2009 |
8754.00 |
4 |
08/11/09 |
578р.54 к |
3.Очистка.- характеристика хранимой в ОС информации, которая показывает, насколько структура наполнения и содержания данных обеспечивают их максимально эффективное использование.
Определение качества данных. Методика оценки качества, основанная на 4-х основных показателях.
Качество данных (или качество информации) можно определять по-разному. В данном случае мы будем определять это понятие как информацию, полностью соответствующую требованиям потребителя. Более детально это понятие можно определить как процесс компоновки информации (включающей имена, адреса реальной и электронной почты, телефонные номера, коды комплектующих, SSN и SKU, в логически согласованном порядке), очистки и усовершенствования данных, а также объединения соответствующих записей с целью устранения дублирования элементов.
Оценка.1-ый подход. Полнота Р- наличие в данных значимой информации.
таблица |
поля |
Кол-во записей |
Кол-во значимости поля |
n=кол-во таблиц, вовлеченных в оценку полноты, mi=кол-во полей в каждой таблице,Ni=кол-во записей в таблице, Kij=кол-во записей, содержащих значимую информацию для конкретного поля,
Cij=коэффициент значимости.
2.Достоверность Д.
n=кол-во показателей(критериев),Ki=кол-во записей, попавших под конкретный критерий, Ci=коэффициент значимости конкретного критерия.
3.Соответствие эталонному формату(S). Для каждого поля можно установить определенный формат, и определить, насколько поля соответствуют формату.
Si=каждая запись, Ki=кол-во записей,Ci=значение эталона, коэффициент значимости,S=итоговый показатель эталона.
4.Уникальность У.1 объект реального мира должен соответствовать 1 записи. N- кол-во записей в массиве,R- кол-во объектов реального мира, информация о которых хранится,M- дубли, т.е то от чего нужно избавиться, N=R+M…, Rk- корректный, Rm- дубли, Mk- действительно дубли, Mm-погрешность(дубли), но они на самом деле эталон, или привязан не к тому эталону.
Уникальность должна зависеть от Rm и Mm, но как правило, она зависит и от Rk и Mk,
У=(Mk-Mm)/(Mk+Rm)
Качество данных Q=(k1P+k2Д+k3S+k4У)/4, k1…..k4-корректирующие показатели.