
- •1.Система поддержки принятия решений (сппр), ее основные задачи. Классификация сппр. Схема типичной сппр.
- •2.Сравнительный анализ аналитической и oltp систем.
- •3.Хранилище данных. История возникновения понятия, определение, основные свойства.
- •4.Основные подходы к реализации хранилищ данных.
- •Реализация хранилищ и витрин данных
- •Понятие и суть etl-процесса, основные преобразования данных.
- •Определение качества данных. Методика оценки качества, основанная на 4-х основных показателях.
- •8.Определение качества данных.Уровневая методика оценки качества.
- •11.Повышение качества данных: предварительная замена, классификация, структуризация.
- •12.Повышение качества данных: верификация, нормализация.
- •14.Понятия запроса и объекта запроса. Основные этапы поиска информации. Классификация задачи поиска.
- •15.Особенности решение задачи поиска в структурированных источниках на всех этапах.
- •Методы поиска Адресный поиск
- •Семантический поиск
- •Документальный поиск
- •Фактографический поиск
- •16.Оценка эффективности поисковых инструментов.
- •17. Суть многомерного анализа данных, основные понятия. Возможные операции над гиперкубом. Понятие olap.
- •18. 12 Правил Кодда.
- •19. 6 Дополнительных правил Кодда. Группы правил.
- •20.Определение olap через 5 ключевых понятий теста fasmi.
- •21.Основные подходы к реализации olap, их преимущества и недостатки.
- •23.Единая система нси. Требования идентифицируемости и уникальности, принципы построения.
- •Принципы построения единой системы нси.
- •24. Система нси: 1-3 типовые ошибки.
- •25.Система нси: 4-6 типовые ошибки.
- •26. Система нси: 7-10 типовые ошибки.
- •27.Понятие Data Mining. Дисциплины, использованные при создании Data Mining. Основные действия выполняемые Data Mining. Основные ограничения использования.
- •28.Основные задачи Data Mining. Классификация и кластеризация: суть, сравнительный анализ.
- •29.Основные задачи Data Mining. Поиск ассоциативных правил, прогнозирование, анализ отклонений.
- •30.Определение метода и алгоритма. Классификация стадий Data Mining. Свободный поиск.
- •31.Определение метода и алгоритма. Классификация стадий Data Mining. Прогностическое моделирование.
- •32.Определение метода и алгоритма. Классификация стадий Data Mining. Анализ исключений.
- •33.Основные этапы процесса подготовки к Data Mining. Анализ предметной области, постановка задачи, подготовка данных.
- •34.Понятие Text Mining. Основные этапы.
- •35.Понятие Text Mining. Основные задачи.
- •36. Предварительная обработка данных, основные приемы.
- •38.Oracle Data Mining (odm). Возможности, архитектура, характеристики. Используемые алгоритмы.
- •39.Функциональные возможности odm. Алгоритм Naïve Bayes.
- •40.Функциональные возможности odm. Алгоритм Support Vector Machine.
- •41.Функциональные возможности odm. Алгоритм k-means. Проверка качества кластеризации.
- •Алгоритм k-means.
- •42.Функциональные возможности odm. Алгоритмы Apriori.
- •43.Workflow.(поток работы) Суть, базовые понятия и их взаимосвязь.
- •44.Workflow. Структура системы, основные компоненты и их взаимосвязь.
- •45.Workflow. Условия представления бизнес-процесса как процесса Workflow. Порядок представления бизнес процесса в графическом виде (idef0).
- •49.Категории операций бизнес-процесса. Типовые параметры описания бизнес-процесса. Условия перехода между операциями.
- •46.Типовые цели внедрения проекта Workflow. Цикл управления эксплуатацией и развитием системы.
- •47.Понятие агентов. Типы агентов. Способности обучающихся агентов.
- •48.Понятие субагентов, типы субагентов. Свойства автономного агента
- •49.Мультиагентная система (мас). Определение, основные характеристики, классификация мас.
- •50.Методы организации работы в мас. Условия размещения агента на сервере. Операции над агентами. Примеры использования мас.
40.Функциональные возможности odm. Алгоритм Support Vector Machine.
Дата мининг--это процесс обнаружения знаний в сырых данных , ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации данных, необходимых для принятия решений в различных сферах человеческой деятельности.
ОДМ(оракле дата мининг)- набор функций. особенности дата мининг:1.работа в архитектуре клиент-сервер.2.широкое использование техники параллельных вычислений.3.высокая степень масштабируемости.
Прогнозирующие модели и дескрипторные(описательные).
Прогнозирующие.1.классификации.2.регрессии.3.поиск сущ-х атрибутов.
1.наиве бейс работает быстрее , т.е время построения модели меньше.2.предназанчен для небольшого кол-ва атрибутов(<200).3.точность меньше, чем у аналога(adaptive bayes)
ABN:
1.большое кол-во атрибутов.2.наглядность моделей, которые получаются. ,т.е можно посмотреть на результат. 3.модели более точные, чем у NB.4.больше возможностей и параметров, чем у NB.
Регрессия применяется для прогнозирования непрерывных величин. Основная задача- выявление атрибутов, наиболее важных для прогнозирования целевых значений.
Enchanced k-means.
1.кол-во кластеров задается пользователем.2.может работать с небольшим кол-вом только числовых атрибутов.3.кол-во обрабатываемых записей неограниченно.
О-Claster.
Алгоритм Support Vector Machine.(метод опорных векторов)
F(x)=ax+b, of(x)=-1, дельта f(x)=1, эмпирический риск-уровень ошибки классификации на тренировочном наборе.
Недостаток:и: исполняется на эмпирической выборке.
Достоинства: небольшая выборка для построения модели за счет использования опорных векторов.
41.Функциональные возможности odm. Алгоритм k-means. Проверка качества кластеризации.
Дата мининг--это процесс обнаружения знаний в сырых данных , ранее неизвестных, практически полезных, необходимых для принятия решений в различных сферах человеческой деятельности.
ОДМ(оракле дата мининг)- набор функций. ОСОБЕННОСТИ ДАТА МИНИНГ:1.работа в архитектуре клиент-сервер.2.широкое использование техники параллельных вычислений.3.высокая степень масштабируемости.
Прогнозирующие.1.классификации.2.регрессии.3.поиск сущ-х атрибутов.
1.наиве бейс работает быстрее , т.е время построения модели меньше.2.предназанчен для небольшого кол-ва атрибутов(<200).3.точность меньше, чем у аналога(adaptive bayes)
ABN:
1.большое кол-во атрибутов.2.наглядность моделей, которые получаются. 3.модели более точные, чем у NB.4.больше возможностей и параметров, чем у NB.
Регрессия применяется для прогнозирования непрерывных величин. Основная задача - выявление атрибутов, наиболее важных для прогнозирования целевых значений.
Enchanced k-means.
1.кол-во кластеров задается пользователем.2.может работать с небольшим кол-вом только числовых атрибутов.3.кол-во обрабатываемых записей неограниченно.
О-Claster.
Алгоритм k-means.
Центр кластера- это среднее геометрическое место точки в пространстве. Радиус кластера определяется либо по среднеквадратичному отклонению объектов , либо радиусом кластера.
Спорный объект- это объект, по мере сходства может быть отнесен к нескольким кластерам.
2 предложения работы кластера:1.рассматриваемые признаки объекта в принципе допускают желательное разбиение объектов на кластеры.2.выбран правильный масштаб и единицы измерения признаков.
Алгоритм К-средних. Строит к-кластеров, расположенных на максимально большом расстоянии друг от друга. Кол-во кластеров можно задать.
Описание алгоритма:1.первоначальное распределение объектов по кластерам(выбирается К центров кластеров).Выбор начальных центров:а)выбор К наблюдений для максимизации нач. расстояния.б)случайный выбор К наблюдений.в)выбор первых К наблюдений.
2.Итеративный процесс.1.вычисляем значение центра.2.переопределяем кластеры.
До тех пор пока не выполнено 1 из условий:1.кластерные центры стабилизировались.2.число итераций равно максимально возможному.
Достоинства:1.простота использования.2.быстрота использования.3.понятность и прозрачность самого алгоритма.
Недостатки:1.чувствителен к выбросам, кот-е могут искажать.2.на больших объемах данных может работать медленно.