
- •1.Система поддержки принятия решений (сппр), ее основные задачи. Классификация сппр. Схема типичной сппр.
- •2.Сравнительный анализ аналитической и oltp систем.
- •3.Хранилище данных. История возникновения понятия, определение, основные свойства.
- •4.Основные подходы к реализации хранилищ данных.
- •Реализация хранилищ и витрин данных
- •Понятие и суть etl-процесса, основные преобразования данных.
- •Определение качества данных. Методика оценки качества, основанная на 4-х основных показателях.
- •8.Определение качества данных.Уровневая методика оценки качества.
- •11.Повышение качества данных: предварительная замена, классификация, структуризация.
- •12.Повышение качества данных: верификация, нормализация.
- •14.Понятия запроса и объекта запроса. Основные этапы поиска информации. Классификация задачи поиска.
- •15.Особенности решение задачи поиска в структурированных источниках на всех этапах.
- •Методы поиска Адресный поиск
- •Семантический поиск
- •Документальный поиск
- •Фактографический поиск
- •16.Оценка эффективности поисковых инструментов.
- •17. Суть многомерного анализа данных, основные понятия. Возможные операции над гиперкубом. Понятие olap.
- •18. 12 Правил Кодда.
- •19. 6 Дополнительных правил Кодда. Группы правил.
- •20.Определение olap через 5 ключевых понятий теста fasmi.
- •21.Основные подходы к реализации olap, их преимущества и недостатки.
- •23.Единая система нси. Требования идентифицируемости и уникальности, принципы построения.
- •Принципы построения единой системы нси.
- •24. Система нси: 1-3 типовые ошибки.
- •25.Система нси: 4-6 типовые ошибки.
- •26. Система нси: 7-10 типовые ошибки.
- •27.Понятие Data Mining. Дисциплины, использованные при создании Data Mining. Основные действия выполняемые Data Mining. Основные ограничения использования.
- •28.Основные задачи Data Mining. Классификация и кластеризация: суть, сравнительный анализ.
- •29.Основные задачи Data Mining. Поиск ассоциативных правил, прогнозирование, анализ отклонений.
- •30.Определение метода и алгоритма. Классификация стадий Data Mining. Свободный поиск.
- •31.Определение метода и алгоритма. Классификация стадий Data Mining. Прогностическое моделирование.
- •32.Определение метода и алгоритма. Классификация стадий Data Mining. Анализ исключений.
- •33.Основные этапы процесса подготовки к Data Mining. Анализ предметной области, постановка задачи, подготовка данных.
- •34.Понятие Text Mining. Основные этапы.
- •35.Понятие Text Mining. Основные задачи.
- •36. Предварительная обработка данных, основные приемы.
- •38.Oracle Data Mining (odm). Возможности, архитектура, характеристики. Используемые алгоритмы.
- •39.Функциональные возможности odm. Алгоритм Naïve Bayes.
- •40.Функциональные возможности odm. Алгоритм Support Vector Machine.
- •41.Функциональные возможности odm. Алгоритм k-means. Проверка качества кластеризации.
- •Алгоритм k-means.
- •42.Функциональные возможности odm. Алгоритмы Apriori.
- •43.Workflow.(поток работы) Суть, базовые понятия и их взаимосвязь.
- •44.Workflow. Структура системы, основные компоненты и их взаимосвязь.
- •45.Workflow. Условия представления бизнес-процесса как процесса Workflow. Порядок представления бизнес процесса в графическом виде (idef0).
- •49.Категории операций бизнес-процесса. Типовые параметры описания бизнес-процесса. Условия перехода между операциями.
- •46.Типовые цели внедрения проекта Workflow. Цикл управления эксплуатацией и развитием системы.
- •47.Понятие агентов. Типы агентов. Способности обучающихся агентов.
- •48.Понятие субагентов, типы субагентов. Свойства автономного агента
- •49.Мультиагентная система (мас). Определение, основные характеристики, классификация мас.
- •50.Методы организации работы в мас. Условия размещения агента на сервере. Операции над агентами. Примеры использования мас.
35.Понятие Text Mining. Основные задачи.
Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации. Назовем основные технологии Text Mining
Основные задачи:
1.задача классификации- отнесение документов к нужной тематике
2.задача кластеризации- выявить семантически похожие группы данных
3.автоматитческое аннотирование- несколько фраз, наиболее полно отражающих весь текст.
4.извлечение ключевых понятий- выявить факты, взаимосвязанные с основным
5.навигация по тексту.
36. Предварительная обработка данных, основные приемы.
Основные приемы: 1.приведение текста к одному регистру.2.удаление стоп-слов.3.морфологический поиск.4.алгоритмы N-грамм.
38.Oracle Data Mining (odm). Возможности, архитектура, характеристики. Используемые алгоритмы.
Дата мининг--это процесс обнаружения знаний в сырых данных , ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации данных, необходимых для принятия решений в различных сферах человеческой деятельности.
ОДМ(оракле дата мининг)- набор функций. особенности дата мининг:1.работа в архитектуре клиент-сервер.2.широкое использование техники параллельных вычислений.3.высокая степень масштабируемости.
задачи классификация |
Алгоритмы Naïve bayes, adaptive bayes network |
Классификация и регрессия |
Support vector machine |
Поиск существенных алгоритмов |
Minimal descriptor length |
кластеризация Поиск ассоциаций |
Enhanced k-means o-cluster Apriori algorithm |
Выделение признаков |
Non-negative matrix factorization |
Прогнозирующие модели и дескрипторные(описательные).
Прогнозирующие.1.классификации.2.регрессии.3.поиск сущ-х атрибутов.
1.наиве бейс работает быстрее , т.е время построения модели меньше.2.предназанчен для небольшого кол-ва атрибутов(<200).3.точность меньше, чем у аналога(adaptive bayes)
ABN:
1.большое кол-во атрибутов.2.наглядность моделей, которые получаются. ,т.е можно посмотреть на результат. 3.модели более точные, чем у NB.4.больше возможностей и параметров, чем у NB.
Регрессия применяется для прогнозирования непрерывных величин. Основная задача- выявление атрибутов, наиболее важных для прогнозирования целевых значений.
Enchanced k-means.
1.кол-во кластеров задается пользователем.2.может работать с небольшим кол-вом только числовых атрибутов.3.кол-во обрабатываемых записей неограниченно.
О-Claster.
1.кол-во кластеров опр. Сам.2.может работать с числовыми и с категориальными атрибутами.3.может работать с большим кол-вом атрибутов и записей.
39.Функциональные возможности odm. Алгоритм Naïve Bayes.
Дата мининг--это процесс обнаружения знаний в сырых данных , ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации данных, необходимых для принятия решений в различных сферах человеческой деятельности.
ОДМ(оракле дата мининг)- набор функций. особенности дата мининг:1.работа в архитектуре клиент-сервер.2.широкое использование техники параллельных вычислений.3.высокая степень масштабируемости.
Прогнозирующие модели и дескрипторные(описательные).
Прогнозирующие.1.классификации.2.регрессии.3.поиск сущ-х атрибутов.
1.наиве бейс работает быстрее , т.е время построения модели меньше.2.предназанчен для небольшого кол-ва атрибутов(<200).3.точность меньше, чем у аналога(adaptive bayes)
ABN:
1.большое кол-во атрибутов.2.наглядность моделей, которые получаются. ,т.е можно посмотреть на результат. 3.модели более точные, чем у NB.4.больше возможностей и параметров, чем у NB.
Регрессия применяется для прогнозирования непрерывных величин. Основная задача- выявление атрибутов, наиболее важных для прогнозирования целевых значений.
Enchanced k-means.
1.кол-во кластеров задается пользователем.2.может работать с небольшим кол-вом только числовых атрибутов.3.кол-во обрабатываемых записей неограниченно.
О-Claster.
Naïve Bayes. Св-ва наивной классификации:1.использование всех переменных и определение всех зависимостей между ними.2.наличие двух предположений относительно переменной.
2 предположения:1.все переменные важные.2.все переменные являются статистически-независимыми.
Достоинства:
1.в модели определяются зависимости между всеми переменными.2.Байсовские модели достаточно просто интерпретируются.3.позволяют естественным образом совмещать закономерности, выведенные из данных.4.позволяет избежать проблемы переучивания.
Недостатки:
1.невозможна непосредственная обработка непрерывных переменных.2.на результат классификации влияют только индивидуальные значения входных переменных.3.условные вероятности перемножаются корректно, когда все входные переменные действительно статически независимы.