
- •1.Система поддержки принятия решений (сппр), ее основные задачи. Классификация сппр. Схема типичной сппр.
- •2.Сравнительный анализ аналитической и oltp систем.
- •3.Хранилище данных. История возникновения понятия, определение, основные свойства.
- •4.Основные подходы к реализации хранилищ данных.
- •Реализация хранилищ и витрин данных
- •Понятие и суть etl-процесса, основные преобразования данных.
- •Определение качества данных. Методика оценки качества, основанная на 4-х основных показателях.
- •8.Определение качества данных.Уровневая методика оценки качества.
- •11.Повышение качества данных: предварительная замена, классификация, структуризация.
- •12.Повышение качества данных: верификация, нормализация.
- •14.Понятия запроса и объекта запроса. Основные этапы поиска информации. Классификация задачи поиска.
- •15.Особенности решение задачи поиска в структурированных источниках на всех этапах.
- •Методы поиска Адресный поиск
- •Семантический поиск
- •Документальный поиск
- •Фактографический поиск
- •16.Оценка эффективности поисковых инструментов.
- •17. Суть многомерного анализа данных, основные понятия. Возможные операции над гиперкубом. Понятие olap.
- •18. 12 Правил Кодда.
- •19. 6 Дополнительных правил Кодда. Группы правил.
- •20.Определение olap через 5 ключевых понятий теста fasmi.
- •21.Основные подходы к реализации olap, их преимущества и недостатки.
- •23.Единая система нси. Требования идентифицируемости и уникальности, принципы построения.
- •Принципы построения единой системы нси.
- •24. Система нси: 1-3 типовые ошибки.
- •25.Система нси: 4-6 типовые ошибки.
- •26. Система нси: 7-10 типовые ошибки.
- •27.Понятие Data Mining. Дисциплины, использованные при создании Data Mining. Основные действия выполняемые Data Mining. Основные ограничения использования.
- •28.Основные задачи Data Mining. Классификация и кластеризация: суть, сравнительный анализ.
- •29.Основные задачи Data Mining. Поиск ассоциативных правил, прогнозирование, анализ отклонений.
- •30.Определение метода и алгоритма. Классификация стадий Data Mining. Свободный поиск.
- •31.Определение метода и алгоритма. Классификация стадий Data Mining. Прогностическое моделирование.
- •32.Определение метода и алгоритма. Классификация стадий Data Mining. Анализ исключений.
- •33.Основные этапы процесса подготовки к Data Mining. Анализ предметной области, постановка задачи, подготовка данных.
- •34.Понятие Text Mining. Основные этапы.
- •35.Понятие Text Mining. Основные задачи.
- •36. Предварительная обработка данных, основные приемы.
- •38.Oracle Data Mining (odm). Возможности, архитектура, характеристики. Используемые алгоритмы.
- •39.Функциональные возможности odm. Алгоритм Naïve Bayes.
- •40.Функциональные возможности odm. Алгоритм Support Vector Machine.
- •41.Функциональные возможности odm. Алгоритм k-means. Проверка качества кластеризации.
- •Алгоритм k-means.
- •42.Функциональные возможности odm. Алгоритмы Apriori.
- •43.Workflow.(поток работы) Суть, базовые понятия и их взаимосвязь.
- •44.Workflow. Структура системы, основные компоненты и их взаимосвязь.
- •45.Workflow. Условия представления бизнес-процесса как процесса Workflow. Порядок представления бизнес процесса в графическом виде (idef0).
- •49.Категории операций бизнес-процесса. Типовые параметры описания бизнес-процесса. Условия перехода между операциями.
- •46.Типовые цели внедрения проекта Workflow. Цикл управления эксплуатацией и развитием системы.
- •47.Понятие агентов. Типы агентов. Способности обучающихся агентов.
- •48.Понятие субагентов, типы субагентов. Свойства автономного агента
- •49.Мультиагентная система (мас). Определение, основные характеристики, классификация мас.
- •50.Методы организации работы в мас. Условия размещения агента на сервере. Операции над агентами. Примеры использования мас.
8.Определение качества данных.Уровневая методика оценки качества.
Качество данных (или качество информации) можно определять по-разному. В данном случае мы будем определять это понятие как информацию, полностью соответствующую требованиям потребителя. Более детально это понятие можно определить как процесс компоновки информации (включающей имена, адреса реальной и электронной почты, телефонные номера, коды комплектующих, SSN и SKU, в логически согласованном порядке), очистки и усовершенствования данных, а также объединения соответствующих записей с целью устранения дублирования элементов.
1.Уровень атрибута:1атрибут должен содержать информацию.2.информация должна соответствовать формату.
2.Уровень записи(строки):1.корректность данных в одной записи.
3.Уровень таблицы:1.оценка наличия дублей, т.е уникальность.2.наличие противоречия(одной записи относительно другой)
4.Уровень базы данных(схем):1корректность взаимных ссылок,целостности,непротиворечивость.
9.Пути повышения качества данных. Приемы контроля вводимых данных.
Значение качества данных для CRM, ERP, BI/Хранилищ данных и промежуточных приложений
Качество данных (или качество информации) можно определять по-разному. В данном случае мы будем определять это понятие как информацию, полностью соответствующую требованиям потребителя. Более детально это понятие можно определить как процесс компоновки информации (включающей имена, адреса реальной и электронной почты, телефонные номера, коды комплектующих, SSN и SKU, в логически согласованном порядке), очистки и усовершенствования данных, а также объединения соответствующих записей с целью устранения дублирования элементов.
Необходимо тщательно рассмотреть унаследованные системы предприятия и качество данных, содержащихся в каждой из них. Одна система может содержать более надежные данные, чем другая. Некоторые могут хранить данные в желаемом формате, а статистика может поступать извне. Целью проектов CRM, ERP, BI/Хранилищ данных и промежуточного программного обеспечения является сбор данных из различных систем для использования в различных подразделениях предприятия для различных целей, и в итоге повышение эффективности работы компании. Точность данных исключительно важна для анализа, прогнозирования и построения отношений с клиентами. Даже если каждая из систем, поставляющих данные для нового проекта, содержит лишь небольшой процент "плохих" данных, при их объединении, этот процент растет по экспоненциальному закону.
10.Пути повышения качества данных. Основные проблемы качества данных. Этапы повышения качества данных.
11.Повышение качества данных: предварительная замена, классификация, структуризация.
Классификация- резидент, нерезидент.
Структуризация-это разделение по полям
12.Повышение качества данных: верификация, нормализация.
Нормализация- приведение написания и описания объектов к каноническому виду.
Верификация (от лат. verus — истинный, facere — делать) — проверка, проверяемость, способ подтверждения каких-либо теоретических положений, алгоритмов, программ и процедур путем их сопоставления с опытными (эталонными или эмпирическими) данными, алгоритмами и программами.
или
Верификация (от лат. verus — истинный, facere — делать) — это подтверждение соответствия конечного продукта предопределённым эталонным требованиям.
13.Повышение качества данных: консолидация, идентификация.
Консолидация данных.-восполнение информации об объекте за счет других источников. При использовании этого метода данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения. Такое место хранения может быть использовано для подготовки отчетности и проведения анализа, как в случае Хранилища данных, или как источник данных для других приложений, как в случае операционного склада данных.
При использовании этого метода обычно существует некоторая задержка между моментом обновления информации в первичных системах и временем, когда данные изменения появляются в конечном месте хранения. В зависимости от потребностей бизнеса такое отставание может оставлять несколько секунд, часов или много дней. Термин "режим, приближенный к реальному времени" часто используется для описания конечных данных, обновление которых отстает от источника на несколько секунд, минут или часов. Данные, не отстающие от источника, считаются данными в режиме реального времени, но это трудно достижимо при использовании метода консолидации данных.
Консолидация данных - это основной подход, который используется приложениями Хранилищ данных для построения и поддержки оперативных складов данных и корпоративных Хранилищ. Консолидация данных также может найти применение для создания зависимой витрины данных, но в этом случае в процессе консолидации используется только один источник данных (например, корпоративное Хранилище).
Идентификация- выявление похожих и их превращение в одну