- •1(1). Информация. Данные и знания.
- •2(1). Адекватность информации. Синтаксическая. Семантическая. Прагматическая.
- •4(1). Эволюция технологий анализа данных.
- •5(1). Терминология анализа данных. Понятие модели и моделирования.
- •7(1). Алгоритмы сжатия. Словарное кодирование.
- •Объем требуемой памяти
- •8(1). Статистика. Machine Learning.
- •10(1). Предпосылки возникновения хранилищ данных. Архитектуры.
- •11(1). Oltp и olap системы.
- •12(1). Детализированные и агрегированные данные.
- •13(1). Сравнение схем хд. Звезда и снежинка.
- •14(1). Назначение etl системы.
- •15(1). Очистка данных. Назначение. Классификация проблем в «грязных» данных.
- •16(1). Обогащение данных. Назначение.
- •17(1). Трансформация данных. Назначение.
- •18(1). Цели квантования, выбор числа интервалов квантования, методы квантования.
- •19(1). Основные методы нормализации.
- •20(1). Нормализация с помощью поэлементных преобразований.
- •21(1). Кодирование категориальных данных.
- •22(2). Преобразование даты и времени, группировка и разгруппировка данных.
- •1.(2)Генетический алгоритм. Назначение. Плюсы и минусы
- •2.(2)Генетический алгоритм. Кодирование хромосом
- •3.(2)Генетический алгоритм. Алгоритмы скрещивания и мутации
- •4.(2) Генетический алгоритм. Стратегии. Элитизм. Островная модель
- •5.(2)Нечеткая логика. Фазификация и дефазификация.
- •Принцип построения алгоритма нечеткого вывода.
- •6.(2)Нечеткая логика. Нечеткий логический вывод.
- •8.(2)Регрессия. Назначение и применение
- •11.(2)Ассоциативные правила. Назначение и применение
- •13.(2)Модель нейрона. Сумматор. Функция активации
- •1 . Единичный скачок или жесткая пороговая функция
- •2 . Линейный порог или гистерезис
- •3. Сигмоидальная функция или сигмоид
- •14.(2)Нейронные сети. Многослойный персептрон (mlp).
- •Персептрон
- •15.(2)Нейронные сети. Карты Кохонена.
- •16.(2)Визуализация данных. Графики
- •График рассеивания
- •17.(2)Визуализация данных. Диаграммы.
- •18.(2)Визуализация данных. Гистограммы и статистика
- •20.(2)Визуализация данных. Диаграммы рассеяния
- •22.(2)Специализированые методы визуализации (в примерах).
10(1). Предпосылки возникновения хранилищ данных. Архитектуры.
ПРЕДПОСЫЛКИ СОЗДАНИЯ
Появились потребности в ИС, которые позволяли бы:
- Проводить глубокую аналитическую обработку;
- Поиск скрытых структур и закономерностей в массивах данных;
- Вывод правил, которые подчиняются данной предметной области;
- Стратегическое и интерактивное планирование;
- Принятие решений;
- Прогноз последствий.
Хранилища данных – разновидность систем хранения данных, ориентированных на поддержку анализа данных, обеспечивающих целостность, непротиворечивость и высокую скорость данных.
Существуют два архитектурных направления: звезда и снежинка.
«звезда» : Модель данных состоит из двух типов таблиц: одной таблицы фактов (fact table) — центр «звезды» — и нескольких таблиц измерений (dimension table) по числу измерений в модели данных — лучи «звезды».
Схема снежинки получила свое название за свою форму, в виде которой отображается логическая схема таблиц в многомерной базе данных. Так же как и в схеме звезды, схема снежинки представлена централизованной таблицей фактов, соединенной с таблицами измерений. Отличием является то, что здесь таблицы измерений нормализованы с рядом других связанных измерительных таблиц.
11(1). Oltp и olap системы.
По функциональному назначению базы данных делят на:
- системы оперативной обработки транзакций (OLTP-системы, Online Transaction Processing - оперативная транзакционная обработка данных);
- системы делового анализа (OLAP-системы, Online Analysis Processing - оперативная аналитическая обработка данных).
OLTP - система – это обработка транзакций в реальном времени. Система работает с небольшими по размерам транзакциями, но идущими большим потоком, и при этом клиенту требуется от системы минимальное время отклика. Предназначены для ввода, структурированного хранения и обработки информации (операций, документов) в режиме реального времени.
Использование: во многих отраслях: автоматизированные банковские системы, ERP-системы (системы планирования ресурсов предприятия), банковские и биржевые операции, в промышленности - регистрация прохождения детали на конвейере, автоматизация бухучёта и т. п. OLTP-системы проектируются, настраиваются и оптимизируются для выполнения максимального количества транзакций за короткие промежутки времени. Показателем эффективности является количество транзакций, выполняемых за секунду. Аналитические возможности OLTP-систем сильно ограничены (либо отсутствуют).
Преимущества: высокая надёжность и достоверность данных, как следствие транзакционного подхода. Транзакция либо совершается полностью и успешно, либо не совершается и система возвращается к предыдущему состоянию. При любом исходе выполнения транзакции целостность данных не нарушается.
Недостатки: OLTP-системы оптимизированы для небольших дискретных транзакций. А запросы на комплексную информацию (пример: поквартальная динамика объемов продаж по определённой модели товара в определённом филиале), характерные для аналитических приложений (OLAP), породят сложные соединения таблиц и просмотр таблиц целиком. На один такой запрос уйдет масса времени и компьютерных ресурсов, что затормозит обработку текущих транзакций.
OLAP система – это технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу. Основоположник - Эдгар Кодд, предложил в 1993 г. «12 законов аналитической обработки в реальном времени».
Действие OLAP: Причина использования OLAP для обработки запросов - это скорость.
OLAP-структура, созданная из рабочих данных, называется OLAP-куб. Куб создаётся из соединения таблиц с применением схемы звезды или схемы снежинки. В центре схемы звезды находится таблица фактов, которая содержит ключевые факты, по которым делаются запросы. Множественные таблицы с измерениями присоединены к таблице фактов. Эти таблицы показывают, как могут анализироваться агрегированные реляционные данные. OLAP-куб содержит в себе базовые данные и информацию об измерениях (агрегаты). Куб потенциально содержит всю информацию, которая может потребоваться для ответов на любые запросы.
Существуют 3 типа OLAP:
- многомерная OLAP (Multidimensional OLAP - MOLAP);
- реляционная OLAP (Relational OLAP - ROLAP);
- гибридная OLAP (Hybrid OLAP - HOLAP).
Каждый тип хранения имеет свои преимущества: MOLAP лучше подходит для небольших наборов данных, он быстро рассчитывает агрегаты и возвращает ответы, но при этом генерируются огромные объёмы данных. ROLAP оценивается как более масштабируемое решение, использующее к тому же наименьшее возможное пространство. При этом скорость обработки значительно снижается. HOLAP находится посреди этих двух подходов, он достаточно хорошо масштабируется и быстро обрабатывается.
Сложность в применении OLAP состоит в создании запросов, выборе базовых данных и разработке схемы, в результате чего большинство современных продуктов OLAP поставляются вместе с огромным количеством предварительно настроенных запросов. Другая проблема - в базовых данных. Они должны быть полными и непротиворечивыми.
БД, ориентированные на оперативную обработку транзакций, и БД, предназначенные для делового анализа, используются по-разному и служат разным целям. БД OLTP-системы - это основа каждодневного функционирования предприятия: принятие заказов клиентов, учет сырья, складской учет, учет оплаты продукции, т.е. главным образом учетные функции. БД OLAP-системы используются для принятия решений на основе сбора и анализа большого объема информации. Их главные пользователи - это менеджеры, служащие планового отдела и отдела маркетинга. Если в БД OLTP-системы основные операции - это небольшие по объему транзакции, состоящие из простых запросов на как на выборку, так и на вставку и обновление небольшого количества строк, то в БД OLAP-системы практически 100% операций являются операциями выборки (чтения) строк, причем количество отбираемых (анализируемых) строк может достигать нескольких миллионов. Ещё отличия OLTP и OLAP:
Характеристика базы данных |
База данных OLTP (оперативная обработка транзакций) |
База данных OLAP (хранилище данных, деловой анализ) |
Содержимое |
Текущие данные |
Данные, накопленные за долгий период времени |
Структура данных |
Структура таблиц соответствует структуре транзакций |
Структура таблиц понятна и удобна для написания запросов (кубы фактов - схема "звезда") |
Типичный размер таблиц |
Тысячи строк |
Миллионы строк |
Схема доступа |
Предопределена для каждого типа обрабатываемых транзакций |
Произвольная; зависит от того, какая именно задача стоит перед пользователем в данный момент и какие сведения нужны для ее решения |
Количество строк, к которым обращается один запрос |
Десятки |
От тысяч до миллионов |
С какими данными работает приложение |
С отдельными строками |
С группами строк (итоговые запросы) |
Интенсивность обращений к базе данных |
Большое количество бизнес -транзакций в минуту или в секунду |
На выполнение запросов требуется время: минуты или даже часы |
Тип доступа |
Выборка, вставка и обновление |
Выборка данных (почти 100 % операций) |
Чем определяется производительность |
Время выполнения транзакции |
Время выполнения запроса |
