Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вся теория для экзамена.docx
Скачиваний:
1
Добавлен:
20.04.2019
Размер:
164.6 Кб
Скачать

13.Различия между oltp и olap системами.

Характеристика базы данных

База данных OLTP (оперативная обработка транзакций)

База данных OLAP (хранилище данных, деловой анализ)

Содержимое

Текущие данные

Данные, накопленные за долгий период времени

Структура данных

Структура таблиц соответствует структуре транзакций

Структура таблиц понятна и удобна для написания запросов (кубы фактов — схема "звезда")

Типичный размер таблиц

Тысячи строк

Миллионы строк

Схема доступа

Предопределена для каждого типа обрабатываемых транзакций

Произвольная; зависит от того, какая именно задача стоит перед пользователем в данный момент и какие сведения нужны для ее решения

Количество строк, к которымобращается один запрос

Десятки

От тысяч до миллионов

С какими данными работает приложение

С отдельными строками

С группами строк (итоговые запросы)

Интенсивность обращений к базе данных

Большое количество бизнес -транзакций в минуту или в секунду

На выполнение запросов требуется время: минуты или даже часы

Тип доступа

Выборка, вставка и обновление

Выборка данных (почти 100 % операций)

Чем определяется производительность

Время выполнения транзакции

Время выполнения запроса

Рабочая нагрузка OLTP и OLAP баз данных настолько различна, что очень трудно или даже невозможно подобрать одну СУБД, которая наилучшим образом удовлетворяла бы требованиям приложений обоих типов (важно, чтобы запросы делового анализа, длящиеся длительное время, не снижали производительности оперативной обработки транзакций). Поэтому крупные производители СУБД традиционно выпускали, в основном, OLTP-системы, а рынок OLAP-систем первоначально занимали небольшие фирмы, специализировавшиеся именно на разработке СУБД данного типа. Однако OLAP-системы быстро завоевали популярность и, в настоящее время, большинство крупных производителей СУБД также предлагает системы делового анализа. Так, например, в состав MS SQL Server 2000 (OLTP-система), отдельным пакетом входит MS SQL Analysis Services (OLAP-система).

Информационные системы класса OLTP характеризуются следующими особенностями.

Характеристики ИС - информационных систем - класса OLTP:

-относительной алгоритмической простотой,

-повышенной динамикой в части номенклатуры и структуры обрабатываемых документов, что связано с непосредственной близостью этих систем к предметной области,

-массовостью и территориальной распределенностью мест сбора исходных данных,

-высокими требованиями к достоверности и актуальности вводимых данных,

-массовостью, достаточно частой сменяемостью и относительно невысокой компьютерной квалификацией персонала (пользователей).

-поддержкой большого числа пользователей;

-малым временем отклика на запрос;

-относительно короткими запросами;

-участие в запросах небольшого числа таблиц

  1. Хранилище данных

в качестве источников данных для OLAP часто используют не операциональные базы данных OLTP систем, а хранилища данных.

Основой концепции хранилища данных (Data Warehouse) является многомерное представление данных (многомерная модель данных)

Основной структурой данных при многомерном их представлении является куб данных. База данных состоит в таком случае из одного или нескольких таких кубов.

Куб данных обладает двумя или более независимыми измерениями, опре­деляющими своего рода систему координат представляемого им пространства данных

Специфическими для многомерной модели данных операциями манипули­рования данными являются операции формирования срезов (slice) куба данных. Срезы куба, необходимые для различных аспектов анализа, задаются путем фиксации координат для некоторого подмножества измерений.

Например, для конкретной специальности, для первокурсников, для типа дисциплины и т.п

Операция агрегирования (Aggregation) позволяет построить из куба данных (или среза) новый куб или срез путем агрегирования значений координат по ка­ким-либо измерениям, где определены иерархические отношения на множестве значений их координат. Например, задано по семестрам, а надо за курс или весь период обучения.

Иногда возможна и обратная операция — детализация (Drill-down), позво­ляющая получать более детализированные данные (для выяснения причин).

Операция поворота (Rotation) позволяет изменить порядок измерений в кубе данных нужным для пользователя образом (что-то типа сортировки).

Кубы OLAP представляют собой, по сути, многомерные отчеты. Разрезая многомерные отчеты (кубы, то есть) по измерениям, аналитик получает, фактически, интересующие его "обычные" двумерные отчеты (это не обязательно отчеты в обычном понимании этого термина - речь идет о структурах данных с такими же функциями). Преимущества кубов очевидны - данные необходимо запросить из реляционной СУБД всего один раз - при построении куба.

13) OLAP и Data Mining

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных. Дело в том, что человеческий разум сам по себе не приспособлен для  восприятия больших массивов разнородной информации. Человек к тому же не способен улавливать более двух-трех взаимосвязей даже в небольших выборках. Но и традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной сложной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining).

Современные технологии Data Mining (discovery-driven data mining) перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (online analytical processing, OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер.   Таблица 1. Примеры формулировок задач при использовании методов OLAP и Data Mining [2]

OLAP

Data Mining

Каковы средние показатели травматизма для курящих и некурящих?

Какие факторы лучше всего предсказывают несчастные случаи?

Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)?

Какие характеристики отличают клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?

Какова средняя величина ежедневных покупок по украденной и неукраденной кредитной карточке?

Какие схемы покупок характерны для мошенничества с кредитными карточками?

В принципе нет ничего нового в постановке задачи Data Mining. Специалисты на протяжении нескольких последних десятков лет решали подобные задачи ("поиск эмпирических закономерностей", "эвристический поиск в сложных средах", "индуктивный вывод" и т. п.). Но  только сейчас общество в целом созрело для понимания практической важности и широты этих задач. Во-первых, в связи с развитием технологий записи и хранения данных сегодня на людей обрушились колоссальные потоки информационной руды в самых различных областях, которые без продуктивной переработки грозят превратиться в никому не нужные свалки. И, во-вторых, средства и методы обработки данных стали доступными и удобными, а их результаты понятными любому человеку

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]