- •Университет машиностроения
- •Big Data и Data Mining
- •Что такое Экзабайт?
- •Миссия - обработать экзабайты
- •Где нужны Big Data?
- •Что такое Data Mining?
- •Проблема долговременного хранения данных
- •Выход (?):
- •Проблемы:
- •Современное решение:
- •Реляционная СУБД – система управления реляционной базой данных
- •Альтернатива:
- •Пример:
- •Аггрегирующие модели
- •Проектирование
- •IDEF — методологии семейства ICAM (Integrated Computer- Aided Manufacturing) для решения
- •Методика проектирования хранилищ данных
- •Использование связи между сущностями
- •Идентификация сущностей
- •Схема данных
- •Анализ потоков данных
- •Пример реализации схемы потоков данных
- •DFD-схема бизнес-процесса с учетом хранилищ данных
- •DFD-схема бизнес-процесса (для использования с IDEF1x)
- •Элементы методологии DFD в нотациях Г-С и Й-дМ
- •Пример DFD-диаграммы в IDEF-подшивке проекта
- •Университет машиностроения Кафедра «Автоматика и процессы управления»
- •МГМУ «МАМИ» Кафедра «Автоматика и процессы управления»
Университет машиностроения
Кафедра «Автоматика и процессы управления»
Дисциплина
Информационные технологии
1 семестр
Тема 22
Базы данных и СУБД
IDEF1x и язык SQL
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Big Data и Data Mining
Промышленные (Enterprize) базы данных:
Википедия (en) – 2,2 Гб (на март 2012 г.) [Только текст] Налоговая служба США – 150 Гб (на май 2008 г.) Торговая площадка EBay – 1,4 Пб (на май 2008 г.) Аналитическая система Yahoo – 2 Пб (на май 2008 г.)
Информационная ёмкость дата центра АНБ в штате ЮТА оценивается в 3-12 Эб (будет запущен в конце 2013 г.)
Типичные «единичные» объемы данных:
Простой текст – 10-100 кб (описания, веб-страницы) Изображения – 50 кб – 5 Мб (фотографии, оформление) Документы – 1 - 20 Мб Аудио-, видеоданные – 5 - 500 Мб
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Что такое Экзабайт?
|
|
|
Измерения в байтах |
|
|
|
||
ГОСТ 8.4172002 |
Приставки СИ |
|
приставки МЭК |
|
||||
Название |
Символ |
Степень |
Название |
Степень |
Название |
Символ |
Степень |
|
Байт |
Б |
100 |
|
100 |
байт |
B |
Б |
20 |
Килобайт |
кБ |
103 |
кило |
103 |
кибибайт |
KiB |
КиБ |
210 |
мегабайт |
МБ |
106 |
мега |
106 |
мебибайт |
MiB |
МиБ |
220 |
гигабайт |
ГБ |
109 |
гига |
109 |
гибибайт |
GiB |
ГиБ |
230 |
терабайт |
ТБ |
1012 |
тера |
1012 |
тебибайт |
TiB |
ТиБ |
240 |
петабайт |
ПБ |
1015 |
пета |
1015 |
пебибайт |
PiB |
ПиБ |
250 |
Эксабайт |
ЭБ |
1018 |
экса |
1018 |
эксбибайт |
EiB |
ЭиБ |
260 |
зеттабайт |
ЗБ |
1021 |
зетта |
1021 |
зебибайт |
ZiB |
ЗиБ |
270 |
йоттабайт |
ЙБ |
1024 |
йотта |
1024 |
йобибайт |
YiB |
ЙиБ |
280 |
Можно ли «пощупать» экзабайт?
Проект Sun и InternetArchive: Modular Datacenter – 3Пб
(3 145 728 Гб) в одном контейнере
Но нужно ли уметь обрабатывать экзабайты данных непосредственно?
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Миссия - обработать экзабайты
По последним исследованиям компании EMC, объем данных, сгенерированных в 2012 году составляет 2.8 зеттабайта (1021 байт) а к 2020 году эта цифра дорастет до 40 зеттабайт, что превосходит предыдущие прогнозы на 14%.
Можно смело констатировать, что мы уже столкнулись с «великим потопом данных» и одним из ответов на это является рост доли самых больших дата-центров, которые часто называют «мега-ЦОД» — их доля по разным оценкам составляет примерно 25% рынка современных серверов.
Ограничения вычислительных систем:
Быстродействие процессора – 10 GFLOPS Пропускная способность ЛВС – 1 Гб в секунду
Ограничения веб-приложений:
Apache + PHP – 16 Мб на один процесс
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Где нужны Big Data?
•Поиск данных по шаблону (Google, Yandex, …)
•Data Mining (поиск закономерностей в данных)
Случай в Миннеаполисе (штат Миннесота, округ Хеннепин) «Кажется, я упустил то, что происходит вокруг меня…»
Из воспоминаний Эндрю Поула, ведущего аналитика Target (весна 2003 г.)
Модель предсказания вектора покупательской активности позволяет продавать товары, о необходимости которых покупатель еще не задумывается, у него нет модели поведения, привычек и связанных (ассоциированных в сознании) брендов.
Создание новой связи и нового канала продаж – это самая суть лояльности в ритейле (розничной торговле).
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Что такое Data Mining?
Основной ценностью и предметом потребления в информационном обществе становится информация, а точнее знания. В настоящее время, объем накопленных данных в компаниях удваивается каждые 18 месяцев и период удваивания постоянно сокращается. Общий объем цифровых данных в мире на 2012 год составляет около 2.7 зеттабайта – это 27 и 20 нулей. Увеличение по сравнению с 2011 годом практически на 50%, и в двадцать раз больше, чем в 2005 году. К 2015 году прогнозирует общий объем данных в 0.8 йоттабайт – это 1024.
Big Data (в смысле Data Science) – это данные и технологии подчиняющиеся правилу «трех V»: Volume – объем;
Velocity – скорость; Variety – многообразие
Совсем не важно, но:
Вакансия аналитика в Связном: от 150 тыс. руб. Международная статистика:
140 тыс. вакансий (от 100 k$)
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Проблема долговременного хранения данных
Как сохранить значительный объем данных и получить доступ к его элементам спустя значительный промежуток времени?
Можно в ОЗУ (оперативный режим):
|
|
Массив |
|
|
|
адресов |
|
|
|
|
|
Имя |
|
Адрес |
|
|
|
||
Адрес |
|||
|
|
||
|
|
|
|
|
|
Адрес |
|
|
|
|
|
|
|
|
Физический предел:
Heap (куча)
Объект Признак
Признак
Объект Признак
Признак
4 Гб (32-битная система)
16 Гб (стоимость и техническая сложность)
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Выход (?):
Можно создать внешние структурированные хранилища
Хэш (hash)
Массив пар
ключ-значение
Запись Ключ Значение
Ключ Значение
Ключ Значение
Файловая система
Иерархия объектов-файлов
Том
Папка
Объект
Признак
Признак
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Проблемы:
Как хранить объект?
Отдельные записи не связаны между собой
Запись Ключ Значение
Ключ Значение
Ключ Значение
Как извлечь нужные признаки?
Не определена явно структура файлов
Том
Папка
Объект
? Признак Признак
Информатика. 1 семестр. Тема 12. IDEF1 и SQL
Современное решение:
Реляционные БД
Несколько атрибутов объединяются в запись с нужным количеством полей
Записи одинаковой структуры объединяются в таблицу
Таблица
|
Запись |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ключ* |
|
|
Значение |
|
|
|
Значение |
|
|
|
Значение |
|
|
|||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ключ* |
|
|
Значение |
|
|
|
Значение |
|
|
|
Значение |
|
|
|||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ключ* |
|
|
Значение |
|
|
|
Значение |
|
|
|
Значение |
|
|
|||||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Информатика. 1 семестр. Тема 12. IDEF1 и SQL