Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика_Семестр1_Лекции / Informatika_2013_1_semestr_Tema_12_Bazy_dannykh.pptx
Скачиваний:
23
Добавлен:
05.06.2015
Размер:
600.4 Кб
Скачать

Университет машиностроения

Кафедра «Автоматика и процессы управления»

Дисциплина

Информационные технологии

1 семестр

Тема 22

Базы данных и СУБД

IDEF1x и язык SQL

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Big Data и Data Mining

Промышленные (Enterprize) базы данных:

Википедия (en) – 2,2 Гб (на март 2012 г.) [Только текст] Налоговая служба США – 150 Гб (на май 2008 г.) Торговая площадка EBay – 1,4 Пб (на май 2008 г.) Аналитическая система Yahoo – 2 Пб (на май 2008 г.)

Информационная ёмкость дата центра АНБ в штате ЮТА оценивается в 3-12 Эб (будет запущен в конце 2013 г.)

Типичные «единичные» объемы данных:

Простой текст – 10-100 кб (описания, веб-страницы) Изображения – 50 кб – 5 Мб (фотографии, оформление) Документы – 1 - 20 Мб Аудио-, видеоданные – 5 - 500 Мб

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Что такое Экзабайт?

 

 

 

Измерения в байтах

 

 

 

ГОСТ 8.417­2002

Приставки СИ

 

приставки МЭК

 

Название

Символ

Степень

Название

Степень

Название

Символ

Степень

Байт

Б

100

­

100

байт

B

Б

20

Килобайт

кБ

103

кило­

103

кибибайт

KiB

КиБ

210

мегабайт

МБ

106

мега­

106

мебибайт

MiB

МиБ

220

гигабайт

ГБ

109

гига­

109

гибибайт

GiB

ГиБ

230

терабайт

ТБ

1012

тера­

1012

тебибайт

TiB

ТиБ

240

петабайт

ПБ

1015

пета­

1015

пебибайт

PiB

ПиБ

250

Эксабайт

ЭБ

1018

экса­

1018

эксбибайт

EiB

ЭиБ

260

зеттабайт

ЗБ

1021

зетта­

1021

зебибайт

ZiB

ЗиБ

270

йоттабайт

ЙБ

1024

йотта­

1024

йобибайт

YiB

ЙиБ

280

Можно ли «пощупать» экзабайт?

Проект Sun и InternetArchive: Modular Datacenter – 3Пб

(3 145 728 Гб) в одном контейнере

Но нужно ли уметь обрабатывать экзабайты данных непосредственно?

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Миссия - обработать экзабайты

По последним исследованиям компании EMC, объем данных, сгенерированных в 2012 году составляет 2.8 зеттабайта (1021 байт) а к 2020 году эта цифра дорастет до 40 зеттабайт, что превосходит предыдущие прогнозы на 14%.

Можно смело констатировать, что мы уже столкнулись с «великим потопом данных» и одним из ответов на это является рост доли самых больших дата-центров, которые часто называют «мега-ЦОД» — их доля по разным оценкам составляет примерно 25% рынка современных серверов.

Ограничения вычислительных систем:

Быстродействие процессора – 10 GFLOPS Пропускная способность ЛВС – 1 Гб в секунду

Ограничения веб-приложений:

Apache + PHP – 16 Мб на один процесс

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Где нужны Big Data?

Поиск данных по шаблону (Google, Yandex, …)

Data Mining (поиск закономерностей в данных)

Случай в Миннеаполисе (штат Миннесота, округ Хеннепин) «Кажется, я упустил то, что происходит вокруг меня…»

Из воспоминаний Эндрю Поула, ведущего аналитика Target (весна 2003 г.)

Модель предсказания вектора покупательской активности позволяет продавать товары, о необходимости которых покупатель еще не задумывается, у него нет модели поведения, привычек и связанных (ассоциированных в сознании) брендов.

Создание новой связи и нового канала продаж – это самая суть лояльности в ритейле (розничной торговле).

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Что такое Data Mining?

Основной ценностью и предметом потребления в информационном обществе становится информация, а точнее знания. В настоящее время, объем накопленных данных в компаниях удваивается каждые 18 месяцев и период удваивания постоянно сокращается. Общий объем цифровых данных в мире на 2012 год составляет около 2.7 зеттабайта – это 27 и 20 нулей. Увеличение по сравнению с 2011 годом практически на 50%, и в двадцать раз больше, чем в 2005 году. К 2015 году прогнозирует общий объем данных в 0.8 йоттабайт – это 1024.

Big Data (в смысле Data Science) – это данные и технологии подчиняющиеся правилу «трех V»: Volume – объем;

Velocity – скорость; Variety – многообразие

Совсем не важно, но:

Вакансия аналитика в Связном: от 150 тыс. руб. Международная статистика:

140 тыс. вакансий (от 100 k$)

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Проблема долговременного хранения данных

Как сохранить значительный объем данных и получить доступ к его элементам спустя значительный промежуток времени?

Можно в ОЗУ (оперативный режим):

 

 

Массив

 

 

адресов

 

 

 

Имя

 

Адрес

 

 

Адрес

 

 

 

 

 

 

 

Адрес

 

 

 

 

 

 

Физический предел:

Heap (куча)

Объект Признак

Признак

Объект Признак

Признак

4 Гб (32-битная система)

16 Гб (стоимость и техническая сложность)

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Выход (?):

Можно создать внешние структурированные хранилища

Хэш (hash)

Массив пар

ключ-значение

Запись Ключ Значение

Ключ Значение

Ключ Значение

Файловая система

Иерархия объектов-файлов

Том

Папка

Объект

Признак

Признак

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Проблемы:

Как хранить объект?

Отдельные записи не связаны между собой

Запись Ключ Значение

Ключ Значение

Ключ Значение

Как извлечь нужные признаки?

Не определена явно структура файлов

Том

Папка

Объект

? Признак Признак

Информатика. 1 семестр. Тема 12. IDEF1 и SQL

Современное решение:

Реляционные БД

Несколько атрибутов объединяются в запись с нужным количеством полей

Записи одинаковой структуры объединяются в таблицу

Таблица

 

Запись

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ключ*

 

 

Значение

 

 

 

Значение

 

 

 

Значение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ключ*

 

 

Значение

 

 

 

Значение

 

 

 

Значение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ключ*

 

 

Значение

 

 

 

Значение

 

 

 

Значение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Информатика. 1 семестр. Тема 12. IDEF1 и SQL