Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Попова О.А. Управление данных.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
782.85 Кб
Скачать

Министерство образования и науки Российской Федерации

Сибирский федеральный университет

Управление данными

Учебно-методическое пособие

Красноярск

СФУ

2012

УДК 004.65

У

Составитель О.А. Попова

Управление данными: учебно-методическое пособие [Текст] / сост. О.А.Попова. – Красноярск: Сиб. федер. ун-т, 2012. – 107 с.

В учебном пособии изложены основные разделы теории управления данными и ее приложения к информационным системам. Пособие написано в соответствии с требованиями государственных стандартов, предъявляемых к дисциплине «Управление данными». Предназначено для студентов и магистров, обучающихся по специальностям: 230201.65 Информационные системы и технологии, по направлениям 230200.62 «Информационные системы» 230100.68 «Информатика и вычислительная техника», 230400.62 «Информационные системы и технологии», 230400.68 «Информационные системы и технологии» всех форм обучения.

УДК 004.65

Сибирский

федеральный

университет, 2012

ОГЛАВЛЕНИЕ

Введение 3

  1. Базы и банки данных 6

1.1. Информация, данные, знания 6

1.2. Базы данных 8 1.3. Банки данных 9

1.4. Преимущества Банка данных 12

1.5. Языковые средства Банка данных 13

1.6. Классификация языковых средств 14

1.7. Технические средства банка данных 20

1.8. Пользователи банков данных 21

1.9. Администраторы банка данных 22

2. Модели и структуры баз данных 29

2.1. Инфологическая модель 29

2.2. Понятие модели данных 32

2.3. Иерархическая структура и модель данных 33

2.4. Сетевая структура БД 34

2.5. Реляционные базы данных 35

2.6. Диаграмма «сущность-связь» Чена 38

2.7. Объектно-ориентированные базы даны 38

2.8. Нормализация БД 39

2.9 Об эволюции и многообразии моделей данных 42 3. Технология «хранилище данных» 47

3.1. Концепция хранилища данных 47

3.2. Витрины данных 48

3.3. Категории данных в хранилище данных 55

3.4. Метаданные 57

3.5. Потоки данных 58

3.6. ETL – процесс 59

3.7. Преобразование данных 60

3.8. Загрузка и очистка данных 61

3.9. Выявление проблем в данных 62

4. Технологии управления данными 69

4.1. OLTP – системы 70

4.2. Многомерные модели данных 74

4.3. OLAP – системы 78

5. Технологии интеллектуального анализа данных 87

5.1. Методология анализа данных 87

5.2. Технология Data Mining 94

5.3. Технология KDD 101

6. Лабораторные работы . рекомендации к выполнению 105

Литература 106

Введение

Повсеместное использование компьютеров привело к пониманию важности задач, связанных с управлении ем данными. Управление данными (data management) — процесс, связанный с накоплением, организацией, запоминанием, обновлением, хранением данных и поиском информации. Анализ данных, моделирование данных,управление базами данных, работа с хранилищами данных, извлечение, преобразование и загрузка данных, добыча данных, обеспечение качества данных, защита данных, управление метаданными (репозиториями данных), архитектура данных вот тот далеко неполный перечень основных вопросов, который лежит в сфере интересов управления данными.

Теперь компьютеры могут хранить все формы информации: записи, документы, изображения, аудио- и видеозаписи, научные данные и много новых форматов данных. Общество добилось больших успехов в получении, хранении, управлении, анализе и визуализации данных. Обобщенно эти задачи называются управлением данными. Системы управления данными обычно хранят громадные объемы данных, представляющих исторические записи организации. Размеры этих баз данных бурно растут. Важно то, что старые данные и приложения продолжают работать при добавлении новых данных и приложений. Системы постоянно изменяются. Действительно, большая часть крупных систем баз данных была разработана несколько десятков лет тому назад и развивалась вместе с развитием технологии. Взгляд в историю помогает понять текущие системы. В управлении данными имелось шесть разных фаз. Вначале данные обрабатывались вручную. На следующем шаге использовались оборудование с перфокартами и электромеханические машины для сортировки и табулирования миллионов записей. На третьей фазе данные хранились на магнитных лентах, и сохраняемые программы выполняли пакетную обработку последовательных файлов. На четвертой фазе было введено понятия схемы базы данных и оперативного навигационного доступа к данным, созданы первые реляционные базы данных и архитектура клиент-сервер (1980-1995). На пятой фазе был разработан и применен автоматический доступ к реляционным базам данным и была внедрена распределенная и клиент-серверная обработка, началось использование мультимедийных баз данных» (1995). Теперь мы находимся в начале шестого поколения систем, которые хранят разнообразные типы данных, в особенности, документы, изображения, аудио- и видеоданные. Эти системы шестого поколения представляют собой базовые средства хранения для появляющихся приложений Internet и intranet.

Пособие, в первую очередь, предназначена для бакалавров и магистров, обучающихся по направлению "Информационные системы". Книга будет полезна специалистам, занимающимся обработкой, анализом экспериментальных данных, а также проблемой извлечения знаний из баз больших объемов. В основу книги легли материалы, применяемые автором при преподавании таких дисциплин как «Обработка экспериментальных данных», «Компьютерные системы поддержки принятия решений», «Надежность информационных систем» для студентов и аспирантов компьютерных и инженерных специальностей. Поэтому пособие может быть использовано как для самостоятельного изучения предмета. Для этого в нем имеются вопросы для самопроверки, домашние задания, содержание лабораторных работ, вопросы к экзамену.