
- •16. Набор данных и их атрибутов
- •17. Измерения и шкалы
- •18. Типы наборов данных
- •19. Форматы хранения данных
- •20. Базы данных. Основные положения
- •21. Системы управления базами данных(субд)
- •22. Классификация видов данных
- •23. Метаданные
- •24. Принципы обработки и анализа данных
- •25. Структурированные данные
- •26. Подготовка данных к анализу и обработке
- •27. Технологии kdd и Data Mining (dm)
- •28. Аналитические платформы
- •29. Алгоритмы Data Mining
- •30. Консолидация данных
16. Набор данных и их атрибутов
По горизонтали таблицы располагаются атрибуты объекта или его признаки. По вертикали таблицы - объекты.
Объект описывается как набор атрибутов.
Объект также известен как запись, случай, пример, строка таблицы и т.д.
Атрибут - свойство, характеризующее объект.
Атрибут также называют переменной, полем таблицы, измерением, характеристикой.
17. Измерения и шкалы
Измерение - это процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу.
Шкала - это правило, в соответствии с которым объектам присваиваются числа. Существует пять типов шкал измерений:
номинальная - шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия. (Пример: профессии, город проживания, семейное положение. Операции: "равно" и "не равно")
порядковая - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними. (Пример: место (1, 2, 3-е), которое команда получила на соревнованиях, номер студента в рейтинге успеваемости (1-й, 23-й, и т.д.). Операции: "равно", "не равно", "больше" и "меньше")
интервальная - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. (Пример: температура воды в море утром - 19 градусов, вечером - 24, т.е. вечерняя на 5 градусов выше, но нельзя сказать, что она в 1,26 раз выше. Операции: "равно", "не равно", "больше", "меньше", "сложение" и "вычитание")
относительная - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. (Пример: вес новорожденного ребенка (4 кг и 3 кг). Первый в 1,33 раза тяжелее. Операции: "равно", "не равно", "больше", "меньше", "сложение", "вычитание", "умножение" и "деление")
дихотомическая - шкала, содержащая только две категории. (Пример: пол (мужской и женский))
18. Типы наборов данных
табличные данные
матричные данные
транзакционные - особый тип данных, где каждая запись является транзакцией, исключающей набор значений
графические данные
химические данные
19. Форматы хранения данных
текстовый - 18%
таблица в Excel - 9%
статистика - 4%
БД - 23%
20. Базы данных. Основные положения
База данных (Database) - это особым образом организованные и хранимые в электронном виде данные. БД убирает избыточность и противоречивость данных.
Целью создания баз данных является построение такой системы данных, которая бы не зависела от программного обеспечения, применяемых технических средств и физического расположения данных в ЭВМ. Построение такой системы данных должно обеспечивать непротиворечивую и целостную информацию. При проектировании базы данных предполагается многоцелевое ее использование.
База данных в простейшем случае представляется в виде системы двумерных таблиц.
Схема данных - описание логической структуры данных, специфицированное на языке описания данных и обрабатываемое СУБД.
Схема пользователя - зафиксированный для конкретного пользователя один вариант порядка полей таблицы.