Лекція 2.
В лекції докладно розглядається поняття даних. Пояснюється значення понять об'єкт та атрибут, вибірка, залежна і незалежна змінна. Докладно обговорюються типи шкал. Приводяться різні типи наборів даних. Коротко розглянуті поняття бази даних і СУБД.
1. Що таке дані?
У широкому розумінні дані являють собою факти, текст, графіки, рисунки, звуки, аналогові або цифрові відео сегменти.
Дані можуть бути отримані в результаті вимірів, експериментів, арифметичних і логічних операцій.
Дані повинні бути представлені у формі, придатній для зберігання, передачі та обробки.
Іншими словами, дані – це неопрацьований матеріал, надаваний постачальниками даних і використовуваний споживачами для формування інформації на основі даних.
Набір даних й їхніх атрибутів
У таблиці 2.1 представлена двомірна таблиця, що представляє собою набір даних.
Таблиця 2.1. Двомірна таблиця "об'єкт-атрибут"
|
Атрибути |
||||
Об'єкти |
Код клієнта |
Вік |
Родинний стан |
Доход |
Клас |
1 |
18 |
Single |
125 |
1 |
|
2 |
22 |
Married |
100 |
1 |
|
3 |
30 |
Single |
70 |
1 |
|
4 |
32 |
Married |
120 |
1 |
|
5 |
24 |
Divorced |
95 |
2 |
|
6 |
25 |
Married |
60 |
1 |
|
7 |
32 |
Divorced |
220 |
1 |
|
8 |
19 |
Single |
85 |
2 |
|
9 |
22 |
Married |
75 |
1 |
По горизонталі таблиці розташовуються атрибути об'єкта або його ознаки. По вертикалі таблиці – об'єкти.
Об'єкт описується як набір атрибутів.
Об'єкт також відомий як запис, випадок, приклад, рядок таблиці і т.д.
Атрибут – властивість, що характеризує об'єкт.
Наприклад: кольори ока людини, температура води і т.д.
Атрибут також називають змінною, полем таблиці, виміром, характеристикою.
У результаті операціоналізацій понять, тобто переходу від загальних категорій до конкретних величин, виходить набір змінних досліджуваного поняття.
Змінна (variable) – властивість або характеристика, загальна для всіх досліджуваних об'єктів, прояв якої може змінюватися від об'єкта до об'єкта.
Значення (value) змінної є проявом ознаки.
При аналізі даних, як правило, немає можливості розглянути всю сукупність об'єктів, що цікавить нас. Вивчення дуже великих обсягів даних є дорогим процесом, що вимагає більших часових витрат, а також неминуче приводить до помилок, пов'язаних з людським фактором.
Цілком достатньо розглянути деяку частину всієї сукупності, тобто вибірку, і одержати інформацію, що цікавить нас, на її підставі.
Однак розмір вибірки повинен залежати від різноманітності об'єктів, представлених у генеральній сукупності. У вибірці повинні бути представлені різні комбінації та елементи генеральної сукупності.
Генеральна сукупність (population) – вся сукупність досліджуваних об'єктів, що цікавить дослідника.
Вибірка (sample) – частина генеральної сукупності, певним способом відібрана з метою дослідження та одержання висновків про властивості і характеристики генеральної сукупності.
Параметри – числові характеристики генеральної сукупності.
Статистики – числові характеристики вибірки.
Часто дослідження ґрунтуються на гіпотезах. Гіпотези перевіряються за допомогою даних. Гіпотеза – припущення щодо параметрів сукупності об'єктів, що повинне бути перевірене на її частині.
Гіпотеза – частково обґрунтована закономірність знань, що служить або для зв'язку між різними емпіричними фактами, або для пояснення факту або групи фактів.
Приклад гіпотези: між показниками тривалості життя і якістю харчування є зв'язок. У цьому випадку метою дослідження може бути пояснення змін конкретної змінної, у цьому випадку – тривалості життя. Допустимо, існує гіпотеза, що залежна змінна (тривалість життя) змінюється залежно від деяких причин (якість харчування, спосіб життя, місце проживання і т.д.), які і є незалежними змінними.
Однак змінна споконвічно не є залежною або незалежною. Вона стає такою після формулювання конкретної гіпотези. Залежна змінна в одній гіпотезі може бути незалежної в іншій.
2. Виміри
Вимір – процес присвоєння чисел характеристикам досліджуваних об'єктів відповідно до певного правила.
У процесі підготовки даних виміряється не сам об'єкт, а його характеристики.
Шкала – правило, відповідно до якого об'єктам привласнюються числа.
Багато інструментів Data Mining при імпорті даних з інших джерел пропонують вибрати тип шкал для кожної змінної і/або вибрати тип даних для вхідних і вихідних змінних (символьні, числові, дискретні та безперервні). Користувачеві такого інструмента необхідно володіти цими поняттями.
Змінні можуть бути числовими даними або символьними.
Числові дані, у свою чергу, можуть бути дискретними й безперервними.
Дискретні дані є значеннями ознаки, загальне число яких скінчене або безмежне, але може бути підраховане за допомогою натуральних чисел від одного до безмежності.
Приклад дискретних даних. Тривалість маршруту тролейбуса (кількість варіантів тривалості звичайно): 10, 15, 25 хв.
Безперервні дані – дані, значення яких можуть приймати яке завгодно значення в деякому інтервалі. Вимір безперервних даних припускає велику точність.
Приклад безперервних даних: температура, висота, вага, довжина і т.д.
Шкали
Існує п'ять типів шкал вимірів: номінальна, порядкова, інтервальна, відносна і дихотомічна.
Номінальна шкала (nominal scale) – шкала, що містить тільки категорії; дані в ній не можуть упорядковуватися, з ними не можуть бути зроблені ніякі арифметичні дії.
Номінальна шкала складається з назв, категорій, імен для класифікації і сортування об'єктів або спостережень по деякій ознаці.
Приклад такої шкали: професії, місто проживання, родинний стан.
Для цієї шкали застосовні тільки такі операції: дорівнює (=), не дорівнює ().
Порядкова шкала (ordinal scale) – шкала, у якій числа присвоюють об'єктам для позначення відносної позиції об'єктів, але не величини розходжень між ними.
Шкала вимірів дає можливість ранжувати значення змінних. Виміри у порядковій шкалі містять інформацію тільки про порядок проходження величин, але не дозволяють сказати "наскільки одна величина більше іншої", або "наскільки вона менше іншої".
Приклад такої шкали: місце (1, 2, 3-е), що команда одержала на змаганнях, номер студента в рейтингу успішності (1-й, 23-й, і т.д.), при цьому невідомо, наскільки один студент успішніший за іншого, відомий лише його номер у рейтингу.
Для цієї шкали застосовуються тільки такі операції: дорівнює (=), не дорівнює (), більше (>), менше (<).
Інтервальна шкала (interval scale) – шкала, різниці між значеннями якої можуть бути обчислені, однак їхні відношення не мають змісту.
Ця шкала дозволяє знаходити різницю між двома величинами, має властивості номінальної та порядкової шкал, а також дозволяє визначити кількісну зміну ознаки.
Приклад такої шкали: температура води у морі зранку – 19 градусів, увечері – 24, тобто вечірня на 5 градусів вище, але не можна сказати, що вона в 1,26 разів вище.
Номінальна і порядкова шкали є дискретними, а інтервальна шкала – неперервною, вона дозволяє здійснювати точні виміри ознаки і робити арифметичні операції додавання (+), віднімання (–), множення (*), ділення (/).
Для цієї шкали застосовуються тільки такі операції: дорівнює (=), не дорівнює (), більше (>), менше (<), операції додавання (+) і віднімання (–).
Відносна шкала (ratio scale) – шкала, у якій є певна точка відліку та можливі відносини між значеннями шкали.
Приклад такої шкали: вага новонародженої дитини (4 кг й 3 кг). Перший в 1,33 рази важчий.
Ціна на картоплю у супермаркеті в 1,2 рази вища, від ціни на базарі.
Відносні та інтервальні шкали є числовими.
Для цієї шкали застосовуються тільки такі операції: дорівнює (=), не дорівнює (), більше (>), менше (<), операції додавання (+) і віднімання (–), множення (*) і ділення (/).
Дихотомічна шкала (dichotomous scale) – шкала, що містить тільки дві категорії.
Приклад такої шкали: стать (чоловіча та жіноча).
Приклад використання різних шкал для вимірів властивостей різних об'єктів, у цьому випадку температурних умов, наведений у таблиці даних, зображеної в таблиці 2.2.
Таблиця 2.2. Безліч вимірів властивостей різних об'єктів
Номер об'єкта |
Професія (номінальна шкала) |
Середній бал (інтервальна шкала) |
Освіта (порядкова шкала) |
1 |
слюсар |
22 |
середня |
2 |
вчений |
55 |
вища |
3 |
вчитель |
47 |
вища |
Приклад використання різних шкал для вимірів властивостей однієї системи, у цьому випадку температурних умов, наведено у таблиці даних, зображеної в таблиці 2.3.
Таблиця 2.3. Безліч вимірів властивостей однієї системи
Дата виміру |
Хмарність (номінальна шкала) |
Температура у 8 годині ранку (інтервальна шкала) |
Сила вітру (порядкова шкала) |
1 вересня |
хмарно |
22С |
Вітер сильний |
2 вересня |
похмуро |
17С |
Вітер слабкий |
3 вересня |
ясно |
23С |
Вітер дуже сильний |
Висновки. У цій частині лекції ми розглянули поняття даних, об'єкта та атрибута, їхньої характеристики.
Також ми обговорили типи шкал. Номінальна шкала описує об'єкти або спостереження в термінах якісних ознак. На один крок далі йдуть порядкові шкали, що дозволяють упорядковувати спостереження або об'єкти по певній характеристиці. Інтервальні та відносні шкали більш складні, у них можливе визначення кількісного значення ознаки.