Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекція2.doc
Скачиваний:
4
Добавлен:
02.05.2019
Размер:
143.87 Кб
Скачать

Лекція 2.

В лекції докладно розглядається поняття даних. Пояснюється значення понять об'єкт та атрибут, вибірка, залежна і незалежна змінна. Докладно обговорюються типи шкал. Приводяться різні типи наборів даних. Коротко розглянуті поняття бази даних і СУБД.

1. Що таке дані?

У широкому розумінні дані являють собою факти, текст, графіки, рисунки, звуки, аналогові або цифрові відео сегменти.

Дані можуть бути отримані в результаті вимірів, експериментів, арифметичних і логічних операцій.

Дані повинні бути представлені у формі, придатній для зберігання, передачі та обробки.

Іншими словами, дані – це неопрацьований матеріал, надаваний постачальниками даних і використовуваний споживачами для формування інформації на основі даних.

Набір даних й їхніх атрибутів

У таблиці 2.1 представлена двомірна таблиця, що представляє собою набір даних.

Таблиця 2.1. Двомірна таблиця "об'єкт-атрибут"

Атрибути

Об'єкти

Код клієнта

Вік

Родинний стан

Доход

Клас

1

18

Single

125

1

2

22

Married

100

1

3

30

Single

70

1

4

32

Married

120

1

5

24

Divorced

95

2

6

25

Married

60

1

7

32

Divorced

220

1

8

19

Single

85

2

9

22

Married

75

1

По горизонталі таблиці розташовуються атрибути об'єкта або його ознаки. По вертикалі таблиці – об'єкти.

Об'єкт описується як набір атрибутів.

Об'єкт також відомий як запис, випадок, приклад, рядок таблиці і т.д.

Атрибут – властивість, що характеризує об'єкт.

Наприклад: кольори ока людини, температура води і т.д.

Атрибут також називають змінною, полем таблиці, виміром, характеристикою.

У результаті операціоналізацій понять, тобто переходу від загальних категорій до конкретних величин, виходить набір змінних досліджуваного поняття.

Змінна (variable) – властивість або характеристика, загальна для всіх досліджуваних об'єктів, прояв якої може змінюватися від об'єкта до об'єкта.

Значення (value) змінної є проявом ознаки.

При аналізі даних, як правило, немає можливості розглянути всю сукупність об'єктів, що цікавить нас. Вивчення дуже великих обсягів даних є дорогим процесом, що вимагає більших часових витрат, а також неминуче приводить до помилок, пов'язаних з людським фактором.

Цілком достатньо розглянути деяку частину всієї сукупності, тобто вибірку, і одержати інформацію, що цікавить нас, на її підставі.

Однак розмір вибірки повинен залежати від різноманітності об'єктів, представлених у генеральній сукупності. У вибірці повинні бути представлені різні комбінації та елементи генеральної сукупності.

Генеральна сукупність (population) – вся сукупність досліджуваних об'єктів, що цікавить дослідника.

Вибірка (sample) – частина генеральної сукупності, певним способом відібрана з метою дослідження та одержання висновків про властивості і характеристики генеральної сукупності.

Параметри – числові характеристики генеральної сукупності.

Статистики – числові характеристики вибірки.

Часто дослідження ґрунтуються на гіпотезах. Гіпотези перевіряються за допомогою даних. Гіпотеза – припущення щодо параметрів сукупності об'єктів, що повинне бути перевірене на її частині.

Гіпотеза – частково обґрунтована закономірність знань, що служить або для зв'язку між різними емпіричними фактами, або для пояснення факту або групи фактів.

Приклад гіпотези: між показниками тривалості життя і якістю харчування є зв'язок. У цьому випадку метою дослідження може бути пояснення змін конкретної змінної, у цьому випадку – тривалості життя. Допустимо, існує гіпотеза, що залежна змінна (тривалість життя) змінюється залежно від деяких причин (якість харчування, спосіб життя, місце проживання і т.д.), які і є незалежними змінними.

Однак змінна споконвічно не є залежною або незалежною. Вона стає такою після формулювання конкретної гіпотези. Залежна змінна в одній гіпотезі може бути незалежної в іншій.

2. Виміри

Вимір – процес присвоєння чисел характеристикам досліджуваних об'єктів відповідно до певного правила.

У процесі підготовки даних виміряється не сам об'єкт, а його характеристики.

Шкала – правило, відповідно до якого об'єктам привласнюються числа.

Багато інструментів Data Mining при імпорті даних з інших джерел пропонують вибрати тип шкал для кожної змінної і/або вибрати тип даних для вхідних і вихідних змінних (символьні, числові, дискретні та безперервні). Користувачеві такого інструмента необхідно володіти цими поняттями.

Змінні можуть бути числовими даними або символьними.

Числові дані, у свою чергу, можуть бути дискретними й безперервними.

Дискретні дані є значеннями ознаки, загальне число яких скінчене або безмежне, але може бути підраховане за допомогою натуральних чисел від одного до безмежності.

Приклад дискретних даних. Тривалість маршруту тролейбуса (кількість варіантів тривалості звичайно): 10, 15, 25 хв.

Безперервні дані – дані, значення яких можуть приймати яке завгодно значення в деякому інтервалі. Вимір безперервних даних припускає велику точність.

Приклад безперервних даних: температура, висота, вага, довжина і т.д.

Шкали

Існує п'ять типів шкал вимірів: номінальна, порядкова, інтервальна, відносна і дихотомічна.

Номінальна шкала (nominal scale) – шкала, що містить тільки категорії; дані в ній не можуть упорядковуватися, з ними не можуть бути зроблені ніякі арифметичні дії.

Номінальна шкала складається з назв, категорій, імен для класифікації і сортування об'єктів або спостережень по деякій ознаці.

Приклад такої шкали: професії, місто проживання, родинний стан.

Для цієї шкали застосовні тільки такі операції: дорівнює (=), не дорівнює ().

Порядкова шкала (ordinal scale) – шкала, у якій числа присвоюють об'єктам для позначення відносної позиції об'єктів, але не величини розходжень між ними.

Шкала вимірів дає можливість ранжувати значення змінних. Виміри у порядковій шкалі містять інформацію тільки про порядок проходження величин, але не дозволяють сказати "наскільки одна величина більше іншої", або "наскільки вона менше іншої".

Приклад такої шкали: місце (1, 2, 3-е), що команда одержала на змаганнях, номер студента в рейтингу успішності (1-й, 23-й, і т.д.), при цьому невідомо, наскільки один студент успішніший за іншого, відомий лише його номер у рейтингу.

Для цієї шкали застосовуються тільки такі операції: дорівнює (=), не дорівнює (), більше (>), менше (<).

Інтервальна шкала (interval scale) – шкала, різниці між значеннями якої можуть бути обчислені, однак їхні відношення не мають змісту.

Ця шкала дозволяє знаходити різницю між двома величинами, має властивості номінальної та порядкової шкал, а також дозволяє визначити кількісну зміну ознаки.

Приклад такої шкали: температура води у морі зранку – 19 градусів, увечері – 24, тобто вечірня на 5 градусів вище, але не можна сказати, що вона в 1,26 разів вище.

Номінальна і порядкова шкали є дискретними, а інтервальна шкала – неперервною, вона дозволяє здійснювати точні виміри ознаки і робити арифметичні операції додавання (+), віднімання (–), множення (*), ділення (/).

Для цієї шкали застосовуються тільки такі операції: дорівнює (=), не дорівнює (), більше (>), менше (<), операції додавання (+) і віднімання (–).

Відносна шкала (ratio scale) – шкала, у якій є певна точка відліку та можливі відносини між значеннями шкали.

Приклад такої шкали: вага новонародженої дитини (4 кг й 3 кг). Перший в 1,33 рази важчий.

Ціна на картоплю у супермаркеті в 1,2 рази вища, від ціни на базарі.

Відносні та інтервальні шкали є числовими.

Для цієї шкали застосовуються тільки такі операції: дорівнює (=), не дорівнює (), більше (>), менше (<), операції додавання (+) і віднімання (–), множення (*) і ділення (/).

Дихотомічна шкала (dichotomous scale) – шкала, що містить тільки дві категорії.

Приклад такої шкали: стать (чоловіча та жіноча).

Приклад використання різних шкал для вимірів властивостей різних об'єктів, у цьому випадку температурних умов, наведений у таблиці даних, зображеної в таблиці 2.2.

Таблиця 2.2. Безліч вимірів властивостей різних об'єктів

Номер об'єкта

Професія

(номінальна шкала)

Середній бал

(інтервальна шкала)

Освіта

(порядкова шкала)

1

слюсар

22

середня

2

вчений

55

вища

3

вчитель

47

вища

Приклад використання різних шкал для вимірів властивостей однієї системи, у цьому випадку температурних умов, наведено у таблиці даних, зображеної в таблиці 2.3.

Таблиця 2.3. Безліч вимірів властивостей однієї системи

Дата виміру

Хмарність

(номінальна шкала)

Температура у 8 годині ранку

(інтервальна шкала)

Сила вітру

(порядкова шкала)

1 вересня

хмарно

22С

Вітер сильний

2 вересня

похмуро

17С

Вітер слабкий

3 вересня

ясно

23С

Вітер дуже сильний

Висновки. У цій частині лекції ми розглянули поняття даних, об'єкта та атрибута, їхньої характеристики.

Також ми обговорили типи шкал. Номінальна шкала описує об'єкти або спостереження в термінах якісних ознак. На один крок далі йдуть порядкові шкали, що дозволяють упорядковувати спостереження або об'єкти по певній характеристиці. Інтервальні та відносні шкали більш складні, у них можливе визначення кількісного значення ознаки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]