Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекція8.doc
Скачиваний:
10
Добавлен:
02.05.2019
Размер:
185.34 Кб
Скачать

Лекція присвячена основам аналізу даних, розглянуті основні характеристики описової статистики, коротко викладена суть кореляційного і регресійного аналізу. Наведені приклади розв'язання задач в Microsoft Excel.

У цій лекції ми розглянемо деякі аспекти статистичного аналізу даних, зокрема, описову статистику, кореляційний і регресійний аналізи. Статистичний аналіз включає велику різноманітність методів, навіть для поверхневого знайомства з якими об'єму однієї лекції дуже мало. Мета даної лекції – дати найзагальніше уявлення про поняття кореляції, регресію, а також познайомитися з описовою статистикою. Приклади, розглянуті в лекції, навмисно спрощені.

Існує велика різноманітність прикладних пакетів, що реалізовують широкий спектр статистичних методів, їх також називають універсальними пакетами або інструментальними наборами. Про такі набори ми детально поговоримо в останньому розділі курсу. У Microsoft Excel також реалізований широкий арсенал методів математичної статистики, реалізація прикладів даної лекції продемонстрована саме на цьому програмному забезпеченні.

Слід зауважити, що існує складність використання статистичних методів, так само як і статистичного програмного забезпечення, – для цього користувачеві необхідні спеціальні знання.

Аналіз даних в Microsoft Excel

Microsoft Excel має велике число статистичних функцій. Деякі є вбудованими, деякі доступні після установки пакету аналізу. У даній лекції ми скористаємося саме цим програмним забезпеченням.

Звернення до Пакету аналізу. Засоби, включені в пакет аналізу даних, доступні через команду Анализ данных меню Сервис. Якщо ця команда відсутня в меню, в меню Сервис/Надстройки необхідно активувати пункт "Пакет анализа".

Далі ми розглянемо деякі інструменти, включені в Пакет аналізу.

Описова статистика

Описова статистика (Descriptive statistics ) – техніка збору і підсумовування кількісних даних, яка використовується для перетворення маси цифрових даних на форму, зручну для сприйняття і обговорення.

Мета описової статистики – узагальнити первинні результати, отримані в результаті спостережень і експериментів.

Нехай даний набір даних А, представлений в таблиці 8.1.

Таблиця 8.1. Набор даних А

x

y

3

9

2

7

4

12

5

15

7

19

8

21

9

23,4

10

25,6

11

27,8

Вибравши в меню Сервис "Пакет анализа" і вибравши інструмент аналізу "Описательная статистика", отримуємо одновимірний статистичний звіт, що містить інформацію про центральну тенденцію і мінливість або варіацію вхідних даних.

До складу описової статистики входять такі характеристики: среднее; стандартная ошибка; медиана; мода; стандартное отклонение; дисперсия выборки; эксцесс; асимметричность; интервал; минимум; максимум; сумма; счет.

Звіт "Описательная статистика" для двох змінних їх набору даних А наведений в таблиці 8.2.

Таблиця 8.2. Описательная статистика для набору даних А

X

y

Среднее

6,5

17,68

Стандартная ошибка

0,957427108

2,210922382

Медиана

6,5

18

Стандартное отклонение

3,027650354

6,991550456

Дисперсия выборки

9,166666667

48,88177778

Эксцесс

-1,2

-1,106006058

Асимметричность

0

-0,128299221

Интервал

9

20,8

Минимум

2

7

Максимум

11

27,8

Сумма

65

176,8

Счет

10

10

Наибольший (1)

11

27,8

Наименьший (1)

2

7

Уровень надежности (95,0%)

2,16585224

5,001457714

Розглянемо, що ж є характеристиками описательной статистики.

2. Центральна тенденція

Вимірювання центральної тенденції полягає у виборі числа, яке найкращим способом описує всі значення ознаки набору даних. Таке число має як свої переваги, так і недоліки. Ми розглянемо дві характеристики цього розрахунку, а саме: середнє значення і медіану, ці поняття використовуватимуться нами в подальших лекціях.

Головна мета середнього – представлення набору даних для подальшого аналізу, зіставлення та порівняння.

Значення середнього легко обчислюється і може бути використане для подальшого аналізу. Воно може бути обчислене для даних, що вимірюються за інтервальною шкалою, і для деяких даних, що вимірюються за порядковою шкалою. Середнє значення розраховується як середнє арифметичне набору даних: сума всіх значень вибірки, що ділиться на об'єм вибірки. "Стискуючи" дані таким чином, ми втрачаємо багато інформації.

Середнє значення дуже інформативно і дозволяє робити висновок відносно всього досліджуваного набору даних. За допомогою середнього ми дістаємо можливість порівнювати декілька наборів даних або їх частин.

При аналізі даних середнім не слід зловживати, необхідно враховувати його властивості та обмеження. Відомі характеристики "середня температура по лікарні" або "середня висота будинку", що показують некоректність використання цієї міри центральної тенденції для деяких випадків.

Властивості середнього

  • При розрахунку середнього не допускаються пропущені значення даних.

  • Середнє може обчислюватися лише для числових даних і для дихотомічних шкал.

  • Для одного набору даних може бути розраховано одне і лише одне значення середнього.

Інформативність середнього значення змінної висока, якщо відомий її довірчий інтервал. Довірчим інтервалом для середнього значення є інтервал значень довкола оцінки, де з даним рівнем довіри знаходиться "істинне" середнє популяції. Обчислення довірчих інтервалів ґрунтується на припущенні нормальності спостережуваних величин.

Ширина довірчого інтервалу залежить від розміру вибірки і від розкиду даних.

Із збільшенням розміру вибірки точність оцінки середнього зростає. Із збільшенням розкиду значень вибірки надійність середнього падає. Якщо розмір вибірки чималий, якість середнього збільшується незалежно від виконання припущення нормальності вибірки.

Медіана – точна середина вибірки, яка ділить її на дві рівні частини по числу спостережень.

Обов'язковою умовою знаходження медіани є впорядкованість вибірки.

Таким чином, для непарної кількості спостережень медіаною виступає спостереження з номером (n + 1) /2, де n – кількість спостережень у вибірці.

Для парного числа спостережень медіаною є середнє значення спостережень n/2 і (n + 2) /2.

Деякі властивості медіани

  • Для одного набору даних може бути розраховано одне і лише одне значення медіани.

  • Медіана може бути розрахована для неповного набору даних, для цього необхідно знати номери спостережень по порядку, загальну кількість спостережень і декілька значень в середині набору даних.

Характеристики варіації даних

Найбільш простими характеристиками вибірки є максимум і мінімум.

Мінімум – найменше значення вибірки.

Максимум – найбільше значення вибірки.

Розмах – різниця між найбільшим і найменшим значеннями вибірки.

Дисперсія – середнє арифметичне квадратів відхилень значень від їх середнього.

Стандартне відхилення – квадратний корінь з дисперсії вибірки – міра того, наскільки широко розкидані точки даних відносно їх середнього.

Ексцес показує "гострота піку" розподілу, характеризує відносну гостроту або згладження розподілу в порівнянні з нормальним розподілом. Позитивний ексцес показує відносно загострений розподіл (пік загострений). Негативний ексцес показує відносно згладжений розподіл (пік закруглений).

Якщо ексцес істотно відрізняється від нуля, то розподіл має або більш закруглений пік, ніж нормальний, або, навпаки, має гостріший пік (можливо, є декілька піків). Ексцес нормального розподілу дорівнює нулю.

Асиметрія або асиметричність показує відхилення розподілу від симетричного. Якщо асиметрія істотно відрізняється від нуля, то розподіл несиметричний, нормальний розподіл абсолютно симетричний. Якщо розподіл має довгий правий хвіст, асиметрія позитивна; якщо довгий лівий хвіст – негативна.

Викиди (outliers) – дані, що різко відрізняються від основного числа даних.

При виявленні викидів перед дослідником стоїть дилема: залишити спостереження-викиди або від них відмовитися. Другий варіант вимагає серйозної аргументації та опису. Корисним буде провести аналіз даних з викидами та без і порівняти результати.

Слід пам'ятати, що при вживанні класичних методів статистичного аналізу, які, як правило, не є стійкими, наявність викидів в наборі даних приводить до некоректних результатів. Якщо набір даних відносно малий, виключення даних, яке вважається викидами, може помітно вплинути на результати аналізу.

Наявність викидів в наборі даних може бути пов'язане з появою так званих "зрушених" значень, пов'язаних з систематичною помилкою, помилок вводу, помилок збору даних і так далі Інколи до викидів можуть відноситися найменші і найбільші значення набору даних.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]