
- •4.12.2. Помилки збору даних
- •4.12.3. Контроль якості зібраних даних
- •4.13.2. Види статистичного аналізу
- •4.13.2.1. Інструменти дескриптивного аналізу
- •4.13.2.2. Статистичний висновок
- •4.13.2.3. Аналіз відмінностей
- •4.13.2.4. Визначення та інтерпретація зв'язків між двома змінними
- •4.14. Підготовка заключного звіту про проведене дослідження
4.13.2.4. Визначення та інтерпретація зв'язків між двома змінними
Дуже часто маркетолог шукає відповіді на питання типу: «Чи збільшиться показник ринкової частки при збільшенні числа дилерів?», «Чи є зв'язок між обсягом збуту і рекламою?» Такі зв'язки не завжди мають причинно-наслідковий характер, а можуть мати просто статистичну природу. У поставлених питаннях можна виразно говорити про вплив одного фактора на інший. Однак ступінь впливу досліджуваних факторів може бути різною; швидше за все, вплив можуть надавати також якісь інші фактори. Виділяють чотири типи зв'язків між двома змінними: немонотонна, монотонна, лінійна і криволінійна.
Немонотонна зв'язок характеризується тим, що присутність (відсутність) однієї змінної систематично пов'язано з присутністю (відсутністю) іншої змінної, але нічого невідомо про направлення цієї взаємодії (чи приводить, наприклад, збільшення однієї змінної до збільшення або зменшення іншої). Наприклад, відомо, що відвідувачі закусочних в ранкові години воліють замовляти каву, а в середині дня - чай.
Немонотонна зв'язок просто показує, що ранкові відвідувачі віддають перевагу також замовляти яйця, бутерброди та бісквіти, а в обідній час швидше замовляють м'ясні страви з гарніром.
Монотонна зв'язок характеризується можливістю вказати тільки загальний напрямок зв'язку між двома змінними без використання яких-небудь кількісних характеристик. Не можна сказати, наскільки, наприклад, певне збільшення однієї змінної приводить до збільшення іншої змінної. Існують тільки два типи таких зв'язків: збільшення і зменшення. Наприклад, власникові взуттєвого магазину відомо, що більш дорослі діти зазвичай вимагають взуття бoльших розмірів. Однак неможливо чітко встановити зв'язок між конкретним віком і точним розміром взуття.
Лінійна зв'язок характеризує прямолінійну залежність між двома змінними. Знання кількісної характеристики однієї змінної автоматично зумовлює знання величини іншої змінної:
у = а + b х, (4.3)
де у - оцінювана чи прогнозована залежна змінна (результативна ознака);
а - вільний член рівняння;
b - коефіцієнт регресії, що вимірює середнє відношення відхилення результативної ознаки від його середньої величини до відхилення факторної ознаки від його середньої величини на одну одиницю його виміру - варіація у, що припадає на одиницю варіації х;
х - незалежна змінна (факторний ознака), використовувана для визначення залежної змінної.
Коефіцієнти а і b розраховуються на основі спостережень величин у і х за допомогою методу найменших квадратів [10].
Припустимо, що торговий агент продає дитячі іграшки, відвідуючи квартири випадковим чином. Відсутність відвідування якоїсь квартири означає відсутність продажу, або а = 0. Якщо в середньому кожен десятий візит супроводжується продажем на 62 долара, то вартість продажу на один візит складе 6,2 долара, або b = 6,2.
тоді
у = 0 + 6,2 х.
Таким чином, можна очікувати, що при 100 візитах доход складе 620 доларів. Треба пам'ятати, що ця оцінка не є обов'язковою, а носить імовірнісний характер.
Криволінійна зв'язок характеризує зв'язок між змінними, що носить більш складний характер порівняно з прямою лінією. Наприклад, зв'язок між змінними може описуватися 5-подібної кривої (див. розділ 7.3).
Залежно від свого типу зв'язок може бути охарактеризована шляхом визначення: її присутності (відсутності), напрямку і сили (тісноти) зв'язку.
Присутність характеризує наявність або відсутність систематичної зв'язку між двома досліджуваними змінними; воно має статистичну природу. Провівши випробування статистичної значущості, визначають, чи існує залежність між даними. Якщо результати дослідження відкидають нульову гіпотезу, це говорить про те, що залежність між даними існує.
У разі монотонних лінійних зв'язків останні можуть бути описані з точки зору їх спрямування - у бік збільшення або зменшення.
Зв'язок між двома змінними може бути сильною, помірною, слабкою або відсутнім. Сильна залежність характеризується високою ймовірністю існування зв'язку між двома змінними, слабка - малою ймовірністю.
Існують спеціальні процедури для визначення зазначених вище характеристик зв'язків. Спочатку треба вирішити, який тип зв'язків може існувати між двома досліджуваними змінними. Відповідь на це питання залежить від обраної шкали вимірювань.
Шкала низького рівня (найменувань) може відобразити тільки неточні зв'язку, в той час як шкала відносин, або інтервальна, - дуже точні зв'язку. Визначивши тип зв'язку (монотонна, немонотонна), треба встановити, чи існує цей зв'язок для генеральної сукупності в цілому. Для цього проводяться статистичні випробування.
Після того як знайдено, що для генеральної сукупності існує певний тип зв'язку, встановлюється її напрямок. Нарешті, необхідно встановити силу (тісноту) зв'язку.
Для визначення, існує чи ні немонотонна залежність, використовується таблиця спряженості двох змінних і критерій хі-квадрат. Як правило, критерій хі-квадрат застосовується для аналізу таблиць спряженості номінальних ознак, проте він може використовуватися і при аналізі взаємозв'язку порядкових, або інтервальних, змінних. Якщо, скажімо, було з'ясовано, що дві змінні не пов'язані один з одним, то їх подальшим дослідженням займатися не варто. Деякі вказівки на зв'язок швидше були обумовлені помилкою вибірки. Якщо ж тест на хі-квадрат вказав на зв'язок, то вона існує в реальності для генеральної сукупності і її, можливо, слід вивчати. Однак цей аналіз не вказує на характер зв'язку.
Припустимо, що вивчалася лояльність до певної марки пива серед службовців і робітників (двома змінними, виміряними в шкалі найменувань). Результати опитування затабуліровани в наступному вигляді (табл. 4.16).
^ Таблиця 4.16
Матриці спряженості частоти
Результати первісної табуляції
Початкові процентні дані (розподіл на 200)
Відсотки по колонках
Відсотки по рядах
покупці
Непокупателі
сума
службовці
95% (152)
5% (8)
100% (160)
робочі
35% (14)
65% (26)
100% (40)
сума
83% (166)
17% (34)
100% (200)
Перша з наведених матриць містить спостерігаються частоти, які порівнюються з очікуваними частотами, обумовленими як теоретичні частоти, що випливають з прийнятої гіпотези про відсутність зв'язку між двома змінними (виконується нульова гіпотеза). Величина відмінності спостережуваних частот від очікуваних виражається за допомогою величини х-квадрата. Остання порівнюється з її табличним значенням для обраного рівня значущості. Коли величина хі-квадрата мала, то нульова гіпотеза приймається, а отже, вважається, що дві змінні є незалежними і досліднику не варто витрачати час на з'ясування зв'язку між ними, оскільки зв'язок є результатом вибіркової помилки.
Повернемося до нашого прикладу і розрахуємо очікувані частоти, користуючись таблицею частот:
=
де fni - спостережувана частота в комірці i;
fai - очікувана частота в комірці i;
n - число осередків матриці.
З таблиці критичних значень х-квадрата випливає, що для ступеня свободи, рівної в нашому прикладі 1, і рівня значущості альфа = 0,05 критичне значення х-квадрата одно 3,841 [25]. Видно, що розрахункове значення х-квадрата істотно більше його критичного значення. Це говорить про існування статистично значущою зв'язку між родом діяльності та лояльністю до дослідженої марці пива, і не тільки для даної вибірки, а й для сукупності в цілому. З таблиці випливає, що головна зв'язок полягає в тому, що робітники купують пиво даної марки рідше порівняно зі службовцями.
Тіснота зв'язку та її напрямок визначаються шляхом розрахунку коефіцієнта кореляції, який змінюється від -1 до +1. Абсолютна величина коефіцієнта кореляції характеризує тісноту зв'язку, а знак вказує на її напрямок [10].
Спочатку визначається статистична значимість коефіцієнта кореляції. Безвідносно до його абсолютною величиною коефіцієнт кореляції, що не володіє статистичної значимістю, безглуздий. Статистична значимість перевіряється за допомогою нульової гіпотези, яка констатує, що для сукупності коефіцієнт кореляції дорівнює нулю. Якщо нульова гіпотеза відкидається, це означає, що коефіцієнт кореляції для вибірки є значимим і його значення для сукупності не дорівнюватиме нулю. Існують таблиці, за допомогою яких, для вибірки певного обсягу, можна визначити найменшу величину значущості для коефіцієнта кореляції.
Далі, якщо коефіцієнт кореляції виявився статистично значущим, за допомогою деякого загального правила «великого пальця» визначається сила зв'язку (табл. 4.17).
Таблиця 4.17
^ Сила зв'язку в залежності від величини коефіцієнта кореляції
коефіцієнт кореляції
сила зв'язку
Від ± 0, 81 до ± 1,00
сильна
Від ± 0,61 до ± 0, 80
помірна
Від ± 0,41 до ± 0,6
слабка
Від ± 0,21 до ± 0,4
дуже слабка
Від ± 0,00 до ± 0,19
відсутня
Розглянемо приклад.Досліджується можливий взаємозв'язок між сумарними продажами компанії на окремих двадцяти територіях і числом збутовиків, що здійснюють ці продажі.Билі розраховані середні величини продажів і середні квадратичні отклоненія.Средняя величина продажів склала 200 мільйонів доларів, а середньоквадратичне відхилення - 50 мільйонів долларов.Среднее число збутовиків дорівнювало 12 при середньому квадратичному відхиленні, рівному 4. для стандартизації отриманих чисел з метою проведення уніфікованих порівнянь обсяги продажів у кожному регіоні переводяться в величини середніх квадратичних відхилень від середньої величини для всіх регіонів (шляхом вирахування обсягу продажів для кожного регіону з середнього для регіонів обсягу продажів і ділення отриманих величин на середньоквадратичне відхилення). Такі ж розрахунки проводяться і для збутовиків, обслуговуючих різні регіони (рис. 4.7). З рис.4.7 видно, що дві лінії змінюються подібним образом.Це говорить про позитивну, дуже тісному зв'язку двох досліджуваних змінних.
Рис. 4.7.Корреляція между числом збутовиків та обсягами продажів
Вихідні дані у розглянутому прикладі також можливо уявити по-іншому (рис. 4.8). З рис.4.8 випливають відносно слабкий розкид точок (якби всі вони лягли на одну лінію, коефіцієнт кореляції дорівнював би +1) і досить великий кут нахилу уявної кривої, проведеної через ці точки, що говорить про сильний вплив чисельності збутовиків на обсяг продажів .
число збутовиків
^
Рис. 4.8.Завісімость обсягу продажів від числа збутовиків
Дані результати можна отримати також розрахунковим методом, використовуючи рівняння прямої лінії, розглянуте нами раніше, і використовуючи різні аналітичні методи, зокрема метод найменших квадратів.
Для визначення тісноти зв'язку змінних, виміряних в шкалі рангів, використовуються коефіцієнти кореляції рангів. У розділі для визначення ступеня узгодженості експертів використовується коефіцієнт рангової кореляції Кендела.