
- •Постановка задачи иад
- •Графический разведочный анализ данных
- •Анализ качественных данных:
- •Анализ количественных данных
- •Предварительный разведочный анализ данных
- •Результаты проверки гипотезы о согласии распределения выборочных данных
- •Расчет критерия хи-квадрат и рангового коэффициента корреляции Спирмена.
- •Корреляционные матрицы
- •Частные корреляционные матрицы
Анализ количественных данных
Категоризованная гистограмма для количественной переменной. В качестве группирующей переменной номер группы.
Рисунок 26 - Категоризированная гистограмма для переменных Группа и Возраст
В группе 1 преобладает возраст 20-25 лет. В группу 2 входят люди преимущественно в возрасте 35-40 лет.
Предполагаемый закон распределения для обеих групп – нормальный.
Категоризованная гистограмма, в качестве группирующих переменных номер группы и пол
Рисунок 27 - Категоризированная гистограмма для переменных Группа, Пол и Возраст
В группе 1 преобладают мужчины в возрасте 20-25 лет и женщины в возрасте 20-25 лет. В группе 2 преобладают мужчины 40-45 лет и женщины 35-40 лет.
В группе 2 явно выражен нормальный закон распределения. Для группы 1 сложно дать предварительную оценку закона распределения.
Матричный график
Рисунок 28 – Матричный график для переменных Возраст и Количество покупок за год
Переменные имеют сильный разброс и почти не связаны друг с другом, что можно видеть на диаграмме рассеяния. Данные неоднородны и содержат выбросы. Для переменной Возраст сложно определить закон распределения. Переменная Количество покупок за год напоминает нормальное распределение.
Рисунок 29 – Матричный график для переменных Количество обращений в службу поддержки за год и Степень удовлетворенности услугами
Переменные сильно разбросаны, но имеют некоторую связь друг с другом. Отрицательная гиперболическая корреляция Данные матричного графика для переменной Количество обращений в службу поддержки за год распределены по нормальному закону. Для переменной Степень удовлетворенности услугами сложно дать оценку о законе распределения. Частично похож на нормальный закон.
Рисунок 30 – Матричный график для переменных Количество покупок за год и Средняя стоимость покупок за год
Переменные имеют сильный разброс. Наблюдается положительная линейная корреляция.
Для переменных Количество покупок за год и Средняя стоимость покупок за год характерен нормальный закон распределения.
Рисунок 31 – Матричный график для переменных Среднее число просмотренных страниц и Степень удовлетворенности услугами
Наблюдается положительная линейная взаимосвязь между переменными.
Категоризированная диаграмма для тесно связанных переменных.
В качестве группирующей переменной – номер группы
Рисунок 32 – Категоризированная диаграмма рассеивания между переменными Среднее число просмотренных страниц Степень удовлетворенности услугами
Обе группы имеют положительную корреляцию. Общий вид функции регрессии – линейная. Имеются выбросы.
Предварительный разведочный анализ данных
Результаты проверки гипотезы о согласии распределения выборочных данных
Рисунок 33 – Проверка гипотезы о нормальном законе распределения по критерию согласия Хи-квадрат для переменной Возраст
Распределение выборки не соответствует нормальному закону распределения.
Рисунок 34 – Проверка гипотезы о нормальном законе распределения для переменной Количество покупок за год
Распределение выборки стремится к нормальному закону.
Рисунок 35 – Проверка гипотезы о нормальном законе распределения для переменной Средняя стоимость покупок за год
Гипотеза о распределении выборки по нормальному закону отвергается.
Рисунок 36 – Проверка гипотезы о нормальном законе распределения для переменной Среднее число страниц, просмотренных за визит
Гипотеза о согласии распределения выборочных данных с моделью нормального распределения подтверждается.
Рисунок 37 – Проверка гипотезы о нормальном законе распределения для переменной Количество обращений в службу поддержки за год
Гипотеза о нормальном законе распределения выборки потверждается.
Рисунок 38 – Проверка гипотезы о нормальном законе распределения для переменной Степень удовлетворенности услугами
Гипотеза о согласии распределения выбранных данных с моделью нормального распределения отвергается.
Вывод: выдвинутые нами гипотезы на этапе графического разведочного анализа о виде закона распределения переменных оказались верны.
Таблица основных статистических характеристик количественных переменных
Рисунок 39 – Таблица основных статических характеристик без разделения данных на группы
За 200 проведенных наблюдений для переменной Количество покупок за год были получены следующие результаты:
Среднее количество покупок - 30,87 . Чаще всего покупатели в год совершали 29 покупок. Количество таких покупателей – 22 . Среднее среди имеющихся значений – 30. Минимальное и максимальное количество покупок за год среди посетителей – 18 и 45 соответственно. 25% покупок - меньше 27 и 25% значений - больше 35. Разброс от среднего – 30,49. Распределение несимметрично относительно своего математического ожидания. «Длинная часть» кривой плотности расположена справа от её вершины. Пик распределения около математического ожидания гладкий.
Рисунок 40 – Таблица основных статических характеристик с разделением по группам 1-100
За первые 100 проведенных наблюдений для переменной Количество покупок за год были получены следующие результаты:
Среднее количество покупок - 27,76 . Больше всего покупок совершалось в количестве 29, количество таких покупателей – 13 . Среднее среди имеющихся значений – 28. Минимальное и максимальное количество покупок за год среди посетителей – 18 и 38 соответственно. 25% покупок - меньше 25 и 25% значений - больше 30,5. Разброс от среднего – 17,295. «Длинная часть» кривой плотности расположена справа от её вершины. Распределение имеет гладкую вершину.
Рисунок 41 – Таблица основных статических характеристик с разделением по группам 101-200
За вторые 100 проведенных наблюдений для переменной Количество покупок за год были получены следующие результаты:
Среднее количество покупок - 33,98 . Больше всего покупок совершалось в количестве 33, число таких покупателей – 12 . Среднее среди имеющихся значений – 34. Минимальное и максимальное количество покупок за год среди посетителей – 29 и 45 соответственно. 25% покупок - меньше 30 и 25% значений - больше 37,5. Разброс от среднего – 24,444. «Длинная часть» кривой плотности расположена слева от её вершины. Распределение имеет гладкую вершину.