- •Задание.
- •План работы.
- •О реализации.
- •Общие данные.
- •Анализ глубины просмотра по каждой категории и в целом.
- •Гипотеза нормальности. Модифицированный критерий χ2.
- •Гипотеза экспоненциальности. Критерий Колмогорова-Смирнова.
- •Гипотеза симметричности. Быстрый критерий Кенуя.
- •Результат выполнения программы на Python:
- •Результат анализа данных в пакете Statgraphics.
- •Сводная таблица по разделам:
- •Выводы:
- •Регрессионные модели.
- •Сводный результат выполнения программы на Python.
- •Категория 14.
- •Линейная модель.
- •Мультипликативная модель.
- •Обратная по X модель.
- •Выводы:
- •Анализ связи между категориями. Корреляционный анализ.
- •Пример.
- •Приложение. Исходный код.
Выводы:
Все модели, построенные с помощью программы на Python, совпадают с моделями из пакета StatGraphics.
Наилучшей статистикой R-квадрат обладает обратная модель, затем мультипликативная и линейная.
В модели линейной регрессии нет статистически значимой связи между величинами, значит её можно отбросить.
Статистика Дарбина-Уотсона для мультипликативной и обратной модели показывает, что между остатками есть корреляция.
Анализ связи между категориями. Корреляционный анализ.
Исходные данные представляют собой двумерный массив (1, N), (1,17), заполненный единицами, если пользователь посетил хоть раз посетил раздел, или нулями, если не посетил.
Из всего набора данных оставим только тех пользователей, которые посещали более чем одну категорию (иначе само задание теряет смысл). Таких пользователей 388 434 (из исходных 989 818).
Эту выборку можно рассматривать как числовую, но в данном случае рассмотрим её как качественную с признаками A – посещение первой категории и B – посещение второй.
Построим таблицу сопряжённости для каждой из пар категорий.
a b
c d
a – количество пользователей, посетивших первую и вторую категорию.
b – посетивших только первую категорию
c – посетивших только вторую категорию
d – не посетивших ни одну из категорий.
Мерой связи выберем коэффициент контингенции (сходства). Он основан на формуле
Для проверки связи между признаками
используется величина
,
имеющая при отсутствии связи распределение
с 1 степенью свободы. Статистика критерия
контингенции имеет вид:
Если полученная статистика больше
,
то с достоверностью α связь признаётся
значимой.
Пример.
Рассмотрим взаимосвязь посещений категорий 2 (новости) и 16 (MS-новости).
Количество пользователей:
388 434
Таблица сопряжённости:
[601 118518]
[1225 268090]
Статистика :
4.25
Пороговое значение
:
3.85
Можно сделать вывод, что между посещением категорий «Новости» и «MS-новости» существует связь при уровне значимости 0.95.
Таблица корреляции для всех пар категорий (коэффициент контингенции).
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
2 |
7360 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
494 |
1473 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
2851 |
18.29 |
267 |
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
91.51 |
1205 |
510 |
1.13 |
|
|
|
|
|
|
|
|
|
|
|
|
6 |
13443 |
3397 |
1136 |
617 |
332 |
|
|
|
|
|
|
|
|
|
|
|
7 |
1857 |
1554 |
4712 |
7132 |
154 |
9898 |
|
|
|
|
|
|
|
|
|
|
8 |
11454 |
25.44 |
1316 |
213 |
0.28 |
89.77 |
22.32 |
|
|
|
|
|
|
|
|
|
9 |
29387 |
5360 |
2.73 |
2880 |
202 |
78.75 |
125 |
866 |
|
|
|
|
|
|
|
|
10 |
2098 |
3028 |
807 |
2.17 |
647 |
960 |
117 |
263 |
1526 |
|
|
|
|
|
|
|
11 |
5521 |
792 |
212 |
29.49 |
3036 |
357 |
1689 |
721 |
1410 |
1012 |
|
|
|
|
|
|
12 |
1987 |
141 |
437 |
537 |
0.61 |
4316 |
3853 |
1437 |
44.23 |
256 |
389 |
|
|
|
|
|
13 |
29388 |
12250 |
3529 |
1271 |
1115 |
2711 |
647 |
142 |
2060 |
3323 |
3122 |
3716 |
|
|
|
|
14 |
32.17 |
1349 |
1604 |
1817 |
126 |
7793 |
1800 |
712 |
3891 |
1220 |
54.85 |
574 |
21983 |
|
|
|
15 |
2484 |
141 |
120 |
688 |
4657 |
10815 |
156 |
137 |
1875 |
1900 |
425 |
393 |
1829 |
885 |
|
|
16 |
183 |
4.25 |
9.32 |
20.41 |
1049 |
38.26 |
1.79 |
0.24 |
109 |
34.52 |
5.24 |
11.66 |
37.36 |
157 |
122 |
|
17 |
2098 |
1177 |
520 |
29 |
257 |
233 |
39.68 |
0.85 |
825 |
849 |
9913 |
335 |
841 |
17.67 |
0.15 |
12.93 |
Таблица заполнена значениями коэффициента сходства для i-ой и j-ой категории.
Красным выделены элементы, коэффициент схосдтва которых меньше порогового значения, то есть нет статистически значимой (на уровне 0.95) связи между этими категориями.
Для примера жирным выделено уже посчитанное значение коэффициента сходства для 16 и 2 категории.
Вывод.
С помощью таблиц сопряжённости найден коэффициент контингенции для каждой пары категорий.
Практически все категории обладают статистически значимой связь.
Не обладают связью пары:
местное – новости.
местное – жизнь
технологии – здоровье
мнения – погода
мнения – спорт
разное – MS-новости
погода – MS-новости
погода – MS-спорт
путешествия – MS-спорт
Также по коэффициенту сходства можно для каждой категории можно узнать наиболее и наименее тесно связанную категорию.
-
Категория
Самая близкая
"Антипод"
1
Главная
Итоги
Объявления
2
Новости
Итоги
MS-новости
3
Технологии
Разное
Здоровье
4
Местное
Разное
Мнения
5
Мнения
Туризм
Погода
6
Прямой эфир
Главная
MS-новости
7
Разное
Прямой эфир
MS-новости
8
Погода
Главная
MS-новости
9
Здоровье
Главная
Технологии
10
Жизнь
Итоги
Местное
11
Бизнес
MS-спорт
MS-новости
12
Спорт
Прямой эфир
Мнения
13
Итоги
Главная
MS-новости
14
Объявления
Итоги
MS-спорт
15
Туризм
Прямой эфир
MS-спорт
16
MS-новости
Мнения
Мнения
17
MS-спорт
Бизнес
Туризм
