Назаметдинов Анализ данных 2012
.pdfМинистерство образования и науки Российской Федерации
Национальный исследовательский ядерный университет «МИФИ»
Ш.У. Низаметдинов, В.П. Румянцев
АНАЛИЗ ДАННЫХ
Рекомендовано УМО «Ядерные физика и технологии» в качестве учебного пособия
для студентов высших учебных заведений
Москва 2012
УДК 519.2(075)
ББК 22.17я7 Н61
Низаметдинов Ш.У. , Румянцев В.П. Анализ данных: учебное пособие. М. НИЯУ МИФИ, 2012. 288 с.
Рассматриваются методы решения основных задач анализа данных: выявление и описание связей признаков, измеренных в количественных и качественных шкалах. Излагаются основы теории измерений, классический регрессионный, корреляционный и дисперсионный анализы, анализ временных рядов, а также кластерный анализ, факторный анализ, анализ главных компонент, многомерное шкалирование, интеллектуального анализа данных.
Пособие предназначено для студентов, обучающихся по специальностям «прикладная математика и информатика» (специализация «математическое и информационное обеспечение экономической деятельности»), «прикладная информатика в экономике», изучающим курс эконометрики, и может быть полезно для студентов других специальностей, сталкивающихся с проблемами анализа эмпирических данных.
Подготовлено в рамках Программы создания и развития НИЯУ МИФИ.
Рецензенты: Меркулов В.Н., канд. техн. наук, профессор РГГУ; Косачев Ю.В., д-р экон. наук ВЦ РАН
ISBN 978-5-7262-1687-4 © Национальный исследовательский ядерный университет «МИФИ», 2012
ОГЛАВЛЕНИЕ |
|
ВВЕДЕНИЕ ............................................................................................ |
8 |
1. ШКАЛЫ ИЗМЕРЕНИЙ .................................................................. |
12 |
1.1. Основные понятия и определения .......................................... |
12 |
1.2. Формальное определение шкал измерений ........................... |
15 |
1.3. Классификация шкал ............................................................... |
15 |
1.4. Инвариантные и адекватные статистики ............................... |
18 |
1.5. Модели представления данных............................................... |
21 |
1.6. Неопределенность данных и способы описания ................... |
22 |
Вопросы и упражнения .............................................................. |
24 |
2. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ................................................... |
26 |
2.1. Оценка связи количественных переменных .......................... |
26 |
2.1.1. Коэффициент парной корреляции Пирсона ................... |
26 |
2.1.2. Частный коэффициент корреляции (ЧКК).................... |
30 |
2.1.3. Множественный коэффициент корреляции.................. |
32 |
2.2. Оценка связи качественных переменных .............................. |
32 |
2.2.1. Оценка связи порядковых переменных............................ |
32 |
2.2.2. Оценка связи номинальных переменных ......................... |
38 |
2.3. Сопоставление наборов данных ............................................. |
41 |
Вопросы и упражнения .............................................................. |
47 |
3. РЕГРЕССИОННЫЙ АНАЛИЗ ....................................................... |
49 |
3.1. Предпосылки классической регрессии ................................. |
50 |
3.2. Оценивание коэффициентов регрессии по методу |
|
наименьших квадратов ................................................................... |
52 |
3.3. Статистический анализ уравнения регрессии ....................... |
55 |
3.3.1. Несмещенность оценок коэффициентов регрессии...... |
56 |
3.3.2. Ковариационная матрица оценок коэффициентов |
|
регрессии...................................................................................... |
56 |
3.3.3. Оценка дисперсии случайной компоненты по уравнению |
|
регрессии...................................................................................... |
57 |
3.3.4. Состоятельность............................................................. |
58 |
3.4. Теорема Гаусса−Маркова ........................................................ |
59 |
3.5. Свойства оценок МНК при нормальных случайных |
|
возмущениях.................................................................................... |
60 |
3.5.1. Проверка адекватности .................................................. |
61 |
3
3.5.2.Оценивание методом максимального правдоподобия ..63
3.6.Проверка статистических гипотез относительно
коэффициентов регрессии .............................................................. |
64 |
3.6.1. Проверка гипотезы H0: ai=ai0 ......................................... |
64 |
3.6.2. Проверка гипотезы Н: с′a=r............................................ |
67 |
3.6.3. Проверка гипотезы Н0: а1=а2=…=аk=0 ........................ |
69 |
3.6.4. Тест Чоу ............................................................................ |
70 |
3.7. Коэффициент детерминации R 2.............................................. |
71 |
3.8. Прогноз по регрессии .............................................................. |
73 |
Вопросы и упражнения................................................................... |
74 |
4. ПРИКЛАДНЫЕ АСПЕКТЫ РЕГРЕССИОННОГО АНАЛИЗА 76 |
|
4.1. Ошибки спецификации. Перебор и недобор базисных |
|
функций............................................................................................ |
76 |
4.2. Мультиколлинеарность в регрессионном анализе................ |
78 |
4.2.1. Понятие мультиколлинеарности.................................... |
78 |
4.2.2. Меры мультиколлинеарности ......................................... |
80 |
4.2.3. Методы борьбы с мультиколлинеарностью ................. |
82 |
4.3. Качественные переменные в регрессии ................................. |
87 |
4.4. Процедура спецификации модели .......................................... |
90 |
4.5. Альтернативные предпосылки................................................ |
91 |
4.5.1. Коррелированность возмущений. Обобщенный МНК.. |
91 |
4.5.2. Случайные объясняющие переменные............................. |
94 |
4.5.3. Нелинейная регрессия ....................................................... |
97 |
Вопросы и упражнения .............................................................. |
99 |
5. ДИСПЕРСИОННЫЙ АНАЛИЗ.................................................... |
100 |
5.1. Однофакторный дисперсионный анализ.............................. |
100 |
5.2. Двухфакторный ДА................................................................ |
103 |
5.3. Многофакторный ДА............................................................. |
105 |
Вопросы и упражнения................................................................. |
107 |
6. ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА....................................... |
108 |
6.1. Планирование эксперимента с количественными |
|
переменными ................................................................................. |
108 |
6.1.1. Основные понятия планирования эксперимента......... |
108 |
6.1.2. Критерии планирования эксперимента........................ |
110 |
6.1.3. Планы факторных экспериментов ............................... |
113 |
6.1.4. Центральные композиционные планы .......................... |
117 |
4
6.1.5. D-оптимальные планы ................................................... |
119 |
6.2. Методы экспериментальной оптимизации .......................... |
121 |
6.2.1. Одномерный поиск.......................................................... |
122 |
6.2.2. Многомерный поиск ........................................................ |
125 |
6.2.3. Последовательный симплексный метод ...................... |
129 |
6.3. Планирование эксперимента с качественными переменными |
|
......................................................................................................... |
131 |
Вопросы и упражнения................................................................. |
134 |
7. ИЗОЛИРОВАННЫЕ ВРЕМЕННЫЕ РЯДЫ ............................... |
135 |
7.1. Цели, методы и этапы анализа временных рядов ............... |
136 |
7.2. Структурные компоненты временного ряда........................ |
137 |
7.3. Модели компонент детерминированной составляющей |
|
временного ряда ............................................................................ |
140 |
7.3.1. Модели тренда ................................................................ |
140 |
7.3.2. Модели сезонной компоненты....................................... |
141 |
7.4. Методы выделения тренда .................................................... |
143 |
7.4.1. Скользящие средние........................................................ |
144 |
7.4.2. Определение порядка полинома методом |
|
последовательных разностей.................................................. |
147 |
7.4.3. Методы экспоненциального сглаживания ................... |
148 |
7.5. Анализ сезонной компоненты............................................... |
154 |
7.6. Линейные модели случайной составляющей временного |
|
ряда ................................................................................................. |
158 |
7.7. Проверка ряда на случайность .............................................. |
161 |
7.8. Числовые характеристики случайной составляющей ........ |
164 |
7.9. Оценивание числовых характеристик временного ряда .... |
165 |
7.10. Теоретический анализ стационарной случайной |
|
составляющей линейного вида .................................................... |
169 |
7.10.1. Модели авторегрессии ................................................. |
170 |
7.10.2. Процессы скользящего среднего.................................. |
177 |
7.10.3. Комбинированные процессы авторегрессии- |
|
скользящего среднего................................................................ |
179 |
7.10.4. Модель авторегрессии-скользящего среднего для |
|
нестационарного временного ряда ......................................... |
180 |
7.11. Прогнозирование по модели АРИСС................................. |
185 |
7.12.Технология построения моделей АРИСС........................... |
187 |
5
7.13. Нелинейные по возмущениям модели ............................... |
189 |
Вопросы и упражнения................................................................. |
190 |
8. МНОГОМЕРНЫЕ ВРЕМЕННЫЕ РЯДЫ.................................... |
193 |
8.1. Коинтегрируемость временных рядов ................................. |
194 |
8.2. Система одновременных уравнений .................................... |
195 |
8.2.1. Общая линейная модель СОУ ........................................ |
197 |
8.2.2. Проблема идентифицируемости .................................. |
198 |
8.2.3. Двухшаговый метод наименьших квадратов .............. |
201 |
Вопросы и упражнения ............................................................ |
203 |
9. КЛАСТЕРНЫЙ АНАЛИЗ............................................................. |
204 |
9.1. Задача кластерного анализа................................................... |
205 |
9.2. Функции расстояния и сходства ........................................... |
205 |
9.3. Функционалы качества разбиения на кластеры .................. |
211 |
9.4. Алгоритмы раздельной кластеризации ................................ |
213 |
9.5. Иерархический кластерный анализ ...................................... |
216 |
9.5.1. Основные определения.................................................... |
217 |
9.5.2. Графическое представление результатов |
|
иерархической классификации................................................. |
218 |
9.6. Анализ и интерпретация результатов кластерного анализа |
|
......................................................................................................... |
222 |
9.7. Кластерный анализ номинальных данных........................... |
225 |
9.8. Нечеткая кластеризация ........................................................ |
228 |
Вопросы и упражнения................................................................. |
229 |
10. АНАЛИЗ ГЛАВНЫХ КОМПОНЕНТ........................................ |
230 |
10.1. Вычисление главных компонент ........................................ |
231 |
10.2. Статистические свойства главных компонент .................. |
236 |
10.3. Приложения главных компонент........................................ |
239 |
10.3.1. Регрессия на главные компоненты ............................. |
239 |
10.3.1. Сингулярный спектральный анализ ............................ |
240 |
Вопросы и упражнения................................................................. |
242 |
11. ФАКТОРНЫЙ АНАЛИЗ ............................................................ |
243 |
11.1. Модель факторного анализа................................................ |
243 |
11.2. Этапы факторного анализа .................................................. |
247 |
Вопросы и упражнения................................................................. |
257 |
12. МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ ..................................... |
259 |
12.1 Формальная постановка задачи шкалирования.................. |
259 |
6
12.2. Метрическое шкалирование................................................ |
260 |
12.3. Неметрическое шкалирование ............................................ |
264 |
12.4. Нелинейные методы шкалирования ................................... |
267 |
Вопросы и упражнения................................................................. |
269 |
13. ИНТЕЛЛЕКТУАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ..ДАННЫХ 270 |
|
13.1. Нейросетевые методы анализа данных .............................. |
270 |
13.2. Генетические алгоритмы ..................................................... |
277 |
Вопросы и упражнения................................................................. |
282 |
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ.......................... |
283 |
СПИСОК СОКРАЩЕНИЙ ............................................................... |
285 |
7
ВВЕДЕНИЕ
При исследовании многих как физических, так и социальноэкономических объектов во внимание приходится принимать множество различных свойств, каждое из которых представляется существенным для характеристики данного объекта. Причем некоторые свойства наблюдаются не непосредственно, а лишь косвенно, как совокупность значений признаков либо в терминах отношений между объектами по данному свойству.
Зафиксированные результаты измерения признаков – суть данные. Цель анализа данных состоит в пополнении теоретических представлений об изучаемом объекте (явлении) на основании имеющейся эмпирической информации. Подобное пополнение возможно введением новых понятий (категорий, факторов, переменных) и/или установлением связей между ними. Отсюда вытекают два основных класса задач анализа данных: выявление новых факторов и выявление связей. Задачи первого класса иногда называют задачами конструирования (новых понятий, переменных), второго
– задачами описания (одних переменных через другие).
Кроме того, в проблематику анализа данных входят вспомогательные, но важные с практической точки зрения задачи сокращения размерности, которые, впрочем, можно рассматривать как приложения методов решения основных задач. Задачи сокращения размерности характерны при исследовании малоизученных объектов, когда на первых шагах стремятся включить в описание объекта (явления) все возможные показатели, которые представляются заслуживающими внимания. Окончательное формирование перечня существенных показателей происходит позже на основании статистики, полученной в ходе наблюдений (экспериментов) над исследуемым объектом. Не исключено, что часть показателей окажется взаимосвязанной, а часть неинформативной в силу малой изменчивости. Все это обусловливает возможность перехода от большого числа исходных показателей к существенно меньшему числу наиболее информативных переменных.
Вообще-то говоря, проблематика анализа данных практически неисчерпаема. Предложены многообразные методы для решения
8
встающих задач. Сориентироваться в многообразии инструментов может помочь онтология анализа данных. Основные концепты, базовые понятия, и их систематизация – как вариант онтологии известной российской компании по разработке программного обеспечения в области анализа данных BaseGroup Labs – приведены на рис.В1.
Методы анализа данных
Математическая
статистика
Проверка статистических гипотез
Дисперсионный анализ
Корреляционный анализ
Регрессионный анализ
Анализ временных рядов
Спектральный анализ
Корреляционный анализ
Фильтрация
Многомерный анализ
Кластерный анализ
Дискриминантный анализ
Эволюционное
моделирование
Генетические алгоритмы
Искусственные нейронные сети
ART-сеть
Сеть обратного распространения
Сеть встречного распространения
Сеть Хемминга
Сеть Хопфилда
Сеть Кохонена
RBF-сеть
Машинное
обучение
Деревья решений
Энтропийная мера
ID3
C4.5
NewID
Gini
Cart
Рис В1. Вариант онтологии.
Заметим, что математическую статистику нередко рассматривают как составную часть собственно анализа данных (близкий термин прикладная статистика), поскольку далеко не всегда подразумевается вероятностный механизм порождения данных, а эволюционное моделирование и машинное обучение часто относят к интеллектуальному анализу данных.
При отборе материала мы учитывали требования Государственных образовательных стандартов по содержанию общепрофессио-
9
нальных дисциплин «теория вероятностей и математическая статистика» и «эконометрика» по соответствующим специальностям. Предполагается, что читатель знаком с основными понятиями теории вероятностей и математической статистики.
Пособие состоит из двух частей. Первые восемь глав относятся к первой части и посвящены задачам описания. Пособие открывает глава, посвященная шкалам измерения, поскольку необходимость и возможность измерений появилась не только в естественных науках, но и при исследовании социально-экономических процессов.
Корреляционный анализ представлен как для количественных, так и для качественных переменных. Приводятся основные меры связи для всех типов переменных.
Из многообразия моделей регрессионного анализа основное внимание уделено моделям, удовлетворяющим предпосылкам классической регрессии. Обсуждаются вопросы практического применения данных моделей, в том числе в условиях альтернативных предпосылок.
Регрессия с исключительно качественными предикторами рассмотрена в главе, посвященной дисперсионному анализу.
В главе, посвященной планированию эксперимента, представлены основные методы планирования экспериментов с качественными и количественными переменными, а также методы экспериментальной оптимизации.
Рассматриваются как изолированные временные ряды, так и системы рядов. Основное внимание уделено линейным моделям. Рассмотрены также способы оценки связи нестационарных рядов.
Во второй части пособия (главы 9–12) собраны задачи, которые в литературе одни авторы относят к задачам конструирования либо выявления новых переменных, другие – к задачам снижения размерности, третьи – к разведочному анализу данных. Отличительная особенность этих задач состоит в том, что они, во-первых, не требуют обязательного привлечения вероятностной модели порождения данных: понятие генеральной совокупности часто не имеет содержательной интерпретации; во-вторых, существенно опираются на геометрические представления.
10