Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Министерство образования и науки Российской Федерации

Национальный исследовательский ядерный университет «МИФИ»

Ш.У. Низаметдинов, В.П. Румянцев

АНАЛИЗ ДАННЫХ

Рекомендовано УМО «Ядерные физика и технологии» в качестве учебного пособия

для студентов высших учебных заведений

Москва 2012

УДК 519.2(075)

ББК 22.17я7 Н61

Низаметдинов Ш.У. , Румянцев В.П. Анализ данных: учебное пособие. М. НИЯУ МИФИ, 2012. 288 с.

Рассматриваются методы решения основных задач анализа данных: выявление и описание связей признаков, измеренных в количественных и качественных шкалах. Излагаются основы теории измерений, классический регрессионный, корреляционный и дисперсионный анализы, анализ временных рядов, а также кластерный анализ, факторный анализ, анализ главных компонент, многомерное шкалирование, интеллектуального анализа данных.

Пособие предназначено для студентов, обучающихся по специальностям «прикладная математика и информатика» (специализация «математическое и информационное обеспечение экономической деятельности»), «прикладная информатика в экономике», изучающим курс эконометрики, и может быть полезно для студентов других специальностей, сталкивающихся с проблемами анализа эмпирических данных.

Подготовлено в рамках Программы создания и развития НИЯУ МИФИ.

Рецензенты: Меркулов В.Н., канд. техн. наук, профессор РГГУ; Косачев Ю.В., д-р экон. наук ВЦ РАН

ISBN 978-5-7262-1687-4 © Национальный исследовательский ядерный университет «МИФИ», 2012

ОГЛАВЛЕНИЕ

 

ВВЕДЕНИЕ ............................................................................................

8

1. ШКАЛЫ ИЗМЕРЕНИЙ ..................................................................

12

1.1. Основные понятия и определения ..........................................

12

1.2. Формальное определение шкал измерений ...........................

15

1.3. Классификация шкал ...............................................................

15

1.4. Инвариантные и адекватные статистики ...............................

18

1.5. Модели представления данных...............................................

21

1.6. Неопределенность данных и способы описания ...................

22

Вопросы и упражнения ..............................................................

24

2. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ...................................................

26

2.1. Оценка связи количественных переменных ..........................

26

2.1.1. Коэффициент парной корреляции Пирсона ...................

26

2.1.2. Частный коэффициент корреляции (ЧКК)....................

30

2.1.3. Множественный коэффициент корреляции..................

32

2.2. Оценка связи качественных переменных ..............................

32

2.2.1. Оценка связи порядковых переменных............................

32

2.2.2. Оценка связи номинальных переменных .........................

38

2.3. Сопоставление наборов данных .............................................

41

Вопросы и упражнения ..............................................................

47

3. РЕГРЕССИОННЫЙ АНАЛИЗ .......................................................

49

3.1. Предпосылки классической регрессии .................................

50

3.2. Оценивание коэффициентов регрессии по методу

 

наименьших квадратов ...................................................................

52

3.3. Статистический анализ уравнения регрессии .......................

55

3.3.1. Несмещенность оценок коэффициентов регрессии......

56

3.3.2. Ковариационная матрица оценок коэффициентов

 

регрессии......................................................................................

56

3.3.3. Оценка дисперсии случайной компоненты по уравнению

регрессии......................................................................................

57

3.3.4. Состоятельность.............................................................

58

3.4. Теорема Гаусса−Маркова ........................................................

59

3.5. Свойства оценок МНК при нормальных случайных

 

возмущениях....................................................................................

60

3.5.1. Проверка адекватности ..................................................

61

3

3.5.2.Оценивание методом максимального правдоподобия ..63

3.6.Проверка статистических гипотез относительно

коэффициентов регрессии ..............................................................

64

3.6.1. Проверка гипотезы H0: ai=ai0 .........................................

64

3.6.2. Проверка гипотезы Н: с′a=r............................................

67

3.6.3. Проверка гипотезы Н0: а12=…=аk=0 ........................

69

3.6.4. Тест Чоу ............................................................................

70

3.7. Коэффициент детерминации R 2..............................................

71

3.8. Прогноз по регрессии ..............................................................

73

Вопросы и упражнения...................................................................

74

4. ПРИКЛАДНЫЕ АСПЕКТЫ РЕГРЕССИОННОГО АНАЛИЗА 76

4.1. Ошибки спецификации. Перебор и недобор базисных

 

функций............................................................................................

76

4.2. Мультиколлинеарность в регрессионном анализе................

78

4.2.1. Понятие мультиколлинеарности....................................

78

4.2.2. Меры мультиколлинеарности .........................................

80

4.2.3. Методы борьбы с мультиколлинеарностью .................

82

4.3. Качественные переменные в регрессии .................................

87

4.4. Процедура спецификации модели ..........................................

90

4.5. Альтернативные предпосылки................................................

91

4.5.1. Коррелированность возмущений. Обобщенный МНК..

91

4.5.2. Случайные объясняющие переменные.............................

94

4.5.3. Нелинейная регрессия .......................................................

97

Вопросы и упражнения ..............................................................

99

5. ДИСПЕРСИОННЫЙ АНАЛИЗ....................................................

100

5.1. Однофакторный дисперсионный анализ..............................

100

5.2. Двухфакторный ДА................................................................

103

5.3. Многофакторный ДА.............................................................

105

Вопросы и упражнения.................................................................

107

6. ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА.......................................

108

6.1. Планирование эксперимента с количественными

 

переменными .................................................................................

108

6.1.1. Основные понятия планирования эксперимента.........

108

6.1.2. Критерии планирования эксперимента........................

110

6.1.3. Планы факторных экспериментов ...............................

113

6.1.4. Центральные композиционные планы ..........................

117

4

6.1.5. D-оптимальные планы ...................................................

119

6.2. Методы экспериментальной оптимизации ..........................

121

6.2.1. Одномерный поиск..........................................................

122

6.2.2. Многомерный поиск ........................................................

125

6.2.3. Последовательный симплексный метод ......................

129

6.3. Планирование эксперимента с качественными переменными

.........................................................................................................

131

Вопросы и упражнения.................................................................

134

7. ИЗОЛИРОВАННЫЕ ВРЕМЕННЫЕ РЯДЫ ...............................

135

7.1. Цели, методы и этапы анализа временных рядов ...............

136

7.2. Структурные компоненты временного ряда........................

137

7.3. Модели компонент детерминированной составляющей

 

временного ряда ............................................................................

140

7.3.1. Модели тренда ................................................................

140

7.3.2. Модели сезонной компоненты.......................................

141

7.4. Методы выделения тренда ....................................................

143

7.4.1. Скользящие средние........................................................

144

7.4.2. Определение порядка полинома методом

 

последовательных разностей..................................................

147

7.4.3. Методы экспоненциального сглаживания ...................

148

7.5. Анализ сезонной компоненты...............................................

154

7.6. Линейные модели случайной составляющей временного

 

ряда .................................................................................................

158

7.7. Проверка ряда на случайность ..............................................

161

7.8. Числовые характеристики случайной составляющей ........

164

7.9. Оценивание числовых характеристик временного ряда ....

165

7.10. Теоретический анализ стационарной случайной

 

составляющей линейного вида ....................................................

169

7.10.1. Модели авторегрессии .................................................

170

7.10.2. Процессы скользящего среднего..................................

177

7.10.3. Комбинированные процессы авторегрессии-

 

скользящего среднего................................................................

179

7.10.4. Модель авторегрессии-скользящего среднего для

 

нестационарного временного ряда .........................................

180

7.11. Прогнозирование по модели АРИСС.................................

185

7.12.Технология построения моделей АРИСС...........................

187

5

7.13. Нелинейные по возмущениям модели ...............................

189

Вопросы и упражнения.................................................................

190

8. МНОГОМЕРНЫЕ ВРЕМЕННЫЕ РЯДЫ....................................

193

8.1. Коинтегрируемость временных рядов .................................

194

8.2. Система одновременных уравнений ....................................

195

8.2.1. Общая линейная модель СОУ ........................................

197

8.2.2. Проблема идентифицируемости ..................................

198

8.2.3. Двухшаговый метод наименьших квадратов ..............

201

Вопросы и упражнения ............................................................

203

9. КЛАСТЕРНЫЙ АНАЛИЗ.............................................................

204

9.1. Задача кластерного анализа...................................................

205

9.2. Функции расстояния и сходства ...........................................

205

9.3. Функционалы качества разбиения на кластеры ..................

211

9.4. Алгоритмы раздельной кластеризации ................................

213

9.5. Иерархический кластерный анализ ......................................

216

9.5.1. Основные определения....................................................

217

9.5.2. Графическое представление результатов

 

иерархической классификации.................................................

218

9.6. Анализ и интерпретация результатов кластерного анализа

.........................................................................................................

222

9.7. Кластерный анализ номинальных данных...........................

225

9.8. Нечеткая кластеризация ........................................................

228

Вопросы и упражнения.................................................................

229

10. АНАЛИЗ ГЛАВНЫХ КОМПОНЕНТ........................................

230

10.1. Вычисление главных компонент ........................................

231

10.2. Статистические свойства главных компонент ..................

236

10.3. Приложения главных компонент........................................

239

10.3.1. Регрессия на главные компоненты .............................

239

10.3.1. Сингулярный спектральный анализ ............................

240

Вопросы и упражнения.................................................................

242

11. ФАКТОРНЫЙ АНАЛИЗ ............................................................

243

11.1. Модель факторного анализа................................................

243

11.2. Этапы факторного анализа ..................................................

247

Вопросы и упражнения.................................................................

257

12. МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ .....................................

259

12.1 Формальная постановка задачи шкалирования..................

259

6

12.2. Метрическое шкалирование................................................

260

12.3. Неметрическое шкалирование ............................................

264

12.4. Нелинейные методы шкалирования ...................................

267

Вопросы и упражнения.................................................................

269

13. ИНТЕЛЛЕКТУАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ..ДАННЫХ 270

13.1. Нейросетевые методы анализа данных ..............................

270

13.2. Генетические алгоритмы .....................................................

277

Вопросы и упражнения.................................................................

282

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ..........................

283

СПИСОК СОКРАЩЕНИЙ ...............................................................

285

7

ВВЕДЕНИЕ

При исследовании многих как физических, так и социальноэкономических объектов во внимание приходится принимать множество различных свойств, каждое из которых представляется существенным для характеристики данного объекта. Причем некоторые свойства наблюдаются не непосредственно, а лишь косвенно, как совокупность значений признаков либо в терминах отношений между объектами по данному свойству.

Зафиксированные результаты измерения признаков – суть данные. Цель анализа данных состоит в пополнении теоретических представлений об изучаемом объекте (явлении) на основании имеющейся эмпирической информации. Подобное пополнение возможно введением новых понятий (категорий, факторов, переменных) и/или установлением связей между ними. Отсюда вытекают два основных класса задач анализа данных: выявление новых факторов и выявление связей. Задачи первого класса иногда называют задачами конструирования (новых понятий, переменных), второго

– задачами описания (одних переменных через другие).

Кроме того, в проблематику анализа данных входят вспомогательные, но важные с практической точки зрения задачи сокращения размерности, которые, впрочем, можно рассматривать как приложения методов решения основных задач. Задачи сокращения размерности характерны при исследовании малоизученных объектов, когда на первых шагах стремятся включить в описание объекта (явления) все возможные показатели, которые представляются заслуживающими внимания. Окончательное формирование перечня существенных показателей происходит позже на основании статистики, полученной в ходе наблюдений (экспериментов) над исследуемым объектом. Не исключено, что часть показателей окажется взаимосвязанной, а часть неинформативной в силу малой изменчивости. Все это обусловливает возможность перехода от большого числа исходных показателей к существенно меньшему числу наиболее информативных переменных.

Вообще-то говоря, проблематика анализа данных практически неисчерпаема. Предложены многообразные методы для решения

8

встающих задач. Сориентироваться в многообразии инструментов может помочь онтология анализа данных. Основные концепты, базовые понятия, и их систематизация – как вариант онтологии известной российской компании по разработке программного обеспечения в области анализа данных BaseGroup Labs – приведены на рис.В1.

Методы анализа данных

Математическая

статистика

Проверка статистических гипотез

Дисперсионный анализ

Корреляционный анализ

Регрессионный анализ

Анализ временных рядов

Спектральный анализ

Корреляционный анализ

Фильтрация

Многомерный анализ

Кластерный анализ

Дискриминантный анализ

Эволюционное

моделирование

Генетические алгоритмы

Искусственные нейронные сети

ART-сеть

Сеть обратного распространения

Сеть встречного распространения

Сеть Хемминга

Сеть Хопфилда

Сеть Кохонена

RBF-сеть

Машинное

обучение

Деревья решений

Энтропийная мера

ID3

C4.5

NewID

Gini

Cart

Рис В1. Вариант онтологии.

Заметим, что математическую статистику нередко рассматривают как составную часть собственно анализа данных (близкий термин прикладная статистика), поскольку далеко не всегда подразумевается вероятностный механизм порождения данных, а эволюционное моделирование и машинное обучение часто относят к интеллектуальному анализу данных.

При отборе материала мы учитывали требования Государственных образовательных стандартов по содержанию общепрофессио-

9

нальных дисциплин «теория вероятностей и математическая статистика» и «эконометрика» по соответствующим специальностям. Предполагается, что читатель знаком с основными понятиями теории вероятностей и математической статистики.

Пособие состоит из двух частей. Первые восемь глав относятся к первой части и посвящены задачам описания. Пособие открывает глава, посвященная шкалам измерения, поскольку необходимость и возможность измерений появилась не только в естественных науках, но и при исследовании социально-экономических процессов.

Корреляционный анализ представлен как для количественных, так и для качественных переменных. Приводятся основные меры связи для всех типов переменных.

Из многообразия моделей регрессионного анализа основное внимание уделено моделям, удовлетворяющим предпосылкам классической регрессии. Обсуждаются вопросы практического применения данных моделей, в том числе в условиях альтернативных предпосылок.

Регрессия с исключительно качественными предикторами рассмотрена в главе, посвященной дисперсионному анализу.

В главе, посвященной планированию эксперимента, представлены основные методы планирования экспериментов с качественными и количественными переменными, а также методы экспериментальной оптимизации.

Рассматриваются как изолированные временные ряды, так и системы рядов. Основное внимание уделено линейным моделям. Рассмотрены также способы оценки связи нестационарных рядов.

Во второй части пособия (главы 9–12) собраны задачи, которые в литературе одни авторы относят к задачам конструирования либо выявления новых переменных, другие – к задачам снижения размерности, третьи – к разведочному анализу данных. Отличительная особенность этих задач состоит в том, что они, во-первых, не требуют обязательного привлечения вероятностной модели порождения данных: понятие генеральной совокупности часто не имеет содержательной интерпретации; во-вторых, существенно опираются на геометрические представления.

10