Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

.pdf
Скачиваний:
133
Добавлен:
14.03.2016
Размер:
5.88 Mб
Скачать

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ БРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЗИЧЕСКОЙ КУЛЬТУРЫ»

КАФЕДРА МАТЕМАТИКИ, ФИЗИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

С. Т. Касюк

ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ

И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ

Учебно-методическое пособие

Рекомендовано методическим советом УралГУФК

Челябинск Уральская Академия

2015

1

УДК 796:311(075.8)

ББК 75:60.6я73

K289

Рекомендовано к изданию методическим советом УралГУФК Протокол № __ от __.__.2015 г.

Рецензенты:

Доцент кафедры математики Челябинской государственной агроинженерной академии, к.п.н. О. Е. Акулич

Доцент кафедры математики, физики и информационных технологий УралГУФК, к.п.н. В. М. Ларионов

Касюк, С. Т.

Первичный, кластерный, регрессионный и дискриминантный анализ данных спортивной медицины на компьютере: учеб.-метод. пособие / С. Т. Касюк. – Челябинск : Уральская Академия, 2015. – 160 с.

В учебно-методическом пособии даны теоретические основы проведения первичного, кластерного, регрессионного и дискриминантного анализа данных. Приведены пошаговые примеры анализа данных спортивной медицины в пакете STATISTICA 10. Даны варианты заданий для самостоятельного выполнения.

Учебно-методическое пособие предназначено для студентов факультета оздоровительных технологий и спортивной медицины УралГУФК, изучающих компьютерную обработку данных экспериментальных исследований.

УДК 796:311(075.8)

ББК 75:60.6я73

©УралГУФК, 2015 ©Касюк С. Т., 2015

2

 

СОДЕРЖАНИЕ

 

ВВЕДЕНИЕ...................................................................................................

6

1 ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ......................................................

8

1.1

Интерфейс пакета STATISTICA 10........................................................

8

1.2

Аналитические модули STATISTICA 10...............................................

10

1.3

Создание файла данных в пакете STATISTICA 10..............................

11

1.4

Вычисление описательных статистик данных в пакете

 

STATISTICA 10........................................................................................................

18

1.5

Нормальное распределение случайной величины................................

23

1.6 Проверка характера распределения переменной на нормальность...........

26

1.7

Варианты заданий по вычислению описательных статистик

 

выборок в пакете STATISTICA 10.........................................................................

33

2 КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ...................................................

36

2.1

Постановка задачи кластерного анализа...............................................

36

2.2

Меры расстояний в кластерном анализе...............................................

37

2.3

Этапы и алгоритмы кластерного анализа..............................................

38

2.4

Алгоритм кластеризации k-средних.......................................................

40

2.5

Пример проведения кластерного анализа алгоритмом k-средних

 

в пакетe STATISTICA 10.........................................................................................

41

2.6

Алгоритм древовидной кластеризации..................................................

50

2.7

Пример проведения кластерного анализа алгоритмом

 

древовидной кластеризации в пакетe STATISTICA 10........................................

52

2.8

Проблемы алгоритмов кластеризации...................................................

58

 

3

 

2.9

Варианты заданий по кластерному анализу в пакете

 

STATISTICA 10........................................................................................................

59

3 РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ...........................................

65

3.1

Постановка задачи регрессионного анализа.........................................

65

3.2

Линейная регрессионная модель............................................................

68

3.3

Оценка соответствия простой линейной регрессии реальным

 

данным......................................................................................................................

 

69

3.4

Проверка значимости регрессионной модели и коэффициентов

 

уравнения регрессии................................................................................................

74

3.5 Значение остатков при изучении результатов регрессионного

 

анализа......................................................................................................................

 

75

3.6

Пример проведения регрессионного анализа в пакетe

 

STATISTICA 10........................................................................................................

76

3.7

Методы отбора переменных в регрессионные модели........................

84

3.8

Пример проведения множественного регрессионного анализа

 

в пакетe STATISTICA 10.........................................................................................

86

3.9

Ограничения применимости регрессионных моделей.........................

96

3.10 Варианты заданий для проведения регрессионного анализа

 

в пакете STATISTICA 10.........................................................................................

97

3.11 Варианты заданий для проведения множественного

 

регрессионного анализа в пакете STATISTICA 10...............................................

102

4 ДИСКРИМАНАНТНЫЙ АНАЛИЗ ДАННЫХ...................................

108

4.1

Постановка задачи дискриминантного анализа....................................

108

4.2

Алгоритм проверки возможности проведения дискриминантного

 

анализа......................................................................................................................

 

109

4.3

Основные методы проведения дискриминантного анализа................

109

 

4

 

4.4 Пример проведения дискриминантного анализа в пакете

 

STATISTICA 10.…...................................................................................................

112

4.5 Варианты заданий для проведения дискриминантного анализа

 

в пакете STATISTICA 10.........................................................................................

135

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА......................................................

141

ПРИЛОЖЕНИЯ...........................................................................................

142

А Интерфейс пакета STATISTICA 10..........................................................

143

Б Критерий Шапиро-Уилка; p-квантили статистики критерия W

 

для p = α = 0,01 и 0,05..............................................................................................

152

В Критические значения для наибольшего отклонения эмпирического

 

распределения от теоретического (критерий Колмогорова)...............................

153

Г Таблица значений χ2 распределения Пирсона.........................................

154

Д Критические точки F-pacпpeделения Фишера, α = 0,05 и 0,01.............

155

Е Критические точки распределения Стьюдента.......................................

157

Ж Список вопросов к зачету по компьютерной обработке данных

 

экспериментальных исследований.........................................................................

158

5

ВВЕДЕНИЕ

Научные исследования в сфере спортивной медицины и оздоровительных технологий приводят к накоплению большого количества данных о воздействии реабилитационных, терапевтических и болезнетворных факторов на организм человека, которые требуют количественной оценки и интерпретации. Обработка экспериментальных данных в настоящее время может осуществляться на компьютере в статистических пакетах. Поэтому необходимо на уровне высшего профессионального образования сформировать компетентность как в областях современных методов статистического анализа данных, так и использования соответствующих прикладных программ.

Целью данного учебно-методического пособия является обучение студентов факультета оздоровительных технологий и спортивной медицины УралГУФК компьютерной обработке данных экспериментальных исследований в пакете

STATISTICA 10.

Материал учебно-методического пособия разбит на разделы и представлен в следующем виде:

1)первичный анализ данных – интерфейс пакета STATISTICA 10, вычисление описательных статистик, проверка нормальности распределения, построение гистограмм;

2)кластерный анализ – задача кластерного анализа, меры расстояний, выбор числа кластеров, алгоритм k-средние, алгоритм древовидной кластеризации, проблемы алгоритмов кластеризации;

3)регрессионный анализ – задача регрессионного анализа, метод наименьших квадратов, основные статистические показатели регрессионного анализа, проверка значимости регрессионной модели и коэффициентов уравнения регрессии, анализ остатков, методы отбора переменных в регрессионные модели, ограничения регрессионных моделей;

4)дискриминантный анализ – задача дискриминантного анализа, проверка возможности проведения дискриминантного анализа, линейный дискриминационный анализ Фишера, канонический дискриминационый анализ, основные статистические показатели дискриминантного анализа.

В учебно-методическом пособии приведены примеры пошагового проведения первичного, кластерного, регрессионного и дискриминантного анализа данных в пакете STATISTICA 10, а также даны варианты заданий для самостоятельного выполнения.

При работе над данным учебно-методическим пособием автор стремился использовать только качественные источники и материалы, приведенные в списке литературы. В качестве теоретической литературы по проведению первичного, кластерного, регрессионного и дискриминантного анализа данных спортивной медицины рекомендуются книги по статистической обработке данных клинических

6

исследований, а именно «Медико-биологическая статистика» С. Гланца, «Медицинская статистика» К. Жижина, «Наглядная статистика» А. Петри, Э. Сэбина, «Математическая статистика в медико-биологических исследованиях с применением пакета Statistica» Н.В. Трухачевой. В качестве литературы по работе с пакетом STATISTICA 10 рекомендуются книги В.П Боровикова, например «Популярное введение в современный анализ данных в системе STATISTICA».

Изучение компьютерной обработки данных экспериментальных исследований является сложной компонентой обучения, требующей от студентов целеустремленности, высокой трудоспособности и дисциплины. Автор надеется, что данное учебно-методическое пособие окажет студентам реальную помощь.

Список вопросов к зачету по компьютерной обработке данных экспериментальных исследований приведен в приложении Ж.

7

1 ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ

Продукты линейки STATISTICA являются мощным инструментом для анализа данных, визуализации, прогнозирования, нейросетевых вычислений, Data Mining и контроля качества.

Линейка продуктов STATISTICA включает в себя [1]: базовый продукт STATISTICA Base, предоставляющий широкий набор основных статистик и графических инструментов; продукт STATISTICA Advanced, позволяющий работать с углубленными методами анализа; автоматизированные нейронные сети SANN; средства для добычи данных Data Mining; промышленные модули STATISTICA для контроля качества.

В данном учебно-методическом пособии описана технология анализа данных в однопользовательской англоязычной версии пакета STATISTICA 10, однако параллельно всегда приводятся ссылки на русскоязычный интерфейс пакета.

На руссом сайте STATISTICA имеется электронный учебник по статистике

(http://statsoft.ru/resources/statistica_text_book.php), который поможет студентам изучить основные понятия статистики и более полно представить диапазон статистических методов.

1.1 Интерфейс пакета STATISTICA 10

Интерфейс пакета STATISTICA 10 представлен в виде ленты со следующи-

ми вкладками: Home (Главная), Edit (Правка), View (Вид), Insert (Вставка), Format (Формат), Statistics (Анализ), Data Mining (Добыча Данных), Graphs (Графика), Tools (Сервис), Scorecard (Данные), Help (Справка). Содержимое вкладок зависит от режима работы с пакетом. В приложении А приведено содержимое вкладок STATISTICA 10 для режима работы с таблицами.

После запуска STATISTICA 10 на экране появится рабочее окно пакета (рисунок 1.1), похожее на окно электронных таблиц MS Excel. В окне Welcome to STATISTICA (Приглашение в STATISTICA) выбирается способ начала работы

спрограммой:

открыть файл данных STATISTICA (Open a STATISTICA);

открыть книгу Excel (Data Rile Open an Excel Workbook);

создать запрос к внешней базе данных (Query an external database);

открыть отчет (Open a Report);

открыть рабочую книгу (Open a Workbook);

открыть макрос (Open a Macro);

открыть скрипт R (Open an R Script);

открыть проект Data Miner (Open a Data Miner Project);

открыть проект STATISTICA (Open STATISTICA Project);

открыть электронный учебник (Consult Electronic Textbook);

просмотреть видео (View Video).

В этом окне также указаны последние файлы, с которыми работал пользователь.

8

Рисунок 1.1 – Начало работы с пакетом STATISTICA 10

В пакете STATISTICA 10 используется пять основных типов документов:

1 Рабочие книги (Workbooks). Рабочие книги STATISTICA 10 являются стандартным способом управления выводом данных в пакете. В рабочей книге каждый документ (например, таблица данных или график) представлен в виде отдельной вкладки.

2 Таблицы данных (Spreadsheets). Таблицы данных STATISTICA 10 является двумерными таблицами, которые могут содержать практически неограниченное число наблюдений (строк) и переменных (столбцов), при этом каждая ячейка может содержать неограниченное количество символов.

3 Отчеты (Reports). Отчеты STATISTICA 10 предлагают традиционный способ представления результатов анализа, при котором каждый объект (например, таблица или график STATISTICA 10) отображается в документе текстового процессора.

4 Графики (Graphs). Пакет STATISTICA 10 содержит большое количество графических методов, включающих программные средства для обработки данных

9

и проверки гипотез. Во многих случаях использование графического представления информации позволяет более эффективно работать с числовыми данными.

5 Макросы (Macros) на языке STATISTICA Visual Basic. В пакете

STATISTICA 10 содержатся макросы, позволяющие пользователям расширять функциональные возможности STATISTICA 10, добавляя новые пользовательские модули и элементы.

Файлы данных в пакете STATISTICA 10 имеют расширение *.sta.

На рисунке 1.1 видно, что файл STATISTICA 10 состоит из строк и столбцов. Столбцы таблицы данных STATISTICA 10 называются переменными (Variables), а строки – наблюдениями (Cases). В качестве переменных обычно выступают исследуемые величины, а наблюдения – это значения, которые принимают переменные в отдельных измерениях. Таблицы данных могут содержать как численную, так и текстовую информацию.

1.2 Аналитические модули STATISTICA 10

Пакет STATISTICA 10 организован по модульному принципу: все методы статистической обработки, реализованные в пакете, разбиты на несколько групп – модулей – в соответствии с основными разделами статистического анализа [1].

Основные модули STATISTICA 10: основные статистики и таблицы, кластерный анализ, множественная регрессия, дискриминантный анализ, дисперсионный анализ, подгонка распределений, факторный анализ, деревья классификации, многомерное шкалирование и др.

Модуль Basic Statistics (Основные статистики и таблицы) содержит ос-

новные описательные или дескриптивные статистики, методы анализа и построения различных таблиц, включая таблицы сопряженности, таблицы флагов и заголовков, разносторонний инструментарий проведения разведочного анализа данных. В этом модуле доступны классические t-критерии Стьюдента для независимых и зависимых выборок, группировка и однофакторный дисперсионный анализ. В этом модуле также доступен вероятностный калькулятор и различные критерии значимости (критерии различий долей, корреляций и средних) [1].

В модуль Cluster (Кластерный анализ) включены различные алгоритмы классификации, выделения однородных групп или кластеров. Этот модуль содержит мощные средства кластеризации (иерархическая кластеризация, метод k- средних, 2-входовое объединение). Пакет STATISTICA 10 может обрабатывать как исходные файлы данных, так и матрицы расстояний (например, матрицы корреляций) и может группировать объекты, как по наблюдениям, так и по переменным [1].

Модуль Multiple Regression (Множественная регрессия) позволяет по-

строить объяснительную регрессионную модель, оценить параметры модели методом наименьших квадратов, вычислить подробные статистики (построить графики, провести анализ остатков). Общее назначение множественной регрессии со-

10