 
        
        01 КАСЮК С. Т. ПЕРВИЧНЫЙ, КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ
.pdf 
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ БРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЗИЧЕСКОЙ КУЛЬТУРЫ»
КАФЕДРА МАТЕМАТИКИ, ФИЗИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
С. Т. Касюк
ПЕРВИЧНЫЙ,  КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ
 КЛАСТЕРНЫЙ, РЕГРЕССИОННЫЙ
И ДИСКРИМИНАНТНЫЙ АНАЛИЗ ДАННЫХ СПОРТИВНОЙ МЕДИЦИНЫ НА КОМПЬЮТЕРЕ
Учебно-методическое пособие
Рекомендовано методическим советом УралГУФК
Челябинск Уральская Академия
2015
1
 
УДК 796:311(075.8)
ББК 75:60.6я73
K289
Рекомендовано к изданию методическим советом УралГУФК Протокол № __ от __.__.2015 г.
Рецензенты:
Доцент кафедры математики Челябинской государственной агроинженерной академии, к.п.н. О. Е. Акулич
Доцент кафедры математики, физики и информационных технологий УралГУФК, к.п.н. В. М. Ларионов 
Касюк, С. Т.
Первичный, кластерный, регрессионный и дискриминантный анализ данных спортивной медицины на компьютере: учеб.-метод. пособие / С. Т. Касюк. – Челябинск : Уральская Академия, 2015. – 160 с.
В учебно-методическом пособии даны теоретические основы проведения первичного, кластерного, регрессионного и дискриминантного анализа данных. Приведены пошаговые примеры анализа данных спортивной медицины в пакете STATISTICA 10. Даны варианты заданий для самостоятельного выполнения.
Учебно-методическое пособие предназначено для студентов факультета оздоровительных технологий и спортивной медицины УралГУФК, изучающих компьютерную обработку данных экспериментальных исследований.
УДК 796:311(075.8)
ББК 75:60.6я73
©УралГУФК, 2015 ©Касюк С. Т., 2015
2
 
| 
 | СОДЕРЖАНИЕ | 
 | 
| ВВЕДЕНИЕ................................................................................................... | 6 | |
| 1 ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ...................................................... | 8 | |
| 1.1 | Интерфейс пакета STATISTICA 10........................................................ | 8 | 
| 1.2 | Аналитические модули STATISTICA 10............................................... | 10 | 
| 1.3 | Создание файла данных в пакете STATISTICA 10.............................. | 11 | 
| 1.4 | Вычисление описательных статистик данных в пакете | 
 | 
| STATISTICA 10........................................................................................................ | 18 | |
| 1.5 | Нормальное распределение случайной величины................................ | 23 | 
| 1.6 Проверка характера распределения переменной на нормальность........... | 26 | |
| 1.7 | Варианты заданий по вычислению описательных статистик | 
 | 
| выборок в пакете STATISTICA 10......................................................................... | 33 | |
| 2 КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ................................................... | 36 | |
| 2.1 | Постановка задачи кластерного анализа............................................... | 36 | 
| 2.2 | Меры расстояний в кластерном анализе............................................... | 37 | 
| 2.3 | Этапы и алгоритмы кластерного анализа.............................................. | 38 | 
| 2.4 | Алгоритм кластеризации k-средних....................................................... | 40 | 
| 2.5 | Пример проведения кластерного анализа алгоритмом k-средних | 
 | 
| в пакетe STATISTICA 10......................................................................................... | 41 | |
| 2.6 | Алгоритм древовидной кластеризации.................................................. | 50 | 
| 2.7 | Пример проведения кластерного анализа алгоритмом | 
 | 
| древовидной кластеризации в пакетe STATISTICA 10........................................ | 52 | |
| 2.8 | Проблемы алгоритмов кластеризации................................................... | 58 | 
| 
 | 3 | 
 | 
 
| 2.9 | Варианты заданий по кластерному анализу в пакете | 
 | 
| STATISTICA 10........................................................................................................ | 59 | |
| 3 РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ........................................... | 65 | |
| 3.1 | Постановка задачи регрессионного анализа......................................... | 65 | 
| 3.2 | Линейная регрессионная модель............................................................ | 68 | 
| 3.3 | Оценка соответствия простой линейной регрессии реальным | 
 | 
| данным...................................................................................................................... | 
 | 69 | 
| 3.4 | Проверка значимости регрессионной модели и коэффициентов | 
 | 
| уравнения регрессии................................................................................................ | 74 | |
| 3.5 Значение остатков при изучении результатов регрессионного | 
 | |
| анализа...................................................................................................................... | 
 | 75 | 
| 3.6 | Пример проведения регрессионного анализа в пакетe | 
 | 
| STATISTICA 10........................................................................................................ | 76 | |
| 3.7 | Методы отбора переменных в регрессионные модели........................ | 84 | 
| 3.8 | Пример проведения множественного регрессионного анализа | 
 | 
| в пакетe STATISTICA 10......................................................................................... | 86 | |
| 3.9 | Ограничения применимости регрессионных моделей......................... | 96 | 
| 3.10 Варианты заданий для проведения регрессионного анализа | 
 | |
| в пакете STATISTICA 10......................................................................................... | 97 | |
| 3.11 Варианты заданий для проведения множественного | 
 | |
| регрессионного анализа в пакете STATISTICA 10............................................... | 102 | |
| 4 ДИСКРИМАНАНТНЫЙ АНАЛИЗ ДАННЫХ................................... | 108 | |
| 4.1 | Постановка задачи дискриминантного анализа.................................... | 108 | 
| 4.2 | Алгоритм проверки возможности проведения дискриминантного | 
 | 
| анализа...................................................................................................................... | 
 | 109 | 
| 4.3 | Основные методы проведения дискриминантного анализа................ | 109 | 
| 
 | 4 | 
 | 
 
| 4.4 Пример проведения дискриминантного анализа в пакете | 
 | 
| STATISTICA 10.…................................................................................................... | 112 | 
| 4.5 Варианты заданий для проведения дискриминантного анализа | 
 | 
| в пакете STATISTICA 10......................................................................................... | 135 | 
| РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА...................................................... | 141 | 
| ПРИЛОЖЕНИЯ........................................................................................... | 142 | 
| А Интерфейс пакета STATISTICA 10.......................................................... | 143 | 
| Б Критерий Шапиро-Уилка; p-квантили статистики критерия W | 
 | 
| для p = α = 0,01 и 0,05.............................................................................................. | 152 | 
| В Критические значения для наибольшего отклонения эмпирического | 
 | 
| распределения от теоретического (критерий Колмогорова)............................... | 153 | 
| Г Таблица значений χ2 распределения Пирсона......................................... | 154 | 
| Д Критические точки F-pacпpeделения Фишера, α = 0,05 и 0,01............. | 155 | 
| Е Критические точки распределения Стьюдента....................................... | 157 | 
| Ж Список вопросов к зачету по компьютерной обработке данных | 
 | 
| экспериментальных исследований......................................................................... | 158 | 
5
 
ВВЕДЕНИЕ
Научные исследования в сфере спортивной медицины и оздоровительных технологий приводят к накоплению большого количества данных о воздействии реабилитационных, терапевтических и болезнетворных факторов на организм человека, которые требуют количественной оценки и интерпретации. Обработка экспериментальных данных в настоящее время может осуществляться на компьютере в статистических пакетах. Поэтому необходимо на уровне высшего профессионального образования сформировать компетентность как в областях современных методов статистического анализа данных, так и использования соответствующих прикладных программ.
Целью данного учебно-методического пособия является обучение студентов факультета оздоровительных технологий и спортивной медицины УралГУФК компьютерной обработке данных экспериментальных исследований в пакете
STATISTICA 10.
Материал учебно-методического пособия разбит на разделы и представлен в следующем виде:
1)первичный анализ данных – интерфейс пакета STATISTICA 10, вычисление описательных статистик, проверка нормальности распределения, построение гистограмм;
2)кластерный анализ – задача кластерного анализа, меры расстояний, выбор числа кластеров, алгоритм k-средние, алгоритм древовидной кластеризации, проблемы алгоритмов кластеризации;
3)регрессионный анализ – задача регрессионного анализа, метод наименьших квадратов, основные статистические показатели регрессионного анализа, проверка значимости регрессионной модели и коэффициентов уравнения регрессии, анализ остатков, методы отбора переменных в регрессионные модели, ограничения регрессионных моделей;
4)дискриминантный анализ – задача дискриминантного анализа, проверка возможности проведения дискриминантного анализа, линейный дискриминационный анализ Фишера, канонический дискриминационый анализ, основные статистические показатели дискриминантного анализа.
В учебно-методическом пособии приведены примеры пошагового проведения первичного, кластерного, регрессионного и дискриминантного анализа данных в пакете STATISTICA 10, а также даны варианты заданий для самостоятельного выполнения.
При работе над данным учебно-методическим пособием автор стремился использовать только качественные источники и материалы, приведенные в списке литературы. В качестве теоретической литературы по проведению первичного, кластерного, регрессионного и дискриминантного анализа данных спортивной медицины рекомендуются книги по статистической обработке данных клинических
6
 
исследований, а именно «Медико-биологическая статистика» С. Гланца, «Медицинская статистика» К. Жижина, «Наглядная статистика» А. Петри, Э. Сэбина, «Математическая статистика в медико-биологических исследованиях с применением пакета Statistica» Н.В. Трухачевой. В качестве литературы по работе с пакетом STATISTICA 10 рекомендуются книги В.П Боровикова, например «Популярное введение в современный анализ данных в системе STATISTICA».
Изучение компьютерной обработки данных экспериментальных исследований является сложной компонентой обучения, требующей от студентов целеустремленности, высокой трудоспособности и дисциплины. Автор надеется, что данное учебно-методическое пособие окажет студентам реальную помощь.
Список вопросов к зачету по компьютерной обработке данных экспериментальных исследований приведен в приложении Ж.
7
 
1 ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ
Продукты линейки STATISTICA являются мощным инструментом для анализа данных, визуализации, прогнозирования, нейросетевых вычислений, Data Mining и контроля качества.
Линейка продуктов STATISTICA включает в себя [1]: базовый продукт STATISTICA Base, предоставляющий широкий набор основных статистик и графических инструментов; продукт STATISTICA Advanced, позволяющий работать с углубленными методами анализа; автоматизированные нейронные сети SANN; средства для добычи данных Data Mining; промышленные модули STATISTICA для контроля качества.
В данном учебно-методическом пособии описана технология анализа данных в однопользовательской англоязычной версии пакета STATISTICA 10, однако параллельно всегда приводятся ссылки на русскоязычный интерфейс пакета.
На руссом сайте STATISTICA имеется электронный учебник по статистике
(http://statsoft.ru/resources/statistica_text_book.php), который поможет студентам изучить основные понятия статистики и более полно представить диапазон статистических методов.
1.1 Интерфейс пакета STATISTICA 10
Интерфейс пакета STATISTICA 10 представлен в виде ленты со следующи-
ми вкладками: Home (Главная), Edit (Правка), View (Вид), Insert (Вставка), Format (Формат), Statistics (Анализ), Data Mining (Добыча Данных), Graphs (Графика), Tools (Сервис), Scorecard (Данные), Help (Справка). Содержимое вкладок зависит от режима работы с пакетом. В приложении А приведено содержимое вкладок STATISTICA 10 для режима работы с таблицами.
После запуска STATISTICA 10 на экране появится рабочее окно пакета (рисунок 1.1), похожее на окно электронных таблиц MS Excel. В окне Welcome to STATISTICA (Приглашение в STATISTICA) выбирается способ начала работы
спрограммой:
–открыть файл данных STATISTICA (Open a STATISTICA);
–открыть книгу Excel (Data Rile Open an Excel Workbook);
–создать запрос к внешней базе данных (Query an external database);
–открыть отчет (Open a Report);
–открыть рабочую книгу (Open a Workbook);
–открыть макрос (Open a Macro);
–открыть скрипт R (Open an R Script);
–открыть проект Data Miner (Open a Data Miner Project);
–открыть проект STATISTICA (Open STATISTICA Project);
–открыть электронный учебник (Consult Electronic Textbook);
–просмотреть видео (View Video).
В этом окне также указаны последние файлы, с которыми работал пользователь.
8
 
Рисунок 1.1 – Начало работы с пакетом STATISTICA 10
В пакете STATISTICA 10 используется пять основных типов документов:
1 Рабочие книги (Workbooks). Рабочие книги STATISTICA 10 являются стандартным способом управления выводом данных в пакете. В рабочей книге каждый документ (например, таблица данных или график) представлен в виде отдельной вкладки.
2 Таблицы данных (Spreadsheets). Таблицы данных STATISTICA 10 является двумерными таблицами, которые могут содержать практически неограниченное число наблюдений (строк) и переменных (столбцов), при этом каждая ячейка может содержать неограниченное количество символов.
3 Отчеты (Reports). Отчеты STATISTICA 10 предлагают традиционный способ представления результатов анализа, при котором каждый объект (например, таблица или график STATISTICA 10) отображается в документе текстового процессора.
4 Графики (Graphs). Пакет STATISTICA 10 содержит большое количество графических методов, включающих программные средства для обработки данных
9
 
и проверки гипотез. Во многих случаях использование графического представления информации позволяет более эффективно работать с числовыми данными.
5 Макросы (Macros) на языке STATISTICA Visual Basic. В пакете
STATISTICA 10 содержатся макросы, позволяющие пользователям расширять функциональные возможности STATISTICA 10, добавляя новые пользовательские модули и элементы.
Файлы данных в пакете STATISTICA 10 имеют расширение *.sta.
На рисунке 1.1 видно, что файл STATISTICA 10 состоит из строк и столбцов. Столбцы таблицы данных STATISTICA 10 называются переменными (Variables), а строки – наблюдениями (Cases). В качестве переменных обычно выступают исследуемые величины, а наблюдения – это значения, которые принимают переменные в отдельных измерениях. Таблицы данных могут содержать как численную, так и текстовую информацию.
1.2 Аналитические модули STATISTICA 10
Пакет STATISTICA 10 организован по модульному принципу: все методы статистической обработки, реализованные в пакете, разбиты на несколько групп – модулей – в соответствии с основными разделами статистического анализа [1].
Основные модули STATISTICA 10: основные статистики и таблицы, кластерный анализ, множественная регрессия, дискриминантный анализ, дисперсионный анализ, подгонка распределений, факторный анализ, деревья классификации, многомерное шкалирование и др.
Модуль Basic Statistics (Основные статистики и таблицы) содержит ос-
новные описательные или дескриптивные статистики, методы анализа и построения различных таблиц, включая таблицы сопряженности, таблицы флагов и заголовков, разносторонний инструментарий проведения разведочного анализа данных. В этом модуле доступны классические t-критерии Стьюдента для независимых и зависимых выборок, группировка и однофакторный дисперсионный анализ. В этом модуле также доступен вероятностный калькулятор и различные критерии значимости (критерии различий долей, корреляций и средних) [1].
В модуль Cluster (Кластерный анализ) включены различные алгоритмы классификации, выделения однородных групп или кластеров. Этот модуль содержит мощные средства кластеризации (иерархическая кластеризация, метод k- средних, 2-входовое объединение). Пакет STATISTICA 10 может обрабатывать как исходные файлы данных, так и матрицы расстояний (например, матрицы корреляций) и может группировать объекты, как по наблюдениям, так и по переменным [1].
Модуль Multiple Regression (Множественная регрессия) позволяет по-
строить объяснительную регрессионную модель, оценить параметры модели методом наименьших квадратов, вычислить подробные статистики (построить графики, провести анализ остатков). Общее назначение множественной регрессии со-
10
