Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
50
Добавлен:
15.12.2021
Размер:
1.95 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

О.Г. Берестнева, О.В. Марухина, Г.Е. Шевелёв

ПРИКЛАДНАЯ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Рекомендовано в качестве учебного пособия Редакционно-издательским советом Томского политехнического университета

Издательство Томского политехнического университета

2012

УДК 519.22(075.8) ББК 22.172я73

Б48

Берестнева О.Г.,

Б48 Прикладная математическая статистика: учебное пособие / О.Г. Берестнева, О.В. Марухина, Г.Е. Шевелёв. – Томск: Изд-во Томского политехнического университета, 2012. – 188 с.

В пособии в общедоступной форме изложены основные математикостатистические методы, применяемые в прикладных гуманитарных и технических исследованиях. Изложение материала сопровождается примерами статистической обработки результатовэкспериментальных исследований.

Предназначено для бакалавров направления 230700 «Прикладная информатика», также может быть полезно для аспирантов, научных сотрудников и преподавателей вузов.

УДК 519.22(075.8) ББК 22.172я73

Рецензенты

Доктор технических наук, профессор СибГМУ

В.А. Фокин

Доктор биологических наук, профессор ТГПУ

А.М. Уразаев

©ФГБОУ ВПО НИ ТПУ, 2012

©Берестнева О.Г., Марухина О.В., Шевелёв Г.Е., 2012

©Обложка. Издательство Томского политехнического университета, 2012

2

ПРЕДИСЛОВИЕ

Методы прикладной математической статистики активно применяются в технических исследованиях, экономике, теории и практике управления (менеджмента), социологии, медицине, геологии, истории

ит. д. С результатами наблюдений, измерений, испытаний, опытов, с их анализом имеют дело специалисты во всех отраслях практической деятельности, почти во всех областях теоретических исследований.

Внастоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов. Разрыв между математической и прикладной статистикой проявляется, в частности, в том, что большинство методов, включенных в статистические пакеты программ (например, в заслуженные STATGRAPHICS

иSPSS или в более новую систему STATISTICA), даже не упоминается в учебниках по математической статистике. В результате специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже – и разрабатывают) лица, не имеющие необходимой теоретической подготовки.

Вглаве 1 рассмотрены приемы работы с универсальными статистическими пакетами, такими как STATGRAPHICS, SPSS, STATISTICA. Эти пакеты выделяются развитым аппаратом статистического анализа, удобными графическими средствами, высокой точностью вычислений, содержат удобный редактор отчетов. Наличие недостатков и, следовательно, привлекательность того или иного пакета пользователь может определить при непосредственной работе. Достаточно большой объем информации представлен в графическом виде, дается интерпретация основных понятий на уровне графических образов с последующим сравнительным анализом.

Глава 2 содержит проверку статистических гипотез о законах распределения на доступных примерах с привлечением формул разных авторов. Для ряда критериев даны примеры реакции статистических пакетов.

Глава 3 содержит материал по исследованию взаимосвязи между изучаемыми признаками разных групп. Обсуждается выбор меры связи между переменными, измеренными в разных шкалах.

Вглаве 4 рассматривается оценка влияния известных факторов на исследуемую переменную (дисперсионный анализ), а в главе 5 – выделение новых латентных переменных (факторный анализ). При ознакомлении с материалом главы 5 находится много объяснений методов,

3

полезных для пользователя ПК. Для кластерного анализа приведен анализ выбора алгоритма кластерного анализа, применимого в каждом случае, что позволяет выбрать приемлемый вариант с наилучшими результатами.

Прикладная математическая статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, то есть путем доказательства теорем. Большую роль играет методологическая составляющая – как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

4

ГЛАВА 1 КОМПЬЮТЕРНЫЕ ПРОГРАММЫ АНАЛИЗА ДАННЫХ.

ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ И ИХ ИСПОЛЬЗОВАНИЕ

ВПРИКЛАДНЫХ ИССЛЕДОВАНИЯХ

1.1.Компьютерные программы анализа данных

Рынок компьютерных программ анализа данных очень разнообра-

зен. На нем представлены продукты более тысячи наименований. Такое разнообразие отражает многоплановость задач анализа экспериментальных данных в различных областях человеческой деятельности. Выбор исследователем компьютерного статистического пакета анализа данных зависит от характера решаемых задач, квалификации, имеющегося оборудования и т. д. В табл. 1.1 представлена классификация статистических пакетов.

 

 

Таблица 1.1

Классификация статистических пакетов

 

 

 

Тип

Зарубежные

Отечественные

 

 

 

Профессиональные

SAS

нет

Универсальные

STATGRAPHICS, SPSS,

STADIA, Olymp

 

STATISTICA, S-PLUS

 

Специализированные

Большое

Класс-Мастер, Эвристика,

разнообразие

DataScope, САНИ

В данном пособии будут рассмотрены приемы работы с универсальными статистическими пакетами, такими как STATGRAPHICS, SPSS,

STATISTICA.

Следует отметить тот факт, что пакеты SPSS и STATISTICA предназначены для пользователей, владеющих статистическими методами анализа данных на профессиональном уровне. Поэтому начинать осваивать работу с универсальными статистическими пакетами рекомендуется с STATGRAPHICS. Этот пакет обладает статистическим консультантом (StatAdvisor), который поможет интерпретировать полученные результаты, определит значимые эффекты или укажет на возможные недостатки в проведенном анализе. Изучив принципы работы с данным па-

5

кетом, не составит особого труда перенести полученные навыки на другие пакеты.

Из множества привлекательных свойств рассматриваемых статистических пакетов выделим и охарактеризуем следующие:

1.Наличие достаточно широкого спектра статистических алгоритмов (порядка 100).

2.Сотни типов двумерных и трехмерных графиков.

3.Обмен данными с другими программными продуктами.

4.Большой набор возможностей манипулирования данными (сортировка, трансформация, кодировка, изменение шкалы измерения).

5.Комбинирование текста и графики для составления статистических отчетов.

6.Коррекция и преобразование элементов графических отображений (изменение цвета, заливки, шрифта, надписей, меток, масштабов и т. д.).

7.Взаимодействие пользователя с данными посредством графики (идентификация объекта, разгонка точек на диаграммах рассеива-

ния, окраска «интересных» объектов).

Естественно, что приведенные достоинства далеко не полностью отображают все возможности анализа данных, которыми располагают компьютерные статистические пакеты, но уже достаточно информации, для того чтобы стало ясно, что работа с ними эффективна и удобна.

Наличие недостатков и, следовательно, привлекательность того или иного пакета пользователь может определить при непосредственной работе. Поэтому выбор в пользу предпочтения какого-либо программного продукта предоставляется самому исследователю, а нам лишь остается познакомить его с основными принципами работы со статистическими программами.

1.1.1. STATGRAPHICS

После инициализации системы STATGRAPHICS открывается рабочее окно, представленное на рис. 1.1.

Внизу экрана расположен набор пиктограмм, которые позволяют активизировать следующие окна:

– пиктограмма открывает окно работы с электронной таблицей. Работа с данной таблицей ничем не отличается от работы с другими известными электронными таблицами для Windows типа Exel. Для переименования переменных и задания их типа необходимо выделить столбец и вызвать контекстное меню (правая кнопка мыши), а затем выбрать пункт меню Modify Column. Преобразование переменных (например, арифметическое, логическое), а также генера-

6

цию новых признаков можно осуществить при помощи пункта – Generate Data.

Рис. 1.1. Рабочее окно системы STATGRAPHICS

– пиктограмма открывает окно интеллектуального помощника, который поможет интерпретировать полученные результаты, определить значимые эффекты или укажет на возможные недостатки в проведенном анализе.

– пиктограмма активизирует окно составления отчета. В галерее отчетов возможно располагать в одном окне или на одном листе до девяти различных фрагментов текста и графических иллюстраций (рис. 1.2–1.3). При этом трансформация и перемещение всех составляющих отчета производится быстро и просто.

– пиктограмма раскрывает окно для ввода комментариев к проводимому статистическому анализу. Сохранив протокол анализа (File – Save StatFolio As…), исследователь сможет повторить проведенный анализ на новом массиве данных. Все заданные таблицы и графические отображения будут выданы автоматически.

Универсальный статистический пакет STATGRAPHICS включает более 100 статистических и системных процедур, применяющихся в медицине, социологии, психологии, педагогике, в бизнесе, на производстве и других областях. Каждой группе процедур соответствует отдельный пункт меню, которое расположено в верхней части рабочего окна. Опишем несколько основных пунктов меню.

Пункт Plot. Раскрывающийся список Plot представленный на рис. 1.4 содержит в себе графические процедуры визуализации экспериментальных данных.

7

Рис. 1.2. Окно составления отчетов

Рис. 1.3. Панель выбора количества фрагментов в окне отчета

Рис. 1.4. Пункт Plot – графическое отображение данных

8

Пункт Describe содержит статистические методы анализа данных по одной и множеству переменных, процедуры подбора распределений, средства табуляции, кросс-табуляции данных (рис. 1.5).

Рис. 1.5. Пункт Describe – статистические методы анализа

Пункт Compare включает методы сравнения двух и более выборок данных, процедуры одно- и многофакторного дисперсионного анализа и др. (рис. 1.6).

Рис. 1.6. Пункт Compare

Пункт Relate содержит процедуры простого, полимиального и множественного регрессионного анализа (рис. 1.7).

Рис. 1.7. Пункт Relate

Пункт Special. В данном пункте меню предлагаются дополнительные модули анализа данных: контроль качества, планирование эксперимента, анализ временных рядов, многомерные методы анализа и расширенный регрессионный анализ (рис. 1.8).

В дополнительном модуле Многомерные методы собраны процедуры, обеспечивающие проведение анализа по методу главных компо-

9

нент, факторного и кластерного анализа, дискриминантного и канонического корреляционного анализа (рис. 1.8).

Рис. 1.8. Пункт Special – набор дополнительных модулей анализа данных

Несколько слов необходимо добавить о возможности вызова диалоговых окон задания параметров реализации выбранного статистического метода и построения графических иллюстраций.

После того, как будет выбран рабочий файл с исходными данными и активизирован один из методов анализа данных, на экране откроется окно с результатами сводного анализа. В верхней части окна пользователю становятся доступными следующие пиктограммы (рис. 1.9): окно

ввода исходных данных , табличные опции , графические опции

и пиктограмма сохранения полученных результатов. В зависимости от выбранного метода анализа на панели также будут активизироваться различные пиктограммы для проведения интерактивного анализа экспериментальных данных.

Рис. 1.9. Окно вывода основных характеристик переменных

10