Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Коваленко Т.В.. Информационные технологии в отрасли. Обработка экспериментальных данных – работа с выборками данных

.pdf
Скачиваний:
4
Добавлен:
15.11.2022
Размер:
575.22 Кб
Скачать

Министерство образования и науки РФ

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЛЕСОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ имени С. М. Кирова»

Кафедра сухопутного транспорта леса

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ОТРАСЛИ. ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ – РАБОТА С ВЫБОРКАМИ ДАННЫХ

Методические указания по выполнению расчетно-графических, лабораторных работ

и дипломного проектирования для студентов, обучающихся по направлениям 250400 «Технология лесозаготовительных и деревоперерабатывающих производств» и 190700 «Технология транспортных процессов»

Санкт-Петербург

2013

Рассмотрено и рекомендовано к изданию учебно-методической комиссией лесоинженерного факультета Санкт-Петербургского государственного лесотехнического университета 14 февраля 2013 г.

Составитель кандидат технических наук, доцент Т. В. Коваленко

Отв. редактор кандидат технических наук, профессор Н. А. Тюрин

Рецензент

кафедра сухопутного транспорта леса СПбГЛТУ

Информационные технологии в отрасли. Обработка экспериментальных данных – работа с выборками данных: методические указания по выполнению расчетно-графических, лабораторных работ и дипломного проектирования для студентов, обучающихся по направлениям 250400 «Технология лесозаготовительных и деревоперерабатывающих производств» и 190700 «Технология транспортных процессов» / сост. Т. В. Коваленко. – СПб.: СПбГЛТУ, 2013. – 24 с.

В методических указаниях изложены методы обработки экспериментальных данных на ЭВМ с применением программы Statgraphics Plus при выполнении лабораторных и курсовых работ, затрагивающие базовый блок статистических процедур, планирование экспериментов, анализ временных рядов и контроль качества производственных процессов.

Для студентов, обучающихся по направлениям 250400 «Технология лесозаготовительных и деревоперерабатывающих производств» и 190700 «Технология транспортных процессов».

Темплан 2013 г. Изд. № 105.

2

Введение

Компьютерная обработка данных занимает одно из центральных мест в современных информационных технологиях, использующихся в настоящее время в лесном комплексе России.

До недавнего времени статистическая обработка данных являлась весьма трудоемким процессом, отнимавшим у исследователя значительную долю времени. Внедрение ЭВМ, а затем и появление специализированных компьютерных статистических программ позволило в разы сократить затраты на этот процесс и упростило его применение для большого круга производственных задач.

Автоматизация производства и внедрение в лесном комплексе компьютерных систем управления технологическим процессом делают как никогда актуальной рассматриваемую проблему. Обработка, анализ поступающих данных, а затем отладка технологического оборудования и всего техпроцесса – все это требует от сегодняшнего инженера-технолога широких знаний в области математической статистики.

Настоящие методические указания предназначены для того, чтобы студенты старших курсов получили навыки применения современных компьютерных средств обработки данных.

Приведенный в данных методических указаниях материал выстроен следующим образом: работа разбита на главы, посвященные отдельным группам методов обработки данных. Для каждой рассматриваемой процедуры обработки результатов приводится содержательный пример ее использования.

Методические указания предназначены для студентов, обучающихся по направлениям 250400 «Технология лесозаготовительных и деревоперерабатывающих производств» и 190700 «Технология транспортных процессов», и могут быть полезными при подготовке экспериментального раздела диссертационных работ.

3

1. ОБЩИЕ СВЕДЕНИЯ ПО РАБОТЕ С ПАКЕТОМ

STATGRAPHICS PLUS FOR WINDOWS

1.1. Основные характеристики

Пакет Statgraphics Plus for Windows включает в себя более 250 статистических и системных процедур, которые объединены в следующие основные группы:

Plot – содержит различные способы отображения данных в виде диаграмм рассеивания, разведочных графиков, деловых карт;

Describe – включает статистические методы анализа по одной или множеству переменных, процедуры подбора распределений, средства табуляции и кросстабуляции данных;

Compare – содержит методы сравнения двух и более выборок данных, процедуры одно- и многофакторного дисперсионного анализа;

Relate – включает процедуры простого, полиноминального и множественного регрессионного анализа;

Special – содержит модули контроля качества эффективности звеньев производственного процесса, планирования эксперимента, анализа временных рядов, многомерных методов и расширенного регрессионного анализа.

Пакет обеспечивает возможность обмена данными со всеми Windowsприложениями посредством OLE и DDE. Файлы проектов для DOS- и Windows-версий полностью совместимы друг с другом, пакет позволяет экспортировать и импортировать данные со сторонними программами, ис-

пользующими форматы Lotus, dBASE, DIF, DBF и ASCII.

Всостав пакета включены средства, позволяющие сохранять результаты работы и создавать собственные статистические проекты (StatFolio),

атакже интерпретировать результаты работы, определяя значимые эффекты и выявляя возможные изъяны в проведенном анализе (StatAdvisor).

1.2. Интерфейс пакета, ввод исходных данных

Экран пакета является стандартным многооконным интерфейсом Windows, состоящим из тех же самых основных элементов – основного меню, панели инструментов, дочерних окон, контекстного меню и строки состояния (рис. 1.1).

Основное меню, кроме типового пункта по работе с файлами (File), содержит пункты доступа к системным процедурам – Plot, Describe, Compare, Relate, Special, а также пункты управления окнами (View и Window) и справку о системе (Help).

Панель инструментов предназначена для создания новых и открытия существующих файлов данных и проектов, для вывода результатов анализа на печать и для вызова некоторых статистических и графических процедур.

4

Сохранить файл данных Открыть файл данных

Сохранить проект Открыть проект

Электронная таблица

 

Консультант

 

Комментарии

 

 

 

 

 

Рис. 1.1. Внешний вид основного экрана пакета

Внизу основного экрана пакета расположены заголовки свернутых дочерних окон:

1.<untitled> – окно электронной таблицы;

2.StatAdvisor – окно консультанта;

3.StatGallery – окно галереи графических результатов;

4.Untitled Comments – окно ввода комментариев к проводимому ана-

лизу.

Ввод новых данных осуществляется через электронную таблицу, для вызова которой достаточно дважды щелкнуть левой кнопкой мыши на заголовке ее окна <untitled> (рис. 1.2).

Эта таблица организована таким образом, что объекты (наблюдения) наиболее удобно вводить по строкам, а признаки – в столбцы. Работа с данными в таблице подобна обращению с другим табличным редактором – MS Excel. Допускается перенос данных из таблиц Excel в таблицу Statgraphics через буфер обмена Windows.

Для того чтобы задать имя блока переменных и выбрать их тип, необходимо выделить соответствующий столбец, нажав на его заголовок и вызвать контекстное меню по правой кнопке мыши (рис. 1.3). Далее, выбрать пункт Modify Column и в открывшемся диалоговом окне ввести в поле Name новое имя и выбрать тип переменной в блоке Type.

5

Рис. 1.2. Электронная таблица

Для имен переменных, во избежание сбоев, следует использовать только латинские символы.

Преобразование переменных и генерирование новых рядов данных происходит аналогичным образом: выделяется соответствующая колонка, щелчком по правой кнопке мыши вызывается контекстное меню, в котором выбирается пункт Generate Data. В открывшемся окне (рис. 1.4) производятся необходимые арифметические, логические действия с переменными, используя встроенную библиотеку функций.

После заполнения таблицы и задания имен и типа переменных необходимо сохранить файл с исходными данными. Для этого из основного меню необходимо вызвать команду File/Save/Save Data File для нового блока данных или File/Save as/Save Data File as при изменении уже существующего файла исходных данных.

Для того чтобы открыть уже существующий файл с исходными данными, нужно вызвать из основного меню команду Open/Open Data File.

6

Рис. 1.3. Окно модификации

Рис. 1.4. Окно генерации новых данных

колонки

 

2.РАБОТА С ВЫБОРКАМИ ДАННЫХ

2.1.Нормальный закон распределения случайной величины

Нормальное распределение важно по многим причинам. В большинстве случаев оно является хорошим приближением большинства функций. Распределение многих статистик является нормальным или может быть получено из нормальных с помощью некоторых преобразований. Можно сказать, что нормальное распределение представляет собой одну из эмпирически проверенных истин относительно общей природы действительности и его положение может рассматриваться как один из фундаментальных законов природы. Точная форма нормального распределения (характерная «колоколообразная кривая») определяется только двумя параметрами:

средним (а) и стандартным отклонением (σ).

В общем виде закон нормального распределения можно записать следующим образом:

ϕ(x)=

1

(xa)2

e 2σ2 .

2πσ

 

 

Характерное свойство нормального распределения состоит в том, что 68 % всех его наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего, а диапазон ±2 стандартных отклонения содержит 95 % значе-

7

ний. Другими словами, при нормальном распределении, стандартизованные наблюдения, меньшие –2 или большие +2, имеют относительную частоту менее 5 %. (Стандартизованное наблюдение означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение (корень из дисперсии.)

Рис. 2.1. Диалоговое окно выбора типа распределения

Для ознакомления с нормальным распределением в пакете Statgraphics следует выполнить команду основного меню Plot/Probability Distributions, в открывшемся диалоговом окне (рис. 2.1) установить маркер в положение Normal и нажать Ок.

В открывшемся окне приведена сводка выбранного нормального распределения (рис. 2.2), содержащая таблицу с основными параметрами распределения – Mean (среднее, a) и Std. dev. (стандартное отклонение, σ).

По умолчанию, а = 0 и σ = 1, что соответствует стандартному нормальному распределению. Чтобы отобразить график распределения следует нажать на кнопку графических функций (третья слева на нижней панели инструментов).

На экран выводится диалоговое окно с доступными в данном анализе графическими вариантами. Здесь необходимо установить маркер в положение Density/Mass Function и нажать Ок. В легенде полученного графика (рис. 2.2) указываются его основные параметры.

8

Рис. 2.2. Нормальное распределение случайной величины

Для того чтобы задать отличные от принятых по умолчанию значения параметров распределения следует вызвать контекстное меню, нажав на правую кнопку мыши, и выбрать пункт Analysis Option. В открывшемся диалоговом окне (рис. 2.3) необходимо ввести нужные значения среднего и стандартного отклонения. В результате будут получены три дополнительных нормальных распределения. Соответственно изменится и графическое окно (рис. 2.4).

Рис. 2.3. Диалоговое окно для ввода параметров нормального распределения

9

Рис. 2.4. Графики нормальных распределений с заданными параметрами среднего и стандартного отклонения

Для более серьезного анализа полученных распределений следует нажать на кнопку табличных функций (вторая слева на нижней панели инструментов) и установить маркер напротив Cumulative Distribution. В открывшейся сводке (рис. 2.5) содержится таблица накопленной плотности нормального распределения. В первой строке содержатся значения вероятностей попадания случайной величины Х левее 0 (Variable 0) для каждого из четырех распределений (Dist.1 – Dist.5) – так называемый «нижний хвост» (Lower Tail Area). В третьей строке – то же, но справа от 0, то есть «верхний хвост» (Upper Tail Area). Во второй строке приведены величины функции плотности вероятности в точке Х = 0 (Probability Density). Значение Variable может быть изменено, для этого достаточно вызвать по правой кнопке мыши контекстное меню и, указав пункт Pane Options, задать требуемое число.

Следующим этапом обработки данных является анализ таблицы обратной кривой накопления, для вызова которой нужно нажать на кнопку табличных функций (вторая слева на нижней панели инструментов) и выделить пункт Inverse CDF.

В первом столбце этой таблицы (рис. 2.6) указаны некоторые критические значения вероятностей. В остальных столбцах для каждого распределения приведены значения Х, которые не будут превышены именно с этими вероятностями. К примеру, если значение CDF = 0,5 и напротив него стоит 0,0, то это означает, что с вероятностью 0,5 величина Х примет значение Х < 0. Значение критических вероятностей можно изменить, вызвав по правой кнопке мыши контекстное меню и выбрав пункт Pane Option.

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]