Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Семинар_№1.doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
1.76 Mб
Скачать

Краткая характеристика пакета statistica

Разработчиком программы STATISTICA является фирма StatSoft, Inc (USA). Первая версия пакета STATISTICA для DOS, вышедшая в 1991г., представляла собой новое направление развития статистического программного обеспечения. В ней был реализован так называемый графически-ориентированный подход к анализу данных.

Смысл подхода состоял в том, чтобы получить всестороннее визуальное представление данных на всех этапах статистической обработки и на основе этого представления выбрать следующий шаг анализа.

В пакете STATISTICA имеются сотни типов графиков, предназначенных для визуализации данных, разведывательного анализа, графического вывода результатов и выбора последующих направлений анализа.

Шестая версия системы STATISTICA полностью удовлетворяет основным стандартам среды WindowsXP и частично руссифициорвана. Именно с этой версией мы и будем иметь дело.

Литература по пакету statistica:

  1. Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. — М.: Филин, 1997.

  2. Боровиков В.П. Популярное введение в программу STATISTICA. — М.: КомпьютерПресс, 1998.

  3. Боровиков В.П., Ивченко Г.И. Прогнозирование в системе STATISTICA в среде Windows. — М.: Финансы и статистика, 1999.

  4. http://www.exponenta.ru/soft/Statist/Statist.asp

  5. http://www.statsoft.ru/home/portal/default.asp

Пакет statistica в целом

Пакет STATISTICA представляет собой интегрированную систему статистического анализа и обработки данных. Внешний вид окна после входа в пакет STATISTICA представлен на рис.1.

Пакет STATISTICA состоит из следующих основных компонент, которые объединены в рамках одной системы:

  • электронных таблиц для ввода и задания исходных данных, а также специальных таблиц для вывода численных результатов анализа;

  • мощной графической системы для визуализации данных и результатов статистического анализа;

  • набора специализированных статистических модулей, в которых собраны группы логически связанных между собой статистических процедур;

  • специального инструмента для подготовки отчетов;

  • встроенного языка программирования Visual Basic, который позволяют пользователю расширить стандартные возможности пакета.

Рис.1. Внешний вид окна пакета STATISTICA

Начало работы в пакете statistica

Войдем в пакет, дважды кликнув по ярлыку STATISTICA, либо путем нажатия следующей последовательности кнопок: Пуск Программы STATISTICA 6.0 STATISTICA. Согласно, например, рис.1, перед пользователем появляется ряд панелей инструментов, а также электронная таблица, похожая по структуре на такой широко известный пакет, как MS Excel.

Исходные данные в системе STATISTICA организованы в виде электронной таблицы. Электронная таблица состоит из строк и столбцов. При этом столбцы называются Variables (Переменные), а строки Cases (Случаи или Регистры).

В качестве переменных обычно выступают исследуемые величины, а случаи — это значения, которые принимают переменные и которые изменяются в процессе наблюдения.

Электронная таблица с исходными данными называется по-английски Spreadsheet.

Для создания нового документа, новой электронной таблицы необходимо выполнить последовательность нажатий клавиш со следующими именами: Файл Новый. На экране появляется окно с заголовком Create New Document, в котором четыре вкладки: Крупноформатная таблица, Отчет, Программа макроса (SVB), Книга.

Назначение данных вкладок следующее:

Крупноформатная таблица — электронная таблица для ввода и обработки исходных данных;

Отчет — текстовый документ для оформления исходных данных и результатов исследования;

Программа макроса (SVB) — программа на языке Visual Basic (SVB) для автоматизации анализа данных;

Книга — средство объединения различных объектов в один файл — в пакете STATISTICA отдельные объекты (таблицы, отчеты, программы, графики) могут сохраняться в виде отдельных файлов, и в ходе исследования их может оказаться достаточно много, для облегчения работы объекты могут объединяться в один файл (книгу) с заданием необходимой (удобной) структуры.

Статистические процедуры пакета STATISTICA сгруппированы в меню под кнопкой Статистика. У нас нет возможности подробно рассмотреть все имеющиеся статистические методы. Будут рассмотрены лишь некоторые, наиболее важные статистические методы, которые представляют интерес для целей нашего — эконометрического курса.

Основная статистика/Таблицы. Эта кнопка предоставляет возможность провести предварительную обработку данных, осуществить разведочный анализ, определить зависимости между данными, разбить их различными способами на группы, определить взаимосвязи между данными.

Множественная регрессия — обращение к процедурам построения зависимости между многомерными переменными, подбора простой линейной регрессионной модели и оценки ее адекватности.

Дополнительные Линейные/Нелинейные модели — эта кнопка включает набор процедур, среди которых нас будут интересовать два метода:

  • Обобщенные Линейные/Нелинейные модели — модуль построения нелинейных регрессионных моделей;

  • Прогноз/Серия времени — анализ временных рядов и прогнозирование.

Для дальнейшего, вводного получения навыков работы в пакете STATISTICA, решим следующую задачу.

Задача №1. По небольшой выборке роста людей вычислить основные статистические характеристики (среднее, стандартное отклонение). На основе полученных данных построить (смоделировать) большую статистическую совокупность. Построить соответствующие гистограммы.

Данные для задачи представлены ниже в виде таблицы.

Рост 18 человек, см.

165

183

168

165

167

168

182

158

174

166

163

165

164

168

162

174

154

164

Решение. При запуске пакета по умолчанию открывается последняя активная таблица или создается новая таблица размером 1010. В данной задаче одна переменная и 18 случаев (строк). Построим соответствующую таблицу, закрыв имеющиеся.

Файл Новый Число переменных = 1, Число регистров = 18 ОК.

Рис.2. Установка параметров переменной Rost

Назовем переменную, которая по умолчанию именуется Var1, именем Rost и установим формат числовой (Number) с количеством десятичных знаков (Decimal places) = 0. Для этого необходимо выполнить двойной щелчок по названию переменной Var1 и в окне Variable 1 в поле Name (имя переменной) ввести имя Rost, в списке Display format (формат данных) выбрать Number (числовой) и в поле Decimal places (число десятичных знаков после запятой) — 0 (см. рис.2).

Переходим к вводу данных. Ввод осуществляется так же, как и в электронных таблицах MS Excel при этом следует помнить, что система воспринимает данные двух видов: текст или число. Разделитель десятичных знаков (точка или запятая) задается настройкой Windows.

Построим гистограмму по нашим данным: Графики Гистограммы в окне 2D Histograms на вкладке Быстрый выбираем переменную как показано на рис.3.

Рис.3. Выбор переменной для построения гистограммы

На рис.4 отображена гистограмма данных, а также кривая нормального распределения (сплошная линия) с параметрами a и . Формула для описания нормального распределения имеет следующий вид:

,

где a — средняя величина, а — стандартное отклонение. В идеале, когда статистическая совокупность имеет достаточную длину, гистограмма и нормальная кривая, должны совпасть. В нашей задаче рассмотрим два случая, когда статистическая совокупность включает 1000 и 100000 единиц соответственно.

Рис.4. Гистограмма распределения роста 18 человек

Получим основные статистические показатели: Статистика Основная статистика/Таблицы, в окне Basic Statistics and Tables выбираем Descriptive statistics OK, в следующем окне Descriptive statistics на вкладке Advanced выбираем переменную и устанавливаем флажки в полях Valid N, Mean, Variance, Standard Deviation, Minimum & Maximum как показано на рис.5.

Рис.5. Установка параметров для получения основных статистических показателей

Искомые статистические показатели сосредоточены в окне, внешний вид которого приведен на рис.6.

Рис.6. Таблица основных статистических показателей

В таблице на рис.6 представлены:

  • Valid N (количество строк в исходной таблице с данными) = 18;

  • Mean (средняя величина) = 167,2222;

  • Minimum (минимум) = 154;

  • Maximum (максимум) = 183;

  • Variance (дисперсия) = 53,12418;

  • Std. Dev (Standard Deviation) (стандартное отклонение) = 7,288634.

Для дальнейшего решения нашей задачи важно отметить наличие двух найденных величин: среднего роста 167,222см. и стандартного отклонения 7,288см. Данная пара величин достаточна для моделированию любой статистической совокупности роста людей, т.к. известно, что рост людей подчиняется нормальному закону, который в свою очередь характеризуется парой параметров: средним ростом и стандартным отклонением.

Рис.7. Изменение параметров переменной Rost

Задача №2. Смоделируем теперь рост группы людей или статистическую совокупность объемом 1000 человек, учитывая, что рост распределен по нормальному закону со средним значением a = 167,222 и стандартным отклонением  = 7,288.

Рис.8. Окно диалога

Вернемся к исходной таблице и добавим необходимое число (982) случаев путем следующих нажатий клавиш: Cases (кнопка на панели инструментов Spreadsheet) Add How many (сколько) = 982, Insert after case (вставить после) = 18 ОК. В итоге будет построена электронная таблица с 1000 строками.

Рис.9. Гистограмма распределения роста 1000 людей

Для генерации 1000 случайных значений ростов людей, дважды щелкнув кнопкой мыши по названию переменной, внесем следующие изменения: число десятичных знаков (Decimal places) = 3 а в поле Long name вводим формулу: , как показано на рис.7. Функция RndNormal( ) при обращении к ней возвращает нормально распределенные псевдослучайные числа со средним 0 и стандартным отклонением .

После внесения изменений необходимо щелкнуть по кнопке ОК. Окно Variable 1 закрывается и открывается окно диалога, показанное на рис.8 — это просьба о подтверждении выполнения пересчета значений переменной. В этом окне следует щелкнуть по кнопке Да.

Построим гистограмму для 1000 случайных значений ростов людей: Графики Гистограммы Переменная = Rost OK Categories = 50 OK. Под параметром Categories понимается число столбиков в гистограмме. Итоговый вид гистограммы для 1000 человек приведен на рис.9.

Вывод: полученная и представленная на рис.9 гистограмма заметно приблизилась к теоретической нормальной кривой (сплошная линия на рис.9).

Задача №3. То же самое проделаем для статистической совокупности объемом 100000 единиц. Добавим в исходную таблицу еще 99000 случаев и сгенерируем новые значения (достаточно щелкнуть по кнопке Recalculate (пересчет) на панели инструментов).

Строим гистограмму роста 100000 человек: Графики Гистограммы Переменная = Rost OK Categories = 100  OK. Результат показан на рис.10.

Рис.10. Гистограмма распределения роста 100000 людей

Вывод: полученная на рис.10 гистограмма почти совпадает с теоретической нормальной кривой.

В итоге решения задачи нами проиллюстрированы особенности функционирования пакета STATISTICA и его возможности по поддержке работы с большими статистическими совокупностями.

1 http://tid.com.ua/scripts/ishop.exe/addonres?id=1126

2 Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. — М.: Дело, 2005. — 504с.

11