Краткая характеристика пакета statistica
Разработчиком программы STATISTICA является фирма StatSoft, Inc (USA). Первая версия пакета STATISTICA для DOS, вышедшая в 1991г., представляла собой новое направление развития статистического программного обеспечения. В ней был реализован так называемый графически-ориентированный подход к анализу данных.
Смысл подхода состоял в том, чтобы получить всестороннее визуальное представление данных на всех этапах статистической обработки и на основе этого представления выбрать следующий шаг анализа.
В пакете STATISTICA имеются сотни типов графиков, предназначенных для визуализации данных, разведывательного анализа, графического вывода результатов и выбора последующих направлений анализа.
Шестая версия системы STATISTICA полностью удовлетворяет основным стандартам среды WindowsXP и частично руссифициорвана. Именно с этой версией мы и будем иметь дело.
Литература по пакету statistica:
Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. — М.: Филин, 1997.
Боровиков В.П. Популярное введение в программу STATISTICA. — М.: КомпьютерПресс, 1998.
Боровиков В.П., Ивченко Г.И. Прогнозирование в системе STATISTICA в среде Windows. — М.: Финансы и статистика, 1999.
http://www.exponenta.ru/soft/Statist/Statist.asp
http://www.statsoft.ru/home/portal/default.asp
Пакет statistica в целом
Пакет STATISTICA представляет собой интегрированную систему статистического анализа и обработки данных. Внешний вид окна после входа в пакет STATISTICA представлен на рис.1.
Пакет STATISTICA состоит из следующих основных компонент, которые объединены в рамках одной системы:
электронных таблиц для ввода и задания исходных данных, а также специальных таблиц для вывода численных результатов анализа;
мощной графической системы для визуализации данных и результатов статистического анализа;
набора специализированных статистических модулей, в которых собраны группы логически связанных между собой статистических процедур;
специального инструмента для подготовки отчетов;
встроенного языка программирования Visual Basic, который позволяют пользователю расширить стандартные возможности пакета.
Рис.1. Внешний вид окна пакета STATISTICA
Начало работы в пакете statistica
Войдем в пакет, дважды кликнув по ярлыку STATISTICA, либо путем нажатия следующей последовательности кнопок: Пуск Программы STATISTICA 6.0 STATISTICA. Согласно, например, рис.1, перед пользователем появляется ряд панелей инструментов, а также электронная таблица, похожая по структуре на такой широко известный пакет, как MS Excel.
Исходные данные в системе STATISTICA организованы в виде электронной таблицы. Электронная таблица состоит из строк и столбцов. При этом столбцы называются Variables (Переменные), а строки Cases (Случаи или Регистры).
В качестве переменных обычно выступают исследуемые величины, а случаи — это значения, которые принимают переменные и которые изменяются в процессе наблюдения.
Электронная таблица с исходными данными называется по-английски Spreadsheet.
Для создания нового документа, новой электронной таблицы необходимо выполнить последовательность нажатий клавиш со следующими именами: Файл Новый. На экране появляется окно с заголовком Create New Document, в котором четыре вкладки: Крупноформатная таблица, Отчет, Программа макроса (SVB), Книга.
Назначение данных вкладок следующее:
Крупноформатная таблица — электронная таблица для ввода и обработки исходных данных;
Отчет — текстовый документ для оформления исходных данных и результатов исследования;
Программа макроса (SVB) — программа на языке Visual Basic (SVB) для автоматизации анализа данных;
Книга — средство объединения различных объектов в один файл — в пакете STATISTICA отдельные объекты (таблицы, отчеты, программы, графики) могут сохраняться в виде отдельных файлов, и в ходе исследования их может оказаться достаточно много, для облегчения работы объекты могут объединяться в один файл (книгу) с заданием необходимой (удобной) структуры.
Статистические процедуры пакета STATISTICA сгруппированы в меню под кнопкой Статистика. У нас нет возможности подробно рассмотреть все имеющиеся статистические методы. Будут рассмотрены лишь некоторые, наиболее важные статистические методы, которые представляют интерес для целей нашего — эконометрического курса.
Основная статистика/Таблицы. Эта кнопка предоставляет возможность провести предварительную обработку данных, осуществить разведочный анализ, определить зависимости между данными, разбить их различными способами на группы, определить взаимосвязи между данными.
Множественная регрессия — обращение к процедурам построения зависимости между многомерными переменными, подбора простой линейной регрессионной модели и оценки ее адекватности.
Дополнительные Линейные/Нелинейные модели — эта кнопка включает набор процедур, среди которых нас будут интересовать два метода:
Обобщенные Линейные/Нелинейные модели — модуль построения нелинейных регрессионных моделей;
Прогноз/Серия времени — анализ временных рядов и прогнозирование.
Для дальнейшего, вводного получения навыков работы в пакете STATISTICA, решим следующую задачу.
Задача №1. По небольшой выборке роста людей вычислить основные статистические характеристики (среднее, стандартное отклонение). На основе полученных данных построить (смоделировать) большую статистическую совокупность. Построить соответствующие гистограммы.
Данные для задачи представлены ниже в виде таблицы.
Рост 18 человек, см. |
|||||
165 |
183 |
168 |
165 |
167 |
168 |
182 |
158 |
174 |
166 |
163 |
165 |
164 |
168 |
162 |
174 |
154 |
164 |
Решение. При запуске пакета по умолчанию открывается последняя активная таблица или создается новая таблица размером 1010. В данной задаче одна переменная и 18 случаев (строк). Построим соответствующую таблицу, закрыв имеющиеся.
Файл Новый Число переменных = 1, Число регистров = 18 ОК.
Рис.2. Установка параметров переменной Rost
Назовем переменную, которая по умолчанию именуется Var1, именем Rost и установим формат числовой (Number) с количеством десятичных знаков (Decimal places) = 0. Для этого необходимо выполнить двойной щелчок по названию переменной Var1 и в окне Variable 1 в поле Name (имя переменной) ввести имя Rost, в списке Display format (формат данных) выбрать Number (числовой) и в поле Decimal places (число десятичных знаков после запятой) — 0 (см. рис.2).
Переходим к вводу данных. Ввод осуществляется так же, как и в электронных таблицах MS Excel при этом следует помнить, что система воспринимает данные двух видов: текст или число. Разделитель десятичных знаков (точка или запятая) задается настройкой Windows.
Построим гистограмму по нашим данным: Графики Гистограммы в окне 2D Histograms на вкладке Быстрый выбираем переменную как показано на рис.3.
Рис.3. Выбор переменной для построения гистограммы
На рис.4 отображена гистограмма данных, а также кривая нормального распределения (сплошная линия) с параметрами a и . Формула для описания нормального распределения имеет следующий вид:
,
где a — средняя величина, а — стандартное отклонение. В идеале, когда статистическая совокупность имеет достаточную длину, гистограмма и нормальная кривая, должны совпасть. В нашей задаче рассмотрим два случая, когда статистическая совокупность включает 1000 и 100000 единиц соответственно.
Рис.4. Гистограмма распределения роста 18 человек
Получим основные статистические показатели: Статистика Основная статистика/Таблицы, в окне Basic Statistics and Tables выбираем Descriptive statistics OK, в следующем окне Descriptive statistics на вкладке Advanced выбираем переменную и устанавливаем флажки в полях Valid N, Mean, Variance, Standard Deviation, Minimum & Maximum как показано на рис.5.
Рис.5. Установка параметров для получения основных статистических показателей
Искомые статистические показатели сосредоточены в окне, внешний вид которого приведен на рис.6.
Рис.6. Таблица основных статистических показателей
В таблице на рис.6 представлены:
Valid N (количество строк в исходной таблице с данными) = 18;
Mean (средняя величина) = 167,2222;
Minimum (минимум) = 154;
Maximum (максимум) = 183;
Variance (дисперсия) = 53,12418;
Std. Dev (Standard Deviation) (стандартное отклонение) = 7,288634.
Для дальнейшего решения нашей задачи важно отметить наличие двух найденных величин: среднего роста 167,222см. и стандартного отклонения 7,288см. Данная пара величин достаточна для моделированию любой статистической совокупности роста людей, т.к. известно, что рост людей подчиняется нормальному закону, который в свою очередь характеризуется парой параметров: средним ростом и стандартным отклонением.
Рис.7. Изменение параметров переменной Rost
Задача №2. Смоделируем теперь рост группы людей или статистическую совокупность объемом 1000 человек, учитывая, что рост распределен по нормальному закону со средним значением a = 167,222 и стандартным отклонением = 7,288.
Рис.8. Окно диалога
Вернемся к исходной таблице и добавим необходимое число (982) случаев путем следующих нажатий клавиш: Cases (кнопка на панели инструментов Spreadsheet) Add How many (сколько) = 982, Insert after case (вставить после) = 18 ОК. В итоге будет построена электронная таблица с 1000 строками.
Рис.9. Гистограмма распределения роста 1000 людей
Для генерации 1000 случайных значений
ростов людей, дважды щелкнув кнопкой
мыши по названию переменной, внесем
следующие изменения: число десятичных
знаков (Decimal places) =
3 а в поле Long name
вводим формулу:
,
как показано на рис.7. Функция RndNormal( )
при обращении к ней возвращает нормально
распределенные псевдослучайные числа
со средним 0 и стандартным отклонением
.
После внесения изменений необходимо щелкнуть по кнопке ОК. Окно Variable 1 закрывается и открывается окно диалога, показанное на рис.8 — это просьба о подтверждении выполнения пересчета значений переменной. В этом окне следует щелкнуть по кнопке Да.
Построим гистограмму для 1000 случайных значений ростов людей: Графики Гистограммы Переменная = Rost OK Categories = 50 OK. Под параметром Categories понимается число столбиков в гистограмме. Итоговый вид гистограммы для 1000 человек приведен на рис.9.
Вывод: полученная и представленная на рис.9 гистограмма заметно приблизилась к теоретической нормальной кривой (сплошная линия на рис.9).
Задача №3. То же самое проделаем для статистической совокупности объемом 100000 единиц. Добавим в исходную таблицу еще 99000 случаев и сгенерируем новые значения (достаточно щелкнуть по кнопке Recalculate (пересчет) на панели инструментов).
Строим гистограмму роста 100000 человек: Графики Гистограммы Переменная = Rost OK Categories = 100 OK. Результат показан на рис.10.
Рис.10. Гистограмма распределения роста 100000 людей
Вывод: полученная на рис.10 гистограмма почти совпадает с теоретической нормальной кривой.
В итоге решения задачи нами проиллюстрированы особенности функционирования пакета STATISTICA и его возможности по поддержке работы с большими статистическими совокупностями.
1 http://tid.com.ua/scripts/ishop.exe/addonres?id=1126
2 Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. — М.: Дело, 2005. — 504с.
—
