
- •1. Вводные примеры
- •1.1. Введение
- •Основная цель раздела
- •Основные шаги обработки данных в системе
- •1.2. Обработка данных в рамках линейной регрессионной модели
- •1.2.1. Линейная регрессия. Подбор прямой Формулировка задачи
- •Математическая постановка задачи
- •Запуск statistica
- •Выбор статистического модуля
- •Создание электронной таблицы с исходными данными
- •Ввод исходных данных и дополнительной информации
- •Преобразование исходных данных
- •Визуализация данных
- •Замечание
- •Вызов стартовой панели модуля и определение анализа
- •Выбор переменных для анализа
- •Задание дополнительных параметров анализа
- •Вывод результатов и их анализ
- •Информационная часть
- •Функциональные кнопки
- •Замечание
- •Исследование остатков
- •Замечание.
- •Вывод результатов анализа в файл с отчетом
- •2. Створити таблиці
Преобразование исходных данных
В электронных таблицах STATISTICA вы можете выполнить все необходимые преобразования. Например, перейдем от переменной Год и Цена к новым переменным Возраст и Цена _ Лог, которые связаны с исходными переменными при помощи формул
Возраст = 1972 - Год, Цена_Лог = In(Цена). (2)
После этого таблица будет содержать четыре переменные и примет следующий вид:
Рисунок 2.7 Преобразование переменных в таблице и диалоговое окно, в котором задаются спецификации переменных
Формулы преобразования переменных задаются в диалоговом окне спецификаций переменной. Для его вызова достаточно дважды щелкнуть мышью на имени переменной в электронной таблице с исходными данными.
Визуализация данных
Теперь имеет смысл отобразить данные на графике. STATISTICA включает в себя большое количество разнообразных категорий и типов графиков. Это всевозможные графики на плоскости и в пространстве, включая научные графики в различных системах координат, деловые графики и диаграммы, специализированные статистические графики (включая гистограммы, матричные, категоризованные графики, диаграммы рассеяния и др.), пиктографики. Графические средства системы STATISTICA доступны в любом модуле и на любом шаге статистического анализа.
Для вызова графических возможностей системы можно воспользоваться меню Graphics — Графика и выбрать необходимый тип графика. В нашем примере мы воспользуемся двумерными диаграммами рассеяния. В диалоговом окне при помощи кнопки Variables — Переменные выберите необходимые переменные, которые вы хотите отобразить графически и необходимый тип графика. После нажатия на кнопку ОК график будет выведен в отдельном окне на рабочем пространстве системы.
Рисунок 2.8. Диалоговые окна определения графиков. Выберети переменные и тип графика. Нажмите OK.
Рисунок 2.9. Графики зависимости цены от год авыпуска и логарифма цены от возраста
После построения этих графиков на рабочем пространстве системы будет открыто три окна. В одном из них будет электронная таблица с исходными данными, а в двух других — графики. Пользователь имеет возможность сохранить необходимые ему графики в различных форматах или вывести их на принтер. Если нет необходимости сохранять графики, можно просто закрыть окно с ними (в STATISTICA реализован также механизм автоматического закрытия окон с графиками, который будет описан ниже).
Замечание
Преобразование логарифма стабилизирует дисперсию и часто применяется в статистике. Его можно интерпретировать и следующим образом: чем выше абсолютное значение переменной, тем выше и уровень случайных ошибок. При логарифмировании все ошибки становятся примерно одинаковыми. Поэтому мы будем искать линейную зависимость не между Возрастом и Ценой, а между Возрастом и логарифмированной ценой, получая при этом более устойчивые оценки параметров модели. Впоследствии когда модель будет построена, можно перейти к исходным величинам. Итак, наша задача построить модель вида:
ЦЕНА_ЛОГ = b1*B03PACT + b0, (3)
где b1 — неизвестный коэффициент; b0 — свободный член (также неизвестен). При этом модель для цены будет иметь вид:
ЦЕНА = exp{b1*B03PACT + b0} . (4)
Мы не только оценим неизвестные параметры, но и исследуем значимость регрессии и адекватность построенной модели исходным данным.