Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
18 Кулешов.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
24.79 Кб
Скачать

На данный момент существует множество программных средств для статистической обработки данных. Одним из наиболее популярным среди таких пакетов является пакет Statistica фирмы StatSoft. Пакет предоставляет большой выбор функций для анализа и обработки данных, но все же, многие полезные статистические процедуры еще не реализованы в нем. Поэтому возникает потребность добавления своих дополнительных функций к возможностям пакета. Существует два подхода к решению этой проблемы: реализация требуемых процедур при помощи встроенного языка, что не всегда является удобным и эффективным, и создание внешнего модуля, совместимого с форматом данных пакета.

  1. ВОЗМОЖНОСТИ ПАКЕТА STATISTICA

Возможности. STATISTICA позволяет проводить исчерпывающий, всесторонний анализ данных, представлять результаты анализа в виде таблиц и графиков, автоматически создавать отчеты о проделанной работе. С помощью удобной системы подсказок можно обучаться не только работе с самим пакетом, но и современным методам статистического анализа.

Методы анализа. Система включает следующие модули:

Основные статистики и таблицы. Исчерпывающий набор описательных статистик, таблицы сопряженности, таблицы флагов и заголовков, кросстабуляция многомерных откликов и многомерных дихотомий, вычисление корреляционных матриц, обработка пропущенных данных, t-критерии для зависимых и независимых выборок, критерии однородности дисперсии, однофакторный дисперсионный анализ.

Непараметрическая статистика. Непараметрические критерии, ранговые корреляции, подгонка распределений.

Множественная регрессия. Пошаговая регрессия с включением и исключением предикторов, нелинейная регрессия, ридж-регрессия, построение прогнозов, всесторонний анализ остатков, вычисление прогнозов и доверительных интервалов для прогнозируемых значений (можно анализировать очень большие модели, до 500 переменных).

Нелинейное оценивание. Подгонка любой задаваемой пользователем функции, задаваемая пользователем функция потерь, разрывная регрессия.

Временные ряды и прогнозирование. Широкий выбор моделей анализа временных рядов, включая модели АРПСС - авторегрессии и проинтегрированного скользящего среднего, модели с интервенцией, анализ распределенных лагов, спектральный анализ чрезвычайно длинных временных рядов, преобразования рядов, включая быстрое преобразование Фурье и многие другие процедуры углубленного анализа.

Кластерный анализ. Широкий набор процедур кластерного анализа, включая иерархическое объединение, двухвходовое объединение, метод к-средних; алгоритмы оптимизированы для анализа очень больших проектов, например, методом к-средних можно анализировать 400000 наблюдений с 10 переменными.

Факторный анализ. Процедуры факторного анализа и анализа главных компонент, ортогональные и косоугольные факторы, иерархический анализ косоугольных факторов и др.

Канонический анализ. Вычисление канонических переменных и канонических корней.

Многомерное шкалирование. Анализ расстояний, матриц сходств и различия, диаграмма Шепарда и др.

Деревья классификации. Современные методы построения деревьев классификации с категориальными и порядковыми предикторами и различными функциями потерь.

Анализ соответствий. Современные методы анализа таблиц сопряженности.

Структурное моделирование. Построение структурных моделей, продвинутый факторный анализ.

Надежность и позиционный анализ. Методы построения вопросников, оценка надежности позиций и др.

Дискриминантный анализ. Процедуры всестороннего дискриминантного анализа, разнообразные статистики и графическое представление результатов.

Логлинейный анализ. Всесторонний анализ многовходовых таблиц сопряженности, автоматическое построение лучшей модели.

Анализ выживаемости. Анализ таблиц жизни, оценки Каплана-Мейера, регрессионные модели: Кокса, логнормальная, экспоненциальная, зависящие от времени ковариаты, разнообразные статистики и критерии.

Дисперсионный анализ. Полный набор методов одномерного и многомерного дисперсионного анализа, фиксированные и переменные ковариаты, апостериорные критерии, контрасты, проверка предположений дисперсионного анализа, планы с повторными измерениями, иерархически вложенные планы, планы с пропущенными ячейками и многое другое.

Компоненты дисперсии. Смешанные модели дисперсионного анализа, оценка компонент дисперсии.

1.1. Структура пакета

Пакет Statistica представляет собой множество модулей – исполняемых файлов и динамических библиотек. Исполняемые модули Statistica делятся на вычислительные модули (такие, как Basic Statistic Tables или Nonlinear Estimation) и служебные (SCL Run Module, Module Switcher).

1.2. Базовые возможности вычислительных модулей Statistica

Все вычислительные модули имеют стандартный интерфейс. Такой модуль является MDI-приложением (Multi Document Interface) с главным окном приложения класса CssFrame. Все модули обеспечивают базовые возможности Statistica: создание, редактирование файлов данных, таблиц, графиков; обработка данных с помощью программ Statistica Basic, некоторые часто используемые статистические процедуры – «основные быстрые статистики»: описательные статистики, матрицы корреляции, таблицы частот; графики, и т.д.). Инструменты для доступа и редактирования файлов Statistica, включая файлы данных(файлы с расширением *.sta), таблицы(файлы с расширением *.scr), файлы графики (файлы с расширением *.stg). В приложении могут содержаться дочерние (MDI-Child) окна следующих типов:

- окно файла данных (Spreadsheet). Такое окно может быть только одно, т.к. в одном модуле на один момент может быть открыт только один файл данных. - Таблицы (Scrollsheets). - Графики. - Текстовые окна. Это могут быть окна для редактирования программ Statistica Basic или SCL, окна для вывода информации процедурами анализа или просто текстовые файлы. Кроме описанных выше базовых функций, доступных из любого вычислительного модуля Statistica, в каждом модуле имеется также набор собственных процедур. Эти процедуры доступны из подменю главного меню “Analysis”. В общем, вычислительные модули отличаются только содержимым этого меню. Как правило, процедуры анализа выводят результаты вычислений в виде таблиц, графиков или как текстовую информацию, которая выводится в текстовом окне. Отдельное место занимает модуль Statistica File Server (исполняемый файл sta_fil.exe). Это минимальный модуль, обеспечивающий все стандартные инструменты и средства вычислительных модулей Statistica, и не имеющий своей собственной функциональности. Файлы Statistica могут быть открыты непосредственно в этом модуле обычным двойным нажатием по имени файла в менеджере файлов Windows. Одним из преимуществ использования данного модуля является возможность иметь одновременно запущенными столько экземпляров Statistica File Server, сколько может позволить операционная среда, давая возможность просматривать и редактировать сразу несколько файлов данных Statistica. Кроме того, именно это приложение обеспечивает поддержку OLE (Object Linking and Embedding) файлов Statistica в других приложениях (если на тот момент нет другого запущенного модуля Statistica).

1.3. Файлы Statistica

1.3.1. Файлы данных

Файлы данных Statistica имеют расширение *.sta. В файлах данных содержится следующая информация: - заголовок файла; - количество переменных-столбцов; - количество наблюдений в каждой выборке; - имена переменных-столбцов; - длинные имена переменных (это может быть формула, метка или DDE-связь); - формат отображения данных: - тип данных для каждой переменной: числовые значения, дата, время, денежные значения или проценты; - ширина представления; - количество десятичных знаков после запятой; - формат отображения: для каждого типа данных существует несколько форматов; - значения для обозначения отсутствующих данных (Missing Data) для каждой переменной; - имена строк-наблюдений, их длина; - сами данные как числовые значения;

- количество текстовых значений(меток) для каждой переменной; - числовые и текстовые значения для меток отдельно для каждой переменной; - длинные имена для меток отдельно для каждой переменной. - файлы рабочей книги(Workbook)