- •Томашевский а.В., Рысиков в.П. Учебное пособие компьютерные технологии статистической обработки данных
- •Введение
- •1.Краткая характеристика основных пакетов статистической обработки
- •1.1. Общие представления
- •1.2. Ввод данных в пакете statistica
- •1.3.Контрольные вопросы и задания
- •1.3.1.Вопросы
- •1.3.2. Задания
- •2. Начальная статистическая обработка данных
- •2.1. Понятие о генеральной совокупности и выборке
- •2.2. Случайные величины и их характеристики
- •2.3. Распределения случайных величин
- •2.4. Компьютерные технологии начальной статистической обработки
- •2.5. Контрольные вопросы и задания
- •2.5.1.Вопросы
- •2.5.2. Задание
- •3. Проверка статистических гипотез
- •3.1. Основные положения
- •3.2. Проверка гипотезы о законе распределения
- •3.3. Проверка гипотез о равенстве дисперсий и математических ожиданий
- •3.4. Компьютерные технологии проверки статистических гипотез
- •3.5. Контрольные вопросы и задания
- •3.5.1.Вопросы
- •3.5.2. Задания
- •4. Корреляционный анализ
- •4.1. Основные положения
- •4.2. Корреляционное поле
- •4.3. Выборочный коэффициент корреляции.
- •4.4. Корреляционное отношение
- •4.5. Частные коэффициенты корреляции.
- •4.6. Ранговая корреляция.
- •4.7. Компьютерные технологии корреляционного анализа
- •4.8. Контрольные вопросы и задания
- •4.8.1.Вопросы
- •4.8.2. Задания
- •5. Регрессионный анализ
- •5.1. Основные положения
- •5.2. Компьютерные технологии регрессионного анализа
- •5.3. Контрольные вопросы и задания
- •5.3.1.Вопросы
- •5.3.2. Задания
- •6. Дисперсионный анализ
- •6.1. Основные положения
- •6.2. Однофакторный дисперсионный анализ
- •6.3 Двухфакторный дисперсионный анализ
- •6.5. Контрольные вопросы и задания
- •6.5.1.Вопросы
- •5.3.2. Задания
- •7. Планирование эксперимента
- •7.1. Основные положения
- •7.2. Полный факторный эксперимент
- •7.3 Центральное композиционное планирование
- •7.5. Контрольные вопросы и задания
- •7.5.1.Вопросы
- •7.5.2. Задания
- •Приложение статистические таблицы Функция стандартного нормального распределения
- •Критические точки распределения Стьюдента
- •Критические точки распределения 2
- •Рекомендована література
1.Краткая характеристика основных пакетов статистической обработки
1.1. Общие представления
Компьютерные технологии для статистической обработки данных - пакеты статистической обработки (ПСО) нашли широкое применение в практической и научно-исследовательской работе в самых разнообразных областях. Современный мировой и отечественный рынок программных продуктов характеризуется большим разнообразием ПСО. По данным Международного статистического института, число програмных продуктов для статистической обработки приближается к тысяче. Поэтому для пользователя важно правильно ориентироваться в этом многообразии.
Можно разделить существующие статистические пакеты на такие группы:
универсальные, с ориентацией на определенные методы статистической обработки (методо-ориентированные);
специализированные, с ориентацией на решение специальных задач анализа данных;
предметно- (или проблемно-) ориентированные пакеты, предназначенные для использования в какой-либо предметной оьласти (например, в экономике, контроле качества социологии);
Кроме того, в ряде программных продуктов (в частности, Excel, Mathcad, Mathematics) существуют разделы статистической обработки и разработаны экспертные системы со статистической направленностью ( СТАТЭКС, Statistical Navigator, Statistical Consultant).
Из всего многообразия ПСО выделим и рассмотрим пакеты, представляющие интерес для специалистов научно-технического и экономическойго направлений и реализованные на персональных компьютерах (ПК). Это, прежде всего, универсальные пакеты SAS, Statistica, SPSS, Statgraphics, и разделы статистической обработки в широко используемых приложениях Excel, Mathcad, Mathematics.
Универсальные ПСО.Общая характеристика. Весь математико-статистический инструментарий универсальных пакетов статистической обработки ,как правило, организован в виде отдельных библиотек модулей. Каждая из библиотек содержит обрабатывающие модули или их группы, реализующие определенные функции ПСО.
Библиотека 1: вспомогательные программы. Она состоит из трех разделов:
Методы матричной алгебры. Включает в себя модули, реализующие методы решения систем линейных уравнений, вычисления собственных чисел и собственных векторов в обобщенной постановке задачи;
Оптимизационные алгоритмы. Обеспечивает статистические модули необходимыми методами и алгоритмами поиска экстремумов различных функционалов, определяющих критерии качества статистического метода (например, метод наименьших квадратов и т.п.);
Статистическое моделирование на ПК. Включает в себя модули, реализующие процесс машинного генерирования последовательностей одномерных и многомерных наблюдений, извлекаемых из генеральных совокупностей соответствующего типа.
Библиотека 2: описательная статистика и разведочный анализ исходных данных.
Содержание библиотеки определяется основными задачами первичной статистической обработки данных.
Библиотека 3: статистическое исследование зависимостей. Это самая объемная часть пакета, тематически распадающаяся на шесть разделов:
корреляционно-регрессионный анализ; дисперсионный и ковариационный анализ; системы одновременных структурных эконометрических уравнений; планирование регрессионных экспериментов и выборочных обследований; анализ временных рядов; анализ зависимостей марковского типа.
Библиотека 4: классификация и снижение размерности. Тематически разделяется на 5 разделов:
дискриминантный анализ; статистический анализ смесей распределений; кластер-анализ (таксономия); снижение размерности в соответствии с критерием автоинформативности (без обучения); снижение размерности в соответствии с критерием внешней информативности (при наличии обучения).
Библиотека 5: некоторые специальные методы статистического анализа нечисловой информации и экспертных оценок. Целесообразность подобной библиотеки объясняется спецификой и весьма интенсивным развитием математических моделей экспертного оценивания, которые подчас апеллируют к исходным данным нечисловой природы, а также к методам и понятиям, не укладывающимся в рамки традиционных схем (например, оперирующим с так называемыми нечеткими множествами). В составе используемого в ней математико-статистического инструментария: анализ таблиц сопряженности, логлинейные модели, субъективные вероятности, логит- и пробит-анализ, ранговые методы и т. п.
Библиотека 6: планирование эксперимента и выборочных обследований. Содержит модули для планирования экспериментов и обработки результатов выборочных обследований.
Помимо перечисленных шести библиотек, объединяющих так называемые обрабатывающие модули, в пакет входит ряд управляющих модулей и программ: организующая программа (программа-администратор), сервисная программа, библиотека паспортов модулей и др.
Универсальные ПСО. Основные програмные продукты. Для решения научно-технических задач, обработки экономической информации наиболее рейтинговыми являются универсальные продукты: система SAS, пакет SPSS, SYSTAT,[16]
Система SAS существует и развивается с 1976 г. и работает на самых различных платформах под управлением одной из 12-ти операционных систем (ОС). Фирма-разработчик SAS занимает одно из ведущих мест среди разработчиков разнообразных программных продуктов, имея 3200 сотрудников, поддерживающих более 3 миллионов пользователей в 120 странах. По сути, SAS сегодня является мощным комплексом из свыше 20-ти различных программных продуктов, объединенных друг с другом «средствами доставки информации» (Information Delivery System или IDS, так что весь пакет иногда обозначается как SAS/IDS). На рынке статистического программного обеспечения основным «козырем» SAS является его непревзойденная мощность по набору статистических алгоритмов. Традиционно сложилось, что в СССР, а затем и в СНГ основными пользователями системы являются предприятия ВПК, крупные бизнесмены (некоторые крупные банки, включая Центробанк, биржи, торговые фирмы), некоторые атомные станции, крупнейшие медицинские и геофизические центры, крупные государственные структуры. Под понятием IDS разработчик SASа понимает, что ее пользователю достаточно поставить на свой компьютер кроме ОС систему SAS и этим ограничиться для 100%-й информатизации деятельности любой фирмы (все остальные функции типа задач, решаемых на основе Excel, Word, любой из СУБД и др. полностью возьмет на себя SAS/IDS).
SAS/IDS — это интеграция весьма разнообразных возможностей доступа к данным и управления ими, средств анализа данных, способов представления информации и генерации отчетов. Система имеет модульную структуру и легко может быть сконфигурирована под специфические особенности ее пользователя. В систему входят следующие модули.
Модуль BASE SAS — ядро системы с встроенным языком программирования 4GL и языком работы с базами данных SQL, средства управления данными, поддержки индексов для баз данных, возможностями доступа к широкому набору форматов данных, процедуры описательной статистики и генерации отчетов.
Модуль FSP обеспечивает полноэкранный доступ к данным, ввод, редактирование, преобразование данных, генерацию отчетов и деловую переписку.
Модуль GRAPH содержит деловую, научную, рекламную графику, различные шрифты и карты. Дружественные к пользователю средства рисования и редактирования поддерживают создание сложных графических элементов, таких как сложные графики, трехмерные поверхности, разнообразные столбиковые или круговые диаграммы с любой степенью параметризации.
Модуль STAT включает в себя многофункциональный набор статистических процедур анализа данных.
Модуль IML представляет собой интерактивный матричный язык программирования для выполнения углубленных математических, инженерных и статистических расчетов. Этот язык дает возможность математику легко программировать свои собственные процедуры, используя язык, близкий к языку линейной алгебры.
Модуль LAB обеспечивает пользователю экспертную поддержку. В частности, здесь система подсказывает пользователю, выполняются или нет предположения, лежащие в основе того или иного метода анализа данных.
Модуль EIS является меню-управляемым инструментом разработки и поддержки мощных интерактивных исполняемых информационных систем методом объектно-ориентированной технологии. С помощью этого модуля легко настроить систему на свои данные и формы представления результатов.
Модуль ACCESS дает возможность строить отдельные интерфейсы для связи SAS/IDS с самыми разнообразными CУБД (ADABAS, DB2, ORACLE, SQL/DS и др.).
Модуль INSIGHT представляет собой в высокой степени интерактивный инструмент для графического анализа данных.
Ясно, что из вышеописанных модулей — «кирпичей» можно строить любые, «сколь угодно высокие дома», однако процесс освоения технологии строительства, самого строительства, а также получения лицензии на «право застройки» потребует немалых интеллектуальных и материальных затрат.
Достоинства и недостатки пакета. Основными достоинствами SAS являются мощное интеллектуальное ядро, поддержка всех пяти архитектур клиент-сервер, возможность доступа и интеграции данных из любых источников и наличие объектно-ориентированной технологии быстрой разработки приложений.
При этом, благодаря исключительной гибкости и переносимости системы, приложение, созданное в одной из ОС может быть перенесено на любую из платформ, поддерживаемых SAS/IDS, начиная от суперЭВМ типа CRAY до Mainframe или рабочей станции.
Главные недостатки системы — громоздкость, большие трудности в освоении, высокие требования к статистической квалификации пользователя, жесткие требования к аппаратной части ЭВМ, большой ее размер на диске. Особенностью пакета является и его дороговизна (за каждый модуль порядка $300).
Пакет SPSS стал известен в научном и деловом мире, будучи реализован на больших машинах. Основными пользователями его «пакетного варианта» традиционно были ученые, работающие в академических институтах и университетах, а также в разнообразных приложениях математической статистики, например, в области контроля качества.
Как и SAS, пакет предназначен в первую очередь для статистиков-профессионалов, так как имеет достаточно мощный аппарат статистического анализа, вполне соизмеримый по мощности с SAS.
Благодаря переориентации разработчиков в последние годы на платформу Windows, программа SPSS стала в настоящее время одним из лидеров среди универсальных статистических пакетов. SPSS для Windows отличается разнообразными возможностями по управлению данными и манипулированию полученными результатами, по работе с электронными таблицами, предоставляет достаточно удобную графику (более 50 типов диаграмм), а также развитые средства подготовки отчетов. Аналитические параметры отображаются на экране в виде простых и ясных меню и диалоговых окон. На основе DDE и OLE технологий фирмы Microsoft, а также стандарта ODBC-2.0, в SPSS также решены вопросы обмена с другими Windows-приложениями и выполняется связь с большинством форматов баз данных. Так, можно, можно очень легко переносить полученные тестовые или графические результаты из SPSS в документы Word.
Достоинства и недостатки. После SAS, в своей полной конфигурации SPSS для Windows обладает весьма полным набором статистических (всего их более 60-ти) и графических процедур, а также процедур создания отчетов. Также, создатели пакета гордятся интерфейсом SPSS с пользователем, считая его очень простым и удобным. Кроме того, традиционно пакет отличается высокой точностью вычислений.
Однако, лицензионные диски с полным комплектом SPSS стоят немалые суммы. Так, модули «Углубленная статистика» и CHAID стоят,соответственно, порядка $500 и $700 при покупке у дистрибутора в РФ; нейромодуль же стоит почти тысячу USD.
Система SYSTAT. Эта система универсального характера разработана одноименной фирмой, которая с сентября 1994 г. «поглощена» корпорацией SPSS. Пакет SYSTAT отличается от ряда других универсальных систем типа SAS, SPSS, тем, что он изначально был спроектирован под платформу IBM PC. Главное достоинство пакета, как впрочем и пакетов SAS и SPSS, исключительно широкий диапазон и глубина проработки функционального наполнения. Здесь есть широкие возможности и для слабо подготовленного в статистике пользователя и для достаточно искушенного статистика.
В 90-х годах пакет был одним из лучших среди универсальных пакетов углубленного статистического анализа. Журнал Software Digest (Rating Report), издаваемый лабораторией NSTL, назвал SYSTAT в мае 1991 г. самым лучшим статистическим пакетом универсального характера (general-purpose). Отмечалось высокое качество статистических алгоритмов пакета, его явное доминирование в области планирования экспериментов. Пакет имеет великолепную графику, по которой еще недавно пакет являлся одним из лучших в своем классе. Однако, с современных позиций просматривается уже определенное отставание в графике в режиме «высокого разрешения». Документация пакета включает в себя четыре тома. Это ясно и хорошо написанное руководство «Как начать работу», а также руководства по разделам «Графика», «Статистика». Есть и небольшое «Руководство по данным».
Пакет управляется через легко используемое меню. Ввод данных и их редактирование осуществляется через затабулированное окно. Для удобства вызова наиболее частых статистических процедур, в SYSTAT введены клавиши QuickStat. Рабочая таблица с данными легко активизируется и ясна на интуитивном уровне. Пакет обладает прекрасными возможностями отображения на экране исходных данных и полученных результатов разведочного анализа, имея в своем распоряжении около 30-ти различных способов графического отображения: гистограммы, ящики с «усами», стебли с листьями, иконки, 2-D и 3-D диаграммы рассеяния и т.д. Кроме того, имеются матрицы диаграмм рассеяния, графики функций и географических карт. Есть возможность легко комбинировать координатные оси, поверхности, контуры, диаграммы рассеяния. Кроме того, пакет позволяет порождать и изображать сложные поверхности, что полезно для визуализации сложных функций. Нажатием кнопки мыши легко вращать даже сложные 3-D графики с координатными осями по отношению к плоскости экрана. Для многих графиков имеются специальные средства типа стрелки, с тем чтобы исследовать точки-выбросы, ключи с диапазонами для режима «лупа» или «лассо», для исследования выделенного фрагмента данных. Графика пакета гибкая, легко управляемая и объектно ориентированная. Есть возможности интерактивных графических преобразований данных, что очень удобно при разведочном анализе. Также имеются средства разработки презентаций.
Достоинства и недостатки. SYSTAT обладает хорошей и заслуженной репутацией в плане его точности, используя много превосходных алгоритмов. Он имеет достаточно обширное меню с функциональными алгоритмами, включая описательную и непараметрическую статистику, корреляцию, кластерный анализ, проверку многомерных гипотез для общей линейной модели и таблицы сопряженности. Пакет дает возможность замечательной работы во всех областях статистики, но особенно он силен в области дисперсионного анализа и планирования экспериментов. Имеет много дополнительных процедур для дискриминантного анализа, матричной алгебры, логлинейных моделей, планирования экспериментов, структурного анализа и карт контроля качества. Также были добавлены робастные (устойчивые) алгоритмы, дающие точные и корректные результаты при почти вырожденных данных. Кроме того, эта версия предоставляет пользователю наиболее широкие возможности анализа общей линейной статистической модели.
Некоторое неудобство работы с пакетом связано с тем обстоятельством, что часть операций доступна лишь из командной строки. Иногда объяснение в руководстве пользователя дается для упрощенного варианта меню, а детали используемого статистического метода даются только как инструкции к командной строке. Некоторые разделы меню содержат в себе меньше, чем это было бы нужно для оптимального дружественного интерфейса с пользователем. Также, несколько важных статистических методов решительно не являются дружественными к пользователю ( например, по непарному t-критерию и простому однофакторному дисперсионному анализу).
Пакет Statgraphics.предназначен в основном для тех пользователей, которые уже имеют определенный опыт в статистике. Особенно это касается модуля с многомерными методами. Для корректного их использования, пользователь должен иметь базовые знания по статистике и знать допущения и ограничения тех или иных статистических критериев и многомерных методов. Пакет был изначально разработан для платформы IBM PC и нацелен, в первую очередь, на графические возможности компьютерной статистики. Однако, постоянное его совершенствование в плане функциональных алгоритмов и способов управления данными существенно усилило данный пакет и повысило его конкурентоспособность. В 1995 г. пакет STSC был признан одной из наиболее эффективных интегрированных систем статистического анализа данных на ПЭВМ. Его важнейшим «плюсом» считается удачное соединение математического аппарата обработки данных с современной интерактивной графикой. Также к его достоинствам относятся широкие возможности взаимодействия с электронными таблицами и СУБД. Обмен с таблицами в Windows-версии выполняется через стандартный буфер обмена (Windows clipboard).
Пакет Statgraphics имеет 8 крупных разделов по методам математической статистики. Кроме того, в плане смежных с задач, пакет содержит такие разделы, как Дескриптивная статистика, Разведочный анализ, Многомерный анализ. Пакет Statgraphics построен по модульному принципу.
Базовый модуль содержит ряд общих процедур, а также процедуры линейной регрессии. В разделе описательной статистики можно проанализировать одну или несколько переменных, подогнать те или иные теоретические функции распределения, получить необходимые статистики. Есть возможность рассчитать коэффициенты корреляции Пирсона и ранговой корреляции Спирмена, но других средств ранжирования переменных нет.
Традиционно пакет имеет обширные и весьма гибкие графические возможности: в наличии не только 2-D — цветные, но и 3-D — графики, диаграммы прямоугольников с контактами, графики на сетке, частотные гистограммы, диаграммы рассеяния, столбчатые и круговые диаграммы.
Многомерный анализ вынесены, как и ряд других разделов статистики, в дополнительные модули. Всего их четыре: контроль качества, планирование экспериментов, временные ряды и многомерные методы.
Интересной новинкой в является введение сеанса работы StatFolio, внешне напоминающего папку. В этой «папке» объединяются исходные данные, а также примененные к ним аналитические процедуры, полученные выходные графики (в виде пиктограмм). Сеансы можно комбинировать по два или в большем количестве. Так, например, если Вы желаете выполнить анализ новых данных, то просто добавьте их в выбранный сеанс.
Достоинства и недостатки. Пакет имеет широкий диапазон графических средств, в пакете легко настроить те или иные параметры, нужные для выдачи графика на экран или на любое внешнее устройство, включая цветной принтер. Работу с графиками легко освоить, так как многое понятно даже на интуитивном уровне. Таким образом, именно блестящая графика является «нишей пакета» на рынке универсальных пакетов.
К недостаткам можно отнести то, что в базовом модуле средства создания отчетов слабые, в частности, нельзя в одном отчете объединить текст и графику. Дополнительные модули усиливают средства создания отчетов. Встроенная система справки содержит простой в употреблении словарь, не являющийся полностью гипертекстовым. Несколько неудобна
справочная система. Так, некоторые особенности пакета, которые делают его легким в использовании для подготовленного пользователя, могут заводить «не в ту степь», неопытного или слабо обученного пользователя. Пакет некорректно работает при проведении парных сравнений на основе t-критерия. В плане корректности вычислений, по-видимому, пакет несколько уступает своим ближайшим конкурентам SYSTAT и SPSS.
В документации на дополнительные модули многие тесты хорошо объясняются, однако ясность и глубина изложения материала явно недостаточны. Документация на модуль многомерного анализа сразу же активно использует те или иные методологии кластерного анализа, вовсе не объясняемые на многих ее страницах. Эту вынуждает неподготовленного пользователя обучаться основам статистики самостоятельно, чтобы корректно использовать блок многомерных методов.
Пакет STATISTICA - это мощный пакет статистического анализа, в котором реализованы все новейшие компьютерные и математические методы анализа данных. Это универсальная интегрированная система, предназначенная для статистического анализа и визуализации данных, управления базами данных и разработки пользовательских приложений. Помимо общих статистических и графических средств, в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и промышленных задач.Пакет ориентирован на пользователя хорошо владеющему методами статистических исследований, но его базовые модули могут быть использован и новичками в статистике.
Пакет Statistica по своей структуре состоит из связанных между собой модулей, которые взаимодействуют друг с другом, имея одинаковый формат системных файлов. Так, если нужен раздел линейной регрессии, то необходимо покинуть окружение главного модуля и выйти в окружение модуля линейной регрессии. В плане функционального наполнения пакет, отличается большим разнообразием, включая в себя и те разделы анализа, которые в других пакетах (например,Statgraphics) содержит лишь в дополнительных модулях (поставляемых за дополнительную цену). В частности, он включает в себя ряд непараметрических методов анализа, методы многомерного анализа: дискриминантного, факторного кластерного логлинейного и др.
Достоинства и недостатки. Пакет удобендля управления, данные легко ввести в среду пакета, относительно легко отредактировать, создать новые переменные («признаки»), выбрать отдельные наблюдения или «вырезать» подмножество данных по строкам и/или по столбцам таблицы «объект-признак». Благодаря обширной панели инструментов, для выполнения большинства задач достаточно несколько щелчков мышки, так как почти для всех функций пакета здесь имеются пиктограммы. Кроме того, щелчком правой кнопки мышки можно вызвать дополнительные подменю, которые существенно ускоряют работу с пакетом.
Интересной особенностью пакета является настройка функций под экран, открытый в данный момент времени. Так, при загрузке программы в память машины в активном окне возникает список модулей, доступных пользователю в данный момент времени. Отсюда пользователь может самостоятельно решить, какого сорта анализ ему необходимо сейчас выполнить. Список модулей и порядок их следования в окне могут быть определены пользователем, что дает ему дополнительные удобства в гибкости настройки.
Statistica имеет возможность работы в пакетном режиме, используя свой командный язык SCL. Можно использовать и наборы команд, объединяемые в последовательности или макросы. С помощью макрокоманд удобно готовить презентации. Кроме того, пакет дает средства составления отчетов.
Пакет можно связывать различными Windows-приложениями. Благодаря поддержке DDE, нетрудно выполнить те или иные командные сценарии изнутри других приложений. Например, можно в Excel написать макрос, который запускает пакет Statistica. После добавления в макрос специальных SQL-команд можно импортировать в пакет данные. Использование OLE технологии обмена между Windows-приложениями позволяет легко интегрировать результаты, например, Word и Statistica.
Наиболее сильной стороной пакета является графика и средства редактирования графических материалов. Представлены сотни типов графиков: типа 2-D или 3-D (имеются даже графики типа 4-D), матрицы и пиктограммы. Есть возможность разработать свой дизайн графика и добавить его в меню. Средства управления графиками включают в себя работу одновременно с несколькими графиками, изменение размеров сложных объектов, расширенные возможности рисования с добавлением художественной перспективы и рядом специальных эффектов, разбивку страниц и быструю перерисовку. Например, 3-D графики можно вращать, накладывать друг на друга, сжимать или увеличивать. Передовая анимационная техника, примененная в версии 5.0 и относящаяся скорее к области искусства, позволяет увидеть на графиках, какие точки там изменились под влиянием изменений в одной из переменных.
Кроме того, пакет имеет подробную документацию и краткое руководство, хорошо и детально описан в монографии [2]. В экранный справочник входит почти вся информация печатной документации. Содержащиеся в документации и экранном справочнике рекомендации полезны, но порой недостаточно полны.
К недостаткам можно отнести отсутствие методов планирования экспериментов, контроля качества. В целом пакет Statistica по широте охвата статистических методов уступает и SAS, и SPSS.
Инструментальные программные средства, содержащие статистическую компоненту. К таким средствам следует отнести, прежде всего приложение Excel,пакеты Mathcad, Mathematica, содержащие разнообразные математические и статистические средства и имеющие модульную структуру (анализ временных рядов, модули финансового анализа, разведочного анализа, решения дифференциальных уравнений, цифровой обработки сигналов и др.) и интерактивную среду S-plus,
Приложение Excel дает возмозмость не очень подготовленному пользователю, выполнить начальную статистическую обработку данных, проверить статистические гипотезы, осуществить регрессионный, дисперсионный и другие виды анализа данных. В состав Microsoft Excel входит набор статистических функций и средства анализа данных (так называемый пакет анализа), предназначенный для решения статистических задач. Проведения статистического анализа осушествляется довольно просто - следует указать входные данные и выбрать с помощью меню нужную статистическую функцию или в пакете анализа - макрофункцию (инструмент анализа), результаты отобразятся на листе окна приложения. Подробней о возможностях приложения Excel для проведения статистического анализа в п.1.4.
В пакете Mathcad реализованы основные функции для анализа экспериментальных данных (среднее,медиана, дисперсия, корреляция и др.), распределений и проведения регрессионного анализа. MathCAD имеет удобный пользовательский интерфейс. У этой системы есть и эффективные средства типовой научной графики, они просты в применении и интуитивно понятны, расчеты в системе MathCAD ориентированы на массового пользователя. Отличительная особенность - реализуется удобное и наглядное объектно-ориентированное программирование сложнейших задач, при котором программа составляется автоматически по заданию пользователя, а само задание формулируется на естественном математическом языке общения с системой
Встроенные в пакет Mathematica «электронные ноутбуки» позволяют легко организовать текст, результаты вычислений и графику в выразительные технические отчеты и презентационные материалы. Так же легко получить 2-D и 3-D графики и выполнить другие способы визуализации данных.
S-plus представляет собой интерактивную среду, которая включает в себя полноценный графический анализ данных и язык программирования, который является расширяемым и удобным для использования. Среда S-plus основана S языке программирования, который разработан в AT&T Bell Labs и является объектно-ориентированным языком, специально предназначенным для анализа данных. Именно поэтому получаемые результаты имеют неограниченную свободу при проведении исследований, анализа и моделирования данных в науке и технике.
S-plus может быть очень полезной для статистика-аналитика, умеющего составлять свои программы на основе объектно-ориентированной технологии.S-plus имеет в своем составе более 1650 функций, включая регрессию и дисперсионный анализ, многомерные методы, временные ряды, анализ сигналов и др. Имеются и современные робастные (устойчивые) методы. В плане классификации имеются современные непараметрические методы: древообразные модели классификации, модели целенаправленного проецирования данных на плоскость, обобщенные аддитивные модели. Среда S-plus имеет мощные средства визуализации, а также добавочные модули, ориентированные под анализ сигналов или временных рядов, планирование эксперимента, анализ пространственной статистики.
Статистические экспертные системы отличаются наличием базы знаний и механизмом логического вывода из имеющихся знаний новых знаний [15]. Примерами таких программ по теме нашей статьи являются казахстанский пакет СТАТЭКС, американский Statistical Navigator Pro и английский STAREX.
Два главных отличия пакетов, содержащих признаки экспертной системы:
– она ориентирована не на методы, а на цели анализа данных (последние предлагаются системой в процессе работы с нею); – пользователь может совершенно не разбираться в механизме обработки данных, но должен четко понимать содержание его данных и общую цель анализа.
Другие специфические черты:
диалог ориентирован на пользователя - новичка в статистике;
профессиональный статистик может в специальном режиме работы пакета непосредственно обратиться к методам анализа, используя названия последних;
результаты анализа выдаются в виде контекстно-ориентированных экранов, содержащих комментарии, что позволяет рассматривать их как готовые решения;
база знаний представляет собой набор правил, связанных со свойствами и особенностями применения статистических методов; база данных позволяет хранить их в виде «куба»: таблица «объект-признак» и «время».
В системе СТАТЭКС в функциональном плане в реализованы следующие группы методов:
расчет стандартных статистических 1–D-характеристик;
классификация объектов (комбинационная группировка, кластерный анализ), а также многомерное шкалирование и визуализация;
выявление и анализ статистических зависимостей признаков (корреляция, группировка признаков, главные компоненты и визуализация);
установление зависимостей между целевым показателем и влияющими на него факторами (регрессионный анализ, индексный анализ и распознавание образов);
прогнозирование (эконометрические модели).
Большинство методов СТАТЭКС наряду с классическими содержат оригинальные результаты ее авторов (И.Д.Мандель и др.).
Система Statistical NavigatorPro помогает неспециалисту в математической статистике провести квалифицированный анализ имеющихся у него данных. Он консультирует пользователя по использованию более, чем 200 различных методов, включая многомерный анализ и классификацию. Statistical Navigator задает ряд вопросов относительно цели исследования данных и их характера, сопровождая каждый из вопросов серией подсказок. Пакет фокусирует внимание пользователя на ключевых моментах, подчеркивая, что необходимо принять во внимание для принятия верного решения.
