
- •Биометрическая обработка данных на основе компьютерной программы statistica
- •Предисловие
- •Раздел 1. Характеристика программы statistica
- •Организация системы statistica
- •1.2. Статистические методы программы statistica
- •Раздел 2. Параметрические критерии
- •2.1. Описательная статистика Методы описательной статистики (Descriptive statistics) и характеристика статистических совокупностей
- •2.2. Статистические оценки генеральных параметров Оценка ошибок репрезентативности
- •Оценка ошибок репрезентативности
- •Показатель точности оценок
- •Оценка доверительного интервала средней арифметической –
- •Оценка доверительного интервала дисперсии –
- •2.3. Проверка нормальности эмпирического распределения Функции нормального распределения и методы оценки нормальности эмпирического распределения
- •Проверка нормальности эмпирического распределения
- •2.4. Параметрические критерии сравнения средних
- •Раздел 3. Непараметрические критерии
- •3.1. Сравнение независимых выборок
- •Сравнение зависимых групп
- •3.3. Сравнение номинальных (категориальных) переменных
- •Раздел 4. Корреляционный анализ
- •4.1. Параметрические показатели связи
- •4.2. Непараметрические показатели связи
- •Методика расчета коэффициент ранговой корреляции Спирмена ( )
- •Методика расчета коэффициента корреляции Спирмена ( )
- •4.3. Оценка связи между номинальными величинами
- •Раздел 5. Дисперсионный анализ
- •5.1. Однофакторный дисперсионный анализ
- •5.2. Двухфакторный дисперсионный анализ
- •Раздел 6. Регрессионный анализ
- •Раздел 7. Кластерный анализ
- •Раздел 8. Дискриминатный анализ
- •Оглавление
- •625003, Г. Тюмень, Семакова,10
Раздел 1. Характеристика программы statistica
Организация системы statistica
Программа STATISTICA разработана компанией StatSoftInc.(США), предназначена для статистического анализа и обработки данных. Она содержит многофункциональную систему для работы с данными, широкий набор методов анализа данных из всех областей статистики. Программа доступна широкому кругу прикладных специальностей. Пользователями системы являются крупнейшие университеты, исследовательские центры, компании, банки, государственные учреждения.
Чтобы начать работу с программой STATISTICA в диспетчере Программ Windows необходимо запустить STATISTICA. При использовании приложения Web STATISTICA сервер доступ к программе STATISTICA возможен из Web- браузера компьютера, подключенного к Inter net. Экранное пространство программы STATISTICA включает информационные строки и линейки. Строка заголовка – характерная для Windows верхняя линейка заголовка включает название программы и тип документа. В системе STATISTICA выделяют следующие типы документов: таблица данных – STATISTICA-Spreadsheat.sta; график – STATISTICA-Graph.stg; отчет – STATISTICA-Report.str; рабочая книга – STATISTICA-Workbook.stw; макрос(SVB) – STATISTICA-Macro.svb.
Каждый тип документа выводится в своем окне и рабочей области системы. При активации окна изменяется панель инструментов. Для документа таблица данных STATISTICA-Spreadsheat.sta активны панели инструментов Стандартная и Таблица данных.
Выбор Панели инструментов можно производить различными способами: правой кнопкой мыши на Панели инструментов; в меню Вид – Панели инструментов.
Командная линейка (или операционное меню) – предназначена для выполнения основных операций, включает: Файл; Правка, Вид, Вставка, Формат, Анализ (Статистика), График, Сервис (Инструменты), Данные, Окна, Справка (Помощь).
Файл включает операции: создания нового документа (таблица данных, отчет, рабочая книга, отчет, макрос (SVB), интерфейс базы данных; чтения, сохранения, получения внешних данных (запрос из файла; запрос из базы данных, связь с поставщиками данных OLE – технологии связывания и внедрения объектов, поддержка основных операций с буфером обмена), вывода данных.
Исходные данные для статистического анализа организованы в виде таблицы. Электронная таблица состоит из строк и столбцов. В отличие от обычных электронных таблиц, в которых строки и столбцы равноправны, в STATISTICA они имеют разные смысловые значения. Столбцы таблицы называются переменными (Variables), представляют собой наблюдаемые величины.
В электронной таблице пользователь может задать спецификации переменных: формат отображения (например, число десятичных знаков), коды пропущенных значений (при хранении данных STATISTICA приписывает пропущенных наблюдениям по умолчанию код – 9999, пользователь может установить значение этого кода для каждой конкретной переменной; способ обработки пропущенных данных определяется после выбора метода статистического анализа), длинные имена переменных, комментарии для отдельных значений, формулы, которые можно использовать для преобразования каждой переменной. Окно спецификаций переменной вызывается двойным щелчком на имени переменной в таблице исходных данных.
Результаты наблюдений записываются в строках таблицы (Cases). Нулевой столбец, в котором по умолчанию указаны номера наблюдений, при необходимости может быть изменен на имена случаев, либо даты наблюдений.
Для удобной работы с переменными, принимающими текстовые значения, реализован так называемый механизм двойной записи. Согласно которому каждому текстовому значению переменной в спецификации ставится в соответствие некоторое число. Это соответствие может быть установлено автоматически (самой системой при вводе данных) или определено пользователем. При работе с данными всегда можно переключиться с текстовой на числовую форму записи исходных данных.
В системе STATISTICA новый файл с данными может быть создан при помощи меню Файл (команда Новый) либо Панель инструментов Стандартная (команда Новый). В появившемся диалоговом окне нужно выделить вкладку Крупноформатная таблица (Spreadsheet) и указать число переменных и число случаев.
После нажатия ОК программа автоматически откроет пустую электронную таблицу Spreadsheet соответствующего размера. Переменные по умолчанию имеют имена Var1, Var2, и заданное число случаев. Для сохранения таблицы данных нужно выбрать команду Сохранить из меню Файл. В заголовке окна с электронной таблицей автоматически отобразится имя файла с расширением sta и его размер. Если выбрать Отчет, Книга, Программа макрос (SBV), то можно создать соответственно отчет, рабочую книгу, макрос. Отчет (Repot) – документ системы STATISTICA (файл в формате RTF), в котором может сохраняться и редактироваться любая текстовая, численная и графическая информация.
Рабочая книга (Workbook) – набор файлов таблиц, графиков, отчетов с текстом и графиками, программ пользователя, которые были созданы или использованы во время анализа данных. Отчеты и рабочие книги могут создаваться автоматически с помощью команды Менеджер вывода (Output Manager) в меню Файл и "вручную" с помощью команды Новый в меню Файл. Макрос – это часто повторяющаяся последовательность команд, объединенных в одну для автоматизации работы. Макросы создаются при помощи языка STATISTICA VISUAL BASIC (SVB).
Для ввода данных в таблицу нужно установить указатель мыши на ячейку, в которую необходимо ввести данные. Щелкнуть мышью, для того чтобы сделать эту ячейку активной, и ввести необходимое значение с клавиатуры. Перейти к другой ячейке можно одним из способов: воспользоваться стрелками перемещения курсора, нажать на клавишу Enter, щелкнуть мышью на любой другой ячейке.
Для ввода данных в электронную таблицу STATISTICA, подготовленном в каком-либо другом приложении, можно воспользоваться одним из способов: буфером обмена, технологией динамического обмена данными, средствами импорта файлов.
Первый способ – самый быстрый и простой путь ввода данных из прикладных программ Windows.Для реализации этого способа необходимо: в исходном материале выделить данные, которые необходимо скопировать; в меню Правка выбрать команду Копировать, данные будут скопированы в буфер обмена; перейти в электронную таблицу STATISTICA и установить указатель там, где следует скопировать данные, затем нажать кнопку мыши; в меню Правка выбрать команду Вставка, данные будут скопированы в направлении вправо и вниз от места, обозначенного курсором. Можно также воспользоваться одноименной кнопкой на панели инструментов.
Иногда необходимо установить связь между данными из какого-либо приложения (источника или сервера), например Excel, и таблицей STATISTICA (клиентский файл) таким образом, чтобы при изменении данных в сервере соответствующие изменения произошли в таблице STATISTICA – клиенте. Связи такого типа в STATISTICA устанавливаются при помощи процедуры динамического обмена данными (DDE).
В программе STATISTICA реализованы две возможности задания динамического обмена данными: при помощи команды Специальная вставка и команды DDE-связи из меню Правка.
Для того чтобы установить динамический обмен данными при помощи команды Специальная вставка необходимо: в исходном материале выделить данные, которые надо скопировать, в меню Правка выбрать команду Копировать.
Данные будут скопированы в буфер обмена; перейти в электронную таблицу STATISTICA и установить указатель мыши в том месте, куда следует скопировать данные и нажать кнопку мыши; выбрать команду Специальная вставка (меню Правка), откроется окно Специальная вставка, в котором выделяется нужный формат (Лист Microsoft Exсel, Text, либо HTML) и выбрать опцию вставить связь, далее нажать ОК. Данные из буфера обмена будут скопированы в указанное место таблицы STATISTICA. Для установления связи при помощи процедуры динамического обмена данными(DDE) открывается источник, затем нужно перейти в программу STATISTICA и установить курсор на ячейку, начиная с которой будут отображаться данные из источника. После выбора в меню Правка DDE связи откроется диалоговое окно Менеджера DDE связи. Для создания связи нужно активизировать кнопку Новая связь, откроется окно. В поле DDE связь пишется инструкция связи (обслуживание, разделы, элементы), которая связывает ячейки электронной таблицы источника с ячейками в электронной таблице STATISTICA. После написания инструкции связи и нажатия ОК в таблице STATISTICA (клиенте) появятся элементы из соответствующего источника (сервера).
Третий способ ввода данных из других приложений – импорт файлов. Он реализован при помощи команды Получение внешних данных в меню Данные (Рис.5). Это команда формирует запросы из других баз данных.
Для загрузки ранее сохраненного запроса надо выделить команды Получение внешних данных – Получение внешних данных из файла. Для составления нового запроса следует выделить команды Получение внешних данных – Создать запрос. Запросы STATISTICA используются для получения данных, хранящихся в базе данных (БД). Программа STATISTICA позволяет обращаться к наиболее распространенным БД: Oracle, MS SQL Server, Sybase, MS Access, Fox Pro и др. Для доступа к данным используется драйвер ODBC (Open DataBase Connectivity – совместимость открытых баз данных), который позволяет приложению обращаться к БД на языке SQL. Запросы дают возможность выбрать из таблиц БД необходимые для статистического анализа данные и сохранить их в программе STATISTICA.
При создании подключения к нужной базе данных. В окне поставщик данных на вкладке Поставщик выбирается драйвер ODBC, с помощью которого будет организован доступ к базе данных. После выбора драйвера нужно переключиться на вкладку Подключение: в поле Источник данных нужно указать имя источника данных (какая БД используется), либо, используя строку подключение (use connection string) задать параметры подключения вручную: драйвер, тип источника данных, создать имя для этого подключения, полный путь к файлам БД.
Если для подключения к БД необходимы имя пользователя и пароль в поле Enter the User name and Password вводится имя пользователя и пароль. В поле Enter the initial catalog to use указывается полный путь к файлу данных. Параметры подключения проходят тестирование. Если параметры подключения указаны, верно, нажатием кнопки ОК производится подключение к базе данных и импорт данных в программу STATISTICA. После импорта данным запроса присваивается имя (чтобы сохранить для дальнейшего использования, запросы сохраняются в файлах с расширением *sqy), и данные запроса передаются в таблицу STATISTICA.
В некоторых приложениях имена столбцов и строк записываются в рабочие ячейки таблицы. В программе STATISTICA данные организованы в виде набора наблюдений (строк) и переменных (столбцов), имена наблюдений указываются в нулевом столбце (Var0), а имена переменных в верхней строке – строке спецификаций переменных. При копировании таблиц из приложений названия строк и столбцов копируются в рабочие ячейки таблицы данных STATISTICA.
Для перевода названия столбцов в строку спецификаций переменных имена переменных копируются, курсор мыши устанавливается в поле с именем Var1, в контекстном меню выбирается команда Выбрать только имена переменных, затем в контекстном меню выбирается команда Вставить. Программа переместить строку с именами наблюдений в поле имен наблюдений. Ненужная первая строка удаляется командой из контекстного меню.
В программе STATISTICA реализовано большое многообразие графических представлений: гистограммы, графики рассеяния, графики средних с ошибками, графики поверхностей; 2D графики (анализ данных на плоскости); 3D графики (анализ данных в трехмерном пространстве); матричные графики, пиктографики, категоризованные графики, графики пользователя, графики блоковых данных, графики исходных данных, размещение нескольких графиков.
Множество графиков в системе STATISTICA условно подразделяются на два класса:
статистические графики;
пользовательские графики.
Статистические графики – заранее заданные в статистических методах представления данных.
Пользовательские графики, дают возможность наглядно представить любые заданные пользователем комбинации значений из таблиц результатов или таблиц исходных данных из строк, столбцов, из строк и столбцов, и (или) их частей.
Доступ к графическим средствам производится: через операционное меню, выбрав команду Графики; через контекстное меню, щелкнув правой кнопкой мыши на ячейки данных; при помощи панели инструментов Графики, для ее вызова надо щелкнуть правой кнопкой мыши на панели инструментов.
Меню Окна включает следующие операции: одновременная визуализация каскада страниц; визуализация страниц сверху вниз; визуализация страниц слева направо; переключение доступных экранных страниц.
В меню Помощь программа знакомит с оглавлением электронного справочника, электронным и мультимедийным учебником, словарем терминов, задает поиск метода в технической поддержке, выдает сведения о программе.