Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Gotovye_bilety_po_inf_tekh.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
595.97 Кб
Скачать

15. Статистические методы анализа данных. Анализ данных в системе Statistica.

При выполнении исследований появляются систематические и случайные погрешности. Поэтому возникает необходимость оценить точность и надежность измерений или определить максимальное количество определений, гарантирующее требуемую точность и надежность, исключить грубые ошибки. Кроме того, важное значение имеет определение связей между показателями.

В основе статистических методов исследования лежит переменная.

Переменная (англ. - variable) — это то, что варьируется, изменяется, а не является постоянным.Так как значения переменных не постоянны, нужно научиться описывать их изменчивость.

Для этого придуманы описательные или дескриптивные статистики: минимум, максимум, среднее, дисперсия, стандартное отклонение, медиана, квартили, мода и т. д.Идея этих статистик очень проста: вместо того чтобы рассматривать все значения переменной, а их может быть очень много, вначале стоит просмотреть описательные статистики. Они дают общее представление о значениях, которые принимает переменная.

С статистическими методами анализа связаны статистические графики.

1 Средние величины. Описательная статистика

Среднее.Среднее показывает "центральное положение" (центр) переменной и рассматривается совместно с доверительным интервалом. Обычно интерес представляют статистики (например, среднее), дающие информацию о популяции в целом. Чем больше размер выборки, тем более надежна оценка среднего. Чем больше изменчивость данных (больше разброс), тем оценка менее надежна.

Среднее арифм-кое (М) равно частному от деления суммы всех значений варьирующей величины (х1) на число единиц совокупности (N):

Конкретные значения варьирующего признака называются вариантами. Различают частоту вариантов, т.е. численность единиц совокупности, обладающих данным значением признака. Если частоты вариантов не равны между собой, то вычисляется средняя арифметическая взвешенная (средневзвешенная арифметическая):

гдеМу - средневзвешенная арифметическая;

ni - частоты вариантов;

N-сумма частот вариантов.

Для характеристики разброса значений принято пользоваться средним квадратичным отклонением (δ):

где ∑(хi - М)2 - сумма отклонений каждого результата от среднего арифметического.

Знаменатель уменьшается на единицу, если число опытов небольшое (N ≤ 30), а при N>30 вычитание единицы не производится.

При вычислении среднего квадратичного отклонения среднего результата знаменатель подкоренного выражения будет N (N - 1).

Разброс анализируемой случайной величины по отношению к ее средней арифметической характеризуется дисперсией. Чем больше величина дисперсии, тем больше разброс величин, и наоборот, чем меньше дисперсия, тем теснее группируются около средней арифметической значения случайной величины.

Дисперсия и стандартное отклонение наиболее часто используемые меры изменчивости переменной. Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.Дисперсия S(xi) вычисляется по формуле

При определении истинного значения среднего арифметического необходимо учитывать его ошибку. Для вычисления ошибки среднего арифметического пользуются формулой

где т - ошибка среднего арифметического;а - среднее квадратическое отклонение;N - число опытов.

Величина ошибки среднего арифметического указывает на те пределы, в которых может заключаться истинное значение среднего арифметического измеряемого показателя.

Относительная ошибка рассчитывается по формуле

Стандартное отклонение вычисляется как корень квадратный из дисперсии. Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Минимум и максимум — это минимальное и максимальное значения переменной.

Медиана разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина — выше.

Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр.

Квартили представляют собой значения, которые делят две половины выборки (разбитые медианой) еще раз пополам.

Таким образом, медиана и квартили делят диапазон значений переменной на четыре равные части.

Различают верхнюю квартиль, которая больше медианы и делит пополам верхнюю часть выборки (значения переменной больше медианы), и нижнюю квартиль, которая меньше медианы и делит пополам нижнюю часть выборки.

Мода представляет собой максимально часто встречающееся значение переменной. Мода - наиболее часто встречающаяся величина уровня качества - превышает среднее значение. Медиана разделила выборку на две равные части. Соотношение среднего значения, моды и медианы указывает на характер распределения исследуемого показателя и в совокупности позволяет оценить его асимметрию.Эксцесс отрицательный, что характеризует кривую с более низкой и пологой вершиной. Но значение эксцесса велико, что свидетельствует о неоднородности реализуемой продукции по уровню качества.

Средствами MS Excel можно определить среднее значение (М), дисперсию (S2(xi)), стандартное отклонение (σ), доверительный интервал (m).

Указанные значения определяем следующим образом:

1 Вводим исходные данные в ячейки столбца (строки). Например, указанные выше значения кислотности хлеба введены в диапазон А2:А5.

2 Под столбцом (или строкой) исходных данных выделяем ячейку для результата оценки. Например, выделяем ячейку А6.

3 На панели нажимаем Вставка, затем - fx Функция ...

4 В окошке Мастер функций - шаг 1 из 2.Категория - выбираем Статистические.

Функция - выбираем СРЗНАЧ, нажимаем ОК.

5 В диалоговом окне СРЗНАЧ:

Число 1: щелкаем левой кнопкой мыши, а затем выделяем левой кнопкой мыши на диапазоне данных исследуемого ряда. В окошке Число 1 отразится диапазон исходных данных. Так, по приведенному примеру отразится диапазон А2:А5.

6 ОК. В выделенной под столбцом (строкой) ячейке отразится результат оценки (в примере в ячейке А6 будет цифра 2,87).

Аналогично с помощью Мастер функции рассчитываем ДИСП (дисперсию), СТАНДОТКЛОН (стандартное отклонение).

В экспериментальных исследованиях важно знать доверительный интервал значений показателей, т. е. интервал с обеих сторон от среднего значения выборки.

Указанное значение определяем следующим образом.

1 На панели нажимаем ВСТАВКА, затем - fx Функция ...

2 В окошке Мастер функций - шаг 1 из 2. Категория - выбираем Статистические. Функция - выбираем ДОВЕРИТ.

3 В диалоговом окне ДОВЕРИТ:

Альфа - вводим 0,5. Это уровень значимости, используемый для вычисления уровня надежности. Уровень надежности равняется 100*(1-α) процентам, или, другими словами, α = 0.05 означает 95 %-ный уровень надежности.

Стандартное _ откл — щелкаем левой кнопкой мыши в окошко, затем нажимаем левую кнопку мыши, указывая ячейку с известным значением стандартного отклонения (в нашем примере - это значение 0,45734).

Размер - указываем число значений в выборке (в примере число значений в выборке равно 4). ОК.

4 Результат запишется в выделенной ячейке (в примере результат равен 0,15).

Исходя из приведенного примера, среднее значение кислотности хлеба яичного с уровнем достоверности (надежности) 95 % находится в интервале 2,87 ± 0,15.

При необходимости проследить характер распределения и оценить меру разброса фактических величин вокруг среднего значения используется инструмент Описательная статистика, имеющийся в MS Excel. C помощью этого инструмента можно получить статистические характеристики вариационного ряда: среднее, стандартная ошибка, медиана, мода, стандартное отклонение, дисперсия, коэффициент эксцесса, коэффициент асимметрии, размах (интервал), максимальное значение, минимальное значение, сумма, число значений, k-е наибольшее и наименьшее (для любого заданного значения k) и уровень значимости (надежности) для среднего.

Общее представление о системе STATISTICA

Система STATISTICA, используется при построении прогнозов, производится фирмой StatSoft Inc., удачно соединивших апробированные теоретические разработки в области статистики с новейшими достижениями в программировании.

В 1991 г. вышла первая версия системы STATISTICA под DOS.

Версия пакета STATISTICA для Windows появилась в 1994 г. и сразу же заняла лидирующее положение среди статистических пакетов, работающих в этой среде.

В конце 1995 г. вышла новая версия STATISTICA 5.0, отличающаяся удобным пользовательским интерфейсом, полной совместимостью с Windows 95. Версия включала в себя мощные возможности по работе с данными, огромные графические возможности и большое количество методов и процедур статистического анализа.

Систему STATISTICA отличает четкая и ясная структура.

Система состоит из следующих основных частей:

-многофункциональной системы для работы с данными;

- мощной графической системы для визуализации данных и результатов статистического анализа;

- набора статистических модулей, в которых собраны группы логически связанных между собой статистических процедур. В любом конкретном модуле можно выполнить определенный способ статистической обработки, не обращаясь к процедурам из других модулей. Переключение между модулями производится обычным для Windows-приложений способами. Все основные операции работы с данными и графикой доступны на любом шаге анализа;

- специального инструментария подготовки отчетов (с помощью текстового редактора, встроенного в систему, можно готовить полноценные отчеты, также имеется возможность автоматического создания отчетов);

- встроенных языков SCL и STATISTICA BASIC.

Четыре типа документов STATISTICA

STATISTICA работает с четырьмя основными типами документов, которые в соответствии со стандартами Windows выводятся в собственном окне рабочей области системы:

- электронная таблица Spreadsheet предназначена для ввода исходных данных и их преобразования;

- специальная электронная таблица Scrollsheet предназначена для вывода численных и текстовых результатов;

- график - документ в специальном графическом формате STATISTICA для визуализации и графического представления численной информации;

- отчет - документ в формате RTF - Расширенный текстовой формат для вывода текстовой и графической информации.

Электронная таблица системы состоит из строк и столбцов.

Столбцы электронной таблицы STATISTICA называются Variables — Переменные, а строки Cases - Случаи. В качестве переменных обычно выступают исследуемые величины, а случаи - это значения, которые принимают переменные и которые измеряются в процессе наблюдения.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]