
- •Содержание
- •Введение
- •I.Статистический анализ
- •§1.1. Основные понятия выборочного метода
- •§1.2. Законы распределения непрерывных случайных величин. Нормальное распределение
- •§1.3.Оценка параметров распределения
- •§ 1.4. Статистическая проверка гипотез
- •Тесты для самоконтроля Составьте краткие ответы на следующие вопросы
- •Характеристика тестов
- •II. Корреляционный и регрессионный анализ
- •§2.1. Система случайных величин
- •§ 2.2. Основы корреляционного анализа
- •§ 2.3. Регрессия. Линии среднеквадратической регрессии
- •§ 2.4. Выборочное уравнение регрессии
- •§ 2.5. Основы дисперсионного анализа
- •§ 2.6. Нелинейная корреляционная связь
- •Тесты для самоконтроля Составьте краткие ответы на вопросы
- •Характеристика тестов
- •III.Многомерный статистический анализ
- •§3.1. Основные характеристики многомерной генеральной совокупности
- •§ 3.2. Множественная корреляция
- •§ 3.3. Множественное уравнение регрессии
- •Тесты для самоконтроля
- •Характеристика тестов
- •IV. Статистический анализ в Excel
- •§ 4.1.Очистка информации от засорения
- •§ 4.2. Проверка закона распределения.
- •§ 4.3. Корреляционный анализ
- •§4.4. Регрессионный анализ двумерной модели.
- •§4.5. Регрессионный анализ трехмерной модели.
- •V. Содержание и объем курсовой работы
- •VI. Литература
- •Статистические данные.
- •Варианты заданий к работе « Статистический анализ»
Характеристика тестов
всего вопросов – 25;
количество вопросов уровня 1 – 1; уровня 2 – 17; уровня 3 – 7;
количество баллов за вопрос :
уровня 1 – 1;
уровня 2 – 2;
уровня 3 – 3.
Количество баллов за раздел II – 56.
IV. Статистический анализ в Excel
§ 4.1.Очистка информации от засорения
При
статистическом анализе информации
принято считать, что результаты измерений
подчиняются нормальному закону
распределения. Однако на практике это
не всегда верно. Наблюдаются отклонения
как односторонние , так и двусторонние.
Во избежание искажения значений
характеристик распределения при
обработке информации необходимо очистить
ее от засорения случайными отклонениями.
Метод выявления аномальных наблюдений
и их удаления из совокупности при
обработке многомерной статистической
информации может привести к отбрасыванию
слишком большого количества точек
наблюдения. Известны более четко
обоснованные методы обнаружения
засорения : метод Смирнова–Граббса
проверки максимального наблюдения,
критерий Граббса для обнаружения одного
экстремального наблюдения, критерий
исключения нескольких грубых ошибок
как обобщение критерия Граббса. Все они
применяются к упорядоченной совокупности
(вариационному ряду):
(N
25).
Для проверки максимального и минимального значений на наличие грубой ошибки используются критерии
и
,
где
,
,
.
При N>25 экстремальные значения могут быть проверены по критерию S:
,
где
–
стандартное отклонение, определенное
для всей выборки ;
– предполагаемый
выброс.
При
Sрасч
< Sкр
гипотеза H0:
–
выброс отвергается, в противном случае
экстремальное значение
считается грубой ошибкой и из дальнейшего
рассмотрения исключается. Критические
значения критерия S определяются по
таблице . При уровне значимости
Sкр
так зависит от объема выборки N
: значениям N
= 30 ; 50 ; 100 ; 1000 соответствуют Sкр
= 2,929 ; 3,082
; 3,283 ; 3,884 .
Парный корреляционный и регрессионный анализ удобно выполнять средствами Excel и надстройки «Пакет анализа» (в меню – Сервис– Анализ данных ).
Для наглядности выполним статистический анализ совокупности таких показателей (Приложение 1): Y2, X4, X5, X6, X7, X8.
Для проверки статистических данных на «засорение» необходимо выполнить следующие действия :
– скопировать все значения показателя ( например Y2) на чистый лист;
– упорядочить их по возрастанию, для чего выделить весь столбец без заголовка и нажать на панели кнопку сортировки ;
– установить курсор под последним значением и ввести функцию Статистическая – СРЗНАЧ, а затем СТАНДОТКЛ , как показано ниже;
|
A |
B |
49 |
236,7 |
|
50 |
264,8 |
|
51 |
267,3 |
|
52 |
355,6 |
|
53 |
526,6 |
|
54 |
598,1 |
|
55 |
=СРЗНАЧ(A2:A54) |
Ср.знач. |
56 |
=СТАНДОТКЛОН(A2:A54) |
Ст.откл. |
57 |
=(A54-A55)/A56 |
S расч |
58 |
=СРЗНАЧ(A2:A53) |
Ср.знач.1 |
59 |
=СТАНДОТКЛОН(A2:A53) |
Ст.откл.1 |
60 |
=(A53-A58)/A59 |
S расч.1 |
61 |
=СРЗНАЧ(A2:A52) |
Ср.знач.2 |
62 |
=СТАНДОТКЛОН(A2:A52) |
Ст.откл.2 |
63 |
=(A52-A61)/A62 |
S расч.2 |
-
A
B
49
236,7
50
264,8
51
267,3
52
355,6
53
526,6
54
598,1
55
113,1945
Ср.знач.
56
116,937
Ст.откл.
57
4,146726
S расч
58
103,8694
Ср.знач.1
59
96,14184
Ст.откл.1
60
4,396947
S расч.1
61
95,58059
Ср.знач.2
62
76,05273
Ст.откл.2
63
3,418936
S расч.2
– вычислить значение статистики Sрасч по найденным характеристикам для наибольшего значения, которое нужно подставить в формулу вместо x1 и проверить гипотезу H0 : наибольшее (последнее в столбце) значение – выброс;
– если Sрасч > Sкр (0,05; 50) = 3,082 , это значение является выбросом, и необходимо проверить предыдущее значение , только при этом следует заново определить среднее значение и стандартное отклонение, но уже исключив выброс, как это и выполнено в приведенной таблице;
– проверку на выброс следует продолжать до первого значения, для которого гипотеза H0 окажется неправдоподобной, т.е. для которого значение Sрасч окажется меньше Sкр;
– такую же проверку необходимо выполнить и начиная с наименьшего (первого в столбце) значения, помня о том, что критерий S имеет двустороннюю критическую область, и поэтому следует рассматривать модуль Sрасч.
Для приведенного примера два последних значения Y2 являются выбросами. Это следует из таблиц, приведенных выше. Правая таблица содержит результаты проверки, а левая – формулы, которые следует ввести в ячейки, чтобы эти результаты получить. Третье проверенное значение может быть оставлено, так как значение Sрасч близко к Sкр. Такие проверки необходимо выполнить для всех показателей. В итоге на новый лист следует перенести исходные статистические данные и исключить полностью каждую строку, в которой есть выброс хотя бы одного из показателей. Весь последующий статистический анализ проводить только по очищенным данным.