- •Томашевский а.В., Рысиков в.П. Учебное пособие компьютерные технологии статистической обработки данных
- •Введение
- •1.Краткая характеристика основных пакетов статистической обработки
- •1.1. Общие представления
- •1.2. Ввод данных в пакете statistica
- •1.3.Контрольные вопросы и задания
- •1.3.1.Вопросы
- •1.3.2. Задания
- •2. Начальная статистическая обработка данных
- •2.1. Понятие о генеральной совокупности и выборке
- •2.2. Случайные величины и их характеристики
- •2.3. Распределения случайных величин
- •2.4. Компьютерные технологии начальной статистической обработки
- •2.5. Контрольные вопросы и задания
- •2.5.1.Вопросы
- •2.5.2. Задание
- •3. Проверка статистических гипотез
- •3.1. Основные положения
- •3.2. Проверка гипотезы о законе распределения
- •3.3. Проверка гипотез о равенстве дисперсий и математических ожиданий
- •3.4. Компьютерные технологии проверки статистических гипотез
- •3.5. Контрольные вопросы и задания
- •3.5.1.Вопросы
- •3.5.2. Задания
- •4. Корреляционный анализ
- •4.1. Основные положения
- •4.2. Корреляционное поле
- •4.3. Выборочный коэффициент корреляции.
- •4.4. Корреляционное отношение
- •4.5. Частные коэффициенты корреляции.
- •4.6. Ранговая корреляция.
- •4.7. Компьютерные технологии корреляционного анализа
- •4.8. Контрольные вопросы и задания
- •4.8.1.Вопросы
- •4.8.2. Задания
- •5. Регрессионный анализ
- •5.1. Основные положения
- •5.2. Компьютерные технологии регрессионного анализа
- •5.3. Контрольные вопросы и задания
- •5.3.1.Вопросы
- •5.3.2. Задания
- •6. Дисперсионный анализ
- •6.1. Основные положения
- •6.2. Однофакторный дисперсионный анализ
- •6.3 Двухфакторный дисперсионный анализ
- •6.5. Контрольные вопросы и задания
- •6.5.1.Вопросы
- •5.3.2. Задания
- •7. Планирование эксперимента
- •7.1. Основные положения
- •7.2. Полный факторный эксперимент
- •7.3 Центральное композиционное планирование
- •7.5. Контрольные вопросы и задания
- •7.5.1.Вопросы
- •7.5.2. Задания
- •Приложение статистические таблицы Функция стандартного нормального распределения
- •Критические точки распределения Стьюдента
- •Критические точки распределения 2
- •Рекомендована література
4.8. Контрольные вопросы и задания
4.8.1.Вопросы
Корреляционный анализ и его задачи.
Общую схема взаимосвязей параметров и факторов в стохастической системе.
Корреляционные поля, их назначение.
Выборочный коэффициент корреляции и его вычисление.
Свойства коэффициента корреляции.
Корреляционная матрица.
Проверки статистической гипотезы о значимости коэффициента корреляции.
Корреляционное отношение и его свойства.
Вычисление корреляционного отношения.
Частные коэффициенты корреляции.
Ранговая корреляция, ранговый коэффициент корреляции Спирмэна.
Коэффициент конкордации Кендалла.
4.8.2. Задания
Задание 1. С помощью технологии корреляционного анализа статистического пакета statistica построить корреляционные поля для переменных:
у ↔ x1;
x2 ↔ x5;
x3 ↔ x5.
из примера 4.7.2.
Задание 2. Описать технологию корреляционного анализа с помощью пакета SPSS. Как пример исследовать наличие и силу корреляционной связи между выборками, приведенными в таблице 3.5.1 и 3.5.2 задания 1 (п. 3.5.2).
Задание 3. Описать возможности модуля Product-Moment and Partial Correlations - Quick, вызываемого из стартовой панели командой Statistics ® Basic Statistics and Tables ® Correlation matrices.
Задание 4. Описать возможности вкладки Prob. & Scatterplots Tab модуля Descriptive Statistics.
5. Регрессионный анализ
5.1. Основные положения
Регрессионный анализ дает более полную информацию о связи результирующей случайной величины (выходной переменной) с входными переменными, которые обычно называют в регрессионном анализе факторами[1,4,5,6,9]. В корреляционном анализе связь между случайными величинами описывается числами (коэффициентом корреляции, корреляционным отношением), а в регрессионном анализе описывается с помощью функций - уравнений регрессии. Уравнение регрессии может быть записано в виде:
(5.1.1)
где
- оценка условного математического
ожидания случайной величины y
при условии, что многомерная случайная
величина, определяющая совокупность
входных переменных, принимает значения
.
Пусть в результате наблюдений выходная переменная принимает в каждом i-ом наблюдении определенные значения yi, при соответствующем наборе значений входных переменных x1,x2...xк. Если провести серию из n наблюдений, то результаты наблюдений можно представить в следующем виде:
№ наблюдение |
Выходная переменная |
Входные переменные |
1-ое наблюдение |
y1 |
x11, x12,...,x1k |
2-ое наблюдение |
y2 |
x21, x22,...,x2k |
3-е наблюдение |
y3 |
x31, x32,...,x3k |
................................. |
.................... |
........................ |
n-ое наблюдение |
yn |
xn1, xn2,...,xnk |
Зависимость случайной величины y от независимых переменных x1,x2,...,xk, если учитывать только линейные эффекты, т.е. пренебречь совместным влиянием факторов xij, xii, отражается уравнением множественной регрессии:
y=b0+b1x1+b2x2+...+bkxk; (5.1.2)
Для получения оценок коэффициентов b0,b1,b2,...,bk уравнения регрессии (5.1.2) используется метод наименьших квадратов [9]. Оценки bS, s=0,k получаются из решения систем уравнений, образованных приравниванием нулю частных производных по bS формы
(5.1.3)
В результате решения такой системы уравнений для оценки параметра b0 получено:
(5.1.4)
Параметр
b0 называется
свободным членом и он определяет
пересечение ординаты при равных нулю
независимых переменных. Выражение для
оценок
определяется следующим образом.
Введем обозначения:
(5.1.5 а).
(5.1.5
б).
Элементы lrs
образуют матрицу, определитель которой
обозначим Z и, если
обозначить Zs
определитель матрицы, получающейся
заменой S столбца на
,
то:
,
(5.1.6).
На основе элементов матрицы рассчитываются парные коэффициенты корреляции ris между независимыми переменными xs, i,s =1,k и коэффициенты корреляции ri0 между зависимой переменной y и независимыми переменными. Элементы ris составляют корреляционную матрицу. Исходя из парных коэффициентов корреляции, можно рассчитать коэффициент множественной корреляции
(5.1.7).
где
rij-1-элементы матрицы, обратной к корреляционной матрице.
Оценка значимости
коэффициентов регрессии производится
с помощью t-критерия. Для
получения вычисленных значений t-критерия
используется
формула:
(5.1.8).
Среднеквадратичное отклонение коэффициентов регрессии равно:
(5.1.9).
где
ei-отклонение фактических значений y от рассчитанных по уравнению регрессии.
Предпосылки. Предполагается, что “зависимая” случайная величина y подчинена нормальному закону распределения с постоянной дисперсией.
Рекомендуется перед проведением регрессионного анализа:
оценить влияние неконтролируемых и контролируемых неучитываемых переменных на распределение “зависимой” переменной у;
исключить из анализа линейно зависимые факторы;
оценить временную стабильность распределения у, для чего проверить гипотезы об однородности среднеарифметических и дисперсии у, рассчитанных по результатам выборок, взятых в разное время.
Также, анализ полученного уравнения регрессии затрудняет разнобой в единицах измерения разных факторов (градусы, тонны, километры, ангстремы и т.п.). Для того, чтобы по виду уравнения можно было составить представление о степени влияния каждого фактора на выходную переменную, необходимо перейти к безразмерным величинам. Вместо случайных величин берут центрированные, нормированные случайные величины
(5.1.10).
Для нормированных величин уравнение регрессии (5.1.2) примет вид
(5.1.11)
Приведенные (стандартизованные, нормированные) коэффициенты βi характеризуют реальный вклад каждого из факторов в вариацию выходной переменной y. Чем больше абсолютная величина βi, тем этот вклад больше.
