Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Харьковский национальный экономический университет им. С. Кузнеца

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

1.docx

Скачиваний:

Добавлен:

14.03.2015

Размер:

3.1 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 33

Статистические методы измерения взаимосвязей

Цель работы – овладеть навыками проведения корреляционного, регрессионного и дисперсионного анализа данных в MS Excel.

Задача работы – с помощью MS Excel провести корреляционно-регрессионный и дисперсионный анализ данных.

Методические рекомендации

Корреляционный анализ. Работа начинается из запуска Excel (аналогично запуску других прикладных программ – через меню ПУСК или используя ярлык). При формировании файла с данными показатели не обязательно вводить во входную таблицу табличного процессора, их можно перенести из документов Microsoft Office через буфер обмена. После чего, если нужно, происходит преобразование и визуализация первичных данных (рис.1).

області	кількість прибувших	кількість вибувших	постійне населення
Вінницька	24147	23858	1040264
Волинська	13154	12558	3275024
Дніпропетровська	36756	36592	4292006
Донецька³	27540	37121	1257402
Житомирська	16791	17360	1256858
Закарпатська	6083	6860	1766142
Запорізька	17958	18850	1379921
Івано-Франківська	13841	12857	1723533
Київська	30958	20633	974809
Кіровоградська	13476	14389	2220561
Луганська³	12584	13916	2520007
Львівська	26222	24814	1164163
Миколаївська	13768	13172	2385840
Одеська	29784	25436	1441948
Полтавська	21558	20722	1160147
Рівненська	17837	17921	1122190
Сумська	16084	16485	1067021
Тернопільська	12178	12246	2716948
Харківська	41615	33788	1066825
Херсонська	12532	13522	1298936
Хмельницька	19297	19275	1249222
Черкаська	16592	16259	906970
Чернівецька	10072	8794	1048280
Чернігівська	12666	13075	2845014

Рис.1. Входные данные

Режим Корреляция предназначен для расчетов генерального и выборочного коэффициентов корреляции соответственно на основе генеральных и выборочных данных. Для перехода в этой режим необходимо войти в позицию меню Сервис – Анализ данных и выбрать данный режим (рис. 7.2).

Рис. 7.2. Выбор режима Корреляция

Введенные параметры режима Корреляция, представлены на рис. 7.3, а рассчитанный линейный коэффициент корреляции – на рис. 7.4.

Рис. 7.3. Значение параметров режима Корреляция

	кількість прибувших	кількість вибувших	постійне населення
кількість прибувших	1
кількість вибувших	0,917841704	1
постійне населення	-0,080774405	-0,019795712	1

Рис. 7.4. Рассчитанный линейный коэффициент корреляции

Полученный результат (рис. 7.4) свидетельствует, что между парами всех показателей, которые исследуются существует стохастическая связь. Причем характер всех выявленных связей разный и состоит в следующем:

связь Численность работников, которые имеют среднее специальное и высшее образование – Отношение числа работников, которые имеют низкую квалификацию к численности работников предприятия есть слабой и обратной (-0,26), то есть увеличение первого показателя приведет к уменьшению второго;

связь Численность работников, которые имеют среднее специальное и высшее образование – Уровень произведенной бракованной продукции является заметной и обратной (-0,66), а именно с увеличением первого показателя происходит уменьшение второго;

связь Отношение числа работников, которые имеют низкую квалификацию к численности работников предприятия – Уровень произведенной бракованной продукции является слабой и прямой (0,24), то есть увеличение первого показателя будет приводить к увеличению второго.

Регрессионный анализ. Первичные данные для определения параметров уравнения линейной регрессии и проведения анализа представлены на рис. 7.5.

області	постійне населення	кількість прибувших	кількість вибувших
Вінницька	1040264	24147	23858
Волинська	3275024	13154	12558
Дніпропетровська	4292006	36756	36592
Донецька³	1257402	27540	37121
Житомирська	1256858	16791	17360
Закарпатська	1766142	6083	6860
Запорізька	1379921	17958	18850
Івано-Франківська	1723533	13841	12857
Київська	974809	30958	20633
Кіровоградська	2220561	13476	14389
Луганська³	2520007	12584	13916
Львівська	1164163	26222	24814
Миколаївська	2385840	13768	13172
Одеська	1441948	29784	25436
Полтавська	1160147	21558	20722
Рівненська	1122190	17837	17921
Сумська	1067021	16084	16485
Тернопільська	2716948	12178	12246
Харківська	1066825	41615	33788
Херсонська	1298936	12532	13522
Хмельницька	1249222	19297	19275
Черкаська	906970	16592	16259
Чернівецька	1048280	10072	8794
Чернігівська	2845014	12666	13075

Режим Регрессия предназначен для расчетов параметров уравнений линейной регрессии и проверки адекватности процесса, который исследуется. Для перехода в этой режим необходимо войти в позицию меню Сервис – Анализ данных и выбрать данный режим (рис. 7.6).

Рис. 7.6. Выбор режима Регрессия

В диалоговом окне режима Регрессия задаются следующие параметры (рис. 7.7):

1. Входной интервал Y – вводятся ссылки на ячейки, которые содержат данные по результативному признаку. Диапазон должен состаять с одного столбца;

2. Входной интервал Х – вводятся ссылки на ячейки, которые содержат факторные признаки. Максимальное количество входных диапазонов (столбцов) равняется 16;

3. Метки в первой строке/ Метки в первом столбце – активизируется, если первая строка (столбець) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, необходимо деактивизировать этот параметр. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона;

4. Уровень надежности – активизируется, если в поле, которое расположено напротив необходимо ввести уровень надежности отличный от уровня 95%. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R² и коэффициентов регрессии a_i.

5. Константа-Ноль – активизируется, если нужно, чтобы линия регрессии шла через начало координат;

6. Исходный интервал/ Новый рабочий лист/ Новая рабочая книга.

В положении Исходный интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщения в случае возможного наложения выходного диапазона на входные данные.

В положении Новый рабочий лист приоткрывается новый лист, в котором начиная с ячейки А1 выводятся результаты анализа. Если нужно задать имя новому рабочему листу, которое открывается, введите его имя в поле, которое расположено напротив.

В положении Новая рабочая книга открывается новая книга, на первом листе которой начиная с ячейки А1 выводятся результаты анализа;

7. Остатки – активизируется, если нужно включить в исходный диапазон столбець с остатками.

8. Стандартизированные остатки – активизируется, если нужно включить в исходный диапазон столбець со стандартизированными остатками;

9. График остатков – активизируется, если нужно вывести на рабочий лист графики зависимости остатков от факторных признаков (х_і);

10. График подбора – активизируется, если нужно вывести на рабочий лист графики зависимости теоретических результативных значений () от факторных признаков (х_і);

11. График нормальной вероятности – активизируется, если нужно вывести на рабочий лист график зависимости значений, которые наблюдаются (у) от интервалов персентилей, которые автоматически формируются.

Введенные параметры режима Регрессия, представлены на рис. 7.7, а рассчитанные показатели в данном режиме – на рис. 7.8.

Рис. 7.7. Значение параметров режима Регрессия

Рис. 7.8. Рассчитанные показатели в режиме Регрессия

Полученные результаты по регрессионной статистике отвечают следующим статистическим показателям:

Множественный R – коэффициенту корреляции;

R-Квадрат – коэффициенту детерминации R²;

Стандартная ошибка – остаточному стандартному отклонению;

Наблюдения – количеству наблюдений n.

Результаты дисперсионного анализа используются для проверки значимости коэффициента детерминации R². Столбцы имеют следующую интерпретацию:

Столбец df – число степеней свободы.

Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии к_Ф= m.

Для строки Остатки число степеней свободы определяется количеством наблюдений и количеством переменных в уравнении регрессии m+1:к_О=n–(m+1);

Для строки Вместе число степеней свободы определяется суммой к_Y= к_Ф+ к_О.

Столбец SS – сумма квадратов отклонений.

Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего: .

Для строки Остатки – это сумма квадратов отклонений эмпирических данных от теоретических: .

Для строки Вместе – это сумма квадратов отклонений эмпирических данных от среднего: или.

Столбец MS – дисперсии, которые рассчитаны по формуле: .

Для строки Регрессия – это факторная дисперсия .

Для строки Остатки – это остаточная дисперсия .

4. Столбец F – рассчитанное значение F-Критерия Фішера .

Столбец Значимость F – значение уровня значимости, соостветствует рассчитанному значению F_р. Определяется по помощи функции =FРАСП(F_р; df (регрессия); df (остаток)).

Полученные результаты анализа содержат значение коэффициентов регрессии а_і и их статистические оценки. Интерпретация столбцов:

Коэффициенты – значение коэффициентов а_і.
Стандартная погрешность – стандартные погрешности коэффициентов а_і.
t – статистика – рассчитанные значения t – критерия:

Р-Значение – значение уровней значимости, соответствующее рассчитанным значениям tp. Определяется по помощи функции =СТЬЮДРАСП (tp; n-m-1).
Нижние 95% и Верхние 95% - соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии а_і. Для нахождения границ доверительных интервалов с помощью функции =СТЬЮДРАСПОБР(α; n-m-1) рассчитывается критическое значение t-критерия (t_кр.), а потом по формулам Нижние 95% = Коэффициент – Стандартная погрешность × t_кр; Верхние 95% = Коэффициент + Стандартная погрешность × t_кррассчитываютсясоответственно нижние и верхние границы доверительных интервалов.

Отчет о рассчитанных остатках содержит генерированные теоретические значения у_i результативного признака Y и значение остатков. Последняя рассчитывается как различие между эмпирическим y и теоретическим значениями результативного признакаY.

Рассчитанные коэффициенты регрессии а_і позволяют построить уравнение, которые выражает зависимость Прибыли предприятия Y от Сумы кредиторской задолженности х₁ и Собственного капитала х₂ . Значение множественного коэффициента детерминации R²=0,995 указывает, что 99,5% общей вариации результативного признака объясняется вариацией факторных признаков х₁ и х₂. То есть выбранные факторы существенным образом влияют на прибыль предприятия, что подтверждает правильность их включения в построенную модель.

Рассчитанный уровень значимости α_р=0,0004<0,05 подтверждает значимость R².

Для проверки значимости коэффициентов регрессии а₀, а₁, а₂ сравнивают попарно элементы массивов С27:С29 и D27:D29, согласно чему абсолютное значение а₀ меньше чем его стандартная погрешность, поэтому его нужно исключить из уравнения регрессии.

Стандартные погрешности коэффициентов а₁, а₂ меньше своих стандартных погрешностей. К тому же эти коэффициенты значимы, о чем можно судить с помощью показателя Р-Значение, которое меньше заданного уровня значимости α=0,05.

Однофакторный дисперсионный анализ. Входные данные, показатели об объеме работ, которые выполнены в строительстве бригадами, представлены на рис. 7.9.

роки	працевлаштування за видами діяльності
роки	сільське господарство	будівництво	торгівля	фінансова діяльність
2009	153	25,9	135,3	6,2
2010	134,5	27,5	167,6	5,9
2011	152,2	27,6	152,2	4,9
2012	152,3	25,6	152,8	4,3

Рис. 7.9. Входные данные

Режим работы Однофакторный дисперсионный анализ используется для выяснения факта влияния контролируемого фактора А на результативный признак Y на основе выборочных данных. Для перехода в этой режим необходимо войти в меню Сервис-Анализ данных и выбрать данный режим (рис. 7.10).

Рис. 7.10. Выбор режима Однофакторный дисперсионный анализ

В диалоговом окне режима задаются следующие параметры (рис. 7.11):

1. Входной интервал – вводится ссылки на ячейки, которые содержат статистические данные;

2. Группирование – устанавливается у положения По столбцам или По строкам в зависимости от расположения данных во входном диапазоне;

3. Метки в первой строке / Метки в первом столбце – активизируется, если первый строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, необходимо этот параметр деактивизировать. В этом случае будут автоматически созданы стандартные названия для данных исходного диапазона;

4. Альфа – вводится уровень значимости α, какой равен возможности возникновения погрешности первого рода (не подтверждение нулевой гипотезы).

5. Исходный интервал/ Новое рабочий лист/ Новая рабочая книга.

В положении Исходный интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер исходного диапазона будет определен автоматически, и на экране появится сообщения в случае возможного наложения выходного диапазона на входные данные. В положении Новое рабочий лист открывается новый лист, в который начиная с ячейки А1 выводятся результаты анализа. Если нужно задать имя новому рабочему лмсту, которое открывается, введите его имя в поле, которое расположено напротив. В положении Новая рабочая книга открывается новая книга, на первом листе которой начиная с ячейки А1 выводятся результаты анализа. Введенные параметры режима Однофакторный дисперсионный анализ представлены на рис. 7.11, а рассчитанные показатели в данном режиме – на рис. 7.12.

Рис. 7.11. Значение параметров режима Однофакторный дисперсионный анализ

Рис. 7.12. Рассчитанные показатели в режиме Однофакторный дисперсионный анализ

Итак, расчетное значение F-Критерия F_р=22,44, а критическая область образовывается правосторонним интервалом (3,49; +∞). В связи с тем, что F_р попадает в критическую область, то гипотеза Н₀ об равенстве групповых математических ожиданий не принимается, то есть считаем, что объем ежедневной выборки зависит от предприятия.

Выборочный коэффициент детерминацииуказывает, что 84% общей выборочной вариации объема работ связаны с предприятием.

Полученные показатели (рис. 7.12) имеют следующую интерпретацию:

В ячейке С31 (показатель SS между группами) рассчитывается взвешенная сумма квадратов отклонений групповых средних от общей выборочной средней: .

В ячейке С32 (показатель SS внутри групп) рассчитывается остаточная сумма квадратов отклонений наблюдаемых значений уровня от своей выборочной средней: .

В ячейке С34 (показатель SS общий) рассчитывается общая сумма квадратов отклонений значений, которые наблюдаются от общей выборочной средней: .

В клеточках D31:D32, D34 (показатель df) определяется степень свободы: k_Ф=m-1=4-1=3; k_o=n-m=16-4=12; k_y=(m-1)+(n-m)=n-1=16-1=15.

В клеточках Е31:Е32 (показатель MS) определяются несмещенные оценки и.

В ячейке F31 (показатель F) рассчитывается расчетное значение критерия .

В ячейке G31 (показатель Р-Значение) определяется Р-Значение, которое соответствует расчетному значению критерия F_Р, с помощью формулы =FРАСП(F31; D31; D32).

В ячейке Н31 (показатель F-Критическое) рассчитывается значение правосторонней критической точки с помощью формулы =FРАСПОБР (0,05; D31; D32).

Двухфакторный дисперсионный анализ без повторений. Режимы работы Двохфакторний дисперсионный анализ без повторений и Двухфакторний дисперсионный анализ с повторениями предназначены для определения на основе выборочных данных факта влияния контролируемых факторов А и В на результативный признак Y. При этом в режиме Двухфакторний дисперсионный анализ без повторений каждому уровню факторов А и В соответствует только одна выборка данных, а в режиме Двухфакторний дисперсионный анализ с повторениями каждому уровню одного из факторов А (или В) отвечает более одной виборки данных. В последнем случае число виборок для каждого уровня должно быть одинаковым.

Входные данные представлены на рис. 7.13.

	Будівництво, всього	житлові	нежитлові
2011	118,6	101	122
2012	91,7	92,4	94
2013	88,9	110,4	89

Рис. 7.13. Входные данные

Для перехода в этой режим необходимо войти в меню Сервис-Анализ данных и выбрать данный режим (рис. 7.14).

Рис. 7.14. Выбор режима Двухфакторный дисперсионный анализ без повторений

В диалоговом окне режима (рис. 7.15) задаются те же параметры, что и в диалоговом окне Однофакторного дисперсионного анализа (рис. 7.11).

Введенные параметры режима Двухфакторний дисперсионный анализ без повторений представлены на рис. 7.15, а рассчитанные показатели в данном режиме – на рис. 7.16.

Рис. 7.15. Значение параметров режима Двухфакторный дисперсионный анализ без повторений

Полученные показатели (рис. 7.16) показывают, что расчетное значение F-Критерия фактора А (Тип оборудования) =4,33, а критическая область образуется правосторонним интервалом (19,0; +∞). В связи с тем, чтоне попадает в критическую область, то гипотезуН_А: а₁=а₂=…=а_mA принимаем, то есть считаем, что влияние Типа оборудования на качество продукции не подтвердилось.

Расчетное значение F-Критерия фактора В (Ресурс) =25, а критическая область образуется правосторонним интервалом (18,51; +∞). В связи с тем, чтопопадает в критическую область, то гипотезуН_В: b₁=b₂=…=b_mb не принимаем, то есть считаем, что вид ресурса влияет на качество продукции.

Рис. 7.16. Рассчитанные показатели в режиме Двухфакторный дисперсионный анализ без повторений

Выборочный коэффициент детерминации указывает на то, что 70% общей выборочной вариации качества продукции связано с влиянием на нее вида ресурса.

Механизмы расчетов показателей, которые представлены на рис. 7.16 и рис. 7.12 похожи между собой.

Двухфакторний дисперсионный анализ с повторениями. Входные данные, а именно об объеме производства продукции, который произведен предприятиями, на которых использовались разные способы использования ресурса, представлены на рис. 7.17.

предприятие	вид ресурса	спосыб використання ресурсыв
предприятие		способ 1	способ 2	способ 3	способ 4
предприятие 1	А	25,7	25,1	23,5	21,1
предприятие 2	А	25,4	24,4	22,6	19,9
предприятие 3	А	24,1	23,8	19,7	21
предприятие 1	Б	14,4	16,3	15,6	16
предприятие 2	Б	17	16	16,4	16,8
предприятие 3	Б	14,5	13,9	14,4	16,7
предприятие 1	В	16,2	16,8	15,5	14,9
предприятие 2	В	14,3	18,7	15,5	16,4
предприятие 3	В	16,1	16,6	14,5	15,6
предприятие 1	Г	15,4	16,9	17	14,4
предприятие 2	Г	16,6	15,8	16,3	17,5
предприятие 3	Г	16,4	18,4	16	16,8

Рис. 7.17. Входные данные

Для перехода в этой режим необходимо войти в меню Сервис-Анализ данных и выбрать данный режим (рис. 7.18).

Рис. 7.18. Выбор режима Двухфакторный дисперсионный анализ с повторениями

В диалоговом окне режима (рис. 7.19) задаются те же параметры, что и в диалоговом окне Однофакторный дисперсионный анализ (рис. 7.11), только добавлено поле Число строк для выборки. В это поле вводится число виборок, которые приходятся на каждый уровень одного из факторов. Каждый уровень фактора должен содержать одно и тоже количество виборок (строк таблицы).

Введенные параметры режима Двухфакторний дисперсионный анализ с повторениями представлены на рис. 7.19, а рассчитанные показатели в данном режиме – на рис. 7.20.

Рис. 7.19. Значение параметров режима Двухфакторный дисперсионный анализ с повторениями

Согласно результатам анализа (рис. 7.20) расчетное значение F- Критерия фактора А (Вид ресурса) =123,64, а критическая область образуется правосторонним интервалом (2,90; +∞). В связи с тем, чтопопадает в критическую область, то гипотезаН_А не подтверждается, то есть считаем, что вид ресурса влияет на объем выпуска продукции.

Выборочный коэффициент детерминации для фактора А показывает, что 83% общей выборочной вариации объема выпуска продукции связано с влиянием вида ресурса.

Расчетное значение F-Критерия фактора В (Способ использования ресурса) =3,99, а критическая область образуется правосторонним интервалом (2,9; +∞). В связи с тем, чтопопадает в критическую область, то гипотезаН_В не подтверждается, то есть считаем, что способ использования ресурса также влияет на объем выпуска продукции.

Выборочный коэффициент детерминации для фактора В показывает, что 2% общей выборочной вариации объема выпуска продукции связано с влиянием способа использования ресурса.

Рис. 7.20. Рассчитанные показатели в режиме Двухфакторный дисперсионный анализ с повторениями

Значимость фактора взаимодействия (=3,42 попадает в критический интервал (2,19; +∞)) указывает на то, что эффективность разных видов ресурса варьируется при разных способах их использования.

Механизмы расчета показателей, которые представлены на рис. 7.20 и рис. 7.12 похожи между собой.

<<< < Предыдущая 1 23 / 33

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.02.201539.93 Кб471.1 диплом.docx
#
11.02.201529.2 Кб211.2.docx
#
11.02.2015430.31 Кб41.docx
#
14.03.20155.04 Mб61.docx
#
18.04.2019123.07 Кб91.docx
#
14.03.20153.1 Mб281.docx
#
09.11.20192.45 Mб611-zbirnik.doc
#
14.11.2019284.41 Кб4122823.rtf
#
16.11.201926.9 Mб8137593.rtf
#
11.02.2015178.18 Кб156155293.DOC
#
11.02.2015188.93 Кб31_ROZDIL.doc