Скачиваний:
1
Добавлен:
16.05.2025
Размер:
346.02 Кб
Скачать

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное автономное образовательное учреждение высшего образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»

Кафедра 41

ПРЕПОДАВАТЕЛЬ

Доцент, физ.-мат. наук

Е. А. Яковлева

должность, уч. степень, звание

подпись, дата

инициалы, фамилия

Контрольная работа

по курсу:  

Статистическая обработка информации

СТУДЕНТКА ГР. №

Z0411

19.01.24

М. В. Карелина

номер группы

подпись, дата

инициалы, фамилия

Номер студенческого билета: 2020/3477

Санкт-Петербург

2024

Имеются следующие выборочные данные (выборка 10%-ная, механическая) о выпуске продукции и сумме прибыли, млн. руб. В соответствии с вариантом n=2, m=7. Результат представлен в таблице 1.

Таблица1

№ предприя-тия

Выпуск продукции

Прибыль

№ предприятия

Выпуск продукции

Прибыль

1

62

15,7

16

52,0

14,6

2

78,0

18,0

17

62,0

14,8

3

41,0

12,1

18

69,0

16,1

4

54,0

13,8

19

85,0

16,7

5

62

15,5

20

72

15,8

6

34

19

21

71,0

16,4

7

45,0

12,8

22

44

29

8

57,0

14,2

23

72,0

16,5

9

67,0

15,9

24

88,0

18,5

10

82

17,6

25

72

16,4

11

92,0

18,2

26

74,0

16,0

12

48,0

14

27

96,0

19,1

13

59,0

16,5

28

75,0

16,3

14

68,0

16,2

29

101,0

19,6

15

82

16,7

30

72

17,2

По исходным данным:

1. Постройте статистический ряд распределения предприятий по сумме прибыли, образовав пять групп с равными интервалами. Постройте графики ряда распределения.

2. Определите границы, в которых с вероятностью 0,997 заключена сумма прибыли одного предприятия в генеральной совокупности.

3. Используя χ2 -критерий Пирсона, при уровне значимости α=0,05 проверить гипотезу о том, что случайная величина X – сумма прибыли – распределена по нормальному закону.

4. Установите наличие и характер корреляционной связи между стоимостью произведённой продукции (X) и суммой прибыли на одно предприятие (Y). Постройте диаграмму рассеяния и линию регрессии.

5. Определите коэффициенты выборочного уравнения регрессии

6. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами X и Y, используя шкалу Чеддока.

1. Постройте статистический ряд распределения предприятий по сумме прибыли, образовав пять групп с равными интервалами. Постройте графики ряда распределения.

В программе Excel заполняется таблица исходных данных и выполняется сортировка третьего столбца (прибыль) в порядке возрастания. В результате получается новый интервальный ранжированный ряд (Рис. 1). Имеются следующие выборочные данные (выборка 10%-ная, механическая) о выпуске продукции и сумме прибыли, млн. руб.:

Рисунок 1 - Сортировка данных по столбцу Прибыль

Дискретный вариационный ряд разбивается на интервалы, число которых подсчитывается по формуле Стержесса:

, где N – количество измерений, то есть 30

k = 5,85, получаем 7 групп.

Длина частичного интервала определяется по формуле

Размах = 

Медиану нашли по значению по середине таблицы. При этом на середине лежало 2 числа: 16,2 и 16,3. В этом случае их сложим их и разделим на 2.

Мода – в результатах встречается 3 раза повторяющиеся значения по 2 раза (3 дублета).

Результат выполнения расчетов (Рис. 2).

Рисунок 1 – Результат расчётов

Значение прибыли 29 отнесем к выбросу, тогда Тогда xmin = 12,10, xmax = 19,60, среднее значение = 16,64

Определим границы интервалов (Рис. 3).

Рисунок 3 – Таблица границ интервалов

Результат группировки представлен на рисунке 4.

Рисунок 4 – Результат группировки

Подсчитывается количество предприятий, принадлежащих каждому из интервалов. Вычисляются накопленная частота и середина интервала. Результат представлен на рисунке 5.

Рисунок 5 – Статистический ряд распределения предприятий

По данной таблице построим следующие графики (рис.6-8)

Рисунок 6 – Кривая ненормированной плотности распределения

Рисунок 7 – Полигон частот

Рисунок 8 – Гистограмма

2. Определите границы, в которых с вероятностью 0,997 заключена сумма прибыли одного предприятия в генеральной совокупности. Границы для среднего найдем из соотношения:

Для вероятности 0,997 коэффициент доверия равен 3.

  1. Используя χ2-критерий Пирсона, при уровне значимости α=0,05 проверил гипотезу о том, что случайная величина X – сумма прибыли – распределена по нормальному закону.

Сначала рассчитаем среднее значение сгруппированного ряда, дисперсию и среднее квадратичное отклонение.

Среднее значение сгруппированного ряда

 

Дисперсия

   

Среднее квадратичное отклонение

 

Результат расчётов представлен ниже (Табл. 2):

Таблица 2 - Среднее значение, дисперсия и среднеквадратическое отклонение

Среднее значение

Дисперсия

Сигма

16,01354

3,87177

1,96768

Опираясь на данные сведения, вычислим следующие характеристики:

  •    , где    и σ = 2,638;

  • функция Гаусса: ;

  •  , где N = 30 и h = 1,3;

  •    .

Получим таблицу, представленную на рисунке 9.

Рисунок 9 – Таблица для проверки распределения по нормальному закону

Сравним полученные результаты с теоретическими, используя критерий Пирсона:

 . = 4,35

По таблице критических точек распределения χ2 по уровню значимости α = 0,05 и числу степеней свободы k = 7 - 2 - 1 = 2, находим χ2кр = 14,1.

Так как:

χ2набл = 4,35,

χ2кр = 14,1,

χ2набл 2кр

Получается, что, гипотеза о нормальном распределении не отклоняется.

4. Установите наличие и характер корреляционной связи между стоимостью произведённой продукции (X) и суммой прибыли на одно предприятие (Y). Постройте диаграмму рассеяния и линию регрессии.

Используя изначальные данные для 1-го задания – отсортируем значения по выпуске продукции и обозначим их за x, прибыль обозначим за y.

С помощью стандартной надстройки Excel «Анализ данных» построим точечную диаграмму по x и y, построим линейную линию тренда, включим показ уравнения на диаграмме и поместим на диаграмму коэффициент детерминации (R2). Результат представлен на Рис. 10.

Рисунок 10 - Поле корреляции

Получилось выборочное уравнение регрессии:

y= 0,0342x + 14,319.

R2= 0,0371.

Коэффициент детерминации показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

Коэффициент детерминации получился довольно слабым. Для того чтобы улучшить результаты удалим сильно отдалённые результаты от линии тренда – так называемые «выбросы», которые портят график. Результат на рисунке 11.

Рисунок 11 – Поле корреляции после удаления выбросов

Теперь выборочное уравнение регрессии:

y = 0,0784x + 10,826.

Коэффициент детерминации R2=0,4886.

Коэффициент детерминации объясняет 48,9% переменных, объясняемые рассматриваемым уравнением.

Коэффициент детерминации объясняет 48,9% переменных, объясняемые рассматриваемым уравнением, то есть 48,9% вариации показателя y объясняется вариацией фактора x.

Остальные 51,1% изменения у объясняются факторами, не учтенными в модели (а также ошибками спецификации).

5. Определите коэффициенты выборочного уравнения регрессии

a = 10,8401

b = 0,0782

Уравнение регрессии имеет следующий вид

y = 0,0782x+10,8401

Параметры уравнения также можно определить по формулам:

6. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами X и Y, используя шкалу Чеддока.

Тесноту линейной связи оценит коэффициент корреляции:

Или же

0,485802

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < rxy < 0.3: слабая;

0.3 < rxy < 0.5: умеренная;

0.5 < rxy < 0.7: заметная;

0.7 < rxy < 0.9: высокая;

0.9 < rxy < 1: весьма высокая;

Таким образом, линейная связь между выпуском продукции и величиной прибыли умеренная.

Качество модели также определяет средняя ошибка аппроксимации:

= 4,7%

Качество построенной модели оценивается как хорошее, так как не превышает 8-10%.

Средний коэффициент эластичности Э показывает, на сколько процентов в среднем по совокупности изменится результат y от своей средней величины при изменении фактора x на 1% от своего среднего значения:

= 0,331%

Увеличение фактора х (от своего среднего значения) на 1% снижает в среднем результативный признак на 0,331%.

Оценку значимости уравнения регрессии в целом проведем с помощью F -критерия Фишера. Фактическое значение F -критерия:

= 26,454

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы =1, =30-2=28, составляет табл = 2,53. Так как, = 26,454> = 2,53 то уравнение регрессии признается статистически значимым, надежным.

Благодаря вычислительным возможностям функции Анализ данных, в программе Excel были найдены предсказанные значения   и остатки (y- ). На основе этих сведений были построены следующие графики (Рис. 12-13):

Рисунок 12 - Распределение заданных значений y и предсказанных значений

Рисунок 13 - Распределение остаточных значений (y- )

Рисунок 13 - Вывод итогов регрессии

Коэффициент a является достоверным, если он лежит в промежутке (8,591069, 13,06017).

Коэффициент b является достоверным, если он лежит в промежутке (0,046752, 0,110133).

Оценку статистической значимости параметров регрессии проведем с помощью t-статистики Стьюдента.

Табличное значение t-критерия составит tтабл = 2,045.

Определим случайные ошибки ma, mb, mrxy (Табл. 3):

Таблица 3 - Случайные ошибки

ma

61,51601809

mb

0,01152054

mrxy

0,13551457

Тогда, , ,

Фактические значения t-статистики представлены в Табл. 4.

Таблица 4 - Фактические значения t-статистики

ta

0,1762164

tb

6,7895452

trxy

5,1433234

26,4537758

Фактическое значение t-статистики не превосходит табличное значение: ta< tтабл поэтому параметр a статистически не значим.

Фактические значения t-статистики превосходят табличное значение: tb >tтабл , trxy >tтабл поэтому параметр b и коэффициент корреляции статистически значимы.

Найдём расчетную величину средней ошибки аппроксимации E, значение очень малое, что свидетельствует о хорошо проработанной модели уравнения. Также посмотрим вывод остатка (Рис. 14).

Рисунок 14 – Вывод остатка

Вывод

В заключение следует отметить, что задача по анализу данных о прибыли выборки из 30 предприятий с помощью программы Excel и статистических методов была выполнена. Данные были отсортированы, определены частоты и интервалы, рассчитаны различные статистические показатели, такие как диапазон, среднее, медиана и мода.

Гипотеза о нормальном распределении данных была проверена с помощью χ2-критерия Пирсона, и она была признана удовлетворительной при уровне значимости α = 0,05. χ2набл < χ2кр

Также были рассчитаны среднее значение, дисперсия и стандартное отклонение сгруппированных данных.

Корреляция между стоимостью продукции и прибылью также была определена как положительная и сильная, т.к. график растёт и коэффициент корреляции r=0,933 что указывает на весьма сильную связь между этими двумя переменными.

Уравнение регрессии: y = 0,0782x+10,8401.

В конечном итоге, задача была успешно решена, поскольку был проведен тщательный анализ данных о прибыли по выборке предприятий.

Соседние файлы в предмете Статистическая обработка информации
  • #
    16.05.202527.35 Кб1моделирование — сои.xlsx
  • #
    16.05.2025346.02 Кб1сои.docx
  • #
    16.05.202551.61 Кб4сои.xlsx