- •1. Методические указания к выполнению контрольной работы
- •1.1. Средние величины и показатели вариации
- •1.2. Расчет моды и медианы
- •1.3. Группировка статистических данных
- •1.4. Измерение степени тесноты корреляционной связи
- •2. Задание на контрольную работу
- •2.1. Исходные данные
- •2.2. Выбор исходных данных
- •2.3. Порядок выполнения работы
1.2. Расчет моды и медианы
Медиану и моду часто используют как среднюю характеристику в тех совокупностях, где расчет средней (арифметической, гармонической и др.) невозможен или нецелесообразен.
Медиана лежит в середине ранжированного ряда и делит его пополам.
Мода – это наиболее часто встречающееся значение признака у единиц данной совокупности. Она соответствует определенному значению признака.
На практике моду и медиану находят, как правило, по сгруппированным данным.
Для определения медианы следует подсчитать сумму накопительных частот. Наращивание «итого» продолжается до получения накопительной суммы частот, превышающей половину суммы частот. Определяют значение медианы по формуле:
,
(1.14)
где
начальное значение интервала, содержащего
медиану;
–
величина медианного
интервала;
f – сумма частот ряда;
– сумма накопленных
частот, предшествующих медианному
интервалу;
– частота медианного
интервала.
Величину моды определяют по формуле:
,
(1.15)
где
–
начальное значение интервала, содержащего
моду;
–
величина модального
интервала;
–
частота модального
интервала;
–
частота интервала,
предшествующего модальному;
– частота интервала,
следующего за модальным.
1.3. Группировка статистических данных
Для построения группировки в первую очередь необходимо выделить группировочный признак или основание группировки. Необходимо определить число интервалов группировки и их границы. Группировочный признак при анализе выбирается из условия выполнения цели группировки.
Число групп в группировке выбирается в этом случае из таких предпосылок: изменчивость признака, число наблюдений, однородность групп.
Построение группировки включает несколько этапов:
1. Определение числа групп
В данном случае используют формулу Стерджесса:
,
(1.16)
где N - количество элементов совокупности.
2. Определение величины интервала
Величина интервала определяется по формуле:
,
(1.17)
где
и
– максимальное и минимальное значения
признака;
n – число групп.
3. Образуют группы, которые отличаются друг от друга на величину интервала.
4. На основании этого составляется таблица с системой показателей, куда заносятся результаты группировки.
1.4. Измерение степени тесноты корреляционной связи
Показатели степени тесноты связи дают возможность охарактеризовать зависимость вариации результативного признака от вариации признака-фактора. В известной мере они дополняют и развивают уже отмеченные приёмы обнаружения связи.
Зная показатели тесноты корреляционной связи, можно решать следующие группы вопросов:
ответить на вопрос о необходимости изучения данной связи между признаками и целесообразности её практического применения;
сопоставляя показатели тесноты связи для различных ситуаций, можно судить о степени различий в её проявлении для конкретных условий;
и, наконец, сопоставляя показатели тесноты связи результативного признака с различными факторами, которые в данных конкретных условиях являются решающими и, главным образом, воздействуют на формирование величины результативного признака.
К простейшим показателям степени тесноты связи относят коэффициент корреляции знаков, который был предложен немецким учёным Г. Фехнером (1801 – 1887). Этот показатель основан на оценке степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от соответствующих средних. Для его расчёта вычисляют средние значения результативного и факторного признаков, а затем проставляют знаки отклонений для всех значений взаимосвязанных пар признаков.
Если ввести обозначения: na – число совпадений знаков отклонений индивидуальных величин от средней, nb – число несовпадений знаков отклонений, то коэффициент Фехнера можно записать таким образом:
(1.18)
Коэффициент Фехнера может принимать различные значения в пределах от –1 до +1. Если знаки всех отклонений совпадут, то nb = 0 и тогда показатель будет равен 1, что свидетельствует о возможном наличии прямой связи. Если же знаки всех отклонений будут разными, тогда na = 0b и коэффициент Фехнера будет равен –1, что даёт основание предположить наличие обратной связи.
Более совершенным показателем степени тесноты связи является линейный показатель корреляции (r)*.
При расчёте этого показателя учитываются не только знаки отклонений индивидуальных значений признака от средней, но и сама величина таких отклонений, т.е. соответственно для факторного и результативного признаков величины.
(1.19)
Однако непосредственно сопоставлять между собой полученные абсолютные величины нельзя, так как сами признаки могут быть выражены в разных единицах (как это имеет место в представленном примере), а при наличии одних и тех же единиц измерения средние могут быть различны по величине. В этой связи сравнению могут подлежать отклонения, выраженные в относительных величинах, т.е. в долях среднего квадратического отклонения (их называют нормированными отклонениями). Так, для факторного признака будем иметь совокупность величин:
(1.20)
а для результативного
(1.21)
Выполнив несложные преобразования, можно получить следующую формулу для расчёта линейного коэффициента корреляции:
.
(1.22)
При пользовании этой формулой отпадает необходимость вычислять отклонения индивидуальных значений признаков от средней величины, что исключает ошибку в расчётах при округлении средних величин.
Линейный коэффициент корреляции может принимать любые значения в пределах от –1 до +1. Чем ближе коэффициент корреляции по абсолютной величине к 1, тем теснее связь между признаками. Знак при линейном коэффициенте корреляции указывает на направление связи: прямой зависимости соответствует знак плюс, а обратной зависимости – знак минус.
Если с увеличением факторного признака x результативный признак y имеет тенденцию к увеличению, то величина коэффициента корреляции будет находиться между 0 и 1. Если же с увеличением значений x результативный признак y имеет тенденцию к снижению - коэффициент корреляции может принимать значения в интервале от 0 до –1.
Вторым этапом изучения статистической связи вслед за определением степени тесноты связи с помощью коэффициента корреляции идет этап установления формы связи или вида функции φ(х), объясняющей основную закономерность влияния факторного признака х на результативный признак у.
Под
формой статистической связи понимают
ту тенденцию, которая проявляется в
изменении изучаемого результативного
признака в связи с изменением факторного
признака. Форму связи можно попытаться
установить, построив в прямоугольной
системе координат все множество пар
значений признаков (хi,
уi),
.
По оси абсцисс откладываются значения
факторного признака х,
по оси ординат – значения
признака у.
Такое графическое построение называется
полем корреляции или диаграммой
рассеяния, пример построения представлен
на рис. 3.3. По характеру расположения
точек на координатной плоскости можно
судить о характере статистической
связи. Если наблюдается тенденция
равномерного возрастания или убывания
значений признака, то связь называется
прямолинейной. При тенденции неравномерного
изменения значений зависимость носит
название криволинейной.
Рис. 1.3. Диаграмма рассеяния и линия регрессии
Линия на графике (см. рис. 1.3), изображающая тенденцию в изменении результативного признака при возрастании факторного, называется линией регрессии. В случае прямолинейной связи линия регрессии ищется в виде уравнения прямой линии:
,
(1.23)
где у – теоретические значения результативного признака, образующие прямую линию; а0, а1 – параметры уравнения; х – значения факторного признака.
Во всех случаях расчет параметров уравнения производится методом наименьших квадратов. В основу метода положено требование минимальности отклонения теоретических значений у’i от эмпирических (полученных в результате наблюдения) значений признака уi при одном и том же значении хi. Это требование в математических обозначениях записывается следующим образом:
.
(1.24)
Подставляя
вместо теоретических значений
их запись через параметры а0
и а1
, получаем
.
(1.25)
В
этом выражении известны все хi
и уi,
полученные в результате наблюдения,
неизвестны лишь а0
и а1.
Полученная функция двух переменных а0
и а1
имеет минимум, когда частные производные
и
одновременно равны 0. Произведя
дифференцирование по а0
и а1,
получаем систему двух уравнений с двумя
неизвестными, решив которую, получим
выражение для нахождения коэффициентов
а0
и а1:
,
(1.26)
,
(1.27)
где n – общее число наблюдений; х, у – значения признаков, полученные в результате наблюдения.
