Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка по статистике 2014.docx
Скачиваний:
36
Добавлен:
25.03.2016
Размер:
1.13 Mб
Скачать

§ 1. Аналитическая статистика

С одной стороны, статистика – это совокупность числовых показателей, характеризующих общественные явления и процессы (статистика труда, статистика транспорта).

С другой – под статистикой понимается практическая деятельность по сбору, обработке, анализу данных по различным направлениям общественной жизни.

С третьей стороны, статистика – это итоги массового учета, опубликованные в различных сборниках.

Наконец, в естественных науках статистикой называются методы и способы оценки соответствия данных массового наблюдения математическим формулам.

Таким образом, статистика – это общественная наука, изучающая количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной.

Каждый отдельно взятый элемент данного множества называется единицей статистической совокупности. Единицы совокупности характеризуются общими свойствами, т.е.признаками.

Статистическая закономерность устанавливается на основе анализа массовых данных, это обусловливает ее взаимосвязь с законом больших чисел.

Ряды распределения, построенные по количественному признаку (в порядке возрастания или убывания признака) называются вариационными. Вариационный ряд распределения состоит из двух элементов: вариант и частот. Количественные значения признака в вариационном ряду распределения называютсявариантами.

Частоты– это числа, показывающие: сколько раз в совокупности встречается данное значение признака.

Частости (относительная частота, плотность частоты)это частоты, выраженные в процентах к итогу или в долях. Сумма всех частостей, выраженных в процентах, равна 100 %, в долях – 1.

§ 2. Технология работы в режиме«Анализ данных»

Пакет анализа представляет собой надстройку (вспомогательную программу, служащую для добавления в Microsoft Office специальных команд или возможностей). Чтобы использовать надстройку в Excel, необходимо сначала загрузить ее.

  1. Выберите кнопку «Office» …Параметры Excel… Надстройки.

  2. Щёлкните по кнопке «Перейти».

  3. В раскрывшемся окне активируйте опцию «Пакет анализа».

  1. ОК

  2. В меню «Данные» появляется надстройка «Анализ данных».

В ней представлен список методов статистической обработки данных:

Алгоритм выполнения индивидуального задания 1

  1. Скопируйте свой вариант задания на лист Excel.

  2. Исключите суммарные итоги по федеральным округам и Российской федерации в целом (удалите эти строки).

  3. Ранжируйте полученный вариационный ряд, используя кнопку .

  4. Найдите первый и последний децили. Исключите из вариационного ряда значения первого и последнего дециля (используя статистическую функцию «ПЕРСЕНТИЛЬ»). Для этого выбирается , категория статистические, функция ПЕРСЕНТИЛЬ, заполните раскрывшееся окно

Значение К=0,1, поскольку первый дециль составляет одну десятую часть персентиля. Для нахождения последнего персентиля вместо 0,1 проставьте 0,9

Регионы, попавшие в первый и последний дециль выделите курсивом и заливкой, они из анализа исключаются.

  1. Для оставшегося вариационного ряда постройте интервальный ряд распределения с равными интервалами, предварительно рассчитав количество групп по формуле Стерджесса n = 1 + 3,322 lgN,

где n — число групп; N — число единиц совокупности. Поскольку оставшихся регионов 63, n = 1 + 3,322 lg63=7.

  1. Рассчитайте интервал группировки.

где =8268,7 и = 607,9 максимальное и минимальное значения признака в совокупности; n=7 - число групп. Тогда =1094,4

Определите начальные и конечные значения каждого из 7 интервалов по формуле hконечные=hначальные+h, например,h1конечное=h1начальное+h= 607,9 + 1094,4 =1702,3. Каждый из интервалов удобно выделить своей заливкой.

  1. Определите количество единиц в каждой группе и накопленную частоту. Накопленная частота рассчитывается путем последовательного суммирования частот предшествующих интервалов.

  1. Рассчитайте среднюю взвешенную величину по формуле

где - средневзвешенная арифметическая всего интервального ряда,- средняя арифметическая в каждой группе,- число элементов (частота) в каждой группе.

  1. Рассчитайте моду (значение признака, наиболее часто встречающееся в исследуемой совокупности) по формуле

где иi - соответственно нижняя граница и величина модального интервала;- частоты модального, предмодального и послемодального интервалов. В рассматриваемом примере модальный интервал (тот, в который входит наибольшее количество элементов) – второй (в него входят 25 регионов). Тогда нижняя граница равна 1702,3, частоты модального интервала равна 25, предмодального интервала равна 17, послемодального интервала равна 6, величина модального интервала равна интервалу группировки1094,4.

Мода равна

  1. Рассчитайте медиану( значение признака, приходящееся на середину ранжированной (упорядоченной) совокупности по формуле , гдеи i— соответственно нижняя граница и величина медианного интервала;— частота медианного интервала;— кумулятивная частота предмедианного интервала.

В интервальном ряду медианным интервалом является тот в который попадает половина суммарного значения 63/2 = 31,5. В рассматриваемом примере модальный интервал второй. Тогда нижняя граница равна 1702,3, частоты модального интервала равна 25, кумулятивная частота предмедианная интервала равна 17, величина модального интервала равна интервалу группировки 1094,4.

Медианная частота равна

  1. Постройте полигон распределения (графического изображения дискретного вариационного ряда), строится по столбцам Число элементов.

  1. Постройте кумуляту интервального ряда распределения. Она строится по столбцу Накопленная частота.

  1. Сделайте вывод об однородности совокупности. Для такого вывода нужно рассчитать коэффициент вариации, а для этого сначала рассчитать среднеквадратическое отклонение, для определения которого, ранее нужно рассчитать дисперсию.

  1. Расчёт дисперсии (среднего квадрата отклонений индивидуальных значений от средней величины по формуле

Например, для первого интервала числитель дисперсии рассчитывается (1176,2- 2942,60)2*17=53045413

Дисперсия равна 4129771,1

  1. Расчёт среднеквадратического отклонения (оно показывает, на сколько в среднем отклоняются конкретные варианты признака от его среднего значения). Вычисляется как квадратный корень из дисперсии. Среднеквадратическое отклонение равно 2032,2

  2. Расчёт коэффициента вариации (она характеризует долю усредненного значения отклонений от средней величины). При этом совокупность считается однородной, если Vне превышает 33%. Коэффициент вариации рассчитывается по формуле

V=2032,2/2942,6*100%=70%. Вывод – совокупность неоднородна.

  1. Определите скошенность и величину асимметрии.

  1. Для характеристики асимметрии применяется нормированный момент третьего порядка: .

As=0, т. е., если ряд распределения симметричен;

As>0, т.е.,если скошенность ряда правосторонняя;

As<0, т.е.,если скошенность ряда левосторонняя;

Если As< 0,5 (независимо от знака) то асимметрия считается незначительной.

Если As > 0,5 то асимметрия считается значительной.

Например, для первого интервала числитель асимметрии рассчитывается (1176,2- 2942,60)3*17= -93701660477

Асимметрия равна 1,36. Вывод: скошенность правосторонняя(>0) и значительная(>0,5).

Оценка степени существенностиэтого показателя дается с помощью средней квадратической ошибки, рассчитываемой по формуле:, гдеn— число наблюдений.

Если , тоасимметрия существеннаи распределение признака в генеральной совокупности не является симметричным.

Если , тоасимметрия несущественна, ее наличие объясняется влиянием случайных обстоятельств.

; .

Т.е., > 2, асимметрия существенна.

  1. Рассчитайте эксцесс и сделайте вывод о нормальности распределения. Под эксцессомпонимаетсястепень островершинности(крутизны) распределения, при этом в качестве эталона берется нормальное распределение.

  1. Характеристикой эксцесса является нормированный момент четвертого порядка .

Для вариационного ряда нормального распределения Ех= 0.

Для более островершинных распределений, чем нормальное, Ех> 0, для более плосковершинныхЕх< 0.

Например, для первого интервала числитель эксцесс рассчитывается (1176,2- 2942,60)4*17= 1,65519E+14.

Числ.эксцесса

1,65519E+14

1,09829E+13

48808620698

1,74119E+13

1,20002E+14

0

3,64637E+15

.

Вывод: Эксцесс равен 0,7. Распределение островершинное (>0).

Предельным значением отрицательного эксцесса является значение Ех=-2; величина положительного эксцесса является величиной бесконечной. В нормальном распределении.

Средняя квадратическая ошибка эксцесса исчисляется по формуле

, где nчисло наблюдений.

Если , то распределение можно считать нормальным.

.

, т.е. распределение можно считать нормальным.

Выборочное наблюдение — это способ несплошного статистического наблюдения, при котором обследуются не все единицы изучаемой (генеральной)совокупности, а лишь часть ее (выборка), отобранная по определенным правилам и обеспечивающая получение данных, характеризующих совокупность в целом.

Вся изучаемая совокупность называется генеральной совокупностью. Часть генеральной совокупности, которая подвергается обследованию – называетсявыборочной совокупностью(выборкой). Для того, чтобы выборочная совокупность давала объективные результаты, она должна бытьрепрезентативной(каждая единица генеральной совокупности должна иметь равную возможность попасть в выборку).

Некоторые единицы могут попадать в выборку дважды, трижды или даже большее число раз. Такой отбор в выборку называется повторным.

При бесповторномотборе попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре отбора не участвует.

Способ отбора определяет конкретный механизм или процедуру выборки единиц из генеральной совокупности. В практике выборочных обследований наибольшее распространение получили следующие выборки:

  • собственно-случайная;

  • механическая;

  • типическая (стратифицированная);

  • серийная;

  • комбинированная.

  1. Организуйте собственно-случайную выборку из 20 регионов повторнымспособом отбора (жеребьевкой).

Собственно-случайная выборка. Ее суть заключается в что единицы отбираются в случайном порядке, не зависящем ни от последовательности расположения единиц в совокупности, ни от значений их признаков.

Организуйте собственно-случайную выборку 20 регионов генератором случайных чисел (фунция =СЛУЧМЕЖДУ(2;82). Поскольку случайные числа постоянно меняются их нужно скопировать и вставить используя меню Главная… Вставить…Специальная вставка.

После проведения отбора определите границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.

Средняя ошибка повторной собственно-случайной выборки определяется по формуле: ,

где - среднее квадратическое отклонение изучаемого признака;

n- объем (число единиц) выборочной совокупности.

Напомним, что для нахождения среднеквадратического отклонения, вначале нужно рассчитать дисперсию.

Предельная ошибка выборкисвязана с заданным уровнем вероятности.

Соотношение площади под кривой нормального распределения в зависимости от расстояния от средней арифметической

При решении представленных ниже задач требуемая вероятность составляет 0,954 (t= 2) или 0,997 (t = 3). С учетом выбранного уровня вероятности предельная ошибка выборки составит:.

Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах: .

  1. Организуйте механическуюдвадцатипроцентную выборку.

Данная выборка заключается в отборе единиц из общего списка единиц генеральной совокупности через равные интервалы в соответствии с установленным процентом отбора. Организуйте выборку через 4 единицы.

Найдите среднюю и предельную ошибки выборки с вероятностью 0,954, установите границы генеральной средней механической выборки.

При расчете средней ошибки механической бесповторной выборкинеобходимо учитывать поправку на бесповторность отбора:

,

где N- объем (число единиц) генеральной совокупности.

В рассматриваемом примере

Генеральнаясредняя будет находиться в следующих границах:.