- •Содержание дисциплины
- •Тема 1. Статистика как наука.
- •Тема 2. История правовой статистики.
- •Тема 3. Правовая статистика и её значение в обеспечении режима законности
- •1. Понятие предмет и объект правовой статистики
- •2. Отрасли правовой статистики и её место в системе юридических наук.
- •3. Научно-практическое значение материалов правовой статистики
- •Тема 4 Статистическое наблюдение.
- •Тема 5 Сводка и группировка материалов статистического наблюдения
- •1 Понятие и содержание статистической сводки
- •2. Техника и способы сводки
- •3.Разработка статистических показателей.
- •Статистическая группировка.
- •Виды группировок и основания их классификации
- •Тема 6 Приемы обработки показателей правовой статистики
- •Общая характеристика метода выборочного наблюдения
- •Оценка точности и достоверности результатов выборочного наблюдения
- •Статистические оценки числовых характеристик случайных величин
- •Генеральная средняя
- •Выборочная средняя
- •Оценка генеральной средней по выборочной средней. Устойчивость выборочных средних
- •Групповая и общая средние
- •Генеральная дисперсия
- •Выборочная дисперсия
- •Формула для вычисления дисперсии
- •Групповая, внутригрупповая, межгрупповая и общая дисперсия
- •2 Анализ рядов динамики
- •3 Анализ сезонных колебаний
- •4 Методы выравнивания рядов динамики
- •Тема 7 Статистический анализ оценки параметров распределения.
- •Тема 7.1. Понятие о статистическом анализе и его основные задачи
- •2. Статистические возможности анализа преступности
- •3. Статическое изучение деятельности правоохранительных органов
- •Тема 7.2. Методы статистического анализа в задачах моделирования и прогнозирования социально-правовых процессов
- •1. Этапы исследования с использованием статистических методов
- •2. Корреляционный анализ
- •4. Факторный анализ
- •5. Кластерный анализ
- •6. Анализ динамики и прогнозирование социально-правовых процессов
- •Тема 7.4. «Статистические гипотезы.»
- •1.Статистические гипотезы.
- •2.Критерии проверки статистических гипотез.
- •3.Ошибки первого и второго рода при проверке статистических гипотез.
- •О смысле ошибок первого и второго рода
- •Вероятности ошибок (уровень значимости и мощность)
- •Примеры использования Компьютеры
- •Компьютерная безопасность
- •Фильтрация спама
- •Вредоносное программное обеспечение
- •Поиск в компьютерных базах данных
- •Оптическое распознавание текстов (ocr)
- •Досмотр пассажиров и багажа
- •Биометрия
- •4.Проверка гипотезы.
2. Корреляционный анализ
Между социально-экономическими процессами и явлениями возможны два вида зависимостей:
- функциональная - имеется однозначное соответствие параметров, характеризующих различные процессы и явления (в социальной среде практически не встречаются);
- стохастическая (вероятностная) - конкретному значению зависимой переменной соответствует набор значений объясняющей переменной. Это связано, прежде всего, с тем, что на зависимую переменную оказывает влияние ряд неучтенных факторов. Кроме того, сказываются ошибки измерения переменных – вследствие случайного разброса значений их значения могут быть указаны лишь с определенной вероятностью.
Примерами случайных явлений, имеющими вероятностную природу и встречающимися в социально-экономической сфере, можно указать следующие:
- число совершенных и раскрытых преступлений за фиксированный отрезок времени (это – случайные величины);
- число дорожно-транспортных происшествий в регионе за определенное время (это также случайная величина) и др.
Для изучения стохастических взаимосвязей существуют специальные методы, в частности, корреляционный анализ.
Корреляция – это соотношение, связь между имеющимися явлениями и процессами.
Корреляционный анализ – это использование в определенной последовательности совокупности статистических методов обработки информации, позволяющее исследовать взаимосвязи между различными признаками.
Задачами корреляционного анализа как метода математической статистики для изучаемых случайных признаков являются:
- установление формы связи между изучаемыми случайными признаками;
- установление направления связи между изучаемыми случайными признаками;
- измерение тесноты этой связи между изучаемыми случайными признаками.
В статистике величина линейной зависимости между двумя признаками измеряется посредством простого (выборочного) коэффициента корреляции.
Величина линейной зависимости одной переменной от нескольких других измеряется коэффициентом множественной корреляции.
Возможно вычисление частного коэффициента корреляции, измеряющего линейную зависимость межу двумя признаками после устранения части линейной зависимости, обусловленной связью этих переменных с другими переменными.
По форме корреляционные связи могут быть:
- линейными (прямолинейными);
- нелинейными (криволинейными).
По направлению корреляционные связи могут быть:
- прямыми (положительными);
- обратными (отрицательными).
Коэффициент корреляции может принимать значения:
- при прямой связи – от 0 до +1;
- при обратной связи – от -1 до 0;
- при коэффициентах, близких к нулю, считается, что статистическая линейная связь между признаками отсутствует;
- при абсолютных значениях коэффициентов, меньше 0,3 – связь слабая;
- при значениях 0,3 – 0,5 – связь умеренная;
- при значениях 0,5– 0,7 – связь значительная;
- при значениях 0,7 – 0,9 – связь сильная;
- при значениях коэффициентов больше 0,9 – связь считается сильной;
- при значениях коэффициентов, равных +1 или -1, говорят о наличии функциональной связи (такая ситуация практически не встречается в статистических исследованиях).
Однако такая упрощенная оценка силы связи не всегда корректна, так как степень уверенности в наличии статистической связи зависит от объема исследуемой совокупности.
Чем меньше объем совокупности, тем большим должно быть значение коэффициента корреляции для принятия гипотезы о существовании зависимости между признаками.
С целью количественного измерения степени уверенности в существовании линейной статистической связи между признаками введены понятия:
- уровня значимости коэффициента корреляции;
- пороговое (критическое) значение коэффициента корреляции.
Проверка значимости полученного коэффициента корреляции состоит в сравнении расчетного значения с критическим.
При данном числе измерений и задаваемым уровнем значимости находится критическое значение, которое сравнивается с расчетным.
Если расчетное значение коэффициента корреляции больше критического – связь считается значимой.
Если расчетное значение коэффициента корреляции меньше критического, то связь или отсутствует (такое значение коэффициента корреляции объясняется случайными отклонениями), или выборка мала для ее выявления.
Для определения существования и величины линейной зависимости между двумя переменными X и Y необходимо осуществить две процедуры:
Процедура 1. Графическое отображение точек [(Xi, Yi), i = 1, n на плоскость [XY]. Полученный график называется диаграммой рассеяния, анализ которой позволяет сделать вывод о допустимости предположения о линейной зависимости между переменными. Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого используется выборочный коэффициент корреляции:
Где n - количество измерений, Xi.Yi - i-е значения, X,Y - средние значения, бх, бу - среднеквадратические отклонения переменных X и Y соответственно.
В теории статистического анализа корреляционная связь определяется как линейная зависимость в условиях нормальности распределения анализируемых переменных. Поэтому для корректного применения корреляционных методов необходимо обосновать близость распределения переменных к нормальному и формы связи к линейной. В противном случае необходимо применять более сложные приемы анализа или другие коэффициенты связи.
Достаточно простой в вычислительном отношении способ проверки нормальности эмпирического распределения состоит в оценке следующего отношения:
Где С - среднее абсолютное отклонение, б - среднеквадратическое отклонение.
Если указанное неравенство выполняется, то можно говорить о нормальности эмпирических распределений и корректности применения коэффициента корреляции как меры линейной статистической связи между переменными.
Однако даже при наличии сильной статистически значимой cвязи между двумя переменными нельзя быть полностью уверенным в причинно-следственной обусловленности, так как могут существовать другие причины (факторы), определяющие их совместную статистическую взаимосвязь. Статистические выводы должны быть всегда обоснованы надежной теоретической концепцией.
В то же время отсутствие статистически значимой связи не говорит об отсутствии причинно-следственных отношений, а заставляет искать другие пути и средства ее выявления, если содержательная концепция и практический опыт указывают на ее возможное существование.
3. Регрессионный анализ
Понятия корреляции и регрессии непосредственно связаны между собой. В корреляционном и регрессионном анализе много общих вычислительных приемов. Они используются для выявления причинно-следственных соотношений между явлениями и процессами. Однако, если корреляционный анализ позволяет оценить силу и направление стохастической связи, то регрессионный анализ - еще и форму зависимости.
Регрессия может быть:
А) в зависимости от числа явлений (переменных):
Простой (регрессия между двумя переменными);
Множественной (регрессия между зависимой переменной (у) несколькими объясняющими ее переменными (x1, х2,...,хn);
Линейной (отображается линейной функцией, а между изучаемыми переменными существуют линейные соотношения);
Нелинейной (отображается нелинейной функцией, между изучаемыми переменными связь носит нелинейный характер);
В) по характеру связи между включенными в рассмотрение переменными:
Положительной (увеличение значения объясняющей переменной приводит к увеличению значения зависимой переменной и наоборот);
Отрицательной (с увеличением значения объясняющей переменной значение объясняемой переменной уменьшается);
Г) по типу.
Непосредственной (в этом случае причина оказывает прямее воздействие на следствие, т.е. Зависимая и объясняющая переменные связаны непосредственно друг с другом);
Косвенной (объясняющая переменная оказывает опосредованное действие через третью или ряд других переменных на зависимую переменную);
Ложной (нонсенс регрессия) - может возникнуть при поверхностной и формальном подходе к исследуемым процессам и явлениям. Примером бессмысленных является регрессия,, устанавливающая связь между уменьшением количества потребляемого алкоголя в нашей стране и уменьшением продажи стирального порошка.
При проведении регрессионного анализа решаются следующие основные задачи:
Определение формы зависимости.
Определение функции регрессии. Для этого используют математическое уравнение того или иного типа, позволяющее, во-первых, установить общую тенденцию изменения зависимой переменной, а, во-вторых, вычислить влияние объясняющей переменной (или нескольких переменных) на зависимую переменную.
Оценка неизвестных значений зависимой переменной. Полученная математическая зависимость (уравнение регрессии) позволяет определять значение зависимой переменной как в пределах интервала заданных значений объясняющих переменных, так и за его пределами. В последнем случае регрессионный анализ выступает в качестве полезного инструмента при прогнозировании изменений социально-экономических процессов и явлений ( при условии сохранения существующих тенденций и взаимосвязей). Обычно длина временного отрезка, на который осуществляется прогнозирование, выбирается не более половины интервала времени, на котором проведены наблюдения исходных показателей. Можно осуществить как пассивный прогноз, решая задачу экстраполяции, так и активный, ведя рассуждения по известной схеме "если .... То" и подставляя различные значения в одну или несколько объясняющих переменных регрессии.
Для построения регрессии используется специальный метод, получивший название метода наименьших квадратов. Этот метод имеет преимущества перед другими методами сглаживания: сравнительно простое математическое определение искомых параметров и хорошее теоретическое обоснование с вероятностной точки зрения.
При выборе модели регрессии одним из существенных требований к ней является обеспечение наибольшей возможной простоты, позволяющей получить решение с достаточной точностью. Поэтому для установления статистических связей вначале, как правило, рассматривают модель из класса линейных функций (как наиболее простейшего ив всех возможных классов функций):
Где bi, b2,...,bj - коэффициенты, определяющие влияние независимых переменных xjj на величину yi; ai - свободный член; σi - случайное отклонение, которое отражает влияние неучтенных факторов на зависимую переменную; n - число независимых переменных; N -число наблюдений, причем должно соблюдаться условие (N > n+1).
Линейная модель может описывать весьма широкий класс различных задач. Однако на практике, в частности в социально-экономических системах, подчас затруднительно применение линейных моделей из-за больших ошибок аппроксимации. Поэтому нередко используются функции нелинейной множественной регрессии, допускающие линеаризацию. К их числу, например, относится производственная функция (степенная функция Кобба-Дугласа), нашедшая применение в различных социально-экономических исследованиях. Она имеет вид :
Где b0 - нормировочный множитель, bi...bj - неизвестные коэффициенты, εi - случайное отклонение.
Используя натуральные логарифмы, можно преобразовать это уравнение в линейную форму:
Log у* = log b0 + b1log x1 +...+ bjlog xj+log εi.
Полученная модель позволяет использовать стандартные процедуры линейной регрессии, описанные выше. Построив модели двух видов (аддитивные и мультипликативные), можно выбрать наилучшие и провести дальнейшие исследования c меньшими ошибками аппроксимации.
Существует хорошо развитая система подбора аппроксимирующих функций - методика группового учета аргументов (МГУА).
О правильности подобранной модели можно судить по результатам исследования остатков εi являющихся разностями между наблюдаемыми величинами yi и соответствующими прогнозируемыми с помощью регрессионного уравнения величинами уi*. В этом случае для проверки адекватности модели рассчитывается средняя ошибка аппроксимации:
Модель
считается адекватной, если
I
находится в пределах не более 15%.
Особо подчеркнем, что применительно к социально-экономическим системам далеко не всегда выполняются основные условия адекватности классической регрессионной модели.
Не останавливаясь на всех причинах возникающей неадекватности, назовем лишь мультиколлинеарность - самую сложную проблему эффективного применения процедур регрессионного анализа при изучении статистических зависимостей. Под мультиколлинеарностью понимается наличие линейной связи между объясняющими переменными. Это явление:
А) искажает смысл коэффициентов регрессии при их содержательной интерпретации;
Б) снижает точность оценивания (возрастает дисперсия оценок);
В) усиливает чувствительность оценок коэффициентов к выборочным данным (увеличение объема выборки может сильно повлиять на значения оценок).
Существуют различные приемы снижения мультикодлинеарноста. Наиболее доступный способ - устранение одной из двух переменных, если коэффициент корреляции между ними превышает значение, равное по абсолютной величине 0,8. Какую из переменных оставить решают, исходя из содержательных соображений. Затем вновь проводится расчет коэффициентов регрессии.
Использование алгоритма пошаговой регрессии позволяет последовательно включать в модель по одной независимой переменной и анализировать значимость коэффициентов регрессии и мультиколлинеарность переменных. Окончательно в исследуемой зависимости остаются только те переменные, которые обеспечивают необходимую значимость коэффициентов регрессии и минимальное влияние мультиколлинеарности.
