- •Информационные технологии обеспечения юридической деятельности
- •030900 «Юриспруденция»
- •Оглавление
- •Введение
- •Предмет и структура информатики. Особенности обработки информации в правовой сфере деятельности
- •Понятие «информатика»
- •Структура правовой информации
- •Основы работы в табличном процессоре excel
- •Интерфейс окна книги Excel
- •Расчеты в таблицах и основные функции Excel
- •Подведение промежуточных итогов
- •Использование логической функции и поиск данных
- •Основные методы математико-статистического анализа в обработке социально-правовой информации
- •Определение меры вариации статистической совокупности
- •Определение аномальных значений совокупностей
- •Построение гистограмм
- •Расчет коэффициента корреляции
- •Построение модели парной линейной регрессии
- •Построение рейтинга экономических субъектов
- •Компьютерные сети
- •Назначение и классификация компьютерных сетей
- •Архитектура связей
- •Сетевое оборудование и передача данных
- •Технология «клиент – сервер» и программные средства компьютерных сетей
- •Некоторые особенности сетей повышенной надежности
- •Структура глобальной сети Internet, сетевые протоколы
- •Адресация в Internet
- •Классификация сервисов Internet
- •Электронная почта
- •Система гипермедиа www
- •Браузер как основная программа доступа к службам Сети
- •Безопасный обмен информацией через Internet
- •Информационная безопасность
- •Концепция информационной безопасности Российской Федерации
- •Источники угроз информационной безопасности
- •Несанкционированный доступ
- •Безопасность корпоративных информационных систем
- •Этап анализа и оценки существующих рисков в организации
- •Этап внедрения системы безопасности
- •Этап поддержки
- •Методы противодействия информационным атакам в сети
- •Электронный документооборот и электронная цифровая подпись
- •Оценка состояния и ключевые проблемы обеспечения информационной безопасности
- •Вопросы для самопроверки
- •Требования к выполеннию и оформлению контрольной работы
- •Вариант задания 1
- •Вариант задания 2
- •Вариант задания 3
- •Вариант задания 4
- •Вариант задания 5
- •Вариант задания 6
- •Вариант задания 7
- •Вариант задания 8
- •Вариант задания 9
- •Вариант задания 10
- •Приложение
- •Литература
- •Прикладная информатика и информационная безопасность в юридической деятельности
- •030900 «Юриспруденция»
- •443023, Г. Самара, ул. Промышленности, 278.
Расчет коэффициента корреляции
Исследование статистических взаимосвязей между изучаемыми процессами осуществляется методами корреляционного и регрессионного анализа. Определить направленность и рассчитать силу статистической взаимосвязи признаков можно с помощью коэффициента корреляции, построить математическую модель - с помощью линейной регрессии.
Количественно направленность и сила статистической взаимосвязи (коэффициент корреляции) между признаками X и Y находится по формуле:
(3.9)
где
(3.10)
(3.11)
(3.12)
(3.13)
Пример. Определить коэффициент корреляции двумя способами: расчетным и с помощью пакета анализа данных.
Рассмотрим реализацию этапов статистического анализа в Excel.
Известно, что наиболее емким показателем уровня жизни населения являются «Среднедушевые денежные доходы населения, руб.», а уровень экономического развития территории во много определяется инвестициями. Проверим гипотезу о наличии статистической взаимосвязи между показателями уровня жизни населения и уровня экономического развития территории методом корреляционного анализа. Для этого рассчитаем линейный коэффициент корреляции Пирсона.
Определение линейного коэффициента корреляции расчетным методом наглядно отображено в таблице на рис. 43 (режим формул).
Рисунок 43. Фрагмент таблицы в режиме формул расчета линейного коэффициента корреляции
В режиме значений таблица расчета линейного коэффициента корреляции представлена на рис. 44.
Рисунок 44. Фрагмент таблицы в режиме значений расчета линейного коэффициента корреляции
Подтвердить значение полученного коэффициента корреляции можно с помощью пакета анализа данных. Последовательность действий в этом случае следующая:
Подготовить исходные данные (рис. 45).
Команда СЕРВИС – АНАЛИЗ ДАННЫХ.
Инструменты анализа - Корреляция.
Ввод параметров окна (рис. 46).
ОК.
Рисунок 45. Фрагмент базы данных
Рисунок 46. Ввод параметров окна при определении коэффициента корреляции
В результате получаем аналогичное значение коэффициента корреляции (rxy), равное 0,64, что позволяет говорить о правильности расчета и наличии высокой статистической взаимосвязи между уровнем жизни населения и уровнем экономического развития субъектов Российской Федерации.
Построение модели парной линейной регрессии
Прогнозировать изучаемые процессы можно с помощью регрессионных моделей. Наиболее простая из них – это модель парной линейной регрессии, которая имеет следующий вид:
(3.14)
Где b0 – свободный член уравнения, отражающий влияние всех неучтенных факторов;
b1 – коэффициент при факторе x.
Суть построения модели сводится к определению параметров уравнения (b0, b1).
В Excel построение этой модели осуществляется следующим образом:
Команда СЕРВИС – АНАЛИЗ ДАННЫХ – РЕГРЕССИЯ.
Ввести параметры окна (рис. 47).
ОК.
Рисунок 47. Ввод параметров окна при построении парной регрессии
Наиболее наглядно сравнение наблюдаемых и полученных с помощью модели значений иллюстрируется графиком подбора (рис. 48).
Рисунок 48. Соотношение модельных и эмпирических значений Y
Таблица 1
|
Коэффициенты |
Стандартная ошибка |
T- Статистика |
P- Значение |
Нижние 95% |
Верхние 95% |
Y-пересечение |
3 873,838 |
311,1546 |
12,4 |
3,99E-20 |
3 251,54 |
4 496,14 |
X |
0,078 207 |
0,010 632 |
7,3 |
1,75E-10 |
0,057 |
0,099 |
В данном случае регрессионное уравнение будет иметь вид:
(3.15)
Интерпретировать это уравнение можно следующим образом: при увеличении среднедушевых инвестиций в экономику региона на 1 р. (Х) среднедушевые доходы населения (Y) возрастут в среднем на 8 к., при отсутствии влияния прочих факторов.
Качество модели в целом можно оценить множественным коэффициентом детерминации (R-квадрат), который для пары признаков Y и X равен:
(3.16)
Таким образом, можно сделать вывод, что 1 % изменчивости результативного признака Y объясняется изменчивостью признака X, то есть доля объясненной дисперсии результативного признака (Y) фактором (Х) равна 41 %, что является достаточно хорошим результатом, учитывая однофакторность модели.
Этот результат подтверждается данными табл. 2, где в строке R-квадрат показано число 0,41, при умножении которого на 100 получаем множественный коэффициент детерминации.
Таблица 2
Учитывая стохастическую природу построенной модели, необходимо оценить полученное уравнение регрессии с помощью средней ошибки аппроксимации и F-критерия Фишера, а статистическую значимость его параметров – с помощью t-критерия Стьюдента.
Найдем среднюю относительную ошибку аппроксимации по формуле:
(3.17)
Для вычисления согласно формуле (3.17) составим таблицу, фрагмент которой показан на рис. 49 в режиме формул и рис. 50 в режиме значений. Здесь в столбце J определяется сумма абсолютных относительных ошибок, а в ячейке К25 - сама средняя относительная ошибка аппроксимации.
Рисунок 49. Фрагмент таблицы расчета средней относительной ошибки аппроксимации в режиме формул
Рисунок 50. Фрагмент таблицы расчета средней относительной ошибки аппроксимации в режиме значений
В нашем примере
= 24,1 %, т. к. значения средней относительной
ошибки аппроксимации немногим более
20 %, то можно точность уравнения определить
как недостаточно высокую. В этом случае
возникает вопрос, какие регионы имеют
наибольшее отклонение от среднестатистического
уровня, определенного с помощью модели.
Осуществим эту задачу с помощью
автофильтра.
Решим задачу: определить первые пять регионов, имеющих наибольшее отклонение значений моделируемого признака от среднестатистического.
Решение:
В результате построения регрессионной модели имеем таблицу остатков (рис. 51).
Рисунок 51. Таблица остатков
Выделяем ее и назначаем режим автофильтра: Данные – Фильтр – Авто – фильтр.
В поле Остатки назначаем режим Первые 10…, вводим соответствующие параметры (рис. 52):
Рисунок 52. Назначение условий поиска
В результате получаем пять субъектов Федерации, имеющих наибольшее положительное отклонение от среднестатистического значения (рис. 53), т. е. в рамках построенной модели у этих регионов среднедушевые доходы необоснованно высоки.
Рисунок 53. Субъекты Федерации, у которых высокие уровни среднедушевых доходов не обусловлены существующим уровнем инвестиционной активности
Список же регионов с высоким потенциалом уровня среднедушевых доходов получим, выбрав условие «Первые пять – наименьших» (рис. 54).
Рисунок 54. Субъекты Федерации, у которых согласно построенной модели уровни среднедушевых доходов должны быть выше при существующем уровне инвестиционной активности
Если же остаток равен нулю, то уровень среднедушевых доходов в регионе соответствует среднестатистическому в рамках построенной модели. Однако такой случай в приведенном примере не наблюдался. Наибольшее соответствие эмпирического значения среднедушевых доходов с оценкой, полученной с помощью модели, у Ярославской области.
Исследование статистической значимости уравнения регрессии в целом проводится с помощью F-критерия Фишера-Снедекора. Прежде всего, выдвигается гипотеза Н0 о том, что уравнение в целом статистически незначимо, при конкурирующей гипотезе Н1: уравнение в целом статистически значимо. Расчетное значение критерия находится по формуле:
(3.18)
Для уравнения парной регрессии p = 1.
Пример получения количественной оценки F-критерия, согласно формуле (3.18), показан в таблице (рис. 55).
Рисунок 55. Фрагмент таблицы для расчета количественной оценки F-критерия в режиме формул
В режиме значений таблица получения количественной оценки F-критерия показана на рис. 56.
Рисунок 56. Фрагмент таблицы для расчета количественной оценки F-критерия в режиме значений
Табличное (теоретическое) значение критерия находится по таблице критических значений распределения Фишера-Снедекора по уровню значимости α и двум числам степеней свободы (k1 = p = 1 и k2 = n – p – 1 = 79 – 1 – 1 = 77):
Если Fрасч < Fтабл, то гипотеза Н0 принимается, а уравнение линейной регрессии в целом считается статистически незначимым (с вероятностью ошибки 5 %).
Для уравнения (3.15) Fрасч = 54,1, то есть неравенство не выполняется, следовательно, гипотеза Н0 отвергается. Делаем вывод, что построенная регрессионная модель в целом статистически значима.
Кроме оценки статистической модели в целом, необходимо проверить статистическую значимость оценок всех параметров (b0, b1) линейного уравнения. Осуществляется это с помощью t-критерия Стьюдента.
Выдвигается гипотеза Н0: параметр bj = 0 (j = 0, 1) (статистически незначим, случайно отличается от 0), при конкурирующей гипотезе Н1: параметр bj ≠ 0 (статистически значим, не случайно отличается от 0). Находится расчетное значение критерия Стьюдента:
где средняя квадратическая ошибка для параметра b0 равна:
А для параметра b1:
Расчет этих оценок показан в таблице в режиме формул на рис. 57, а в режиме значений – на рис. 58.
Рисунок 57. Фрагмент таблицы в режиме формул для расчета средних квадратических ошибок для параметров b0 и b1
Рисунок 58. Фрагмент таблицы в режиме значений для расчета средних квадратических ошибок для параметров b0 и b1
Зная mi, можно определить расчетное значение критерия Стьюдента:
Для
Для
Теоретическое значение критерия tтабл. находится по таблице критических значений распределения Стьюдента по уровню значимости α и числу степеней свободы k = n – p – 1. Если tbj > tтабл., то гипотеза Н0 отвергается с вероятностью ошибки α, т. е. оценка коэффициента регрессии bj признается статистически значимой, в противном случае (tbj < tтабл.) – незначимой.
Табличное значение критерия для уровня значимости α = 0,05 и числа степеней свободы k = n – 2 = 79 – 2 = 77 равно: tтабл. = 2,0.
Найдем доверительные интервалы для параметров b0 и b1 уравнения (1):
∆b0= tтабл. · mb0 = 2,0 · 311,15 = 622,30;
∆b1 = tтабл · mb1 = 2,0 · 0,010 632 5 = 0,021 265.
Следовательно, нижняя граница доверительного интервала для b0 равна: b0 0 3 873,837 9 – 622,3 = 3 251,54. Верхняя граница доверительного интервала для b0 равна: b0 0 3 873,837 9 + 622,3 = 4 496,14.
Нижняя граница доверительного интервала для b1 равна:
b1 b1 0,078 206 92- 0,021 265 = 0,056 9
Верхняя граница доверительного интервала для b1 равна:
B1 b1 0,078 206 92+ 0,0212 65 = 0,099
Таблица 3
Проверка критерия Стьюдента
Уравнение
регрессии
|
||||||
Параметр уравнения bj
|
Среднеквадратическая ошибка параметра mbj |
Расчетное значение критерия tbj |
Табличное значение критерия tтабл |
Вывод о статистической значимости |
Границы доверительных интервалов |
|
левая |
Правая |
|||||
b0 |
311,15 |
12,45 |
2,0 |
значимая |
3 251,54 |
4 496,14 |
b1 |
0,010 6 |
7,36 |
значимая |
0,056 9 |
0,099 |
|
В результате проверки на статистическую значимость уравнения в целом, а также каждого его параметра можно сделать вывод о статистической его значимости, то есть построенная модель адекватно отражает рассматриваемое явление.

3 873,838
0,078
X