Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
26
Добавлен:
13.05.2015
Размер:
588.29 Кб
Скачать

Глава 3. Законы распределения юридических процессов во времени и пространстве

§1. Значение законов распределения для исследования криминологических/юридических процессов. Понятие, классификация, элементарные аналитические характеристики вероятностных и статистических (выборочных) дискретных и непрерывных распределений.

§2. Аппроксимация эмпирических распределений известными теоретическими распределениями и проверка эффективности аппроксимации.

§3. Закон нормального распределения, правило трех сигм и правило Бьенамэ-Чебышева в исследовании криминологических и других юридических процессов.

§4. Формула Бернулли и упрощающие формулы, построенные на локальной и интегральной теоремах Муавра-Лапласа, в исследовании криминологических явлений.

Бернулли формула: , гдеn – число наблюдений (испытаний, исходов); k – число «благоприятных» исходов, р – вероятность появления благоприятного исхода; q – вероятность не появления благоприятного исхода; Pk,n – вероятность того, что при n испытаниях благоприятное событие наступило ровно k раз.

Бимодальное распределение (bimodal distribution) – распределение, содержащее две моды (два блока (кластера) данных). На графике отчетливо видны две вершины.

Биноминальное распределение (binomial distribution) – это распределение вероятностей появления k-го числа событий в n независимых испытаниях, в каждом из которых вероятность появления события постоянна или равна числу p. Вероятность числа проявлений события вычисляется по формуле Бернулли: , гдеС – сочетание. Сочетание – это понятие комбинаторики. Напомним, что сочетаниями, содержащими k элементов, выбранных из n элементов заданного множества, называются различные множества, отличающиеся друг от друга хотя бы одним элементом. Число сочетаний из n элементов по k элементов обозначают:

или . Число сочетаний изn элементов по k элементов определяется по формуле: .

Блочная диаграмма (box-and-whisker diagram) – используется для наглядного представления пяти базовых показателей (five-number summary) в одномерном наборе данных: 1) минимальное значение переменной по ранжированному ряду; 2) максимальное значение переменной по ранжированному ряду; 3) значение первого квартиля – значение 25%-го числа от начала ранжированного ряда; 4) значение третьего квартиля – значение 75%-го числа от начала ранжированного ряда; 5) значение медианы, позволяющих диагностировать вид распределения.

Бьенамэ-Чебышева правило (Bienayme-Chebyshev rule) гласит, что для любого набора эмпирических данных вне зависимости от закона их распределения доля (или процент) наблюдений, лежащих на расстоянии, не превышающем k среднеквадратических отклонений от математического ожидания, не меньше . Например, для двух стандартных отклонений имеем: .

Распределение Вейбулла (Weibull distribution) – это распределение вероятностей случайной величины Х, плотность вероятности которой вычисляется по формуле:

, где α и β – параметры распределения, α>0, β>0, 0≤x∞.

Интегральная функция: .

Выброс (outliner) – значения в наборе данных резко отличающиеся от остальных, например, трехзначное число среди двузначных и т.п. Выделяют ошибочные и корректные выбросы. Ошибочные – исправляют, а корректные оставляют или удаляют, объясняя при этом причину удаления.

Гипергеометрическое распределение (hipergeometric distribution) имеет место в том случае, если вероятность появления случайной величины X вычисляется по формуле: , гдеP(X=k) – вероятность наступления события k, k – число интересующих событий в выборке размером n; M – число интересующих событий в ГС объемом N.

Гистограмма (histogram)столбиковая диаграмма, составленная на основе частот, а не просто данных. Отражает, насколько часто конкретные значения встречаются в наборе данных. По горизонтали в порядке возрастания располагаются данные исследуемого ряда, а по вертикали – частоты их встречаемости.

Дискретное распределение (discrete distribution) – распределение дискретных переменных (discrete variables), где каждому дискретному значению из множества X поставлено в соответствие значение вероятности наступления – P(X).

Дисперсия дискретной случайной величины X (variance) – это среднее взвешенное по вероятности квадратов разностей между всеми элементами множества X и математическим ожиданием, вычисляемое по формуле: .

Ковариация (covariance) между двумя дискретными случайными величинами X и Y показывает ненормированную силу связи и её направление между ними (если ковариацию поделить на произведение стандартных отклонений по переменным X и Y, то ковариация будет нормированной и называется коэффициентом корреляции – более удобная мера силы связи между переменными78). Ковариация для дискретных переменных вычисляется по формуле:

, где – вероятность наступления i-го значения х и j-го значения у.

Коэффициент асимметрии Пирсона – вычисляемый по формуле: .

Критерий согласия Пирсона χ2 (кси квадрат):

, где h – число групп (в нашем примере их 8), fi – наблюдаемая эмпирическая частота; fТi – теоретическая частота рассчитанная по нормальному распределению.

Если эмпирический ряд задан частостями, а не частотами, то формула: , где вместо частот взяты частости (относительные частоты).

Критерий Колмогорова (разработан А.Н. Колмагоровым) (λ):

, где D – максимальная разность между накопленными частотами эмпирического и теоретического распределений, d – максимальная разность между накопленными частостями эмпирического и теоретического распределения; N – число наблюдений.

Критерий Романовского (автор – В.И. Романовский) (Кр):

, где v – число степеней свободы.

Логарифмирование – замена исходных данных (только положительных чисел) их логарифмами, что позволяет: 1) увеличить (растянуть) малые значения; 2) уменьшить (сжать) большие значения; 3) преобразовать скошенные распределения в симметричные, поскольку горизонтальная ось (ось абсцисс) равномерно растягивается около нуля. Например, логарифм числа 0,0004=-3,3979; log(15000)=4,176. Отсюда и частоты, откладываемые по ординате, располагаются более кучно и равномерно. В случае, если вычисляется натуральный логарифм (основание число e=2,71…), то его перевод в десятичный осуществляется путем деления полученного числа на 2,302585, например, ln(15000)=9,6158. Разделив 9,6158 на 2,302585, получим 4,176. Соответственно и наоборот, если умножить 4,176 на 2,302585, то получим 9,615.

Логнормальное распределение (log-normal distribution) – логарифмически нормальное распределение (логнормальное распределение) – это распределение, в котором нормально распределено не само значение переменной (случайной величины) Х, а её логарифм: log X.

Математическим ожиданием (expected value) дискретной случайной величины Х является её среднее взвешенное по вероятности значение (weighted value), вычисляемое по формуле:

, где pi – вероятность каждого конкретного значения случайной величины X, xi – конкретные значения дискретной величины. Для непрерывной случайной величины X это будет то же самое только в интегральной форме (дискретную вероятность мы заменим плотностью вероятности): .

Непрерывное распределение (continuous distribution) – это распределение непрерывной случайной величины X, где каждому непрерывному значению из множества X поставлено в соответствие значение плотности вероятности наступления – f(X) – плотность непрерывного распределения вероятностей (continuous probability density function). По сути, в данном случае мы от дискретных сумм переходим к непрерывным интегралам, от столбчатых диаграмм к гладким функциям, не меняя при этом математического смысла происходящего.

Нормальное распределение (normal distribution) или распределение Гаусса (Gaussian distribution). Иногда его также называют распределением Гаусса-Лапласа: , гдеf(x) – плотность вероятности, σ – стандартное отклонение, μ – математическое ожидание, e – основание натуральных логарифмов равное числу 2,718. По существу, это дифференциальная функция от интегральной функции распределения: .

Нормированный коэффициент асимметрии: , где rA – нормированный коэффициент асимметрии, μ3 – асимметрия (центральный момент третьего порядка), σ3 – стандартное отклонение, возведенное в третью степень.

Перцентили (persentile) – это ранжированные данные, выраженные в процентах, а не в числах, то есть ранжированные данные, представленные не в абсолютных, а в относительных величинах. Соответственно имеются перцентили от нуля до 100 включительно, и называются - нулевой перцентиль, первый, второй и т.д. Двадцать пятый (25%) и семьдесят пятый (75%) перцентили носят названия квартилей (quartiles), первый называют нижним квартилем, а второй – верхним. Пятидесятый перцентиль (50%) по ранжированному ряду называют медианой (median).

Правило трёх (шести) сигм – (по три справа и слева от математического ожидания) (six sigma rule) – если случайная величина X имеет нормальный закон распределения с параметрами m и 2, то практически достоверно, что её значения заключены в интервале (m – 3, m+3). Отсюда следует важный практический вывод, что отклонение нормально распределенной величины Х свыше трех сигм имеет вероятность, равную 0,0027 (0,27%), то есть ничтожно малую вероятность. При этом основная масса событий (68,27%) будет сгруппирована в пределах первых двух сигм, примыкающих к математическому ожиданию слева (34,13%) и справа (34,13%), далее в пределах вторых сигм по 13,59% (в сумме 27,18%) и в пределах третьих по 2,14% (4,28%).

Преобразование (transformation) – замена исходных данных для упрощения вычислений, например, сдвиг запятой или логарифмирование.

Распределение Паскаля (отрицательное биноминальное распределение) (Pascal distribution). Здесь определяется вероятность числа неудач в последовательности испытаний Бернулли. Случайная величина Х имеет отрицательное биноминальное распределение с параметрами распределения r и p, где r – число успехов, а p – вероятность успеха. Соответственно, вероятность неудач: q=1-p, а число неудач, имевших место до наступления успеха (r), составляет k. Формула для распределения Паскаля:

.

Распределение Пуассона (Poisson distribution) иногда называемое также законом редких событий. По сути, являет собой распределение дискретной случайной величины, когда она принимает одно из возможных значений от нуля до n с вероятностью: , гдех=0, 1, 2…n; λ=μ=D(x)=np. Лямбда (λ) – это параметр распределения Пуассона, характеризующий скорость появления событий в n испытаниях.

Распределение Стьюдента (Student׳s t-distribution) – распределение случайной величины , гдеsв – выборочное стандартное отклонение, – среднее арифметическое изn наблюдений нормально распределенного набора данных с математическим ожиданием μ.

Среднее квадратическое отклонение (стандартное отклонение) дискретной случайной величины X вычисляется по формуле:

.