Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Otvety_po_statistike.docx
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
2.52 Mб
Скачать

Билет№14

Вопрос 1. Распределение Пуассона

Третье широко используемое дискретное распределение – распределение Пуассона. Случайная величина Y имеет распределение Пуассона, если

,

где λ – параметр распределения Пуассона, и P(Y=y)=0 для всех прочих y (при y=0 обозначено 0! =1). Для распределения Пуассона

M(Y) = λ, D(Y) = λ.

Это распределение названо в честь французского математика С.Д.Пуассона (1781-1840), впервые получившего его в 1837 г. Распределение Пуассона является предельным случаем биномиального распределения, когда вероятность р осуществления события мала, но число испытаний n велико, причем np = λ. Точнее, справедливо предельное соотношение

Поэтому распределение Пуассона (в старой терминологии «закон распределения») часто называют также «законом редких событий».

Распределение Пуассона возникает в теории потоков событий (см. выше). Доказано, что для простейшего потока с постоянной интенсивностью Λ число событий (вызовов), происшедших за время t, имеет распределение Пуассона с параметром λ = Λt. Следовательно, вероятность того, что за время t не произойдет ни одного события, равнаe-Λt, т.е. функция распределения длины промежутка между событиями является экспоненциальной.

Распределение Пуассона используется при анализе результатов выборочных маркетинговых обследований потребителей, расчете оперативных характеристик планов статистического приемочного контроля в случае малых значений приемочного уровня дефектности, для описания числа разладок статистически управляемого технологического процесса в единицу времени, числа «требований на обслуживание», поступающих в единицу времени в систему массового обслуживания, статистических закономерностей несчастных случаев и редких заболеваний, и т.д.

Описание иных параметрических семейств дискретных распределений и возможности их практического использования рассматриваются в обширной (более миллиона названий статей и книг на десятках языков) литературе по вероятностно-статистическим методам.

Билет 14 вопрос 2

Таблицы сопряженности

Таблицей сопряженности называется таблица, которая содержит сводную числовую характеристику изучаемой совокупности по двум и более атрибутивным (качественным) признакам или комбинации количественных и атрибутивных признаков.

Таблицы сопряженности получили наибольшее распространение при изучении социальных явлений и процессов: общественного мне­ния, уровня и образа жизни, общественно-политического строя и т.д.

Наиболее простым видом таблиц сопряженности является таб­лица частот 2x2 

Построение данной таблицы исходит из предположения, что ответы респондентов или анализируемые атрибутивные признаки будут принимать только два значения: А1 и А2, В1 и В2. Внутреннее цифровое наложение таблицы представляют частоты (fij) обладающие одновременно -м (i = 1, 2) значением одного (А) и j -м (j = 1,2)значе­нием j) другого качественного признака.

Итоговая графа и строка содержат информацию о количественном распределении совокупности соответственно по А и В атрибутивным признакам.

Для более полного описания и анализа явлений и процессов, ха­рактеризуемых атрибутивными признаками, используются таблицы сопряженности большей размерности:

где i = 1,2,..., k - число вариантов значений (например, ответов респондентов и т.д.) одного признака (например, признака А), j =1,2,…, n - число вариантов значений другого признака (В) (см. табл. 3.2).

Принцип взаимной сопряженности наиболее эффективен при выявлении и оценке взаимосвязей и взаимозависимостей между со­циальными явлениями и процессами.

Одним из основных методов разведочного анализа данных является кросстабуляция. результаты представляются в виде многовходовых (многомерных) таблиц частот, то есть в виде таблиц сопряженности с двумя или более факторами.

Логлинейный анализ предлагает более глубокие методы исследования этих таблиц. А именно, он позволяет проверить статистическую значимость различных факторов и взаимодействий, присутствующих в таблице сопряженности Анализ соответствий является описательным/разведочным методом, созданным для анализа сложных таблиц, содержащих некоторые меры соответствий между переменными - столбцами и переменными - строками. Получаемые результаты содержат информацию, похожую по своей природе на результаты Факторного анализа. Они позволяют изучить структуру категориальных переменных, включенных в таблицу.

Двумерные таблицы частот

Обзор методов логлинейного анализа начнем с наиболее простой таблицы сопряженности 2 x 2. Представьте, что вы интересуетесь зависимостью между возрастом людей и сединой волос. Вы имеете выборку из 100 человек и определяете, у кого из них седые волосы. Вы также записываете примерный возраст людей. Результаты этого исследования представлены в таблице следующим образом:

Седые волосы

Возраст

Всего

до 40 лет

от 40 и старше

Нет Да

40 20

  5 35

45 55

Всего

60

40

100

Это и есть простейшая таблица сопряженности 2 x 2 (название ее понятно: в таблице имеется две строки и два столбца, соответствующие двум сопряженным переменным, каждая из которых принимает два значения). Далее, в процессе интерпретации результатов этого маленького анализа, вы познакомитесь с терминологией, которая будет полезна при анализе более сложных таблицы.

Объясняющие переменные и переменные отклика. В теории множественной регрессии и в дисперсионном анализе обычно различают независимые и зависимые переменные. Зависимые переменные, это те переменные, поведение которых исследователь пытается "объяснить", то есть он предполагает, что эти переменные зависят от независимых переменных и хочет эту зависимость (связь) оценить. Факторы в таблицах 2x2 могут также рассматриваться с этой точки зрения: рассмотрите цвет волос (седой, не седой) как зависимую переменную, а возраст - как независимую. Альтернативные термины, которые используются при анализе таблиц сопряженности (называемых иногда также кросс-таблицами) - это переменные отклика и объясняющие переменные, соответственно. Переменные отклика - это те переменные, которые изменяются в ответ на изменение объясняющих переменных. Поэтому в приведенной выше таблице цвет волос можно рассматривать как переменную отклика, а возраст - как объясняющую (независимую) переменную.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно  положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные – множественной.

кроме перечисленных различают также непосредственные, косвенные и ложные связи. По силе различаются слабые и сильные связи.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Простейшим приемом выявления связи между двумя признаками является построениекорреляционной таблицы:

В основу группировки положены два изучаемых во взаимосвязи признака – Х и У. Частоты fij показывают количество соответствующих сочетаний Х и У. Если fijрасположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания fij допустимо утверждать о связи между Х и У. При этом, если fij концентрируется около одной из двух диагоналей, имеет место прямая или обратная линейная связь.

Наглядным изображением корреляционной таблице служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладывают значения Х, по оси ординат – У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.

Практически для количественной оценки тесноты связи широко используют линейныйкоэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле

Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.

Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если  |r| < 0,30, то связь слабая; при  |r| = (0,3÷0,7) – средняя; при  |r| > 0,70 – сильная, или тесная. Когда  |r| = 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X.

Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель

где n – число наблюдений; а0, а1 – неизвестные параметры уравнения;  ei – ошибка случайной переменной У.

Уравнение регрессии записывается как

где Уiтеор – рассчитанное выравненное значение результативного признака после подстановки в уравнение X.

Параметры а0 и а1 оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки ag и а, получают, когда

т.е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а0 и а1. Ее минимизация осуществляется решением системы уравнений

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]