Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
704817.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
315.17 Кб
Скачать
  1. Доверительные интервалы и проверка гипотез в линейном регрессионном анализе.

Доверительный интервал- это диапазон значений, внутри которого обычно с 95% доверием лежит истинный параметр популяции. Строго говоря, после повторного отбора в этом интервале лежат 95% оценок этого параметра. Проверку смотри выше в предыдущем вопросе.

  1. Корреляционный и дисперсионный анализ

Дисперсионный - статистический метод изучения влияния отдельных переменных на изменчивость изучаемого признака. Этот метод имеет смысл только лишь для интервальных переменных с наложенными дополнительными ограничениями. Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:

- Вариативность, обусловленную действием каждой из исследуемых независимых переменных.

- Вариативность, обусловленную взаимодействием исследуемых независмых переменных.

- Вариативность случайную, обусловленную всеми неучтенными обстоятельствами.

В отличие от корреляционного анализа, в дисперсионном исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Формулировка гипотез в дисперсионном анализе.

 Нулевая гипотеза:

«Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы».

 Альтернативная гипотеза:

«Средние величины результативного признака в разных условиях действия фактора различны».

Корреляционный анализ - метод, позволяющий обнаружить зависимость между несколькими случайными величинами. Положительный корреляционный анализ при увеличении одного параметра другой тоже увеличивается и наоборот. Кэффициент корреляции это численная характеристика анализа. В отличие от индекса корреляции коэффициент корреляции показывает не только тесноту связи, но и ее направление, поскольку меняется в пределах от −1 до +1. Если коэффициент корреляции положительный, то связь между призна­ками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).

Квадраты индекса корреляции и коэффициента корреляции называют соответственно индексом детерминации (I2) и коэффициентом детерминации (r2). Индекс детерминации и коэффициент детерминации показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.

) Взаимосвязь. Есть ли взаимосвязь между параметрами?

2) Прогнозирование. Если известно поведение одного параметра, то можно предсказать поведение другого параметра, коррелирующего с первым.

3) Классификация и идентификация объектов. Корреляционный анализ помогает подобрать набор независимых признаков для классификации.

Основные термины статистики:

Случайная величина- величина, которая в результате испытаний может принять то или иное значение.

Непрерывная- случайная величина-множество значений которой заполняют сплошь некоторый числовой промежуток

Дискретная случайная величина- величина, значения которой могут быть только целыми числами. Она может принимать конечную или бесконечную совокупность значений, при чем принятие ею каждого значения есть случайное событие с определенной вероятностью.

Вариационный ряд-последовательность значений

Ранжированный ряд (разновидность вариационного)- ряд значений расположенный по возрастанию.

Дискретный ряд (разновидность вариационного)-это таблица, состоящая из двух столбцов (строк) – конкретных значений варьирующего признака Xi и числа единиц совокупности с данным значением признака fi – частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака.

Интервальный ряд (разновидность вариационного)- если признак имеет в ряду непрерывное изменение (стаж работы).

Частота- сколько раз отдельные варианты показателей встречаются в ряду значений.

Размах интервала-разница между большим и меньшим значение показателей.

Плотность вероятности-частота деленная на размах. Это производная от функции распределения. Показывает как часто появляется случайная величина Х в некоторой окрестности точки х при повторении опытов.

Накопленная частота-сумма всех частот предшествующих вариантов.

Полигон (для дискретных рядов)- способ графического представления плотности вероятности случайной величины. Это график зависимости случайной величины от числа ее появлений.

Кумулята- способ графического представления накопленных частот. Это график зависимости случайной величины от частоты ее появления.

Гистограмма- способ графического представления распределения величины. Показывает распределение значений величины в заданном диапазоне.

Математическое ожидание- мера среднего значения случайной величины. Оно показывает число вокруг которого сосредоточены значения случайной величины.

Мода-это величина, которая наиболее часто встречается в группе данных. Она применяется когда нужно вычислить средние значения признака. В вариационном ряду это будет величина, которая имеет наибольшую частоту.

Модальный интервал- это интервал, который имеет наибольшую частоту (количество встречающегося признака).

Медиана-это величина, которая делит встречающиеся признаки пополам. По обе стороны от нее находится одинаковое количество число значений.

Медиальный интервал- делим количество признаков на 2 и выбираем строчку с наиболее близкой накопленной частотой, чтобы она была меньше например, число овец 25/2=12,5. Самое близкое значение частоты 17 , т.е. 12,5<17.

Среднее арифметическое- сумма всех значений деленная на количество вариантов.

Дисперсия- разброс отклонений случайных значений величин от средней величины (т.е. ее отклонение от центра группирования величин). Это показатель уровня рассеивания величины. Дисперсия постоянной величины равна нулю. Постоянный множитель дисперсии выносится за скобку предварительно возводится в квадрат. Дисперсия суммы (разности) независимых случайных величин равна сумме дисперсий слагаемых (D (X1+X2+…Xi)=D (X1)+D (X2)+…D (Xi). Дисперсию рассчитывают как среднюю арифметическую квадратов отклонений вариантов от средней арифметической.

Среднее квадратическое отклонение – это корень из дисперсии. Или же ∑ в квадрате (значение величины - среднее арифметическое величины) и деленное на количество вариантов. Показывает сколько раз колеблется величина во всем ряду величин.

Среднее линейное отклонение- это сумма (значение величины –среднее арифметическое величины) и деленное на количество вариантов. Показывает изменение отклонения значения от средней величины в ряду.

Коэффициент вариации – это изменчивость признака, его показатель относительно средней величины. Равен дисперсия деленная на среднее значение величины и умноженное на 100% Характеризует относительную меру отклонения измеренных значений от среднего.

Распределение- структурная группировка.

Дискретное распределение- сосредоточено в конечном или счетном числе точек.

Непрерывное распределение – размазано по некоторому интервалу.

Непрерывное равномерное распределение –имеет распределение только на отрезке a-b, и равна 0 вне этого отрезка.

Непрерывное дискретное распределение – сосредоточено в нескольких точках, которым предписываются разные вероятности. Т.е. вероятность выпадения 1 на игральной кости 1 к 6.

Нормальное распределение- когда большинство величин располагаются вблизи средней величины и график имеет куполообразную форму.

Случайная выборка- это выборка в пределах списка , когда каждое значение имеет шанс быть выбранным. Выборка из телефонного справочника.

Статистическая оценка- это проверка выдвинутых предположений.

Несмещенность оценки- математическое ожидание равно оцениваемому параметру, т.е. оценка среднее значение которой равно самой оцениваемой величине.

Состоятельность оценки- когда вероятность получения оценки на заданном интервале от истинного значения становится близка к 1, а точность самих оценок увеличивается с ростом объема выборки.

Эффективность оценки- это свойство обладать наименьшим разбросом отклонений из всех возможных.

Доверительный интервал- это интервал про который можно с уверенностью утверждать, что он содержит неизвестное значение величины.

Метод максимального правдоподобия- это метод поиска модели, наилучшим способом описывающим обучающую выборку, полученную с некоторым неизвестным распределением. Лучше работает на больших выборках, та как дает оценки с минимальным разбросом отклонений случайных значений.

Эмпирическая частота- насыщенная частота

Выборочное среднее- это приближение теоретического среднего распределения, основанное на выборке из него. Называется среднее арифметическое значение признака выборочной совокупности. вляется основной характеристикой положения, Показывает центр распределения совокупности, позволяет охарактеризовать исследуемую совокупность одним числом, проследить тенденцию развития, сравнить различные совокупности (выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0)

Выборочная дисперсия- мера изменчивости переменной. Это среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.

Интервальное оценивание- предполагает построение доверительного интервала , в котором предположительно находится истинное значение параметра генеральной совокупности.

Точечное оценивание - предполагает получение приблизительного значения параметра в виде одного числа.

Ошибки первого рода- будет отвергнута правильная гипотеза.

Ошибки второго рода- будет принята неправильная гипотеза.

Уровень значимости- вероятность совершить ошибку первого рода.

Мощность критерия- Мощность критерия (когда верна альтернативная гипотеза) определяется по формуле 1-а. Чем выше мощность тем больше вероятность совершить второго рода (принятие неправильной гипотезы).

Одновыборочные критерии (Стьюдента)- позволяет сравнить среднее значение в выборке с заданным числом. Исследует, отличается ли средняя переменной от некоторой гипотетической величины. Чем больше критерий, тем больше вероятность что нулевая гипотеза отвергнута правильно. Вероятность ошибки.

Двувыборочный критерий (стьюдента)- проверяет нулевую гипотезу, что две средние от независимых групп равны. Вероятность ошибки по двум выборкам.

Биноминальное распределение то распределение числа успехов в серии из n экспериментов, каждый из которых завершается успехом с вероятностью p.Например одна грань у фальшивой монетки более тяжелая и монета постоянно падает на эту сторону. Распределение, позволяющее рассчитать вероятность наступления какого-либо случайного события, полученного в результате наблюдений ряда независимых событий, если вероятность наступления, составляющих его элементарных событий известна и постоянна. Если вероятность события (например, выпадения "решки" при бросании монеты или "шестерки" при бросании кубика) всякий раз равна р, а вероятность ненаступления этого события равна (1-р). Событие может иметь два исхода с определенными заданными вероятностям

Пуассоновское распределение Распределение Пуассона описывается формулой p(k) = exp(-a)*(a^k)/k!, где p(k) - вероятность того, что за период произойдёт ровно k случаев, a - параметр, зависящий от конкретной ситуации. Описывает количество наступивших случайных событий, происходящих с постоянной интенсивностью. Распределение дискретной вероятности случайной переменной, представляющей число явлений, происходящих случайно и независимо с фиксированной средней частотой. 

Регрессия-  зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.

Линейный регрессионный анализ- метод зависимости между двумя переменными

Множественная линейная регрессия- Модель линейной регрессии, в которой одна зависимая переменная и две независимые переменные или более. Представляет собой линейную связь по каждому фактору.

Корреляция- стохастическая (случайная) зависимость, являющаяся обобщением строго детерминированной функциональной зависимости посредством включения случайных компонентов. Мера зависимости между двумя величинами. При этом изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. 

Коэффициент корреляции- показывает, что данные величины могут быть связаны. Варьируется в пределах от 0 до 1 и чем ближе его значение к единице, тем сильнее связь. Если коэффициент корреляции положительный, то связь между призна­ками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).

Коээфициент детерминации- это доля разброса отклонений от средней величины. Он показывает, какая доля разброса отклонений от средней величины результативного признака объясняется влиянием независимых переменных.

Индекс корреляции- Показатель, характеризующий отношение вариаций расчетных и исходных значений результативного признака. Индекс корреляции изменяется в пределах от 0 до 1. Он показывает, что чем ближе его значение к 1, тем сильнее связь между признаками, и тем лучше уравнение регрессии описывает взаимосвязь между признаками. При индексе корреляции равном 1 взаимосвязь между признаками является функциональной. Если же индекс корреляции равен 0, то связь между признаками отсутствует.

Дисперсионный анализ- Общий термин для методов, которые сравнивают средние значения групп наблюдений путем расщепления общей дисперсии переменной на ее компоненты, причем каждая относится к отдельному фактору. Это исследование значимости различия между средними величинами с помощью сравнения разброса отклонений случайных значений от средней величины. В основе анализа лежит предположение о том, что одни переменные факторы могут рассматриваться как причины, а другие как следствия.