
- •Вопросы к экзамену по Биологической статистике
- •31. Статистические ошибки I и II типа.
- •32. Мощность статистического критерия (теста).
- •34. Способы трансформации данных для приведения их к нормальному распределению: логарифмирование, извлечение квадратного корня, угловое преобразование.
- •35. Назначение дисперсионного анализа (anova).
- •36. Нулевая гипотеза при дисперсионном анализе.
- •37.Расчет внутри- и межгрупповой дисперсий при однофакторном анализе с равномерным дисперсионным комплексом. F-критерий Фишера.
- •38. Понятие о многофакторном дисперсионном анализе.
- •40. Непараметрические аналоги однофакторного дисперсионного анализа: тест Крускала-Уоллиса и тест Фридмана.
- •41. Сравнение двух групп. Тест Стьюдента как частный случай дисперсионного анализа.
- •42. Тест Стьюдента для парных измерений.
- •43. Использование доверительных интервалов для проверки гипотезы о равенстве двух средних.
- •44. Непараметрические аналоги критерия Стьюдента: тест Манна-Уитни, тест Уилкоксона, тест Уэлча.
- •45. Понятие о функциональной и корреляционной зависимостях.
- •47. Коэффициент корреляции Пирсона и оценка его статистической значимости.
- •48. Частная и множественная корреляции.
- •49. Коэффициент ранговой корреляции Спирмена.
- •52. Связь коэффициента регрессии с коэффициентом корреляции.
47. Коэффициент корреляции Пирсона и оценка его статистической значимости.
Рассчитывают, если признаки Y и X измерены в метрической шкале и имеют нормальное распределение
где n – общее число парных наблюдений, Sx, Sy – СКО признаков X и Y.
Сам коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчета коэффициента корреляции построена таким образом, что, если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона.
Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 – являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 – следовательно, произошла ошибка в вычислениях.
48. Частная и множественная корреляции.
Частная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными) при фиксированном значении других факторных признаков.
Множественная корреляция – это связь между результативным и двумя или более факторными признаками, включенными в исследование.
49. Коэффициент ранговой корреляции Спирмена.
Метод
ранговой корреляции Спирмена позволяет
определить тесноту (силу) и направление
корреляционной связи между двумя
признаками или
двумя
профилями {иерархиями) признаков.
50. Назначение регрессионного анализа. +
Основная
цель регрессионного
анализа
состоит в том, чтобы определить
взаимосвязь между переменными, характер
и силу воздействия переменных и сделать
прогнозы на основе модели.
51. Регрессионное уравнение и его показатели. +
Регрессиомнный анализ (линейный) – статистический метод исследо-
вания зависимости между зависимой переменной Y и одной или несколькими
независимыми переменными X1, X2, ..., Xm описывается уравнением общего
вида:
где а, b, c, d, ...n – параметры уравнения, определяющие соотношения
между аргументами x1, x2, x3, ..., xm и функцией xy
На практике учитывают не все возможные, а лишь некоторые аргумен-
ты, в простейшем случае всего один – x.
52. Связь коэффициента регрессии с коэффициентом корреляции.
Регрессионный анализ нельзя использовать для определения
наличия связи между переменными, поскольку наличие такой связи и есть
предпосылка для применения анализа.
Для выборки уравнения имеют вид:
Регрессионный и корреляционный анализы часто рассматривают совместно, поскольку они – два тесно связанных друг с другом метода исследования взаимосвязи между двумя или более непрерывными переменными. После того, как исследователь убедится в наличии статистически значимых связей между анализируемыми переменными с помощью корреляционного анализа, он приступает к выявлению и математическому описанию конкретного вида зависимостей между ними: подбирает класс аппроксимирующих функций, производит отбор наиболее информативных предикторов (независимых переменных), вычисляет оценки неизвестных параметров уравнения, анализирует –полученной модели. Все это и составляет содержание регрессионного анализа.
Основная задача регрессионного анализа – установление математического вида связи между одной переменной (называемой зависимой переменной) и несколькими другими (называемых независимыми переменными).
53 Оценка параметров регрессионного уравнения по выборке с помощью метода наименьших квадратов
из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной, и проходила бы через точку О( x , y ), соответствующую средним обеих переменных.
Параметры
линейной регрессии определяют методом
наименьших квадратов - это способ
подбора параметров регрессионной
модели, согласно которому сумма квадратов
отклонений вариант от линии регрессии
должна быть минимальна:
54 Статистическая значимость регрессии. Проверка нулевой гипотезы о равенстве коэффициента регрессии нулю.
В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.
55 Стандартные ошибки параметров регрессионного уравнения.
Регрессиомнный анализ (линейный) – статистический метод исследования зависимости между зависимой переменной Y и одной или несколькими независимыми переменными X1, X2, ..., Xm описывается уравнением общего вида: x dx nxm y abx1 cx2 3 ... . где а, b, c, d, ...n – параметры уравнения, определяющие соотношения между аргументами x1, x2, x3, ..., xm и функцией x y .
Задача регрессионного анализа сводится к тому, чтобы в каждом конкретном случае выявить форму связи и выразить ее соответствующим уравнением. Это позволяет предвидеть возможные изменения одного признака Y на основании известных изменений другого признака X, связанного с первым корреляционно. Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
56 Коэффициент детерминации. Анализ остатков. Оценка величины остаточной дисперсии.
Коэффициент
детерминации (R-квадрат) используется
в регрессионном анализе для измерения
того, насколько хорошо модель регрессии
соответствует данным. Он представляет
собой долю общей изменчивости зависимой
переменной, которая объясняется
регрессионной моделью. R-квадрат
принимает значения от 0 до 1, где 1 означает
идеальное соответствие модели данным.
Анализ
остатков включает в себя оценку остатков,
которые представляют разницу между
фактическими значениями зависимой
переменной и значениями, предсказанными
моделью. Путем анализа остатков можно
проверить предпосылки регрессионной
модели, такие как нормальность
распределения остатков, отсутствие
автокорреляции и гетероскедастичности.
Оценка
величины остаточной дисперсии позволяет
определить степень изменчивости
остатков вокруг регрессионной линии.
Это важно для проверки гомоскедастичности,
то есть однородности дисперсии остатков.
Если остаточная дисперсия не постоянна,
это может указывать на наличие
гетероскедастичности, что может привести
к неправильным выводам из модели. В
целом, анализ остатков и оценка остаточной
дисперсии помогают убедиться в том,
что регрессионная модель адекватно
соответствует данным и что предпосылки
модели выполняются.
Оценка величины остаточной дисперсии с помощью F-критерия
57 Нахождение доверительной области для линии регрессии
Для нахождения доверительной области для линии регрессии можно воспользоваться методом доверительных интервалов для параметров регрессии. Доверительная область для линии регрессии показывает, где с некоторой вероятностью (обычно 95%) находится истинная линия регрессии. Для этого можно построить доверительные интервалы для коэффициентов наклона и свободного члена линии регрессии. Затем, используя эти интервалы, можно построить доверительную область вокруг линии регрессии. Общий подход к нахождению доверительной области для линии регрессии включает следующие шаги: 1. Оценка коэффициентов наклона и свободного члена линии регрессии с помощью метода наименьших квадратов. 2. Построение доверительных интервалов для оценок коэффициентов наклона и свободного члена с учетом стандартной ошибки и выбранного уровня доверия. 3. Использование этих доверительных интервалов для построения доверительной области вокруг линии регрессии. Построение доверительной области позволяет учитывать неопределенность, связанную с оценкой коэффициентов регрессии, и предоставляет информацию о том, где с высокой вероятностью находится истинная линия регрессии.
58 Понятие о нелинейной и множественной регрессионной зависимости.
.
1. Нелинейная регрессионная зависимость:
Нелинейная регрессионная зависимость
означает, что связь между зависимой
переменной и одной или несколькими
независимыми переменными не может быть
описана простой линейной моделью.
Вместо этого используются более сложные
функции, такие как квадратичные,
экспоненциальные, логарифмические и
другие. Например, если данные показывают
криволинейную зависимость, то модель
может быть аппроксимирована квадратичной
функцией вместо линейной.
2.
Множественная регрессионная зависимость:
Множественная регрессионная зависимость
возникает, когда зависимая переменная
связана с двумя или более независимыми
переменными. В множественной регрессии
у нас есть несколько предикторов
(независимых переменных), которые
используются для прогнозирования
зависимой переменной. Это позволяет
учесть влияние нескольких факторов на
исследуемый процесс или явление. В
общем, нелинейная регрессия и множественная
регрессия представляют собой более
сложные модели, которые позволяют
учитывать более сложные отношения
между переменными, чем простая линейная
регрессия. Они широко используются в
статистике и эконометрике для более
точного моделирования различных явлений
в реальном мире.
Многомерная совокупность относится к набору данных, в котором каждый элемент представлен несколькими характеристиками или измерениями. Например, если у нас есть набор данных о людях, то каждый человек может быть представлен не только своим возрастом, но и другими характеристиками, такими как рост, вес, образование, доход и т. д. Каждая из этих характеристик представляет собой отдельное измерение в многомерной совокупности. Многомерное пространство представляет собой абстрактное пространство, в котором каждое измерение многомерной совокупности соответствует отдельной оси. Таким образом, если у нас есть, например, трехмерное пространство, то каждая точка в этом пространстве будет иметь три координаты, соответствующие трем измерениям. Принцип "сворачивания" информации заключенной в многомерных совокупностях относится к идее уменьшения размерности данных. Это означает, что мы пытаемся выразить информацию из многомерного пространства в более низкоразмерном виде, сохраняя при этом как можно больше информации. Это может быть полезно для визуализации данных, уменьшения шума или улучшения производительности алгоритмов обработки данных. Например, методы уменьшения размерности, такие как метод главных компонент (PCA) или t-распределение стохастическое соседства (t-SNE), позволяют свернуть информацию из многомерных совокупностей в более низкоразмерные пространства, сохраняя при этом наиболее важные характеристики данных.
60 Кластерный анализ и области его применения. Правила объединения объектов в кластеры. Графическое изображение результатов кластерного анализа.
Анализ отечественных и зарубежных публикаций показывает, что кластерный анализ широко используется в науке как средство типологического анализа и находит применение в самых разнообразных направлениях биологии, биохимии, экологии. Процесс кластеризации начинают с создания элементарных кластеров, каждый из которых состоит ровно из одного исходного наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один. Методы кластеризации довольно разнообразны, в них по-разному выбирается способ определения близости между кластерами (и между объектами), а также используются различные алгоритмы ее вычисления. К самым известным алгоритмам относят: алгоритм средней связи, алгоритм ближайшего соседа, алгоритм дальнего соседа. Расстояние между объектами в алгоритме средней связи рассчитывается как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой – во второй. В алгоритме ближайшего соседа расстоянием между кластерами называется минимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой – во второй. А в алгоритме дальнего соседа – максимальное из расстояний между парами объектов. Каждый из трех описанных алгоритмов (средней связи, ближайшего соседа, дальнего соседа) порождает бесконечное семейство алгоритмов кластер-анализа.
Момент остановки этого процесса может задаваться исследователем (например, указанием требуемого числа кластеров или максимального расстояния, при котором допустимо объединение). В конце концов все объекты объединяются вместе, и результат работы алгоритма представляет собой древо последовательных объединений (в терминах теории графов), или дендрограмму. Дендрограмма (рисунок 9.1) содержит n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. В дендрограмме объекты могут располагаться вертикально или горизонтально.
61 Дискриминантный анализ и области его применения. Дискриминантное уравнение и его параметры.
Дискриминантный
анализ –
анализ
различий заранее заданных групп объектов
исследования (потребителей, товаров,
брендов и т.п.). Переменная, разделяющая
совокупность объектов исследования
на группы, называется группирующей.
С
помощью дискриминантного анализа
изучаются различия между двумя или
более группами по определенным признакам.
Признаки, используемые для выявления
различий между группами, называются
дискриминационными
переменными. Группирующая
переменная
должна
быть номинальной, т.е. измеряться по
номинальной шкале, а зависимые переменные
– метрическими. Соблюдение этого
условия обеспечивает высокую точность
статистических расчетов. Однако на
практике допускается, что группирующая
переменная может быть номинальной или
порядковой, а дискриминационные
переменные могут измеряться по шкале
любого типа.
Результатом
дискриминантного анализа является
построение дискриминантной модели
(дискриминантной функции), которая
имеет вид
D
= bo +
b1X1
+
b2X2
+ … + bkXk,
Метод
главных компонент (PCA) является одним
из наиболее распространенных методов
уменьшения размерности данных. Он
используется для преобразования
многомерных данных в новый набор
переменных, называемых главными
компонентами, которые являются линейными
комбинациями исходных переменных.
Главные компоненты упорядочены по
убыванию доли объясненной дисперсии
данных, что позволяет выделить наиболее
информативные характеристики и уменьшить
размерность данных. Применение PCA: 1.
Уменьшение размерности данных: PCA
позволяет сократить количество
переменных, удалив "лишние" главные
компоненты, при этом сохраняя максимальное
количество информации. 2. Визуализация
данных: PCA помогает визуализировать
многомерные данные в двух или трех
измерениях, что облегчает восприятие
и анализ. 3. Удаление корреляции между
переменными: PCA может использоваться
для устранения корреляции между
переменными, что полезно при построении
моделей машинного обучения. Принцип
ортогональности главных компонент
заключается в том, что главные компоненты
ортогональны друг другу. Это означает,
что они некоррелированы и ориентированы
таким образом, чтобы каждая компонента
объясняла максимальное количество
дисперсии данных. Таким образом, главные
компоненты представляют собой новые
некоррелированные переменные, которые
являются линейными комбинациями
исходных переменных и охватывают
наибольшую изменчивость данных.
Использование ортогональности главных
компонент позволяет эффективно уменьшать
размерность данных, сохраняя при этом
наиболее важные характеристики и
упрощая последующий анализ.