- •Введение
- •2. Типовые задачи анализа данных
- •3. Элементы прикладной статистики в анализе данных
- •4. Распознавание образов
- •4.1 Основные подзадачи
- •4.2. Сведение задачи уточнения границы геологического тела к решению задачи распознавания образов
- •4.3. Примеры алгоритмов распознавания
- •4.3.1. Байесовские решающие правила
- •4.3.2. Комбинаторно-логические методы в распознавании
- •4.3.1. Линейные методы
- •5. Упорядочение
- •6. Кластер-анализ
- •6.1. Иерархические алгоритмы
- •6.1.1. Агломеративные алгоритмы
- •6.1.2. Дивизимные алгоритмы
- •6.2. Алгоритмы, порождающие разбиения
- •7. Заполнение пропусков в таблицах
- •8. Моз (машинное обнаружение закономерностей)
- •9. Нахождение покрытий и градиентный алгоритм приближённого решения этой задачи
- •10. Учебно-методические рекомендации, контрольные вопросы, комментарии
- •Раздел 2
- •Раздел 3
- •Раздел 4
- •Раздел 5
- •Раздел 6
- •Раздел 7
- •Раздел 8
- •Раздел 9
3. Элементы прикладной статистики в анализе данных
I. Пусть для объектов S1,…,Sm известны значения количественных признаков Y, X1,…,Xn, равные , где i=1,…m соответственно. Одним из наиболее применяемых в анализе данных методов прикладной статистики является метод множественной линейной регрессии. Задача множественной линейной регрессии может быть сформулирована следующим образом (Дрейпер, Смит, 1973). Для линейной модели
y = a1x1 +…+an xn + b
требуется найти значения a1,…,an, b, на которых достигает минимума функционал
.
Эти n+1 неизвестных отыскиваются методом наименьших квадратов (см. Дрейпер, Смит, 1973; Дёмин, 2005).
II. Коэффициент ранговой корреляции Спирмена – мера зависимости двух признаков X и Y, основанная на ранжировании независимых результатов наблюдений (X1,Y1), …, (Xm,Ym), см. (Справочник…, 1990). Пусть, для простоты изложения, значения признаков X и Y в последовательности (X1,Y1),…,(Xm,Ym) не повторяются, как не повторяются и ранги, которые, в рассматриваемом случае представляют собой номера значений признаков X и Y в их упорядочениях по возрастанию, которые мы будем обозначать через rank(Xi) и rank(Yi), i=1, …,m, соответственно.
Тогда коэффициент ранговой корреляции Спирмена определяется формулой
,
где di – разность между рангами Xi и Yi, di=rank(Xi) – rank(Yi).
Если значения X или Y в этой последовательности повторяются, то формула усложняется за счёт учёта повторяющихся значений. Однако, если повторяющихся значений «не слишком много», то их влияние на значение rs пренебрежительно мало.
Коэффициент имеет следующее свойство: -1≤ rs ≤1. Мы получаем значения около +1, если большим значениям признака X отвечают большие значения признака Y, и значения около -1, если большие значения X отвечают меньшим значениям Y.
Оценка достоверности связи по уровню значимости (p-level) для rs является корректной без принятия допущений о виде функций распределения. В этом заключается главное преимущество rs по сравнению с «обычным» выборочным коэффициентом парной корреляции Пирсона r (Дёмин, 2005, с. 42-45). Дело в том, что для r уровень значимости (p-level) свидетельствует о достоверности (либо недостоверности) связи признаков X и Y только при выполнении достаточно жестких вероятностно-статистических предположений (например, при их совместном двухмерном нормальном распределении).
III. В практике анализа данных значительную роль играют гистограммы эмпирического распределения значений признака X(S) на множестве объектов S1,…,Sm. Гистограммы рассматривались в курсе теории вероятностей и математической статистики. Поэтому напомним только, что не существует математически обоснованного способа выбора на гистограмме числа интервалов k(m), где m – число объектов, однако, при выборе k(m) зачастую руководствуются логарифмической формулой Стерджеса (Вероятность …, 1999):
k(m)≈1+log2m.
Пусть k определяется по формуле Стерджеса. Тогда длина интервала на гистограмме равняется
(xmax-x min)/k(m),
где xmin, xmax – минимальное и максимальное значения признака X на множестве объектов S1,…,Sm.
Упомянутый в разделе 3 математический аппарат (кроме формулы Стерджеса) реализован в программном продукте Statistica for Windows (см. о нём в книге Боровикова В.П., Боровикова И.П. (1997)).