56. Концепция Data Mining.

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных. Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP). В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

46 Понятие корреляционной зависимости.

При изучении случайных величин в общем случае необходимо рассматривать стохастическую зависимость, когда каждому значению СВ Х может соответствовать одно и более значений СВ Y, причем до опыта нельзя предсказать возможное соответствие. В случае стохастической связи изменение CВY, вследствие изменения СВ Х, можно разбить на 2 компоненты: 1. функциональную, связанную с зависимостью Y от Х, 2. случайную, связанную со случайным характером самих СВ Х и Y. Соотношение м/у функциональной и случайной компонентой определяет силу связи. Отсутствие первой компоненты указывает на независимость СВ Х и Y, отсутствие второй компоненты показывает, что м/у CВ X и Y существует функциональная связь.

Важным частным случаем стохастической зависимость является корреляционная. Корреляционная зависимость м/у переменными величинами – это та функциональная зависимость, которая существует м/у значениями одной из них и групповыми средними другой. (Корреляционные зависимости Y на Х и Х на Y обычно не совпадают). Корреляционная связь чаще всего характеризуется выборочным коэффициентом корреляции r, который характеризует степень линейной функциональной зависимости м/у CB X и Y. Для двух СВ Х и Y коэффициент корреляции имеет => св-ва:

-1≤r≤1;
если r=+ 1, то м/у СВ Х и Y существует функциональная линейная зависимость;
если r=0, то СВ Х и Y некоррелированны, что не означает независимости вообще;
если Х и Y образуют систему нормально распределенных СВ, то из их некоррелированности => их независимость.

Коэффициенты корреляции Y на Х и Х на Y совпадают.

Корреляция используется для количественной оценки взаимосвязи двух наборов данных с помощью коэффициента корреляции. Коэффициент корреляции выборки представляет собой ковариацию двух наборов данных, деленную на произведение их стандартных отклонений.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 / 1916 17 18 19 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.07.20191.03 Mб11шпаргалка по нотариату.rtf
#
17.07.201933.52 Кб2Шпаргалка по фин. услугам (V2) от 19.01.2011.docx
#
01.07.2025155.14 Кб0Шпаргалки 6-10, 1.doc
#
21.05.2015102.45 Кб209шпаргалки к экзамену по информатике.docx
#
01.07.2025207.26 Кб0Шпора КПЗС.docx
#
02.12.2018495.62 Кб8шпора(ТВ_и_мат.стат-ка)_7l.doc
#
01.04.202588.27 Кб2Шпоргалка на программирование.docx
#
01.05.2025146.06 Кб0шпоргалки 2.docx
#
21.05.2015214.43 Кб52шпоргалки по логике.docx
#
21.05.2015147.05 Кб124шпорки инф.docx
#
21.05.201550.67 Кб37Шпоры 1-25.docx