8.(2)Регрессия. Назначение и применение

Регрессия — зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных). Линейная регрессия — метод восстановления зависимости между двумя переменными.Упрощенно, формулировка задачи линейной регрессии состоит в подгонке прямой линии к некоторому набору точек. Нелинейная регрессия — функция, зависящая от параметров и от одной или нескольких свободных переменных. Регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств.Регрессионный анализ, когда нам известны и X и Y. Отображение: X->Y. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.Аппроксимация – среднее между точками (модель не соответствует действительности)Интерполяция – прогнозирование внутри интервала точек (кривая по точкам)Экстраполяция – прогнозирование вне интервала точек (прогнозирование будущего)

9.(2)Сопоставление классификации и регрессии. Сходства и различия.При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их. Например, когда человек обращается в банк за предоставлением ему кредита, банковский служащий должен принять решение: кредитоспособен ли потенциальный клиент или нет. Очевидно, что такое решение принимается на основании данных об исследуемом объекте (в данном случае - человеке): его месте работы, размере заработной платы, возрасте, составе семьи и т. п. В результате анализа этой информации банковский служащий должен отнести человека к одному из двух известных классов "кредитоспособен" и "некредитоспособен".Другим примером задачи классификации является фильтрация электронной почты. В этом случае программа фильтрации должна классифицировать входящее сообщение как спам (нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: приобрести, "заработать", "выгодное предложение" и т. п.).В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10 (по количеству цифр в десятичной системе счисления). В такой задаче объектом классификации является матрица пикселов, представляющая образ распознаваемой цифры. При этом цвет каждого пиксела является характеристикой анализируемого объекта.В Data Mining задачу классификации рассматривают как задачу определения 'значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении - независимыми переменными. В рассмотренных примерах независимыми переменными являлись:зарплата, возраст, количество детей и т. д.;

частота определенных слов;значения цвета пикселов матрицы.Зависимыми переменными в этих же примерах являлись:кредитоспособность клиента (возможные значения этой переменной "да" и "нет");тип сообщения (возможные значения этой переменной "spam" и "mail");цифра образа (возможные значения этой переменной 0, 1,..., 9).Необходимо обратить внимание, что во всех рассмотренных примерах независимая переменная принимала значение из конечного множества значений: {да, нет}, {spam, mail}, {0, 1,..., 9}. Если значениями независимых и зависимой переменных являются действительные числа, то задача называется задачей регрессии. Примером задачи регрессии может служить задача определения суммы кредита, которая может быть выдана банком клиенту.Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В описанных ранее примерах такими обучающими выборками могут быть:информация о клиентах, которым ранее выдавались кредиты на разные суммы, и информация об их погашении;сообщения, классифицированные вручную как спам или как письмо;распознанные ранее матрицы образов цифр.На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования:количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на ее основе функция классификации или регрессии будет точнее;в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.

На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).

10.(2)Кластеризация. Назначение и применениеКластерный анализ — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.Задачи:Разработка типологии или классификации.Исследование полезных концептуальных схем группирования объектов.Порождение гипотез на основе исследования данных.Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.Цели кластеризации:Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа.Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.Применение:В биологии:В области экологии широко применяется для выделения пространственно однородных групп организмов, сообществ и т. п. В общем стоит отметить, что исторически сложилось так, что в качестве мер близости в биологии чаще используются меры сходства, а не меры различия (расстояния).В информатике:Кластеризация результатов поиска — используется для «интеллектуальной» группировки результатов при поиске файлов, веб-сайтов, других объектов, предоставляя пользователю возможность быстрой навигации, выбора заведомо более часто используемого подмножества и исключения заведомо менее используемого.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 2217 18 19 20 21 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
24.09.201988.35 Кб1шпора экономика.docx
#
30.04.2019973.82 Кб7шпора.doc
#
22.08.2019820.24 Кб7Шпора.docx
#
14.07.2019174.59 Кб46Шпоргалка по истории религии.doc
#
22.09.2019626.69 Кб15шпорки геология.doc
#
01.03.2025321.65 Кб2ШПОРКИ.docx
#
02.08.2019132.16 Кб5шпорки.docx
#
01.03.202584 Кб0шпоры грибник.docx
#
01.03.2025193.51 Кб1шпоры грибник.docx
#
01.05.2025353.28 Кб2ШПОРЫ ПО СДН.doc
#
11.03.2016226.82 Кб5шпоры теория организации.doc