Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Gosy_nepolnostyu_7v1.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

3.7 Mб

Скачать

☆

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 3940 / 4340 41 42 43 > Следующая >>>

15. Нейросетевые методы в обработке данных.

Иску́сственные нейро́нная се́ть (artificial neural network, ANN), или просто нейронная сеть — это математическая модель, а также ее программные или аппаратные реализации, построенная в некотором смысле по образу и подобию сетей нервных клеток живого организма.

Нейронные сети — один из наиболее известных и старых методов машинного обучения.

Может использовать как для регрессии, так и для классификации.

Самодельная презентация по нейронкам: https://docs.google.com/presentation/d/1lDB6LNvx5I-IvWzBJvRHPq0ZV24etdJ2CZI9Rolaecs/edit?usp=sharing

http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf

стр 102-103 главы 6-6.1.1

стр 105-107 главы 6.2-6.2.2.

стр 110 глава 6.2.3

16. Методы кластерного анализа в обработке данных.

Кластерный анализ (Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Задача кластеризации отноВсится к широкому классу задач обучения без учителя.

Входные данные:

Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.

Матрица расстояний может быть вычислена по матрице признаковых описаний объектов бесконечным числом способов, в зависимости от того, как ввести функцию расстояния (метрику) между признаковыми описаниями. Часто используется евклидова метрика, однако этот выбор в большинстве случаев является эвристикой и обусловлен лишь соображениями удобства.

Цели кластеризации:

Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).
Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
Обнаружение новизны (novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую (или фиксированную) степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Во всех этих случаях может применяться иерархическая кластеризация, когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии.

Пусть — множество объектов, — множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами . Имеется конечная обучающая выборка объектов . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике , а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается номер кластера .

Алгоритм кластеризации — это функция , которая любому объекту ставит в соответствие номер кластера . Множество в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

Кластеризация (обучение без учителя) отличается от классификации (обучения с учителем) тем, что метки исходных объектов изначально не заданы, и даже может быть неизвестно само множество .

Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин:

Не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты.
Число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием.
Результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом.

Пример алгоритма:

k-means (метод k-средних) — наиболее популярный метод кластеризации.

Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров:

где — число кластеров, — полученные кластеры, и — центры масс векторов .

По аналогии с методом главных компонент центры кластеров называются также главными точками, а сам метод называется методом главных точек^[4] и включается в общую теорию главных объектов, обеспечивающих наилучшую аппроксимацию данных^[5].

Действие алгоритма в двумерном случае. Начальные точки выбраны случайно.

Исходные точки и случайно выбранные начальные точки.

Точки, отнесённые к начальным центрам. Разбиение на плоскости —диаграмма Вороногоотносительно начальных центров.

Вычисление новых центров кластеров (Ищется центр масс).

Предыдущие шаги повторяются, пока алгоритм не сойдётся.

Проблемы:

Не гарантируется достижение глобального минимума суммарного квадратичного отклонения V, а только одного из локальных минимумов.
Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.
Число кластеров надо знать заранее.

Пачка картинок: http://www.cs.cmu.edu/~dpelleg/kmeans.html

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 3940 / 4340 41 42 43 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025102.91 Кб1gosy_2015_bilety_dantisty.doc
#
01.07.2025512.58 Кб0gosy_2016.docx
#
01.07.202582.45 Кб1gosy_33_zemledelie (1).docx
#
01.07.20254.79 Mб3gosy_gotovye.doc
#
21.11.201935.17 Кб12gosy_mts111_1.docx
#
01.07.20253.7 Mб2Gosy_nepolnostyu_7v1.doc
#
01.07.20251.57 Mб2gosy_otvety_okonchatelnye.docx
#
01.05.2025274.38 Кб3GOSY_shpory (1).docx
#
01.07.2025121.47 Кб1GOSY_Sotsialnaya_psikhologia.docx
#
01.05.2025485.89 Кб2GOSY_TGP.doc
#
01.07.2025236.96 Кб2GOS_bac.docx