13. Классификация методов дискретизации. Дискретизация по времени.

Некоторые алгоритмы, используемые для создания моделей интеллектуального анализа данных в службах SQL Server Analysis Services, для своей работы требуют наличия специальных типов содержимого. Например, упрощенный алгоритм Байеса (Майкрософт) не может использовать непрерывные столбцы на входе и прогнозировать непрерывные значения. Кроме того, некоторые столбцы могут содержать так много значений, что алгоритм будет не в состоянии легко выявить содержательные закономерности в данных, из которых создается модель.

В таких случаях можно дискретизировать данные в столбцах, чтобы воспользоваться алгоритмами для выработки модели интеллектуального анализа данных.Дискретизация — это процесс разделения значений на сегменты, результатом которого является ограниченное число допустимых состояний. С самими сегментами обращаются как с упорядоченными дискретными значениями. Можно дискретизировать как численные, так и строковые столбцы.

Существует несколько способов дискретизации данных. Если в решении по интеллектуальному анализу данных используются реляционные данные, можно ограничить число сегментов, используемых для группирования данных, задав свойство DiscretizationBucketCount. Число сегментов по умолчанию равно 5.

Если в решении интеллектуального анализа данных используются данные из куба оперативной аналитической обработки (OLAP), то алгоритм интеллектуального анализа данных автоматически вычислит число создаваемых сегментов по следующей формуле, где n — число уникальных значений данных в столбце:

Number of Buckets = sqrt(n)

Если не нужно, чтобы службы Analysis Services вычисляли число сегментов, можно воспользоваться свойством DiscretizationBucketCount, чтобы вручную указать число сегментов.

Следующая таблица описывает методы, которые можно использовать для дискретизации данных в службах Analysis Services.

Метод дискретизации	Описание
AUTOMATIC	Службы Analysis Services определяют, какой метод дискретизации использовать.
CLUSTERS	Алгоритм разделяет данные на группы путем создания выборки обучающих данных, инициализации по ряду случайных точек и дальнейшего запуска несколько итераций алгоритма кластеризации (Майкрософт) с помощью метода кластеризации с максимизацией ожидания (EM). МетодCLUSTERS полезен, так как он работает с любой кривой распределения. Однако он требует большего времени на обработку, чем другие методы дискретизации. Этот метод можно использовать только для числовых столбцов.
EQUAL_AREAS	Алгоритм делит данные на группы, содержащие равное число значений. Этот метод лучше всего использовать для кривых нормального распределения, но он не работает, если распределение содержит большое число значений, встречающихся в узкой группе непрерывных данных.Например, если половина элементов имеет значение цены 0, то половина данных окажется в одной точке кривой. При таком распределении, этот метод разрушит данные в попытке установить равномерную дискретизацию по нескольким областям. Это вызовет неточное представление данных.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 2411 12 13 14 15 16 17 18 19 20 21 22 23 24 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025120.61 Кб0ЛКСС КЖ аз.docx
#
01.05.20251.24 Mб2Логистика Алибек 6 вариант.doc
#
21.04.201574.24 Кб15Логические и психологические аспекты полемики.doc
#
01.07.2025700.42 Кб0Лосева_И.СЫРЬЕВАЯ_БАЗА_ЛЕКАРСТВЕННЫХ_РАСТЕНИЙ_КАЗАХСТАНА_И_ЕЕ_РАЦИОНАЛЬНОЕ_ИСПОЛЬЗОВАНИЕ.doc
#
01.07.202590.62 Кб1ЛР Сброс паролей УЗ.doc
#
01.07.2025909.15 Кб0Ляззат с 1 по 25.docx
#
01.07.20255.8 Mб3М.У.-ЭЧЭС с рисунками.doc
#
01.05.202581.41 Кб1М_н экономика тесты.doc
#
27.11.20191.22 Mб5Міністерство освіти і науки України1.docx
#
01.07.20251.05 Mб1маала Сания.doc
#
01.07.2025141.31 Кб0Маг_Силлаб_МОНМО.doc