Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
официальная методичка.doc
Скачиваний:
18
Добавлен:
20.11.2019
Размер:
2.54 Mб
Скачать

Информационные технологии поиска закономерностей в данных»

В том случае, когда необходимо проводить многокритериальный анализ, выявить закономерности в данных и решать другие подобные задачи, целесообразно использовать технологии Data-Mining.

Эти технологии включают в себя поиск корреляционных зависимостей, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания подвыборок, регрессионного и корреляционного анализа.

Основное отличие Data-Mining от OLAP технологий заключается в том, что технологии Data-Mining выявляют закономерностей в данных, а технологии OLAP проверяют достоверность предлагаемых гипотез. Качество результатов технологий поиска закономерностей зависит от полноты и достоверности данных. Достоверность полученных результатов проверяется путем использования не одного, а нескольких алгоритмов обработки одних и тех же данных и сравнения близости результатов.

Традиционно выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

  • ассоциация - высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим),

  • последовательность - высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой),

  • классификация - имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила),

  • кластеризация - закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы - они выявляются автоматически в процессе обработки данных,

  • временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

Поиск закономерностей в данных в настоящее время базируется на довольно большом количестве разнообразных методов исследования данных, среди них можно выделить:

  • регрессионный, дисперсионный и корреляционный анализ,

  • методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях,

  • нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные,

  • деревья решений,

  • кластерные модели,

  • алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных.

В последнее время имеет место тенденция снижения стоимости средств, использующих технологию Data-Mining, что делает данную технологию более массовой и дает возможность среднему и малому бизнесу оценить плюсы использования данной технологии и внедрять ее использование в повседневную практику.

Одним из недостатков Data – Mining, как известно, является жесткая зависимость результата анализа от репрезентативности первоначальной информации.