Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
маркетинг / МИ_Книга2006.doc
Скачиваний:
45
Добавлен:
23.05.2015
Размер:
4.47 Mб
Скачать

МетодыDataMining

В данном разделе производится обобщение уже приведенных сведений о Data Mining и даются дополнительные сведения о не рассмотренных ранее, реже встречающихся методах.

Итак, к числу методов Data Mining можно отнести следующие.

  1. Регрессионный анализ с выбором набора переменных.

  2. Деревья классификации.

  3. Методы сравнения с образцом.

  4. Нейронные сети. Они моделируют совокупность взаимосвязанных нейронов – теперь уже устаревших моделей нервных клеток. Классические сети обучаются, впрочем, довольно медленно, на основе имеющихся примеров: описаний ситуации с правильным решением. Пример удачного использования таких сетей – компьютерное распознавание образов (человека по фрагменту фотографии, подлинной банкноты, рукописного текста). Делаются попытки использовать этот метод для прогнозов курсов акций и при принятии маркетинговых решений.

  5. Эволюционные алгоритмы основываются на принципах, сформулированных еще Ч. Дарвином: наследственности, изменчивости и отборе. Именно эти феномены и моделируются на компьютере. Вначале создается исходная популяция элементов, характеризующихся набором признаков. Затем происходит передача значений этих признаков по наследству следующему поколению. При этом моделируются генетические операции, например, мутации. Из полученных элементов наименее приспособленные отбраковываются. Далее процесс повторяется. Метод может найти довольно широкое применение, от поиска экстремума сложной функции до поиска неизвестного заранее набора взаимосвязанных характеристик некоторого объекта, наилучшим образом приспособленного к заданным условиям. Имеется ряд интересных разработок на эту тему (см., например, [18]).

  6. Генетическое программирование. При использовании этого метода строятся несколько программ на специальном языке. Они отражают гипотезы о виде зависимости переменной-следствия от переменных-причин. Далее моделируется эволюция. Автоматически вносятся небольшие изменения и выбираются варианты, улучшающие решение. Применения метода довольно сложны193. Можно упомянуть так называемую «объективную кластеризацию», при коротой предполагается, что на характеристики исследуемых элементов влияют как случайные факторы, так и закономерности, и делается попытка учесть при кластеризации только систематическую составляющую.

  7. Алгоритмы ограниченного перебора были предложены еще в середине 60-х. Пусть X– параметр некоторого элемента исследования,a,b– константы. Тогда имеются простые логические события:X>a, X=b…Можно ввести и комбинации простых логических событий, например, одновременное появление двух вышеприведенных событий. Далее определяются частоты появления различных комбинаций событий в данных. По этим частотам устанавливаются различные закономерности в данных, полезные для классификации, кластеризации и прогнозирования.

Методы и средства Data Mining развиваются очень быстро, многие авторы указывают на экспоненциальный их рост. Разрабатываются средства различных типов и назначения:

  • универсального применения;

  • маркетинговой ориентации (автор взял на себя смелость ввести данный класс, так как многие статистические пакеты не только позволяют вводить такие параметры, как цена ошибки классификации, но и снабжены многочисленными примерами из области маркетинга);

  • проблемно-ориентированные, например, средства для технического анализа финансовых рынков, построенные с учетом специфики предметной области, использующие соответствующую терминологию, систему условных обозначений;

  • средства для специальных исследований.

Основное направление работ – поиск методов перебора вариантов за приемлемое время.

Аналитики отмечают все возрастающую популярность средств, ориентированных на построение если…топравил.

Правила используются в сложных задачах, где данные имеют различную природу, изменяются во времени и обычно имеют высокую размерность. Например, в социологии и маркетинге они используются при прогнозах поведения, связывая его с мотивами, демографическими характеристиками.

Правило имеет вид

Если А, то В.

Точность правила– доля случаевВсреди случаевА.Полнота– доля случаевАсреди случаевВ.

Точное и полное правило для евклидовой геометрии: если треугольник прямоугольный, то в нем есть два угла, сумма которых равна 90 градусам. Все прямоугольные треугольники обладают этим свойством, и все треугольники, обладающие этим свойством, прямоугольные.

Неточное, но полноеправило: курильщик заболеет раком легких. Среди курильщиков заболевают6%.Но среди заболевших95%курильщиков [13]. Пропаганда делает упор на полноту, а курильщики – на точность данного правила.

Точное, но неполное правило: если существо – человек, то оно смертно. Все люди смертны, но не все смертные – люди.

Неполное и неточное правило: если человек студент, то он знает информатику. Не все студенты знают информатику, и не все, знающие информатику, студенты.