
- •1. Что такое Data Mining?
- •Примеры формулировок задач при использовании методов olap и dm - Data Mining
- •3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.
- •4. Что такое категоризованный график? Какие типы категоризованных графиков реализованы в системе Statistica?
- •5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?
- •6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?
- •7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?
- •8. В чем достоинства и недостатки графических методов разведочного анализа данных?
- •9. Какие аналитические методы первичного разведочного анализа данных вы знаете?
- •10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?
- •11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.
- •12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и порядковыми переменными? Их расчет в Statistica и интерпретация.
1. Что такое Data Mining?
Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.
До начала 90-х годов, казалось, не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой (см. например, [1]). Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками.
Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания — они решали главным образом свои частные проблемы обработки небольших локальных баз данных.
И вот прозвенел звонок. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Специфика современных требований к такой переработке следующие:
Данные имеют неограниченный объем
Данные являются разнородными (количественными, качественными, текстовыми)
Результаты должны быть конкретны и понятны
Инструменты для обработки сырых данных должны быть просты в использовании
Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).
В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в табл. 1.
Таблица 1. Примеры формулировок задач при использовании методов OLAP и Data Mining
OLAP |
Data Mining |
Каковы средние показатели травматизма для курящих и некурящих? |
Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму? |
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)? |
Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании? |
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке? |
Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками? |
Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки (рис.1).
Рисунок 1. Уровни знаний, извлекаемых из данных
В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро — один из основателей этого направления:
Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Начало формы
Конец формы
Интеллектуальный анализ данных
Data Mining
Главная
Контакты
« Как «автор» работает в административной панели WordPress
Реализация и распараллеливание алгоритма интеллектуального анализа данных, основанного на деревьях решений. »
Июль 11
Обзор методов Data Mining
Работы студентов (просмотр)
автор: TheKatherin
Стремительное развитие информационных технологий, в частности, прогресс в методах сбора, хранения и обработки данных позволил многим организациям собирать огромные массивы данных, которые необходимо анализировать. Объемы этих данных настолько велики, что возможностей экспертов уже не хватает. На сегодняшний день интенсивно развивается направление, связанное с интеллектуализацией методов обработки и анализа данных. Интеллектуальные системы анализа данных (ИСАД) призваны минимизировать усилия лица, принимающего решения (ЛПР), в процессе анализа данных, а также в настройке алгоритмов анализа. Многие ИСАД позволяют не только решать классические задачи принятия решения, но и способны выявлять причинно-следственные связи, скрытые закономерности в системе, подвергаемой анализу. Оглавление Интеллектуальный анализ данных Модели представления знаний Data Mining Анализ подходов и методов решения задачи 1. Обзор существующих методов 2. Свойства методов Data Mining 3. Классификация методов 3.1. Работа с данными 3.2. Подход к обучению математических моделей 3.3 Методы Data Mining также можно классифицировать по задачам Data Mining
Интеллектуальный
анализ данных
Data
Mining – это сочетание широкого математического
инструментария (от классического
статистического анализа до новых
кибернетических методов) и последних
достижений в сфере информационных
технологий. В технологии Data Mining гармонично
объединились строго формализованные
методы и методы неформального анализа,
т.е. количественный и качественный
анализ данных.
Data Mining (добыча данных,
интеллектуальный анализ данных, глубинный
анализ данных) — собирательное название,
используемое для обозначения совокупности
методов обнаружения в данных ранее
неизвестных, нетривиальных, практически
полезных и доступных интерпретации
знаний, необходимых для принятия решений
в различных сферах человеческой
деятельности. Термин введён Григорием
Пятецким-Шапиро в 1989 году.
Основу
методов Data Mining составляют всевозможные
методы классификации, моделирования и
прогнозирования. К методам Data Mining нередко
относят статистические методы
(дескриптивный анализ, корреляционный
и регрессионный анализ, факторный
анализ, дисперсионный анализ, компонентный
анализ, дискриминантный анализ, анализ
временных рядов). Такие методы, однако,
предполагают некоторые априорные
представления об анализируемых данных,
что несколько расходится с целями Data
Mining (обнаружение ранее неизвестных
нетривиальных и практически полезных
знаний).
Одно из важнейших назначений
методов Data Mining состоит в наглядном
представлении результатов вычислений,
что позволяет использовать инструментарий
Data Mining людьми, не имеющих специальной
математической подготовки. В то же
время, применение статистических методов
анализа данных требует хорошего владения
теорией вероятностей и математической
статистикой.
Знания, добываемые
методами Data mining, принято представлять
в виде моделей.
Модели
представления знаний Data Mining
Методы
построения таких моделей принято
относить к области искусственного
интеллекта.
Анализ подходов и методов
решения задачи.
1.
Обзор существующих методов
К
методам и алгоритмам Data Mining относятся:
1.
искусственные нейронные сети
2.
деревья решений, символьные правила
3.
методы ближайшего соседа и k-ближайшего
соседа
4. метод опорных векторов
5.
байесовские сети
6. линейная регрессия
7.
корреляционно-регрессионный анализ
8.
иерархические методы кластерного
анализа
9. неиерархические методы
кластерного анализа, в том числе алгоритмы
k-средних и k-медианы
10. методы поиска
ассоциативных правил, в том числе
алгоритм Apriori
11. метод ограниченного
перебора
12. эволюционное программирование
и генетические алгоритмы
13. разнообразные
методы визуализации данных и множество
других методов.
Большинство
аналитических методов, используемые в
технологии Data Mining – это известные
математические алгоритмы и методы.
Новым в их применении является возможность
их использования при решении тех или
иных конкретных проблем, обусловленная
появившимися возможностями технических
и программных средств. Следует отметить,
что большинство методов Data Mining были
разработаны в рамках теории искусственного
интеллекта.
Метод представляет собой
норму или правило, определенный путь,
способ, прием решений задачи теоретического,
практического, познавательного,
управленческого характера.
2.
Свойства методов Data Mining
Различные
методы Data Mining характеризуются определенными
свойствами, которые могут быть
определяющими при выборе метода анализа
данных. Методы можно сравнивать между
собой, оценивая характеристики их
свойств.
Основные свойства и
характеристики методов Data Mining: точность,
масштабируемость, интерпретируемость,
проверяемость, трудоемкость, гибкость,
быстрота и популярность.
Масштабируемость
– свойство вычислительной системы,
которое обеспечивает предсказуемый
рост системных характеристик, например,
быстроты реакции, общей производительности
и пр., при добавлении к ней вычислительных
ресурсов.
В таблице 1 приведена
сравнительная характеристика некоторых
распространенных методов. Оценка каждой
из характеристик проведена следующими
категориями, в порядке возрастания:
чрезвычайно низкая, очень низкая,
низкая/нейтральная, нейтральная/низкая,
нейтральная, нейтральная/высокая,
высокая, очень высокая.
Как
видно из рассмотренной таблицы, каждый
из методов имеет свои сильные и слабые
стороны. Но ни один метод, какой бы не
была его оценка с точки зрения присущих
ему характеристик, не может обеспечить
решение всего спектра задач Data Mining.
3.
Классификация методов
3.1. Работа с
данными
Все
методы Data Mining можно разделить на две
большие группы по принципу работы с
исходными обучающими данными. В этой
классификации верхний уровень определяется
на основании того, сохраняются ли данные
после Data Mining либо они дистиллируются
для последующего использования.
Непосредственное
использование данных, или сохранение
данных.
В этом случае исходные данные
хранятся в явном детализированном виде
и непосредственно используются на
стадиях прогностического моделирования
и/или анализа исключений. Проблема этой
группы методов – при их использовании
могут возникнуть сложности анализа
сверхбольших баз данных.
Выявление
и использование формализованных
закономерностей, или дистилляция
шаблонов.
При технологии дистилляции
шаблонов один образец (шаблон) информации
извлекается из исходных данных и
преобразуется в некие формальные
конструкции, вид которых зависит от
используемого метода Data Mining. Этот процесс
выполняется на стадии свободного поиска,
у первой же группы методов данная стадия
в принципе отсутствует. На стадиях
прогностического моделирования и
анализа исключений используются
результаты стадии свободного поиска,
они значительно компактнее самих баз
данных. Конструкции этих моделей могут
быть трактуемыми аналитиком либо не
трактуемыми (“черными ящиками”).
•
Логические методы,
или методы логической индукции, включают:
нечеткие запросы и анализы; символьные
правила; деревья решений; генетические
алгоритмы.
Методы этой группы являются,
пожалуй, наиболее интерпретируемыми –
они оформляют найденные закономерности,
в большинстве случаев, в достаточно
прозрачном виде с точки зрения
пользователя. Полученные правила могут
включать непрерывные и дискретные
переменные. Следует заметить, что деревья
решений могут быть легко преобразованы
в наборы символьных правил путем
генерации одного правила по пути от
корня дерева до его терминальной вершины.
Деревья решений и правила фактически
являются разными способами решения
одной задачи и отличаются лишь по своим
возможностям. Кроме того, реализация
правил осуществляется более медленными
алгоритмами, чем индукция деревьев
решений.
•
Методы кросс-табуляции:
агенты, байесовские (доверительные)
сети, кросс-табличная визуализация.
Последний
метод не совсем отвечает одному из
свойств Data Mining – самостоятельному
поиску закономерностей аналитической
системой. Однако предоставление
информации в виде кросс-таблиц обеспечивает
реализацию основной задачи Data Mining –
поиск шаблонов, поэтому этот метод можно
также считать одним из методов Data
Mining.
•
Методы на основе уравнений.
Методы
этой группы выражают выявленные
закономерности в виде математических
выражений – уравнений. Следовательно,
они могут работать лишь с численными
переменными, и переменные других типов
должны быть закодированы соответствующим
образом. Это несколько ограничивает
применение методов данной группы, тем
не менее, они широко используются при
решении различных задач, особенно задач
прогнозирования. Данная классификация
разделяет все многообразие методов
Data Mining на две группы: статистические и
кибернетические методы.
3.2.
Подход к обучению математических
моделей
Следует
отметить, что существует два подхода
отнесения статистических методов к
Data Mining. Первый из них противопоставляет
статистические методы и Data Mining, его
сторонники считают классические
статистические методы отдельным
направлением анализа данных. Согласно
второму подходу, статистические методы
анализа являются частью математического
инструментария Data Mining. Большинство
авторитетных источников придерживается
второго подхода.
В этой классификации
различают две группы методов:
1.
статистические методы, основанные на
использовании усредненного накопленного
опыта, который отражен в ретроспективных
данных
2. кибернетические методы,
включающие множество разнородных
математических подходов
Недостаток
такой классификации: и статистические,
и кибернетические алгоритмы тем или
иным образом опираются на сопоставление
статистического опыта с результатами
мониторинга текущей ситуации. Преимуществом
такой классификации является ее удобство
для интерпретации – она используется
при описании математических средств
современного подхода к извлечению
знаний из массивов исходных наблюдений
(оперативных и ретроспективных), т.е. в
задачах Data Mining.
Статистические
методы Data Mining
В
эти методы представляют собой четыре
взаимосвязанных раздела:
•
предварительный анализ природы
статистических данных (проверка гипотез
стационарности, нормальности,
независимости, однородности, оценка
вида функции распределения, ее параметров
и т.п.);
• выявление связей и
закономерностей (линейный и нелинейный
регрессионный анализ, корреляционный
анализ и др.);
• многомерный
статистический анализ (линейный и
нелинейный дискриминантный анализ,
кластерный анализ, компонентный анализ,
факторный анализ и др.);
• динамические
модели и прогноз на основе временных
рядов.
Арсенал статистических методов
Data Mining классифицирован на четыре группы
методов:
Кибернетические
методы Data Mining
Второе
направление Data Mining – это множество
подходов, объединенных идеей компьютерной
математики и использования теории
искусственного интеллекта.
3.3
Классификация по задачам
Методы
Data Mining также можно классифицировать по
задачам Data Mining. В соответствии с такой
классификацией выделяем две группы.
Первая из них – это подразделение
методов Data Mining на решающие задачи
сегментации (т.е. задачи классификации
и кластеризации) и задачи прогнозирования.
В соответствии со второй классификацией
по задачам методы Data Mining могут быть
направлены на получение описательных
и прогнозирующих результатов.
Описательные
методы
Описательные
методы служат для нахождения шаблонов
или образцов, описывающих данные, которые
поддаются интерпретации с точки зрения
аналитика.
Прогнозирующие
методы
Прогнозирующие
методы используют значения одних
переменных для предсказания/прогнозирования
неизвестных (пропущенных) или будущих
значений других (целевых) переменных.
У данного сообщения нет этикеток
Оставить комментарий
Начало формы
Ваш email не будет опубликован. Обязательные поля отмечены *
Имя: *
E-Mail: *
Сайт:
Произведите
вычисления:
6 ×
=
тридцать шесть
Сообщение:
*
Вы можете использовать эти теги HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
Конец формы
Календарь:
Октябрь 2014 |
||||||||||
Пн |
Вт |
Ср |
Чт |
Пт |
Сб |
Вс |
||||
« Окт |
|
|
||||||||
|
1 |
2 |
3 |
4 |
5 |
|||||
6 |
7 |
8 |
9 |
10 |
11 |
12 |
||||
13 |
14 |
15 |
16 |
17 |
18 |
19 |
||||
20 |
21 |
22 |
23 |
24 |
25 |
26 |
||||
27 |
28 |
29 |
30 |
31 |
|
Рубрики:
Как работать на сайте (2)
Лекции преподавателя (просмотр) (1)
Новости (4)
Работы студентов (просмотр) (5)
Управление (новый)
Регистрация
Вход
Авторские права
© 2014 Интеллектуальный анализ данных.
При поддержке WordPress и Тема "Graphene".
2.
|
Главная | Библиотека | Глоссарий | Разведочный анализ, Exploration analysis |
Глоссарий
Разведочный анализ
Exploration analysis
Предварительный анализ данных с целью выявления наиболее общих закономерностей и тенденций, характера и свойств анализируемых данных, законов распределения анализируемых величин. Применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы.
Термин «разведочный анализ» был впервые введен математиком из Принстонского университета Дж. Тьюки. Он также сформулировал основные цели данного анализа:
Максимальное «проникновение» в данные.
Выявление основных структур.
Выбор наиболее важных переменных.
Обнаружение отклонений и аномалий.
Проверка основных гипотез (предположений).
Разработка начальных моделей.
Результаты разведочного анализа не используются для выработки управленческих решений. Их назначение - помощь в разработке наилучшей стратегии углубленного анализа, выдвижение гипотез, уточнение особенностей применения тех или иных математических методов и моделей. Без разведочного анализа углубленный анализ данных будет производиться практически «вслепую».
К основным методам разведочного анализа относится процедура анализа распределений переменных, просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения, факторный анализ, дискриминантный анализ, многомерное шкалирование, визуальный анализ гистограмм и т.д.
Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены на других выборках или на независимом множестве данных, их следует воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных.
Термин Data Mining
Термин Data Mining обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя).
Пример.
Анализ потребительской корзины, применяемый, чтобы выявить предпочтения потребителей и, соответственно, лучше удовлетворить спрос и повысить доход с клиентов. Однако характер покупательского поведения присутствует в данных неявно, и для его определения необходимо использовать именно Data Mining. И теперь можно выяснить, к примеру, что клиент, собирающийся купить товар X, будет не прочь приобрести заодно и товар Y. Эта информация ляжет в основу последующих решений: может быть, стоит располагать эти товары на витрин е магазин а рядом или, например, продвигать один из них, чтобы повысить продаж и обоих.
В отличие от оперативной аналитической обработки данных (OLAP) в DM задача формулировки гипотез и выявления необычных (unexpected) алгоритмов переложено с человека на компьютер. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение DM , как правило, то подразумевает ответы на вопросы типа «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечивает более нетривиальный подход к маркетинговой политике и к организации работы с клиентами.
Примеры заданий на такой поиск при использовании DM - Data Mining приведены в таблице.