- •1. Что такое Data Mining?
- •Примеры формулировок задач при использовании методов olap и dm - Data Mining
- •3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.
- •4. Что такое категоризованный график? Какие типы категоризованных графиков реализованы в системе Statistica?
- •5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?
- •6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?
- •7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?
- •8. В чем достоинства и недостатки графических методов разведочного анализа данных?
- •9. Какие аналитические методы первичного разведочного анализа данных вы знаете?
- •10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?
- •11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.
- •12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и порядковыми переменными? Их расчет в Statistica и интерпретация.
Примеры формулировок задач при использовании методов olap и dm - Data Mining
OLAP |
DM - Data Mining |
Каковы средние показатели травматизма для курящих и некурящих? |
Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму? |
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)? |
Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании? |
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке? |
Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками? |
Важное положение DM - Data Mining
Важное положение DM — нетривиальность (нестандартность и неочевидность) разыскиваемых алгоритмов (шаблонов). Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). Иными словами, средства DM отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.
3.
Интеллектуальный анализ данных (ИАД)- одна из разновидностей АД. Ее отличительная особенность – использование естественного и/или искусственного интеллекта для выявления, получения «дополнительной» информации из тех же самых данных по сравнению с той, которая получается при применении традиционных формализованных процедур.
ИАД (Data Mining) - процесс аналитического исследования больших массивов информации (обычно экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных
Data Mining – исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком
Определение Data Mining
Основные свойства знаний:
- знания должны быть новые, ранее неизвестные.
- знания должны быть нетривиальны.
- знания должны быть практически полезны.
- знания должны быть доступны для понимания человеку. Закономерности д.б. логически объяснимы, иначе они могут быть случайны и представлены в понятном для человека виде.
1. Понятие интеллектуального анализа данных. Методы Data Mining.
Ответ:Интеллектуальный анализ данных (англ. Data Mining) - выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.
2. Понятие разведочного анализа данных. В чем отличие процедуры Data Mining от методов классического статистического анализа данных?
Ответ:Разведочных анализ данных (РАД) применяется для нахождения систематических связей между переменными в ситуациях, когда отсутствуют (или имеются недостаточные) априорные представления о природе этих связей
Традиционные методы анализа данных в основном ориентированы на проверку заранее сформулированных гипотез и на "грубый" разведочный анализ, в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей.
