- •1. Что такое Data Mining?
- •Примеры формулировок задач при использовании методов olap и dm - Data Mining
- •3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.
- •4. Что такое категоризованный график? Какие типы категоризованных графиков реализованы в системе Statistica?
- •5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?
- •6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?
- •7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?
- •8. В чем достоинства и недостатки графических методов разведочного анализа данных?
- •9. Какие аналитические методы первичного разведочного анализа данных вы знаете?
- •10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?
- •11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.
- •12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и порядковыми переменными? Их расчет в Statistica и интерпретация.
3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.
Ответ:
С помощью графических методов можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.
К методам визуализации относятся:
- представление данных в виде столбчатых, линейных диаграмм в многомерном пространстве;
- наложение и объединение нескольких изображений;
- идентификация и маркировка подгрупп данных, удовлетворяющих определенным условиям;
- расщепление или слияние подгрупп данных на графике;
- агрегирование данных;
- сглаживание данных;
- построение пиктографиков;
- создание мозаичных структур;
- спектральных плоскостей, карт линий уровня; методы динамического вращения и динамического расслоения трехмерных изображений; выделение определенных наборов и блоков данных и т.д.
Типы графиков в Statistica:
двумерные графики;(гистограммы)
трехмерные графики;
категоризованные графики; (радиальные диаграммы)
матричные графики;
пиктографики.
4. Что такое категоризованный график? Какие типы категоризованных графиков реализованы в системе Statistica?
Ответ:Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, круговые диаграммы), по одному графику для каждой выбранной категории (подмножества) наблюдений.
График представляет собой набор графиков, круговые диаграммы для каждой определенной категории выбранной переменной (2 пола – по 2м полам).
Структура категоризированных данных может быть обработана аналогичным образом. : например накоплена статистика о покупателях и необходимо провести анализ суммы покупки по различным категориям (мужчины-женщины, старики-зрелые-молодежь).
В статистике – гистограммы, диаграммы рассеяния, линейные графики, круговые диаграммы, 3мерные графики, 3мерные тернарные графики
В
Как вы можете видеть, эта переменная в целом имеет для каждой группы (типа цветов) нормальное распределение.
5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?
Ответ:
Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, прибыль и фонд заработной платы), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.
Если предполагается, что один из параметров зависит от другого, то обычно значения независимого параметра откладывается по горизонтальной оси, а значения зависимого — по вертикальной. Диаграммы рассеяния используются для демонстрации наличия или отсутствия корреляции между двумя переменными.
Каждая точка, отмеченная на диаграмме, включает две характеристики, например возраст и доход индивида, отложенные каждая по своей оси. Нередко это помогает выяснить, существует ли какая-либо значимая статистическая связь между этими характеристиками и какой тип функции имеет смысл подбирать. А
