
- •1. Что такое Data Mining?
- •Примеры формулировок задач при использовании методов olap и dm - Data Mining
- •3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.
- •4. Что такое категоризованный график? Какие типы категоризованных графиков реализованы в системе Statistica?
- •5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?
- •6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?
- •7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?
- •8. В чем достоинства и недостатки графических методов разведочного анализа данных?
- •9. Какие аналитические методы первичного разведочного анализа данных вы знаете?
- •10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?
- •11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.
- •12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и порядковыми переменными? Их расчет в Statistica и интерпретация.
8. В чем достоинства и недостатки графических методов разведочного анализа данных?
Ответ:+ Наглядность и простота.
Наглядность (многомерное графическое представление данных, по которому аналитик сам выявляет закономерности и отношения между данными).
- Методы дают приближенные значения.
- Высокая доля субъективизма в интерпретации результатов.
Отсутствие аналитических моделей.
9. Какие аналитические методы первичного разведочного анализа данных вы знаете?
Ответ:Статистические методы, нейронные сети.
10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?
Ответ:Распределение x2 (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.
Хи-квадрат - это мера различия. Задаем уровень ошибки, равный a=0,05. Соответственно, если значение p>a , то распределение оптимально.
- для проверки гипотезы о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия хи-квадрат выберите пункт меню Statistics/Distribution Fittings. Затем в диалоговом окне Fitting Contentious Distribution задайте вид теоретического распределения - Normal, выберите переменную - Variables, задайте параметры анализа - Parameters.
11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.
Ответ:Основные статистические характеристики количественных переменных:
математическое ожидание (среднее среди выборки, сумма значений\n ,седнирй объем производства среди предприятий)
медиана(середина значений. )
среднее квадратичное отклонение (Квадратный корень из дисперсии)
дисперсия (мера разброса данной случайной величины, т.е. её отклонения от математического ожидания)
коэффициент асимметрии (Определяем смещение относительно центра симметрии по правилу: если B1>0, то смещение влево, иначе - вправо.)
коэффициента эксцесса (близость к нормальному распределению)
минимальное выборочное значение, максимальное выборочное значение,
разброс
выборочные верхнюю и нижнюю квартили
Мода (пиковое значение)
12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и порядковыми переменными? Их расчет в Statistica и интерпретация.
Ответ:Корреляция - статистическая взаимосвязь двух или нескольких случайных величин.
При этом изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Мерой корреляции двух случайных величин служит коэффициент корреляции.
Количественные:
Коэффициент корреляции - это показатель характера изменения двух случайных величин.
Коэффициента корреляции Пирсона (измеряет степень линейных связей между переменными. Можно сказать, что корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу.)
Частный коэффициент корреляции (измеряет степень тесноты между переменными, при условии что значения остальных переменных зафиксированы на постоянном уровне).
Качественные:
Коэффициент ранговой корреляции Спирмена (используется с целью статистического изучения связи между явлениями. Изучаемые объекты упорядочиваются в отношении некоторого признака т. е. им приписываются порядковые номера - ранги.)