Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
итс ответы.docx
Скачиваний:
2
Добавлен:
31.07.2019
Размер:
70.97 Кб
Скачать

Контрольные вопросы:

  1. Что такое ассоциация? одна из задач Data Mining. Целью поиска ассоциативных правил (association rule) является нахождение закономерностей между связанными событиями в базах данных.

  2. Приведите примеры бизнес-приложений, для которых могут применяться ассоциативные правила.

  3. Что такое транзакция? Транзакция - это множество событий, которые произошли одновременно

  4. Какая структура транзакционной базы данных? Транзакционная или операционная база данных (Transaction database) представляет собойдвумерную таблицу, которая состоит из номера транзакции (TID) и перечня покупок,приобретенных во время этой транзакции. TID - уникальный идентификатор, определяющий каждую сделку или транзакцию.

  5. Основные характеристики ассоциативного правила? Основными характеристиками ассоциативного правила являются поддержка и достоверность правила.

  6. Что такое поддержка правила? Поддержкой называют количество или процент транзакций, содержащих определенный набор данных.

  1. Что такое достоверность правила? Если уровень достоверности слишком мал, то ценность правила вызывает серьезные сомнения. Например, правило с достоверностью в 3% только условно можно назвать правилом.

  2. Зачем заранее устанавливать минимальные и максимальные значения поддержки и достоверности?

Если значение поддержки правила слишком велико, то в результате работы алгоритма будут найдены правила очевидные и хорошо известные. Слишком низкое значение поддержки приведет к нахождению очень большого количества правил, которые, возможно, будут в большей части необоснованными, но не известными и не очевидными для аналитика. Таким образом, необходимо определить такой интервал, "золотую середину", который с одной стороны обеспечит нахождение неочевидных правил, а с другой - их обоснованность.

Контрольные вопросы:

  1. Для чего используются гистограммы? Инструмент «Гистограмма» применяется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек

  2. Что такое гистограммы с двойной осью? Гистограмму с двойной осью Y можно считать комбинацией двух по-разному масштабированных составных гистограмм. Этот график полезен для сравнения распределений переменных с разными частотами.

  3. Что такое категоризованные графики? эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммыдиаграммы рассеяниялинейные графикиповерхноститернарные диаграммы рассеяния и пр.), по одному графику для каждой выбранной категории (подмножества) наблюдений

106. Что такое матричные графики? Как могут масштабироваться матричные графики? атричные графики отражают зависимости между несколькими переменными в виде матрицы графиков X-Y. Наиболее часто используемым типом матричных графиков является матрица диаграмм рассеяния, которую можно считать графическим эквивалентом корреляционной матрицы. Каждый элементарный график, входящий в состав категоризованного графика, может быть масштабирован в соответствии со своим собственным диапазоном значений (независимые шкалы)

  1. Что такое диаграммы рассеяния? Как они могут помочь для оценки корреляции? инструмент позволяющий выявить вид и степень зависимости (корреляцию) между парами переменныхxy, которые могут представлять: характеристику качества и воздействующий на нее фактор, две характеристики качества; два фактора, воздействующие на одну и ту же характеристику качества. Коэф корреляции позволяет количественно определить силу линейной связи между x и y

  2. Что такое категоризованные диаграммы рассеяния? позволяют визуализировать категоризованные данные, иными словами, данные, разбитые на группы с помощью одной или нескольких группирующих переменных. В качестве группирующих переменных обычно используют категориальные 

  3. Что такое диаграмма рассеяния Вороного? Эта особая диаграмма рассеяния одной переменной является в большей степени аналитическим средством, нежели просто методом графического представления данных. Предлагаемые ею решения помогают моделировать множество явлений в естественных и социальных науках.

  4. Когда применяются линейные графики и категоризованные линейные графики? Это простой способ визуального представления последовательности значений (например, цены на фондовом рынке за несколько дней торгов). Категоризованные линейные графики строятся в том случае, если необходимо разбить данные на несколько групп (категоризовать) с помощью  группирующей переменной   (например, цены при закрытии рынка по понедельникам, вторникам и т.д.) или с помощью логических условий, составленных по нескольким переменным (например, цены при закрытии рынка в те дни, когда две другие акции и индекс Доу Джонса выросли по сравнению с другими ценами закрытия

  5. Что такое диаграммы размаха? диапазоны или характеристики распределения значений выбранной переменной (или переменных) изображаются отдельно для групп наблюдений, заданных значениями категориальной (группирующей) переменной. Для каждой группы наблюдений вычисляется центральная тенденция (например, медиана или среднее) и вариационные статистики или статистики диапазона (например, квартилистандартные ошибки или стандартные отклонения) и выбранные значения изображаются на диаграмме размаха выбранного типа. Также могут быть изображены точки выбросов

  6. Что такое категоризованные круговые диаграммы? на которых показаны пропорции или сами значения переменных. Категоризованные графики этого типа состоят из нескольких круговых диаграмм, где данные разделены по группам с помощью одной или нескольких  группирующих переменных  (например, gender) или категоризованы согласно логическим условиям выбора подгрупп 

  7. Когда применяются графики пропущенных значений и данных вне диапазона? Графики пропущенных значений и данных вне диапазона. На этих графиках можно наглядно представить структуру распределения точек

  8. Что такое закрашивание? процедура заполнения некоторой области графического экрана цветом или стандартным орнаментом

  9. Для чего применяется послойное сжатие двумерных графиков? двумерных графиков является методом разведочного анализа данных, который дает возможность скрытые тренды и структуры двумерных наборов данных..

  10. Что такое пиктографики? Основная идея использования пиктографиков состоит в представлении отдельных наблюдений в виде некоторых графических объектов, где значения переменных соответствуют определенным свойствам или размерам этих объектов (как правило, одно наблюдение = один объект). Это соответствие таково, что внешний вид объекта изменяется в зависимости от набора значений.