Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
уд экзамен.docx
Скачиваний:
48
Добавлен:
01.06.2024
Размер:
2.54 Mб
Скачать

1. Классификация признаков данных: (Качественные и количественные, непрерывные и дискретные). Номинальные, порядковые, интервальные, дихотомические, относительные переменные. Объяснить суть, привести примеры

  1. Качественные признаки (категориальные) - данные, которые не имеют численного представления, они могут иметь как и два уникальных значения (бинарные признаки), так и более (пол, цвет глаз, марка автомобиля) Они могут быть номинальными и порядковыми.

    • Номинальные признаки - это качественные переменные без внутренней структуры и определенного порядка, они просто описывают различные категории или группы. Например, Цвет автомобиля (красный, синий, зеленый, черный и т. д.)

    • Порядковые признаки - это качественные переменные, которые можно упорядочить. Например, уровень образования (начальное, среднее, высшее), оценки (отлично, хорошо, удовлетворительно).

  2. Количественные признаки - это переменные, которые измеряются в числовом значении. Они могут быть дискретными и непрерывными.

    • Дискретные признаки - это переменные, которые могут принимать только целочисленные значения, конечное или счетное число значений. Например, количество детей в семье, количество лет, количество пассажиров на борту самолета.

    • Непрерывные признаки - это переменные, которые могут принимать любые значения в некотором диапазоне. Например, рост, вес, доход, температура и т.д.

Относительные признаки отражают соотношения между количественными признаками и измеряют их в процентах или долях. Например, доля женщин в общем числе сотрудников в компании, доля дохода, потраченного на аренду жилья.

Интервальные признаки - числовые признаки, для которых определены единицы измерения, и которые имеют порядковую структуру. Интервальные признаки позволяют проводить математические операции над значениями, а также измерять их относительные различия. Однако, при этом нельзя делать выводы о наличии абсолютного нуля:

  • Температура в градусах Цельсия

  • Время в секундах, минутах или часах

  • Год выпуска автомобиля

  • Рост и вес человека

Дихотомические признаки (бинарные признаки) принимают только два значения: 0 или 1. Они часто используются в машинном обучении для задач бинарной классификации, когда нужно разделить объекты на две категории:

  • Пол: мужской (1) или женский (0)

  • Наличие болезни: болен (1) или здоров (0)

  • Результат теста: сдал (1) или не сдал (0)

  • Флаг: включен (1) или выключен (0)

2. Генеральная совокупность, понятие репрезентативности выборки из данных. Смещение выборки.

Генеральная совокупность — это совокупность всех объектов, которые представляют интерес в конкретном исследовании.

Объем генеральной совокупности может быть очень велик, и на практике рассмотреть все ее элементы не представляется возможным. Поэтому обычно из генеральной совокупности извлекаются выборки.

Выборка — это группа объектов, отобранных из генеральной совокупности для исследования.

На основе анализа выборки аналитик пытается сделать вывод о свойствах всей совокупности, скрытых в ней закономерностях, действующих правилах и т.д. При этом выборки должны быть репрезентативными.

Репрезентативность — соответствие характеристик выборки характеристикам генеральной совокупности. Репрезентативность определяет, насколько возможно обобщать результаты исследования, полученные на основе выборочных данных на всю исходную совокупность. (Если в нашей генеральной совокупности 40% женщин и 60% мужчин, то и в выборке должно быть такое же соотношение женщин и мужчин. Для того чтобы было выполнено условие репрезентативности, все основные особенности исследуемой группы людей или объектов должны быть одни и те же у выборки и у генеральной совокупности.) Отсутствие репрезентативности выборки приводит к некорректным результатам анализа. Поэтому перед использованием выборки необходимо убедиться, что она репрезентативна.

Причины, по которым анализируют выборки, а не всю совокупность, могут быть следующими:

  • объем генеральной совокупности может быть очень велик, а её анализ сложен в вычислительном плане;

  • получить доступ ко всем элементам совокупности очень сложно, или вообще невозможно (например, опросить население всего города — кто-то уехал, кто-то просто отвечать не хочет, поэтому проводят выборочный опрос);

  • при использовании методов машинного обучения требуется использовать несколько множеств: обучающее, тестовое и валидационное, которые тоже являются выборками из исходного набора данных.

Выборки бывают:

  • Смещённые и не смещённые. Смещёнными называются выборки, структурные характеристики которых (среднее, математическое ожидание, дисперсия, среднеквадратическое отклонение) значимо отличаются (смещены) от соответствующих структурных характеристик совокупности. Значимость отличия проверяется специальными статистическими критериями (например, F-критерий Фишера). Чтобы получить несмещённую выборку нужно правильно выбрать алгоритм её формирования.

  • Случайными и детерминированными. В первом случае генерируется множество случайных значений и из совокупности извлекаются записи с соответствующими номерами. В детерминированной выборке извлекают сплошную последовательность наблюдений между заданными номерами, или удовлетворяющих некоторому условию (например, все клиенты с доходом больше 50 000 рублей).

  • С возвратом и без возврата. При выборке с возвратом, извлеченные наблюдения остаются в генеральной совокупности доступными для повторного выбора (в этом случае в выборке могут оказаться одинаковые наблюдения — дубликаты). В противном случае любое наблюдение может быть извлечено из совокупности только один раз.

  • Зависимые и независимые. Если каждому наблюдению из одной выборки соответствует одно и только одно наблюдение из другой, то такие выборки называются зависимыми. Если это условие не выполняется, то выборки независимы.

Если объем исходной совокупности недостаточен для формирования обучающей выборки требуемого объема, то применяются специальные методы отбора (например, перекрёстная проверка). Обеспечение репрезентативности выборки достигается правильным выбором используемого алгоритма сэмплинга.

Выделяют качественную и количественную репрезентативность. Качественная репрезентативность предполагает, что выборка содержит представителей всех групп объектов совокупности и в соответствующей пропорции. Например, если совокупность содержит мужчин и женщин в пропорции 2/3, то и выборка, чтобы быть репрезентативной, должна содержать представителей обоих полов в отношении 2/3.

Количественная репрезентативность предполагает достаточное количество наблюдений выборки. Т.е. выборка может быть качественно репрезентативной, но при этом содержать слишком мало наблюдений для построения эффективной модели.

Иногда может происходить смещение выборки — явление, при котором статистические характеристики выборки сильно отличаются (смещены) относительно характеристик генеральной совокупности. Например (Неслучайная выборка), если исследователь опрашивает только людей, которые подписаны на определенную рассылку новостей, его выборка может быть смещена в пользу людей, которые интересуются этой конкретной темой. Например (Неполный охват), если исследователь проводит онлайн-опрос, его выборка может быть смещена в пользу людей, у которых есть доступ к Интернету и которые готовы участвовать в опросах.

Чтобы избежать смещения выборки, важно проводить исследования на репрезентативных выборках, учитывать разнообразие групп и характеристик в генеральной совокупности, а также использовать различные методы и техники, такие как стратифицированная выборка, случайная выборка и др.