Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Социология / Sotsiologia_-_lektsii.docx
Скачиваний:
60
Добавлен:
11.03.2015
Размер:
156.88 Кб
Скачать

Задачи анализа данных

  1. Классификация – обнаруживает признаки, которые характеризуют группы объектов (т.е классы).

  2. Кластеризация – предполагает разбиение объектов на группы уже после классификации (т.е общий массив данных делится на классы, после этого по каким-то дополнительным параметрам производится кластеризация)

  3. Ассоциация – выявляет закономерности между связанными событиями в наборе данных.

  4. Последовательность (последовательная ассоциация) – подобна ассоциации, но устанавливает закономерность не между одновременными событиями, а между теми, что связаны во времени.

  5. Прогнозирование – оценивает пройденные (пропущенные) или будущие варианты развития объекта.

  6. Определение отклонений (выбросов) – обнаружить и проанализировать данные, которые существенно отличаются о множества других данных. (выявить ряд нетипических шаблонов)

  7. Оценивание – эта задача сводится к предсказанию непрерывных значений признаков объекта.

  8. Анализ связей – предполагает нахождение зависимостей в общем массиве данных.

  9. Визуализация – создаётся графический образ анализируемых данных.

  10. Подведение итогов (создание выводов) – предполагает описание конкретных групп объектов.

Для того, чтобы выполнить все задачи анализа данных необходимо их преобразовать. Выделяют 4 функции преобразования данных.

  1. Обобщение (создание базы данных, кодирование).

  2. Концептуализация

  3. Коммуникация – перевод результатов исследования со статистического языка на язык заказчика.

  4. Эксраполяция – определение степени соответствия полученных результатов для всей совокупности респондентов.

Выполнить эти функции возможно только с помощью описательной статистики.

Описательная статистика – техника сбора и суммирование количественных данных. Цель описательной статистики – обработка данных, их систематизация, наглядное представление в форме графиков и таблиц, а также их количественное описание посредством основных статистических показателей.

Идея всех статистик состоит в следующем: вместо всех значений переменных можно изучить описательные статистики, которые дают общее представление о значениях, которые принимает эта переменная.

Показатели:

  1. Максимум и минимум – максимальное и минимальное значение переменных.

  2. Среднее арифметическое – сумма значений переменных, делённая на число значений переменных.

  3. Медиана – значение в отсортированной выборке (по убыванию или возрастанию), которое делит эту выборку на две равные части. (отбрасываем самое минимальное и самое максимальное)

  4. Квартили – значения, которые делят две половины выборки (разбитые медианой) ещё раз пополам. Бывают верхняя квартиль (75%) и нижняя квартиль (25%).

  5. Квартальный размах – равен разности 75-го квартиля и 25-го. (от 25 до 75)

  6. Дисперсия – это значение, которое отражает меру изменчивости значения переменной. Меняется от 0 до бесконечности. Значение 0 означает, что изменчивость отсутствует.

  7. Стандартное отклонение – показывает степень разброса значений переменной от его среднего.

  8. Мода – максимально часто встречающееся значение переменной. Если распределение или перечень значений показателей имеет несколько мод, говорят о мульмодальности. Наличие мультимодальности говорит об неоднородности выборки и о низкой валидности (надёжности) данных. (мультимодальность – несколько мнений, из которых непонятно кто как определился).

  9. Асимметрия – коэффициент, который является мерой несимметричности распределения.

  10. Экцесс – мера остроты пика распределения.

  11. Атрибут – свойство, которое характеризует объект.

С описательными статистиками тесно связаны понятие представление результатов. Наиболее распространённым являются:

  1. Графики

  • Ящик с усами – на нём отражаются медиана, квартильный размах, выбросы, грубые ошибки и размах, рассчитанный без выбросов и грубых ошибок.

Построение графиков осуществляется в программных комплексах для анализа данных.

  • Круговая диаграмма

Правила построения графиков:

  1. Тщательный отбор статистических данных.

  2. Выбрать наиболее оптимальный вид графика.

  3. Название графика должно отражать содержательную часть

  4. 4. Надписи и легенда располагаются в нижней или правой части графика.

  5. Допускается не более трёх цветов в графике

Виды графиков: линейные (статистические кривые, например уровень рождаемости), плоскостной (фоновый, столбиковый, полосовой, круговой, секторный, фигурный, точечный), объёмные («поверхности», «распределения») .

  1. Таблицы

Существую одномерные и многомерные. В социологии используют понятие таблицы сопряжённости. Одномерные таблицы представляют собой простое распределение значений переменных, носят название линейки. Многомерные таблицы предполагают установление зависимости между единицами наблюдения, их мнениями и другими дополнительными признаками

  1. Формирование рядов.

Ряды бывают динамические (совокупность значений показателя за определённый период времени), вариационный ряд (совокупность возможных значений показателя и частота встречаемости их заданной группе объектов), матрица типа «объект-признак» (совокупность данных, в которой строки соответствуют объектам, а столбцы - показателям).

Алгоритм анализа данных:

Существует 5 этапов:

  1. Подготовка и первичная статическая обработка. Включает в себя:

  1. определение вида исходных данных (понятие шкалы)

  2. уточнение вида исследовательских задач

  3. кодирование и перекодирование исходных данных

  4. определение нормальности распределения (построение графика и наложение лекала)

  5. классификация задача-метод

  6. определение выбросов и грубых ошибок

  7. расчёт основных статистических показателей

  8. табличное распределение

  9. графический анализ данных

  1. Применение методов проверки гипотез

      1. Уточнение гипотез и их разновидности

      2. Определение факторов и степени их влияния на гипотезу

      3. Выбор методов проверки гипотез:

  1. Т-критерий

  2. S-критерий для независимых выборок

  3. Критерий Мана Уитли

  4. ANOVA

  5. Критерий Краскем Уолмс

  6. Критерий Хи-квадрат

  7. Корреляции Пирсона, Спирмана, Кендела

      1. Установление возможных ошибок, которые могут быть допущены при интерпретации результатов анализа.

  1. Использование методов многомерного анализа

  1. Факторный анализ

  2. Регрессионный анализ

  3. Сравнительный анализ

  4. Статистическую обработку мнений экспертов и фокус-групп с помощью коэффициента конкордации Кендела

  5. Использование весовых коэффициентов и индексов. Данная процедура позволяет уменьшить или увеличить значение выбранных признаков.

  1. Подготовка отчета. Итоговый документ должен включать в себя следующие обязательные блоки:

  1. Общая информация (актуальность исследования, проблема кто проводил исследование, цель и задачи, объект и предмет, расчет выборки, теоретико-методологическую основу исследования)

  2. Основная часть отчета, включает в себя аналитическую интерпретацию обработанных эмпирических данных, графическое представление полученных результатов.

  3. Заключительная часть содержит выводы и практические рекомендации для решения проблемы.

  4. Приложения. Содержит: программу исследования, образцы инструментария и одномерное распределение первичных данных (линейка).

Соседние файлы в папке Социология