Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Psy_stat_bach_1.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.74 Mб
Скачать

Понятие анализа данных, его цели и задачи. Связь анализа данных со статистикой

Анализ данных – это область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных.

Анализ данных – это изучение модели реальности, представленной в соответствующих данных. Данные – это информация, организованная, предназначенная для автоматической или автоматизированной обработки. Можно считать, что вся информация, введённая в компьютер, становится данными.

Целью анализа данных является построение, а потом анализ модели реальности. Анализ данных должен выявлять существенные закономерности реальности. Эти цели реализуются в задачах анализа данных: построение модели реальности, сбор данных, анализ модели по собранным данным, интерпретация результатов анализа, выводы и рекомендации. Под интерпретацией результатов анализа данных понимается приписывание содержательного смысла этим результатам. Этот процесс слабо формализуем, для его успеха необходим опыт исследователя и его развитая интуиция.

В анализе данных часто используется прикладная статистика, основанная на математической статистике. Особенно часто это происходит, когда данные представлены в числовом виде. Тогда анализ данных производится с таблицей данных, к которой можно применять разнообразные статистические процедуры.

Анализ данных, тем не менее, не сводится к применению статических процедур. Необходимость исследования больших массивов данных, не являющихся случайными выборками, - например, содержимого баз данных и данных в сети Интернет - привели к созданию других подходов, из которых в первую очередь следует отметить так называемый Data Mining (DM), что может быть переведено как "раскапывание данных" (в русскоязычной литературе термин обычно используется без перевода). DM в настоящее время несколько эклектичен по набору используемых методов и представляет собой скорее некоторую идеологию. Разницу между математической статистикой и DM можно проиллюстрировать следующим образом. Если типичной задачей математической статистики является задача "найти зависимость между заданными переменными", то для DM характерны задачи типа "найти переменные, между которыми существует достаточно хорошо выраженная зависимость". Связи и зависимости в данных в DM выявляются на основе применения разнообразных алгоритмов перебора вариантов, классификаций и других. DM находится в стадии интенсивного развития как в плане расширения арсенала используемых методов, так и углубления концепции. Это направление анализа данных можно реализовать только на современных компьютерах, и это направление изучается в цикле программистских дисциплин. В настоящем курсе это направление анализа данных не рассматривается.

Описательная статистика Понятие описательной статистики

Описательная статистика – это совокупность методов и способов сбора и суммирования количественных данных, используемая для превращения больших объёмов цифровых данных в форму, удобную для восприятия и обсуждения.

Описательная статистика позволяет обобщать первичные результаты, полученные при наблюдении или в эксперименте. Процедуры здесь сводятся к группировке данных по их значениям, построению распределения их частот, выявлению центральных тенденций распределения (например, средней арифметической) и, наконец, к оценке разброса данных по отношению к найденной центральной тенденции.

Описательная статистика нужна, как правило, для понимания характера совокупности, сырых данных. Включает в себя различные методы агрегирования данных. Общие из них таковы:

  1. Частотный анализ

  • Анализ гистограммы

  • Подгонка распределения

  1. Вычисление и анализ показателей центра распределения

  • Мода

  • Медиана

  • Среднее

  1. Оценка разброса данных в совокупности

  • Стандартное отклонение

  • Дисперсия

  • Коэффициенты вариации

Расчет средних величин производится разными способами, и, соответственно, применение их тоже зависит от исследуемой совокупности.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]