Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы ГОСы.docx
Скачиваний:
57
Добавлен:
08.06.2020
Размер:
17.27 Mб
Скачать

Проблемы обеспечения непротиворечивости и целостности данных

Данные - это зарегистрированные факты, описания явлений реального мира или идей

Основные методы анализа данных и их реализация в программном обеспечении Excel, Statistica и R

Виды «коробочек с усиками»

Диаграммы размаха («ящик с усами») (Box and Whisker Plot или Box Plot) – это удобный способ визуального представления групп числовых данных через квартили.

Прямые линии, исходящие из ящика, называются «усами» и используются для обозначения степени разброса (дисперсии) за пределами верхнего и нижнего квартилей. Выбросы иногда отображаются в виде отдельных точек, находящихся на одной линии с усами. Диаграммы размаха могут располагаться как горизонтально, так и вертикально.

Диаграммы размаха, как правило, используются в описательной статистике и позволяют быстро исследовать один или более наборов данных в графическом виде. Несмотря на то, что в сравнении с гистограммой или графиком плотности, этот график может показаться примитивным, его преимущество – в экономии пространства, что особенно удобно при сравнении распределений между большим количеством групп или наборов данных.

Есть различные способы построения подобных диаграмм. Наиболее распространённые требуют вычисления медианы, верхнего и нижнего квартилей и минимальное и максимальное значение выборки; или среднее, стандартные отклонения и максимум и минимум (нужно уточнить)

Нормальная вероятностная бумага

График на нормальной вероятностной бумаге предназначен для визуальной оценки близости распределения к нормальному. Если наблюдаемые значения распределены нормально, то все значения на графике должны попасть на прямую линию

 Если значения не являются нормально распределенными, они будут отклоняться от линии. На этом графике можно легко обнаружить выбросы

нормальная - специальным образом разграфленная бумага, построенная так, что график функции нормального распределения изображается на ней прямой линией. Это достигается изменением шкалы на вертикальной оси (см. рис.). На свойстве "выпрямления" основан простой способ проверки гипотезы о принадлежности дайной выборки к нормальной совокупности: если построенная на В. б. эмпирия, функция распределения хорошо приближается прямой линией, то можно с основанием полагать, что совокупность, из к-рой взята выборка, является приближенно нормальной.

Достоинство этого метода состоит в том, что вывод о принадлежности к нормальной совокупности можно сделать без знания численных значений параметров гипотетич. распределения.

Квантильное представление распределения как свертка информации

Квартили - это квантили (он же персентиль), делящие ранжированную совокупность на 4 равные части. Нижний квантиль отсекает 25% наименьших значений в ранжированной совокупности, а верхний квантиль, соответственно, - 75%. Квантиль, делящий ранжированную совокупность на две равные по числу половины, называется медианой. Медиана совпадает с 5-тым децилем и вторым квартилем. Все квантили измеряются в тех же единицах, что и случайная величина. Децели - 0,1 и 0,9

Квантили используют для свертки информации. Представление о распределении случайной величины можно получить по 7 точкам. Обычно вычисляют нижний и верхний децили (0,1 и 0,9), нижний и верхний квартили (0,25 и 0,75) и медиану. Наряду с вычисленными значениями квантилей приводят минимальное и максимальное значения и объем выборки. Результаты свертки информации представляют обычно в виде таблицы, где указаны все эти характеристики или в виде графика. На графике по оси абсцисс откладывают значения минимума, квантилей и максимума, а по оси ординат - соответствующие им значения γ *100%

Кванти́ль в математической статистике (α-квантиль) — значение xα, которое заданная случайная величина не превышает с фиксированной вероятностью (1-α), т.е. P(X≤xα)=α. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем.

Например, фраза «90-й процентиль массы тела у новорожденных мальчиков составляет 4 кг» означает, что 90 % мальчиков рождаются с весом, меньшим либо равным 4 кг, а 10 % мальчиков рождаются с весом, большим 4 кг.

0,25-квантиль называется первым (или нижним) кварти́лем (от лат. quarta — четверть);

0,5-квантиль называется медианой (от лат. mediāna — середина) или вторым кварти́лем;

0,75-квантиль называется третьим (или верхним) кварти́лем.

Интеркварти́льным размахом (англ. Interquartile range) называется разность между третьим и первым квартилями, то есть x0,75-x0,25. Интерквартильный размах является характеристикой разброса распределения величины и является робастным аналогом дисперсии. Вместе, медиана и интерквартильный размах могут быть использованы вместо математического ожидания и дисперсии в случае распределений с большими выбросами, либо при невозможности вычисления последних.

Также разновидносться квантилей являются децили. Деци́ль характеризует распределение величин совокупности, при котором девять значений дециля делят её на десять равных частей. Любая из этих десяти частей составляет 1/10 всей совокупности. Так, первый дециль отделяет 10 % наименьших величин, лежащих ниже дециля, от 90 % наибольших величин, лежащих выше дециля.

Так же, как в случае моды и медианы, у интервального вариационного ряда распределения каждый дециль (и квартиль) принадлежит определённому интервалу и имеет вполне определённое значение.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]