Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ислед к печати.docx
Скачиваний:
7
Добавлен:
14.11.2019
Размер:
132.09 Кб
Скачать

27.Вариационный ряд

Вариационный ряд - последовательность x(1), x(2), x(3), ..., x(k), ..., x(n), полученная в результате расположения в порядке неубывания исходной последовательности независимых одинаково распределённых случайных величин x1, x2, x3, ..., xn.

Вариационный ряд обычно используется в математической статистике как основа непараметрических методов (сам вариационный ряд и его члены представляют собой так называемые порядковые статистики).

Вариационный ряд служит для построения функции эмпирического распределения

где µn(x) - число членов вариационного ряда, меньших x, которая является оценкой функции распределения F(x) случайных величин x1, x2, x3, ..., xn.

Промежуток xнабл = [x(1) - x(n)] = [xmin_набл - xmax_набл] между крайними членами вариационного ряда называется интервалом варьирования, его длина Wn = x(n) - x(1) = xmax_набл - xmin_набл называется размахом выборки.

Крайние члены вариационного ряда

xmin_набл = x(1) = min{xk} для k=1...n

и

xmax_набл = x(n) = max{xk} для k=1...n

называются экстремальными значениями.

Величина x(k) называется k-й порядковой статистикой.

Использование вариационного ряда для определения выборочной медианы основано на определении его центрального члена:

Meнабл = x(m), где m=(n+1)/2 при нечетном n,

Meнабл = (x(m)+x(m+1))/2, где m=n/2 при четном n.

По функции распределения F(x) исходных случайных величин x1, x2, x3, ..., xn вычисляются распределения любого члена вариационного ряда и совместные распределения его членов.

29.Базовый анализ данных.

Базовый анализ данных заключается в отображении полученных по итогам исследования результатов с помощью таблиц и графиков.

Полученные при анкетном опросе материалы содержат данные об отдельных единицах изучаемой совокупности. Дальнейшая задача состоит в том, чтобы получить общие характеристики совокупности в целом. Это осуществляется с помощью сводки и группировки. Результаты статистической сводки оформляются в таблицах.

Счетная обработка результатов опроса предусматривает не только простое суммирование ответов по определенной классификации, но и перевод их в относительные показатели. Боль­шинство ответов пересчитывают в проценты. Таблицы, пересчитанные в проценты, должны содержать подзаголовок, в котором указывается, по какому основанию рассчитаны проценты. Чаще всего их рассчитывают к числу опрошенных. На вопросы, по которым дано несколько вариантов ответов, проценты могут определяться к общему числу полученных ответов; по вопросам, на которые не все опрошенные дали ответ - к числу ответивших на вопрос.

Если в ходе анализа необходимо получить информацию об одной переменной, то изучают распределение частот значений переменной, или вариационный ряд (простая табуляция).

Если нужны данные о связи этой переменной с другими переменными, строятся таблицы сопряженности признаков (перекрестные, комбинационные, сложные таблицы).

Кросс-табуляция. Простое суммирование ответов на вопросы редко дает хорошие результаты. Содержание ответов приобретает смысл тогда, когда оно рассматривается в связи с характеристикой состава опрошенных. С этой целью проводится построение таблиц сопряженности признаков (кросс-табуляция, перекрестная табуляция).

Кросс-табуляция представляет собой процесс объединения распределений частот значений двух или больше переменных в одну таблицу. Она объясняет как одна переменная, например, предпочтение цвета товара, связана с другой переменной, такой как возраст.

30.Корреляция. используется для каче­ственного анализа: отбора (скрининга) взаимосвязан­ных факторов, и выделения той части выборки, на которой теснота связи максимальна. Затем для ото­бранных факторов и подвыборки проводится количе­ственный анализ: строятся регрессионные функции взаимосвязи. Область применимости полученных ре­грессионных функций устанавливается с помощью кластерного анализа или с применением генетических алгоритмов определения области экстраполяции.

Кластерный анализ - разбиение выборки на группы (кластеры). Кластеры должны быть компактными, иначе говоря, расстояние между разными кластерами должно быть больше, чем среднее расстояние между точками внутри одного и того же кластера.

Генетические алгоритмы осуществляют поиск оп­тимума сразу несколькими вариантами комбинаций параметров. Процесс поиска включает три основных этапа, повторяемых в цикле:

-эволюция - сдвиг варианта в направлении ожида­емого оптимума с использованием, вообще говоря, как производных критерия по параметрам, так и стохасти­ческих "скачков";

-отсеивание "неудачливых" вариантов;

-скрещивание "удачливых" вариантов: порождение вариантов - "потомков", сочетающих удачные значения параметров "родителей".

Название "генетические алгоритмы" связано с тем, что они воспроизводят современные представления о естественном отборе: скрещивание генотипов - опре­деление удачности порожденных фенотипов - отсев неудачников из набора партнеров для следующего скрещивания.

В качестве коррелируемых факторов выбираются данные в координатных интервалах одного или двух блоков. Для каждой пары факторов рассчитывается обычный коэффициент корреляции. При этом сумми­рование производится по переменным развертки. Пе­ременная развертки - переменная, играющая роль оси, вдоль которой развертываются данные, например, абсцисса на графике. Одновременно играет роль гене­ратора статистики: в ней производится суммирование данных при вычислении статистических показателей: коэффициента корреляции, коэффициентов регрессии и др. Обычно это пространство и/или время. Таким образом, корреляция отражает пространственно-вре­менную синхронность между, скажем, повышением конкурентоспособности и качества продукции и повы­шением спроса на него.    

Парная корреляция отвечает на такие вопросы, как, например:

- Насколько сильно связан спрос с расходами на рекламу?

- Связано ли восприятие качества товаров потре­бителями с их восприятием цены?

Частная же корреляция – на:

- Если брать зависимость спроса от затрат на ре­кламу, то существует ли влияние ценового фактора.

- А при изучении влияния качества и цены, суще­ствует ли эффект торговой марки.

Частная корреляция может быть полезна для вы­явления ложных связей.

Ни с одним из этих видов корреляции не возникает проблем, если данные измерены с помощью интер­вальной или относительной шкал. Но есть и неметри­ческие переменные, которые нельзя измерить с помо­щью интервальной или относительной шкалы и они не подчиняются закону нормального распределения. В этих случаях используются коэффициенты Спирмена и ранговая корреляция Кендала, а сама корреляция называется неметрической. Различие этих коэффици­ентов в том, что коэффициент ранговой корреляции Кендала используется, когда большая часть наблюде­ний попадает в относительно немногочисленные кате­гории, а коэффициент ранговой корреляции Спирмена наоборот, – когда существует множество категорий.

31. Регрессионный анализ.

Регрессионный анализ - это метод установления аналитического выражения стохастической зависимости между исследуемыми признаками. Уравнение регрессии показывает, как в среднем изменяется у при изменении любого из xi, и имеет вид:

Если независимая переменная одна - это простой регрессионный анализ. Если же их несколько, то такой анализ называется многофакторным.

В ходе регрессионного анализа решаются две основные задачи:

* построение уравнения регрессии, т.е. нахождение вида зависимости между результатным показателем и независимыми факторами x1, x2, ..., xn.

* оценка значимости полученного уравнения, т.е. определение того, насколько выбранные факторные признаки объясняют вариацию признака у.

Применяется регрессионный анализ главным образом для планирования, а также для разработки нормативной базы.

В отличие от корреляционного анализа, который только отвечает на вопрос, существует ли связь между анализируемыми признаками, регрессионный анализ дает и ее формализованное выражение. Кроме того, если корреляционный анализ изучает любую взаимосвязь факторов, то регрессионный - одностороннюю зависимость, т.е. связь, показывающую, каким образом изменение факторных признаков влияет на признак результативный.

Регрессионный анализ - один из наиболее разработанных методов математической статистики. Строго говоря, для реализации регрессионного анализа необходимо выполнение ряда специальных требований (в частности, xl,x2,...,xn; y должны быть независимыми, нормально распределенными случайными величинами с постоянными дисперсиями). В реальной жизни строгое соответствие требованиям регрессионного и корреляционного анализа встречается очень редко, однако оба эти метода весьма распространены в экономических исследованиях. Зависимости в экономике могут быть не только прямыми, но и обратными и нелинейными.