Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика. 5 лекция.doc
Скачиваний:
36
Добавлен:
15.04.2015
Размер:
131.58 Кб
Скачать

[Править] Снижение размерности.

Третий раздел многомерного статистического анализа — задачи снижения размерности с целью сжатия информации. Цель их решения состоит в определении набора производных показателей, полученных преобразованием исходных признаков, такого, что число производных показателей значительно меньше числа исходных признаков, но они содержат возможно большую часть информации, имеющейся в исходных статистических данных. Задачи снижения размерности решают с помощью методов многомерного шкалирования, главных компонент, факторного анализа и др. Например, в простейшей модели многомерного шкалирования исходные данные — попарные расстояния междуkобъектами, а цель расчетов состоит в представлении объектов точками на плоскости. Это дает возможность в буквальном смысле слова увидеть, как объекты соотносятся между собой. Для достижения этой цели необходимо каждому объекту поставить в соответствие точку на плоскости так, чтобы попарные расстоянияsijмежду точками, соответствующими объектам с номерамиiиj, возможно точнее воспроизводили расстояния ρijмежду этими объектами. Согласно основной идее метода наименьших квадратов находят точки на плоскости так, чтобы величина

достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.

[Править] Статистика случайных процессов и временных рядов

Методы статистики случайных процессов и временных рядов применяют для постановки и решения, в частности, следующих задач:

  • предсказание будущего развития случайного процесса или временного ряда;

  • управление случайным процессом (временным рядом) с целью достижения поставленных целей, например, заданных значений контролируемых параметров;

  • построение вероятностной модели реального процесса, обычно длящегося во времени, и изучение свойств этой модели.

Пример 1. При внедрении статистического регулирования технологического процесса нужно проверить, что в налаженном состоянии математическое ожидание контролируемого параметра не меняется со временем. Если подобное изменение будет обнаружено, то следует установить подналадочное устройство.

Пример 2. Следящие системы, например, входящие в состав автоматизированной системы управления технологическим процессом, должны выделять полезный сигнал на фоне шумов. Это — задача оценивания (полезного сигнала), в то время как в примере 1 речь шла о задаче проверки гипотезы.

Методы статистики случайных процессов и временных рядов описаны в литературе [2,20].

[Править] Статистика объектов нечисловой природы

Методы статистики объектов нечисловой природы (статистики нечисловых данных, или нечисловой статистики) применяют всегда, когда результаты наблюдений являются объектами нечисловой природы. Например, сообщениями о годности или дефектности единиц продукции. Информацией о сортности единиц продукции. Разбиениями единиц продукции на группы соответственно значения контролируемых параметров. Упорядочениями единиц продукции по качеству или инвестиционных проектов по предпочтительности. Фотографиями поверхности изделия, пораженной коррозией, и так далее. Итак, объекты нечисловой природы — это измерения по качественному признаку, множества, бинарные отношения (разбиения, упорядочения и др.) и многие другие математические объекты [2]. Они используются в различных вероятностно-статистических методах принятия решений. В частности, в задачах управления качеством продукции, а также, например, в медицине и социологии, как для описания результатов приборных измерений, так и для анализа экспертных оценок.

Для описания данных, являющихся объектами нечисловой природы, применяют, в частности, таблицы сопряженности, а в качестве средних величин — решения оптимизационных задач [2]. В качестве выборочных средних для измерений в порядковой шкале используют медиану и моду, а в шкале наименований — только моду. О методах классификации нечисловых данных говорилось выше.

Для решения параметрических задач оценивания используют оптимизационный подход, метод одношаговых оценок, метод максимального правдоподобия, метод устойчивых оценок. Для решения непараметрических задач оценивания наряду с оптимизационными подходами к оцениванию характеристик используют непараметрические оценки распределения случайного элемента, плотности распределения, функции, выражающей зависимость [2].

В качестве примера методов проверки статистических гипотез для объектов нечисловой природы рассмотрим критерий «хи-квадрат» (обозначают φ2), разработанный К.Пирсоном для проверки гипотезы однородности (другими словами, совпадения) распределений, соответствующих двум независимым выборкам.

Рассматриваются две выборки объемов n1иn2, состоящие из результатов наблюдений качественного признака, имеющегоkградаций. Пустьm1jиm2j— количества элементов первой и второй выборок соответственно, для которых наблюдаетсяj-я градация, аp1jиp2j— вероятности того, что эта градация будет принята, для элементов первой и второй выборок,j= 1,2,...,k.

Для проверки гипотезы однородности распределений, соответствующих двум независимым выборкам,

,

применяют критерий φ2(хи-квадрат) со статистикой

;.

Установлено [9, 11], что статистика X2при больших объемах выборокn1иn2имеет асимптотическое распределение хи-квадрат с (k− 1) степенью свободы.

Пример 3. В таблице приведены данные о содержании серы в углеродистой стали, выплавляемой двумя металлургическими заводами. Проверим, можно ли считать распределения примеси серы в плавках стали этих двух заводов одинаковыми.

Распределения плавок стали по процентному содержанию серы

Содержание серы, в %

Число плавок

Завод А

Завод Б

0,00—0,02

82

63

0,02—0,04

535

429

0,04—0,06

1173

995

0,06—0,08

1714

1307

Расчет по данным дает X2= 3,39. Квантиль порядка 0,95 распределения χ-квадрат сk− 1 = 3 степенями свободы равен, поэтому гипотезу о совпадении функций распределения нельзя отклонить, а следует принять на уровне значимости α = 0,05.

Выше дано лишь краткое описание содержания прикладной статистики на современном этапе. Подробное изложение конкретных методов содержится в специальной литературе

Вопросы для самопроверки

В чём отличие группированного статистического ряда от упорядоченной статистической совокупности

В чём отличие частоты от вероятности

Вопросы к экзаменам

1.Первичная статистическая совокупность, её упорядочение

2. Статистическая функция распределения.

3. Группированный статистический ряд.

4. Гистограмма.

5. Выравнивание статистических распределений.

Именной указатель

Перечень сокращений

5