
- •Серия: статистические методы а.И.Орлов
- •Москва 2004
- •Оглавление
- •Предисловие
- •Введение. Нечисловая статистика - основа статистических методов в.1. О развитии статистических методов
- •В.2. Структура нечисловой статистики
- •Литература
- •Глава 1. Нечисловые статистические данные
- •1.1. Количественные и категоризованные данные
- •1.2. Основы теории измерений
- •1.3. Виды нечисловых данных
- •1.4. Вероятностные модели порождения нечисловых данных
- •1.4. Нечеткие множества – частный случай нечисловых данных
- •1.6. Сведение нечетких множеств к случайным
- •1.7. Данные и расстояния в пространствах произвольной природы
- •1.7. Аксиоматическое введение расстояний
- •Литература
- •Контрольные вопросы и задачи
- •Темы докладов, рефератов, исследовательских работ
- •Глава 2. Статистические методы в пространствах произвольной природы
- •2.1. Эмпирические и теоретические средние
- •2.2. Законы больших чисел
- •2.3. Экстремальные статистические задачи
- •2.4. Одношаговые оценки
- •2.5. Непараметрические оценки плотности
- •2.6. Статистики интегрального типа
- •2.7. Методы восстановления зависимостей
- •2.8. Методы классификации
- •2.9. Методы шкалирования
- •Литература
- •Контрольные вопросы и задачи
- •Темы докладов, рефератов, исследовательских работ
- •Глава 3. Статистика нечисловых данных конкретных видов
- •3.1. Инвариантные алгоритмы и средние величины
- •3.2. Теория случайных толерантностей
- •3.3. Метод проверки гипотез по совокупности малых выборок
- •3.4. Теория люсианов
- •3.5. Метод парных сравнений
- •3.6. Статистика нечетких множеств
- •3.7. Статистика нечисловых данных в экспертных оценках
- •Литература
- •Контрольные вопросы и задачи
- •Темы докладов и рефератов
- •Глава 4. Статистика интервальных данных
- •4.1. Основные идеи статистики интервальных данных
- •4.2. Интервальные данные в задачах оценивания
- •4.3. Интервальные данные в задачах проверки гипотез
- •4.4. Линейный регрессионный анализ интервальных данных
- •4.5. Интервальный дискриминантный анализ
- •4.6. Интервальный кластер-анализ
- •4.7. Интервальные данные в инвестиционном менеджменте
- •4.8. Статистика интервальных данных в прикладной статистике
- •Литература
- •Контрольные вопросы и задачи
- •Темы докладов, рефератов, исследовательских работ
- •Теоретическая база нечисловой статистики
- •Литература
- •Об авторе
- •Основные книги проф. А.И.Орлова
Глава 1. Нечисловые статистические данные
1.1. Количественные и категоризованные данные
Статистические методы – это методы анализа данных, причем обычно достаточно большого количества данных. Статистические данные могут иметь различную природу. Исторически самыми ранними были два вида данных – сведения о числе объектов, удовлетворяющих тем или иным условиям, и числовые результаты измерений.
Первый из этих видов данных до сих пор главенствует в статистических сборниках Госкомстата РФ. Такого рода данные часто называют категоризованными, поскольку о каждом из рассматриваемых объектов известно, в какую из нескольких заранее заданных категорий он попадает. Примером является информация Госкомстата РФ о населении страны, с разделением по возрастным категориям и полу. Часто при составлении таблиц жертвуют информацией, заменяя точное значение измеряемой величины на указание интервала группировки, в которую это значение попадает. Например, вместо точного возраста человека используют лишь один из указанных в таблице возрастных интервалов.
Второй наиболее распространенный вид данных – количественные данные, рассматриваемые как действительные числа. Таковы результаты измерений, наблюдений, испытаний, опытов, анализов. Количественные данные обычно описываются набором чисел (выборкой), а не таблицей.
Нельзя утверждать, что категоризованные данные соответствуют первому этапу исследования, а числовые – следующему, на котором используются более совершенные методы измерения. Дело в том, что человеку свойственно давать качественные ответы на возникающие в его практической деятельности вопросы. Примером является таблица1, посвященная анализу сильных и слабых сторон конкретной Компании (табл.1). Она составлена одним из руководителей этой Компании и предназначена для использования при управлении Компанией.
Таблица 1.
Оценка сильных и слабых сторон Компании
Показатели, описывающие различные стороны работы Компании |
Оценка показателя (По отношению к предприятиям отрасли) |
Важность (вес) показателя | |||||||||||||||||||||||
Очень высо-кая |
Вы-со-кая |
Сре-дняя |
Низ-кая |
Очень низ-кая |
Вы-со-кая |
Сре-дняя |
Низ-кая | ||||||||||||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 | |||||||||||||||||
1. Финансы |
| ||||||||||||||||||||||||
1.1. Оценка структуры активов |
|
|
Х |
|
|
Х |
|
| |||||||||||||||||
1.2. Инвестиционная привлекательность |
|
|
Х |
|
|
Х |
|
| |||||||||||||||||
1.3. Доход на активы |
|
|
|
Х |
|
Х |
|
| |||||||||||||||||
1.4. Норма прибыли |
|
|
|
|
Х |
Х |
|
| |||||||||||||||||
1.5. Доход на вложенный капитал |
|
|
|
Х |
|
|
Х |
| |||||||||||||||||
2. Производство |
| ||||||||||||||||||||||||
2.1. Использования оборудования |
|
|
Х |
|
|
|
Х |
| |||||||||||||||||
2.2. Производственные мощности |
|
|
Х |
|
|
|
|
Х | |||||||||||||||||
2.3. Численность |
|
|
Х |
|
|
|
Х |
| |||||||||||||||||
2.4. Система контроля качества |
|
Х |
|
|
|
Х |
|
| |||||||||||||||||
2.5. Возможность расширения производства |
|
|
Х |
|
|
Х |
|
| |||||||||||||||||
1.6. Износ оборудования |
|
|
|
Х |
|
Х |
|
| |||||||||||||||||
3. Организация и управление |
| ||||||||||||||||||||||||
3.1. Численность ИТР и управленческого персонала |
|
|
Х |
|
|
Х |
|
| |||||||||||||||||
3.2. Скорость реакции управления на изменения во внешней среде |
|
|
Х |
|
|
Х |
|
| |||||||||||||||||
3.3. Четкость разделения полномочий и функций |
|
|
|
Х |
|
|
Х |
| |||||||||||||||||
3.4. Качество используемой в управлении информации |
|
|
Х |
|
|
Х |
|
| |||||||||||||||||
3.5. Гибкость оргструктуры управления |
|
Х |
|
|
|
Х |
|
| |||||||||||||||||
4. Маркетинг |
| ||||||||||||||||||||||||
4.1. Доля рынка |
|
Х |
|
|
|
Х |
|
| |||||||||||||||||
4.2. Репутация Компании |
|
Х |
|
|
|
Х |
|
| |||||||||||||||||
4.3. Престиж торговой марки |
|
|
Х |
|
|
|
Х |
| |||||||||||||||||
4.4. Стимулирование сбыта |
|
Х |
|
|
|
Х |
|
| |||||||||||||||||
4.5. Численность сбытового персонала |
|
|
|
Х |
|
|
|
Х | |||||||||||||||||
4.6. Уровень цен |
|
|
Х |
|
|
Х |
|
| |||||||||||||||||
4.7. Уровень сервиса |
|
Х |
|
|
|
Х |
|
| |||||||||||||||||
4.8. Число клиентов |
|
Х |
|
|
|
|
Х |
| |||||||||||||||||
4.9. Качество поступающей информации |
|
|
Х |
|
|
|
Х |
| |||||||||||||||||
5. Кадровый состав |
| ||||||||||||||||||||||||
5.1. Уровень квалификации производственного персонала |
|
Х |
|
|
|
Х |
|
| |||||||||||||||||
5.2. Расходы по подготовке и переподготовке персонала |
|
Х |
|
|
|
Х |
|
| |||||||||||||||||
5.3. Уровень подготовки сбытового персонала в технической области |
|
|
|
Х |
|
|
Х |
| |||||||||||||||||
6. Технология |
|
|
|
|
|
|
|
| |||||||||||||||||
6.1. Применяемые стандарты |
|
Х |
|
|
|
|
|
Х | |||||||||||||||||
6.2. Новые продукты |
|
|
Х |
|
|
|
Х |
| |||||||||||||||||
6.3. Расходы на НИОКР |
|
Х |
|
|
|
|
Х |
|
Ясно, что вполне можно превратить в числа значения признаков, названия которых приведены в столбце «Показатели Компании», однако этот переход будет зависеть от исследователя, носить неизбежный налет субъективизма. Отметим, что важность (вес) показателей также оценивается качественно, а не количественно.
Иногда нецелесообразно однозначно относить данные к категоризованным или количественным. Например, в Ветхом Завете, в Четвертой книге Моисеева «Числа» указывается количество воинов в различных коленах. С одной стороны, это типичные категоризованные данные, градациями служат названия колен. С другой стороны, эти данные можно рассматривать как количественные, как выборку, их вполне естественно складывать, вычислять среднее арифметическое и т.п.
Описанная ситуация типична. Существует весьма много различных видов статистических данных. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента, то получаем т.н. цензурированные данные, состоящие из набора чисел – продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Такого рода данные часто используются при оценке и контроле надежности технических устройств.
Описание вида данных и, при необходимости, механизма их порождения – начало любого статистического исследования.
В простейшем случае статистические данные – это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке. Используют и более сложные признаки, перечень которых будет расширяться по мере развертывания изложения в учебнике.
При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат – числа, а часть – качественные (категоризованные) данные, то говорим о векторе разнотипных данных.
Одним элементом выборки, т.е. одним измерением, может быть и функция в целом. Например, электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.
Элементами выборки могут быть и бинарные отношения. Например, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы – образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т.д.
Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных – числовые и нечисловые. Соответственно прикладная статистика разбивается на две части – числовую статистику и нечисловую статистику (ее называют также статистикой нечисловых данных или статистикой объектов нечисловой природы).
Числовые статистические данные – это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы больших чисел и центральные предельные теоремы (см. приложение 3).
Нечисловые статистические данные – это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т.д..
Сведем информацию об основных областях прикладной статистики в табл.2. Отметим, что модели порождения цензурированных данных входят в состав каждой из рассматриваемых областей.
Таблица 2.
Области прикладной статистики
№ п/п |
Вид статистических данных |
Область прикладной статистики |
1 |
Числа |
Статистика (случайных) величин |
2 |
Конечномерные вектора |
Многомерный статистический анализ |
3 |
Функции |
Статистика случайных процессов и временных рядов |
4 |
Объекты нечисловой природы |
Нечисловая статистика |