Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема_ЭММ6.doc
Скачиваний:
42
Добавлен:
01.04.2015
Размер:
1.05 Mб
Скачать

6. Снижение размерности и отбор информативных показателей

При проведении экспертизы существует большое искушение использовать большое число признаков для выявления предпочтений, ранжирования. Но эффективность такого подхода весьма сомнительна. Только в очень редких случаях число информативных признаков больше 6. Поэтому часто эта рекомендация нарушается. Кроме того, иногда заранее трудно сделать вывод о том, какой набор признаков будет достаточным. Поэтому в исследовательской и практической статистической работе общее число признаков, регистрируемых на каждом из множества исследуемых объектов, как правило, очень велико. Тем не менее, имеющиеся многомерные наблюдения

, (6.1.)

следует подвергнуть статистической обработке, осмыслить либо ввести в базу данных для того, чтобы иметь возможность их использовать в нужный момент.

Представление каждого из наблюдений (6.1.) в виде вектора некоторых вспомогательных показателей с существенно меньшим (чем, т.е.) числом компонентобусловливается следующими причинами:

  • необходимостью наглядного представления (визуализации) исходных данных (6.1.), что достигается их проецированием на специально подобранное трехмерное пространство (), плоскость () или числовую прямую;

  • стремлением к лаконизму исследуемых моделей, обусловленному необходимостью упрощения расчетов и интерпретации полученных статистических выводов;

  • необходимостью существенного сжатия объемов хранимой статистической информации (без видимых потерь в ее информативности), если речь заходит о записи и хранении массивов типа (6.1.) в специальной базе данных.

При этом новые (вспомогательные) признаки могут выбираться из числа исходных или определяться по какому-либо правилу по совокупности исходных признаков, например, как их линейные комбинации. При формировании новой системы признаков к последним предъявляются разного рода требования, такие, как:

  1. наибольшая информативность (в определенном смысле);

  2. взаимная некоррелированность;

  3. наименьшее искажение геометрической структуры множества исходных данных.

В зависимости от варианта формальной конкретизации этих требований выбирается тот или иной алгоритм снижения размерности. Существует три основных типа принципиальных предпосылок, обуславливающих возможность перехода от большого числа исходных показателей состояния (поведения, эффективности функционирования) анализируемой системы к существенно меньшему числунаиболее информативных переменных:

  1. дублирование информации, доставляемой сильно взаимосвязанными признаками;

  2. неинформативность признаков, мало меняющихся при переходе от одного объекта к другому (малая «вариабельность» признаков);

  3. возможность агрегирования, т.е. простого или «взвешенного» суммирования, по некоторым признакам.

Формально задача перехода (с наименьшими потерями в информативности) к новому набору признаков может быть представлена следующим образом. Пусть- некоторая-мерная вектор-функция исходных переменныхи пусть- определенным образом заданная мера информативности-мерной системы признаков. Конкретный выбор функционалазависит от специфики решаемой задачи и опирается на один из возможных критериев:

  1. критерий автоинформативности, нацеленный на максимальное сохранение информации, содержащейся в исходном массиве - относительно самих исходных признаков;

  2. критерий внешней информативности, нацеленный на максимальное «выжимание» из информации, содержащейся в этом массиве относительно некоторых других (внешних) показателей.

Задача заключается в определении такого набора признаков , найденного в класседопустимых преобразований исходных показателей, что

.

Тот или иной вариант конкретизации этой постановки, определяющий конкретный выбор меры информативности и класса допустимых преобразований, приводит к конкретному методу снижения размерности:

  • анализу главных компонент;

  • факторному анализу;

  • экстремальной группировки признаков.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]