Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Луценко Е.В. - Интеллектуальные информационные системы. Учебное пособие - Краснодар, КубГАУ. 2004. - 633 с..doc
Скачиваний:
4
Добавлен:
01.07.2025
Размер:
34.1 Mб
Скачать

Контрольные вопросы

1. Что выбирается в качестве классов распознавания и что в качестве факторов в задаче прогнозирования урожая?

2. Что такое "шкала качества" и "шкала количества"? Какие градации у этих шкал?

3. Как классифицировать факторы, влияющие на урожай?

4. В чем состоит задача прогнозирования количественных и качественных результатов выращивания сельхозкультур?

5. В чем состоит задача поддержки принятия решений при выборе зон и подзон выращивания, культур для выращивания, агротехнологий?

6. Каким образом можно научно обоснованно заменять одни факторы другими?

7. С какими проблемами сталкивается разработчик и исследователь при решении задачи прогнозирования урожая?

Литература по лабораторной работе

1. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). - Краснодар: КЮИ МВД РФ, 1996. - 280с.

2. Луценко Е. В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). – Краснодар: КубГАУ. 2002. – 605 с.

ЛР-10: "Исследование случайной семантической информационной модели при различных объемах выборки"

Краткая теория

Любая реальная информация о предметной области содержит как полезную информацию о закономерностях, так и шум. Соотношение между полезной информацией (сигналом) и шумом может быть различное:

– уровень сигнала может быть намного выше уровня шума, тогда шум можно считать несущественным;

– уровень сигнала может быть намного ниже уровня шума, тогда шум может существенно сказываться на свойствах модели.

Поэтому представляет интерес исследование семантической информационной модели, созданной на основе случайной обучающей выборки, в которой принадлежность анкет с описаниями объектов к классам и сам набор признаков в них – случайные.

Какая-то часть валидности обусловлена законами теории вероятностей, а какая-то – наличием закономерностей в предметной области и работой системы распознавания, причем в зависимости от параметров модели (размерности по классам и признакам и объема обучающей выборки).

Например, при увеличении объема выборки результат все ближе к предсказываемому теорией вероятностей. Но модель "борется" за повышение адекватности идентификации. И в результате получается валидность заметно выше, чем по теории вероятностей даже при довольно больших выборках.

Когда анализируешь величину интегральной валидности и оцениваешь ее в категориях "довольно хорошая", или "не достаточно высокая", то надо сравнивать ее с валидностью, получаемой по теории вероятностей. Например, если есть два класса, то валидность даже с неработающей системой распознавания должна быть 50% при равновероятных классах, а если классов 10, то валидность должна быть 10%. И только то, что свыше этого значения, предсказываемого теорией вероятности, можно отнести на счет закономерностей в предметной области и работы модели.

Если статистика мала и закон больших чисел не применим, то система "Эйдос" воспринимает шум как закономерности (причем даже иногда детерминистского характера, когда статистики вообще нет) и дает тем более высокую валидность модели, чем меньше статистика.

Получается, что о выявлении закономерностей в предметной области можно говорить только тогда, когда статистика достаточно велика, т.е. настолько велика, что модель может подавить или отсеять шум. Если бы в предметной области не было закономерностей (а был только шум), то валидность была бы близка с предсказываемой теорией вероятностей, но фактически она значительно выше.

При увеличении объема обучающей выборки:

Во-первых, валидность должна стремиться не к нулю, а к величине, предсказываемой теорией вероятностей для равновероятных событий. Можно, конечно, ввести некую величину (каузальная валидность), как разность фактической валидности в системе "Эйдос" и теоретически предсказанной по теории вероятностей. Вот она уже будет стремиться к нулю.

Во-вторых, свойства шума таковы, что эта каузальная валидность должна стремиться к нулю и при внутренней, и при внешней валидности. Это должно происходить просто по определению шума (корреляция белого шума с белым шумом равна нулю), и потому, что интегральный критерий сходства в модели представляет собой корреляцию.

В-третьих, то, что как показывают численные эксперименты, каузальная валидность довольно медленно стремится к нулю, может означать, с одной стороны, невысокое качество генератора псевдослучайных чисел, а с другой стороны, – высокое качество модели распознавания, по-видимому, являющейся мощным средством выявления закономерностей в предметной области. Кстати, учитывая это, можно сравнивать различные генераторы "на степень их случайности".

Можно исследовать случайную модель с такими же параметрами, как какая-нибудь из реальных моделей (с таким же количеством классов, признаков, анкет) и сравнить их валидность. Получится некая величина. Можно считать, что разница между валидностью в реальном примере и случайной модели обусловлена наличием причинно-следственных связей в предметной области.