
- •Глава 10. Машинное обучение
- •10.1. Компоненты процесса обучения
- •10.2. Индуктивное обучение
- •10.3. Система id3
- •10.4. Система induce
- •Индуктивно сгенерированные правила
- •Переменные, используемые для классификации
- •10.5. Алгоритм обучения понятиям
- •10.6. Неинкрементальное (параллельное) обучение в решетках Галуа
- •10.7. Адаптивная дискретизация непрерывных значений атрибутов
- •10.8. Открытие знаний
- •10.9. Типы закономерностей, выявляемых методами над
- •10.10. Бизнес-приложения методов иад
- •10.11. Классы систем иад Предметно-ориентированные аналитические системы
- •Статистические пакеты
- •Системы рассуждений на основе аналогичных случаев (cbr case based reasoning)
- •Деревья решений (decision trees)
- •Эволюционное программирование
- •Генетические алгоритмы
- •Алгоритмы ограниченного перебора
- •К-ближайший сосед
- •Технология deep data mining
- •10.12. Архитектура систем иад
- •10.13. Применение алгоритмов типа аво (вычисления оценок) для построения итерационных алгоритмов поиска
- •10.14. Алгоритм распознавания типа «Кора»
- •10.15. Обучение машин распознаванию образов
- •10.16. Алгоритмы автоматического построения классификаций
- •Общее описание методов партициальной кластеризации
- •Алгоритм партициальной кластеризации. Метод k-средних (k-means)
- •Алгоритмы иерархической кластеризации
- •Программные средства интеллектуального анализа данных
- •Ibm Visualization Data Explorer
- •Data mining suite
Глава 10. Машинное обучение
10.1. Компоненты процесса обучения
Машинное обучение— это синоним процедуры приобретения знаний, которая может быть использована, когда эксперт по знаниям:
не существует,
недостаточно надежен,
чересчур дорог,
не доступен постоянно во времени.
К сожалению, экспетры, обладающие знаниями в области экономики зачастую характеризуется всеми этими чертами в различной степени. По опыту авторов, которые строили ИИС для этой области, очень трудно найти консультанта по инвестициям или маркетингу, который отвечал бы всем этим требованиям. Системы автоматического приобретения знаний должны быть существенными элементами экспертной системы в области инвестиций. Процесс обучения машины в общем виде поясняется на рис. 10.1.
Рис. 10.1. Модель обучения
Система генерирует знания, полученные в результате изучения среды. В процессе сравнения выходов ИИС и объекта информатизации в соответствии с критерием выявляется расхождение между результатами реального мира и выходом системы. Цель заключается в том, чтобы трансформировать реакцию среды и оценку в соответствии с критерием в форму знания.
Стратегии обучения, которые получили значительное внимание в литературе по искусственному интеллекту (ИИ), включают индуктивное обучение, обучение распознаванию образов (машинное обучение) с учителем и без учителя (кластеризация).
Одной из сфер применения методов машинного обучения, в которой входные данные формализованы в высокой степени, а рекомендации компьютера выливаются в реальные деньги, является рынок ценных бумаг.
Как отмечалось ранее, временные ряды цен и объемов продаж (трейдинга) содержат ценную, хотя и не постоянную информацию относительно того, как следует распределить средства для приобретения ценных бумаг. Многие факты свидетельствуют, что не обязательно иметь исторические данные за много лет, чтобы получить эффективные правила решения по ценным бумагам.
Как мы увидим, статистически значимые количественные предсказания краткосрочного изменения цен могут быть получены на основании изучения сравнительно коротких временных фреймов. Причина этого в том, что значительная часть активности по большинству направлений обеспечивается профессиональными трейдерами, включая специалистов, непрерывно пересматривающих свои пакеты ценных бумаг.
Комбинация признаков из одного или двух временных рядов, карт цен, объемов торгов, изменений средних значений цен, корреляций и т.д. могут быть использованы как входные переменные для прогнозируемого распределения цен, которое не может быть определено точно. Рассмотрим, например, поведение функции распределения % ценных бумаг в зависимости от стоимости в течение данного временного промужутка.
Цены случайны, имеет место их высокая изменчивость, следовательно, широкого однородного распределения. График зависимости % ценных бумаг от цены имеет следующий вид (рис 10.2).
Цены случайны, имеет место их низкая изменчивость, следовательно, в данном случае зависимость имеет вид узкого однородного распределения.
Цены имеют тенденцию к росту, объем торгов постоянный, следовательно, имеет место однородное распределение, причем среднее меньше текущих цен.
Цены имеют тенденцию к росту, объем торгов падает, следовательно, имеет место трапецеидальное распределение, среднее ниже текущих цен.
Цены имеют тенденцию к падению, объем торгов высок, затем низок, затем высок, имеет место бимодальное распределение, среднее ниже текущей цены.
Цены растут, затем падают вниз, объем постоянен, имеет место однородное распределение, среднее высшего текущего значения.
Рис. 10.2. График распределения процента ценных бумаг от цены
При наличии системы индуктивного обучения указанные выше соотношения могут быть преобразованы в правила поведения трейдера, с использованием байесовских моделей, фактора уверенности, подхода с точки зрения нечеткой логики. Поскольку точные механизмы, которые определяют точку равновесия спрос—предложение, неизвестны, и, возможно, являются динамическими, можно непосредственно обратиться к предсказанию и изменений цены в качестве заключения из таких правил. Соответствующие правила вывода могут использовать некоторые графические шаблоны (чарты), которые имеют место на диаграммах изменения цен и которыми обычно пользуются специалисты по техническому анализу, применяющие чартисткую методологию. Использование примитивов чарта в таком вспомогательном смысле не следует путать с обычной чартистской методологией. Преимуществами использования чарт-примитивов является то, что они могут быть быстро извлечены из существующих сырых данных и однозначно распознаются, и если их отобразить графически. Кроме того, они помогают процессу объяснения. Подробнее графические шаблоны и их использование для прогнозирования временных рядов рассмотрены в главе 12.