- •Связь с физиологией
- •[]Понятие «обучения без учителя» в теории распознавания образов
- •[]Типы входных данных
- •[]Решаемые задачи
- •[]Задачи кластеризации
- •[]Задачи обобщения
- •[]Задачи поиска правил ассоциации
- •[]Задачи сокращения размерности
- •[]Задачи визуализации данных
- •[]Некоторые приложения
- •1. Нейроподобный элемент (нейрон).
- •2. Нейроподобная сеть.
- •2.1. Модели нейронных сетей.
- •2.2. Обучение нейронной сети.
- •3. Нейрокомпьютеры.
- •Навчання нейронних мереж
- •Особенности
- •Преимущества
- •Применение
- •Класифікація ес Класифікація ес за завданням, що вирішується
- •Класифікація ес за зв'язком з реальним часом
Історія виникнення штучного інтелекту. (1)
Как прикладная наука "Искусственный интеллект" имеет теоретическую и экспериментальную части. Практически, проблема создания "Искусственного интеллекта" находится на стыке информатики и вычислительной техники.
На саму возможность мыслить о понятии "Искусственный интеллект" огромное влияние оказало рождение механистического материализма, которое начинается с работы Рене Декарта "Рассуждение о методе" (1637) и сразу в след за этим работы Томаса Гоббса "Человеческая природа" (1640).
Рене Декарт предположил, что животное — некий сложный механизм, тем самым сформулировав механистическую теорию.
Поэтому понятно, что без понимания механистичности в организмах не могла идти речь о понимании искусственного интеллекта даже в самом примитивном смысле, а наличие механистичности природы и общества выходят за рамки области об искусственном интеллекте, и строго говоря не являются необходимыми предпосылками.
[править]Технологические предпосылки к возникновению науки
В 1623 г. Вильгельм Шикард (нем. Wilhelm Schickard) построил первую механическую цифровую вычислительную машину, за которой последовали машины Блеза Паскаля (1643) и Лейбница (1671). Лейбниц также был первым, кто описал современную двоичную систему счисления, хотя до него этой системой периодически увлекались многие великие ученые[1][2]. В XIX веке Чарльз Бэббидж и Ада Лавлейс работали над программируемой механической вычислительной машиной.
ождение науки
В 1910—1913 гг. Бертран Рассел и А. Н. Уайтхэд опубликовали работу «Принципы математики», которая произвела революцию в формальной логике. В 1941 Конрад Цузе построил первый работающий программно-контролируемый компьютер. Уоррен Маккалок и Уолтер Питтс в 1943 опубликовали A Logical Calculus of the Ideas Immanent in Nervous Activity, который заложил основы нейронных сетей. [1]
Классические работы
В 1943 году в своей статье «Логическое исчисление идей, относящихся к нервной активности» У. Мак-Каллок и У. Питтс предложили понятие искусственной нейронной сети. В частности, ими была предложена модель искусственного нейронав которой каждый нейрон характеризовался как находящийся во «включенном» или «выключенном» состоянии, а переход во «включенное» состояние происходил в ответ на стимуляцию достаточного количества соседних нейронов.
Состояние нейрона рассматривалось как «фактически эквивалентное высказыванию, в котором предлагается адекватное количество стимулов». Работы этих ученых показали, например, что любая вычислимая функция может быть вычислена с помощью некоторой сети из соединенных нейронов и что все логические связки ("И", "ИЛИ", "НЕ" и т.д.) могут быть реализованы с помощью простых сетевых структур.
Кроме того, Мак-Каллок и Питтс выдвинули предположение, что сети,
структурированные соответствующим образом, способны к обучению.. Д. Хебб в работе «Организация поведения»[3] 1949 года описал основные принципы обучения нейронов.
Мак-Каллок и Питтс предложили модель, состоящую из искусственных нейронов, Дональд Хебб продемонстрировал простое правило обновления для модификации количества соединений между нейронами.
Эти идеи несколько лет спустя развил американский нейрофизиолог Фрэнк Розенблатт. Он предложил схему устройства, моделирующего процесс человеческого восприятия, и назвал его «перцептроном».именно Алан Тьюринг впервые выразил полное представление об искусственном интеллекте в своей статье Computing Machinery and Intelligence, которая была опубликована в 1950 году. В этой статье он описал тест Тьюринга, принципы машинного обучения, генетические алгоритмы и обучение с подкреплением.
Історія розвитку штучного інтелекту. (2)
В данной статье кратко описана история развития научных дисциплин, которые внесли свой вклад в область искусственного интеллекта в виде конкретный идей, воззрений и методов.
Философия (период с 428 года до н.э. по настоящее время)
Могут ли использоваться формальные правила для вывода правильных заключений?
Как такой идеальный объект, как мысль, рождается в таком физическом объекте, как мозг?
Каково происхождение знаний?
Каким образом знания ведут к действиям?
Аристотель
Точный свод законов, руководящих рациональной частью мышления, был впервые сформулирован Аристотелем 384—322 годы до н.э.). Он разработал систему, предназначенную для проведения правильных рассуждений, которая позволяла любому вырабатывать логические заключения механически, при наличии начальных предпосылок.
Томас Гоббс (1588-1679) предположил, что рассуждения аналогичны числовым расчетам и что «в наших неслышимых мыслях мы поневоле складываем и вычитаем». В то время автоматизация самих вычислений уже шла полным ходом; примерно в 1500 году Леонардо да Винчи (1452—1519) спроектировал, но не построил механический калькулятор; недавно проведенная реконструкция показала, что его проект является работоспособным.
Готтфрид Вильгельм Лейбниц (1646-1716) создал механическое устройство, предназначенное для выполнения операций над понятиями, а не над числами, но область его действия была довольно ограниченной.
После того как человечество осознало, каким должен быть набор правил, способных описать формальную, рациональную часть мышления, следующим этапом оказалось то, что разум стал рассматриваться как физическая система.
Рене Декарт (1596-1650) впервые опубликовал результаты обсуждения различий между разумом и материей, а также возникающих при этом проблем.
животные не обладают таким дуалистическим свойством, поэтому их можно рассматривать как своего рода машины. Альтернативой дуализму является материализм, согласно которому разумное поведение складывается из операций, выполняемых мозгом в соответствии с законами физики. Свободная воля — это просто форма, в которую в процессе выбора преобразуется восприятие доступных вариантов.
Дэвид Юм (1711 — 1776) в своей книге A Treatise of Human Nature (Трактат о человеческой природе) предложил метод, известный теперь под названием принципа индукции, который состоит в том, что общие правила вырабатываются путем изучения повторяющихся ассоциаций между элементами, которые рассматриваются в этих правилах.
В теории подтверждения Рудольфа Карнапа и Карла Хемпеля (1905—1997) предпринята попытка понять, как знания могут быть приобретены из опыта. В книге Карнапа The Logical Structure of the World определена явно заданная вычислительная процедура для извлечения знаний из результатов элементарных опытов. По-видимому, это —- первая теория мышления как вычислительного процесса.
Заключительным элементом проблемы разума является связь между знаниями и действиями. Данный вопрос для искусственного интеллекта является жизненно важным, поскольку интеллектуальность требует не только размышлений, но и действий.
Анализ на основе цели является полезным, но не дает ответа на то, что делать, если к цели ведет несколько вариантов действий или ни один вариант действий не позволяет достичь ее полностью. Антуан Арно (1612—1694) правильно описал количественную формулу для принятия решения о том, какое действие следует предпринять в подобных случаях.
В книге Utilitarianism приверженца утилитаризма Джона Стюарта Милла (1806—1873) провозглашена идея о том, что критерии принятия рациональных решений должны применяться во всех сферах человеческой деятельности.
Математика (период примерно с 800 года по настоящее время)
Каковы формальные правила формирования правильных заключений?
Как определить пределы вычислимости?
Как проводить рассуждения с использованием недостоверной информации?
Философы сформулировали наиболее важные идеи искусственного интеллекта, но для преобразования его в формальную науку потребовалось достичь определенного уровня математической формализации в трех фундаментальных областях: логика, вычисления и вероятность.
иде формальной логики становление как математической дисциплины фактически началась с трудов Джорджа Буля (1815-1864), который детально разработал логику высказываний, или булеву логику.
Альфред Тарский (1902—1983) впервые вывел как связать логические объекты с объектами реального мира. Следующий этап состоял в определении пределов того, что может быть сделано с помощью логики и вычислений.
Первым нетривиальным алгоритмом считается алгоритм вычисления наибольшего общего знаменателя, предложенный Евклидом.
Буль и другие ученые широко обсуждали алгоритмы логического вывода, а к концу XIX столетия уже предпринимались усилия по формализации общих принципов проведения математических рассуждений как логического вывода.
В 1931 году Гёдель показал, что действительно существуют реальные пределы вычислимости. Предложенная им теорема о неполноте показывает, что в любом языке, достаточно выразительном для описания свойств натуральных чисел, существуют истинные высказывания, которые являются недоказуемыми, в том смысле, что их истинность невозможно установить с помощью какого-либо алгоритма.
Этот фундаментальный результат может также рассматриваться как демонстрация того, что имеются некоторые функции от целых чисел, которые не могут быть представлены с помощью какого-либо алгоритма, т.е. они не могут быть вычислены.
Это побудило Алана Тьюринга (1912-1954) попытаться точно охарактеризовать, какие функции способны быть вычисленными. что машина Тьюринга способна вычислить любую вычислимую функцию.
Кроме того, Тьюринг показал, что существуют некоторые функции, которые не могут быть вычислены машиной Тьюринга. Например, вообще говоря, ни одна машина не способна определить, возвратит ли данная конкретная программа ответ на конкретные входные данные или будет работать до бесконечности.
гораздо большее влияние на развитие искусственного интеллекта оказало понятие неразрешимости. Грубо говоря, задача называется неразрешимой, если время, требуемое для решения отдельных экземпляров этой задачи, растет экспоненциально с увеличением размеров этих экземпляров.
Кроме логики и теории вычислений, третий по величине вклад математиков в искусственный интеллект состоял в разработке теории вероятностей. Идея вероятности была впервые сформулирована итальянским математиком Джероламо Кардано (1501—1576), который описал ее в терминах результатов событий с несколькими исходами, возникающих в азартных играх.
Теория вероятностей быстро стала неотъемлемой частью всех количественных наук, помогая использовать недостоверные результаты измерений и неполные теории. Пьер Ферма (1601 — 1665), Блез Паскаль (1623-1662), Джеймс Бернулли (1654-1705), Пьер Лаплас (1749—1827) и другие ученые внесли большой вклад в эту теорию и ввели новые статистические методы.
Томас Байес (1702—1761) предложил правило обновления вероятностей с учетом новых фактов. Правило Байеса и возникшее на его основе научное направление, называемое байесовским анализом, лежат в основе большинства современных подходов к проведению рассуждений с учетом неопределенности в системах искусственного интеллекта.
Технології інтелектуального аналізу данних. (3)
Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пиатецким-Шапиро в 1989 году
Английское словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания [4]: просев информации, добыча данных, извлечение данных, а, также, интеллектуальный анализ данных. Более полным и точным является словосочетание обнаружение знаний в базах данных(knowledge discovering in databases, KDD).
Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечеткой логики. К методам Data Mining нередко относят статистические методы(дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).
Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
Введение
Методы Data Mining (или, что то же самое, Knowledge Discovery In Data, сокращённо, KDD) лежат на стыке баз данных, статистики и искусственного интеллекта [5].
Исторический экскурс
Область Data Mining началась с семинара (англ. workshop), проведёного Григорием Пятецким-Шапиро в 1989 году.[1]
Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — Data Mining (который следует переводить как «раскопка данных») и Knowledge Discovery In Data (который следует переводить как «открытие знаний в базах данных»).
В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по Data Mining.
Постановка задачи
Первоначально, задача ставится следующим образом:
-
имеется достаточно крупная база данных;
-
предполагается, что в базе данных находятся некие «скрытые знания».
Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.
Что означает «скрытые знания»? Это должны быть обязательно знания:
-
ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
-
нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
-
практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;
-
доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.
Data mining и базы данных
Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных.
Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.
Data mining и статистика
В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы (). В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.
Data mining и искусственный интеллект
Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:
-
ассоциативные правила;
-
деревья решений;
-
кластеры;
-
математические функции.
Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».
Задачи
Задачи, решаемые методами Data Mining, принято разделять на
-
описательные (англ. descriptive);
-
предсказательные (англ. predictive).
В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
К описательным задачам относятся:
-
Поиск ассоциативных правил или паттернов (образцов).
-
Группировка объектов или кластеризация.
-
Построение регрессионной модели.
К предсказательным задачам относятся:
-
Классификация объектов (для заранее заданных классов).
-
Построение регрессионной модели.
Алгоритмы обучения
Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.
Этапы обучения
Выделяется типичный ряд этапов решения задач методами Data Mining:
-
Формирование гипотезы;
-
Сбор данных;
-
Подготовка данных (фильтрация);
-
Выбор модели;
-
Подбор параметров модели и алгоритма обучения;
-
Обучение модели (автоматический поиск остальных параметров модели);
-
Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
-
Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.
Подготовка данных
Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.
Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.
Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков — это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.
Векторы признаков делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей.
Метод кластерного аналізу. (4)
Кластерний аналіз (англ. Data clustering) - задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, що називаються кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися. Задача кластеризації відноситься до статистичної обробки, а також до широкого класу задач навчання без учителя.
Кластерний аналіз - це багатовимірна статистична процедура, що виконує збір даних, що містять інформацію про вибірку об'єктів, сортування об'єктів в порівняно однорідні групи (кластери) (Q-кластеризація, або Q-техніка, власне кластерний аналіз).
Кластер - група елементів, якi характеризуються загальною властивістю, головна мета кластерного аналізу - знаходження груп схожих об'єктів у вибірці. Спектр застосування кластерного аналізу дуже широкий: його використовують в археології, медицині, психології, хімії, біології, державному управлінні, філології, антропології, маркетингу, соціології та інших дисциплінах.
Кластерний аналіз виконує такі основні завдання:
-
Розробка типології або класифікації.
-
Дослідження корисних концептуальних схем групування об'єктів.
-
Породження гіпотез на основі дослідження даних.
-
Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні у наявних даних.
Незалежно від предмета вивчення застосування кластерного аналізу припускає наступні етапи:
-
Відбір вибірки для кластеризації
-
Визначення безлічі змінних, за якими будуть оцінюватися об'єкти у вибірці.
-
Обчислення значень тієї чи іншої міри схожості між об'єктами.
-
Застосування методу кластерного аналізу для створення груп схожих об'єктів.
-
Перевірка достовірності результатів кластерного рішення.
Кластерний аналіз пред'являє наступні вимоги до даних:
-
Показники не повинні корелювати між собою,
-
Показники повинні бути безрозмірними;
-
Їх розподіл має бути близько до нормального;
-
Показники повинні відповідати вимогу «стійкості», під якою розуміється відсутність впливу на їх значення випадкових факторів;
-
Вибірка повинна бути однорідна, не містити «викидів». Якщо кластерного аналізу передує факторний аналіз, то вибірка не потребує «ремонту» - викладені вимоги виконуються автоматично самою процедурою факторного моделювання (є ще одна перевага - z-стандартизація без негативних наслідків для вибірки; якщо її проводити безпосередньо для кластерного аналізу, вона може спричинити за собою зменшення чіткості поділу груп). В іншому випадку вибірку потрібно коригувати.
Типи вхідних даних:
-
Опис об'єктів за ознаками. Кожен об'єкт описується набором своїх характеристик, які називаються ознаками. Ознаки можуть бути числовими або нечислових.
-
Матриця відстаней між об'єктами. Кожен об'єкт описується відстанями до всіх інших об'єктів навчальної вибірки.
Цілі кластеризації
-
Розуміння даних шляхом виявлення кластерної структури. Розбиття вибірки на групи схожих об'єктів дозволяє спростити подальшу обробку даних і прийняття рішень, застосовуючи до кожного кластеру свій метод аналізу (стратегія «розділяй і володарюй»).
-
Стиснення даних. Якщо початкова вибірка надто велика, то можна скоротити її, залишивши по одному найбільш типовому представнику від кожного кластеру.
-
Виявлення новизни (англ. novelty detection). Виділяються нетипові об'єкти, які не вдається приєднати до жодного з кластерів.
У першому випадку число кластерів намагаються зробити поменше. У другому випадку важливіше забезпечити високу ступінь подібності об'єктів усередині кожного кластеру, а кластерів може бути скільки завгодно. У третьому випадку найбільший інтерес представляють окремі об'єкти, які не вписуються ні в один з кластерів.
Самоорганізація. (5)
В работе [Kohonen T. 1984. Self–organization and associative memory. Series in Information Sciences, vol. 8. Berlin: Springer verlag.] описывались интересные и полезные результаты исследований Кохонена на самоорганизующихся структурах, используемых для задач распознавания образов. Вообще эти структуры классифицируют образы, представленные векторными величинами, в которых каждый компонент вектора соответствует элементу образа. Алгоритмы Кохонена основываются на технике обучения без учителя. После обучения подача входного вектора из данного класса будет приводить к выработке возбуждающего уровня в каждом выходном нейроне; нейрон с максимальным возбуждением представляет классификацию. Так как обучение проводится без указания целевого вектора, то нет возможности определять заранее, какой нейрон будет соответствовать данному классу входных векторов. Тем не менее это планирование легко проводится путем тестирования сети после обучения.
Алгоритм трактует набор из n входных весов нейрона как вектор в n-мерном пространстве. Перед обучением каждый компонент этого вектора весов инициализируется в случайную величину. Затем каждый вектор нормализуется в вектор с единичной длиной в пространстве весов. Это делается делением каждого случайного веса на квадратный корень из суммы квадратов компонент этого весового вектора.
Все входные вектора обучающего набора также нормализуются и сеть обучается согласно следующему алгоритму:
1. Вектор Х подается на вход сети.
2. Определяются расстояния Dj (в n-мерном пространстве) между Х и весовыми векторами Wj каждого нейрона. В евклидовом пространстве это расстояние вычисляется по следующей формуле
,
где хi – компонента i входного вектора X, wij – вес входа i нейрона j.
3. Нейрон, который имеет весовой вектор, самый близкий к X, объявляется победителем. Этот весовой вектор, называемый Wc, становится основным в группе весовых векторов, которые лежат в пределах расстояния D от Wc.
4. Группа весовых векторов настраивается в соответствии со следующим выражением:
Wj(t+l) = Wj(t) + [X – Wj(t)]
для всех весовых векторов в пределах расстояния D от Wc
5. Повторяются шаги с 1 по 4 для каждого входного вектора.
В процессе обучения нейронной сети значения D и постепенно уменьшаются. Автор [3] рекомендовал, чтобы коэффициент в начале обучения устанавливался приблизительно равным 1 и уменьшался в процессе обучения до 0, в то время как D может в начале обучения равняться максимальному расстоянию между весовыми векторами и в конце обучения стать настолько маленьким, что будет обучаться только один нейрон.
В соответствии с существующей точкой зрения, точность классификации будет улучшаться при дополнительном обучении. Согласно рекомендации Кохонена, для получения хорошей статистической точности количество обучающих циклов должно быть, по крайней мере, в 500 раз больше количества выходных нейронов.
Обучающий алгоритм настраивает весовые векторы в окрестности возбужденного нейрона таким образом, чтобы они были более похожими на входной вектор. Так как все векторы нормализуются в векторы с единичной длиной, они могут рассматриваться как точки на поверхности единичной гиперсферы. В процессе обучения группа соседних весовых точек перемещается ближе к точке входного вектора. Предполагается, что входные векторы фактически группируются в классы в соответствии с их положением в векторном пространстве. Определенный класс будет ассоциироваться с определенным нейроном, перемещая его весовой вектор в направлении центра класса и способствуя его возбуждению при появлении на входе любого вектора данного класса.
После обучения классификация выполняется посредством подачи на вход сети испытуемого вектора, вычисления возбуждения для каждого нейрона с последующим выбором нейрона с наивысшим возбуждением как индикатора правильной классификации.
Навчання без учителя. (6)
Обучение без учителя (англ. Unsupervised learning, самообучение, спонтанное обучение) — один из способов машинного обучения, при решении которых испытуемая система спонтанно обучается выполнять поставленную задачу, без вмешательства со стороны экспериментатора. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Как правило, это пригодно только для задач, в которых известны описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.
Обучение без учителя часто противопоставляется обучению с учителем, когда для каждого обучающего объекта принудительно задаётся «правильный ответ», и требуется найти зависимость между стимулами и реакциями системы.
Связь с физиологией
Несмотря на многочисленные прикладные достижения, обучение с учителем критиковалось за свою биологическую неправдоподобность. Трудно вообразить обучающий механизм в мозге, который бы сравнивал желаемые и действительные значения выходов, выполняя коррекцию с помощью обратной связи. Если допустить подобный механизм в мозге, то откуда тогда возникают желаемые выходы? Обучение без учителя является намного более правдоподобной моделью обучения в биологической системе. Развитая Кохоненом и многими другими, она не нуждается в целевом векторе для выходов и, следовательно, не требует сравнения с предопределенными идеальными ответами[1].
[]Понятие «обучения без учителя» в теории распознавания образов
Для построения теории и отхода от кибернетического эксперимента в различных теориях эксперимент с обучением без учителя пытаются формализовать математически. Существует много различных подвидов постановки и определения данной формализации. Одна из которых отражена в теории распознавания образов.
Такой отход от эксперимента, и построение теории, связанно с различным мнением специалистов во взглядах. Различия, в частности, заключаются при ответе на вопрос: «Возможны ли единые принципы адекватного описания образов различной природы или же такое описание каждый раз есть задача для специалистов конкретных знаний?».
В первом случае, постановка должна быть нацелена на выявление общих принципов использования априорной информации при составлении адекватного описания образов. Важно, что здесь априорные сведения об образах различной природы разные, а принцип их учета один и тот же. Во втором случае, проблема получения описания выносится за рамки общей постановки и теория обучения машин распознаванию образов с точки зрения статистической теории обучения распознаванию образов может быть сведена к проблеме минимизации среднего риска в специальном классе решающих правил [2].
В теории распознавания образов различают в основном три подхода к данной проблеме [3] :
-
Эвристические методы;
-
Математические методы;
-
Лингвистические (синтаксические) методы.
[]Типы входных данных
-
Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
-
Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.
[]Решаемые задачи
Экспериментальная схема обучения без учителя часто используется в теории распознавания образов, машином обучении. При этом в зависимости от подхода формализуется в ту или иную математическую концепцию. И только в теории искусственных нейронных сетей задача решается экспериментально, применяя тот или иной вид нейросетей. При этом, как правило, полученная модель может не иметь интерпретации, что иногда относят к минусам нейросетей. Но тем не менее, результаты получаются ничем не хуже, и при желании могут быть интерпретированы при применении специальных методов.
[]Задачи кластеризации
Эксперимент обучения без учителя при решении задачи распознавания образов можно сформулировать как задачу кластерного анализа. Выборка объектов разбивается на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний.
Методы решения
-
Графовые алгоритмы кластеризации
-
Статистические алгоритмы кластеризации
-
Иерархическая кластеризация или таксономия
-
Нейронная сеть Кохонена
-
k-means
Кластеризация может играть вспомогательную роль при решении задач классификации и регрессии. Для этого нужно сначала разбить выборку на кластеры, затем к каждому кластеру применить какой-нибудь совсем простой метод, например, приблизить целевую зависимость константой.
Методы решения
-
Нейронная сеть встречного распространения
-
Метод радиальных базисных функций