- •Глава 1
- •Искусственный интеллект
- •Фактуальное и операционное знание
- •Признаки иис
- •Системы с интеллектуальным интерфейсом
- •Экспертные системы
- •Самообучающиеся системы
- •Адаптивные информационные системы
- •Языки программирования для ии и языки представления знаний
- •Глава 2
- •Данные и знания
- •Модели представления знаний
- •Глава 3
- •Системы продукций
- •Стратегии поиска в пространстве состояний
- •Рекурсивный поиск
- •Глава 4
- •Введение в экспертные системы. Определение и структура
- •Классификация экспертных систем
- •Коллектив разработчиков
- •Технология проектирования и разработки
- •Глава 5
- •Поле знаний
- •Стратегии получения знаний
- •Теоретические аспекты извлечения знаний
- •Теоретические аспекты структурирования знаний
- •Технологии инженерии знаний
- •Глава 6
- •Задача классификации
- •Деревья решений
- •Искусственные нейронные сети
- •Глава 7
- •Способы аналитической обработки данных
- •Некоторые бизнес-приложения Data Mining
- •Типы закономерностей
- •Процесс нахождения нового знания
- •Глава 1 2
- •Глава 2 15
- •Глава 3 23
- •Глава 4 45
- •Глава 5 54
- •Глава 6 62
- •Глава 7 88
Глава 5
Теоретические аспекты извлечения знаний
Поле знаний
Поле знаний — это условное неформальное описание основных понятий и взаимосвязей между понятиями предметной области, выявленных из системы знаний эксперта, в виде графа, диаграммы, таблицы или текста.
Поле знаний формируется на третьей стадии разработки ЭС (стадии структурирования).
Аналитик должен представить модель знаний о предметной области на некотором «своем» языке. Наиболее применима к сложным сферам человеческой деятельности семиотическая модель.
Семиотика включает:
синтаксис, то есть совокупность правил построения языка, или отношения между знаками;
семантику, то есть связь между элементами языка и их значениями, или отношения между знаками и реальностью;
прагматику, то есть отношения между знаками и их пользователями.
Поле знаний — это некоторая семиотическая модель. Рассмотрим компоненты поля знаний.
Синтаксическую структуру поля знаний можно представить как
P = (I,O,M),
где I — структура исходных данных, подлежащих обработке и интерпретации в ЭС; O — структура выходных данных, т.е. результат работы ЭС; M — операциональная модель предметной области, на основании которой происходит модификация I в O .
Семантика придает определенное значение предложениям любого формального языка. При проведении структурного анализа предметной области инженер по знаниям формирует поле знаний.
Стратегии получения знаний
Формирование поля знаний — процесс получения знаний, когда происходит перенос компетентности экспертов на инженеров по знаниям.
Можно выделить три основные стратегии проведения стадии получения знаний при разработке ЭС.
Извлечение знаний (knowledge elicitation) — это процедура взаимодействия аналитика с источником знаний (экспертом), в результате которой становятся явными процесс рассуждений специалистов при принятии решения и структура их представлений о предметной области.
Это длительная и трудоемкая процедура, в которой инженер по знаниям воссоздает модель предметной области, которой пользуются эксперты для принятия решений.
Приобретение знаний (knowledge acquisition) — процесс наполнения базы знаний экспертом с использованием специализированных программных средств.
Формирование знаний (machine learning) — процесс анализа данных и выявления скрытых закономерностей с использованием специального математического аппарата и программных средств.
Теоретические аспекты извлечения знаний
Существует три основных аспекта процедуры извлечения знаний:
психологический;
лингвистический;
гносеологический.
Психологический аспект является ведущим. Он определяет успешность и эффективность взаимодействия инженера по знаниям с экспертом.
При разговорном общении происходят следующие потери информации:
задумано —100%;
приобрело словесную форму —90%;
высказано — 80%;
выслушано — 70%;
понято — 60%;
осталось в памяти — 24% .
Общение невозможно без следующих компонентов:
участники общения (партнеры);
средства общения (процедура);
предмет общения(знания).
Поэтому возникает три слоя психологических проблем:
контактный слой;
процедурный слой;
когнитивный слой.
Следующие параметры партнеров (участников общения) влияют на результат процедуры извлечения знаний: пол, возраст, личность, темперамент, мотивация и др.
Процедурный слой включает следующие параметры:
ситуация общения (место, время, продолжительность);
оборудование (средства, мебель, освещенность);
профессиональные приемы (темп, стиль, методы).
Когнитивный слой описывается следующим набором факторов:
когнитивный стиль (импульсивность—рефлексивность, полезависимость— поленезависимость, ригидность-гибкость, когнитивная эквивалентность);
семантическая репрезетативность поля знаний.
Лингвистический аспект касается исследований языковых проблем, так как язык — основное средство в процессе извлечения знаний. Можно выделить три слоя лингвистических проблем:
«общий код»;
понятийная структура;
словарь пользователя.
«Общий код» связан с проблемой различия языков эксперта и инженера по знаниям.
Язык аналитика состоит из
общенаучной терминологии из его «теоретического багажа»;
терминов предметной области, которые он почерпнул из специальной литературы;
бытового разговорного языка.
Язык эксперта включает
общенаучную терминологию;
специальную терминологию, принятую в предметной области;
бытовой язык;
неологизмы (профессиональный жаргон).
В дальнейшем «общий код» преобразуется в семиотическую сеть, которая является прообразом поля знаний.
Формирование понятийной структуры состоит в построении иерархической сети понятий. Основная особенность естественного интеллекта и памяти — это связность всех понятий в некоторую сеть. Поэтому для разработки базы знаний нужен не словарь, а энциклопедия, в которой все термины объяснены в словарных статьях со ссылками на другие термины.
Создание «общего кода» и понятийной структуры направлены на создание адекватной базы знаний. Однако часто профессиональный уровень конечного пользователя не позволяет ему применить специальный язык предметной области в полном объеме. Таким образом, необходимо формировать отдельный словарь для создания дружеского интерфейса с пользователем.
Гносеологический аспект извлечения знаний объединяет методологические проблемы получения нового научного знания, поскольку при создании базы знаний эксперт часто впервые формулирует некоторые закономерности, до того момента составляющие его личный опыт.
Познание часто сопровождается созданием новых понятий и теорий. Иногда эксперт порождает новые знания прямо в ходе беседы с аналитиком. Такая генерация знаний полезна и самому эксперту, который до того момента мог не осознавать ряд соотношений и закономерностей предметной области. Аналитику может помочь тут и инструментарий системной методологии, позволяющий использовать известные принципы логики научных исследований, понятийной иерархии науки. Эта методология заставляет его за частным всегда стремиться увидеть общее, то есть строить цепочки.
Гносеологическая цепочка имеет вид: факт — обобщенный факт — эмпирический закон — теоретический закон.
Такой подход согласуется со структурой самого знания, которое имеет два уровня — эмпирический (наблюдения, явления), теоретический (законы, абстракции, обобщения).
Основными методологическими критериями научности, позволяющими считать научным и само новое знание и способ его получения, являются внутренняя согласованность, системность, объективность, историзм.
