
- •Методы извлечения знаний Три аспекта процедуры извлечения знаний
- •1) Гносеологический аспект извлечения знаний
- •Э_2 - установление связей и закономерностей
- •2)Классификация практических методов извлечения знаний
- •3) Текстологические и коммуникативные методы
- •4) Коммуникативные методы извлечения знаний.
2)Классификация практических методов извлечения знаний
Признак классификации |
Наименование классов методов извлечения знаний | ||||
По виду источника знаний |
Коммуникативные методы (ИЗ – эксперт(ы)) |
Текстологическиеметоды (ИЗ – тексты): анализ учебников, анализ литературы, анализ документов… | |||
По статусу Аналитика |
Пассивные |
Активные | |||
Наблюдение, Протокол <Мыслей вслух>, Лекции | |||||
По числу Экспертов (Активные) |
Групповые |
Индивидуальные |
| ||
|
Круглый стол, <Мозговой штурм> и Ролевые игры |
Анкетирование, интервью, Диалог, Экспертные игры |
|
Коммуникативные методы извлечения знаний охватывают методики контактов А. и непосредственного источника знаний - Э.
Текстологические методы извлечения знаний охватывают методы извлечения знаний из документов и спец. Литературы.
В Пассивных методах ведущая роль передается эксперту , А. только протоколирует его рассуждения.
В активных методах инициатива в руках Аналитика, который строит контакты с Э. на основе своей активной позиции.
3) Текстологические и коммуникативные методы
С извлечением знаний из текстов мы сталкиваемся ежедневно. Этот способ всегда должен предшествовать коммуникативным методам, подготавливая аналитика к работе с экспертом, знакомя его с основными терминами и идеями ПО.
Задачу извлечения знаний из текстов можно сформулировать, как задачу понимания и выделения смысла текста.
М_1 |
V |
T |
I |
M_2 |
Эксперт |
Вербализация === |
Текст книги |
Понимание === |
Аналитик |
Схема извлечения знаний из текстов
Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора книги лежат во вторичной структуре (смысловой или макроструктуре текста). Можно выделить две смысловых структуры:
М_1– смысл, который пытался заложитьавтор,это его модель мира;М_2– смысл, которыйпостигает читатель(аналитик) в процессе интерпретации (I). Таким образом, получаем соотношение:
V(М_1) = Т.
Сложность процесса извлечения знаний заключается в принципиальной не возможности совпадения знаний М_1 и М_2. Т.к. в текст книги входит не вся совокупность М_1, а лишь часть. И в ходе понимания текста в процессе создания М_2 участвует не только Т, но и вся совокупность знаний аналитика. Следовательно, справедлива схема:
-
Т - книга
I_1 (Аналитик 1)
M_2(А1)
I_2 (Аналитик 2)
M_2(А2)
ПОНИМАНИЕ (I_1, I_2) всегда относительно.
В любом профессиональном тексте (М_1) есть 2 компонента (V):
первичный фактический материал, система понятий, сложившаяся в данной предметной области в момент создания текста;
(дополнительные компоненты) – субъективные взгляды автора + заимствования из других источников.
Основными моментами ПОНИМАНИЯ текста являются следующие шаги:
1)выдвижение предварительной гипотезы о смысле всего текста,
2)определение специальных терминов,
3)возникновение общей гипотезы о содержании текста (о знаниях),
4)От целого к частям – Под влиянием общей гипотезы интерпретация отдельных фрагментов текста,
5)Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (КЛЮЧЕВЫМИ) словами и фрагментами, а также за счет формирования абстрактных понятий, обобщающие конкретные фрагменты знаний.
6) От частей к целому – коррекция общей гипотезы относительно содержащихся в тексте фрагментов знаний.
7)Принятие основной гипотезы, т.е. формирование М_2.
Центральными моментами процесса ПОНИМАНИЯ являются шаги 5 и 7 (т.е. Формирование смысловой структуры текста, выделение КС и связывание их в семантическую структуру). При анализе текста важно выявление внутренних связей между отдельными элементами текста. Традиционно выделяют 2 вида таких связей:
эксплицитные (явные связи), выражаются во внешнем дроблении текста,
имплицитные (скрытые связи).
Эксплицитные связи делят текст на параграфы с помощью перечисления компонентов, вводных слов (например, Однако, Во-первых , и т.д.).
Имплицитные связи между отдельными КС вызывают основное затруднение при понимании.
АЛГОРИТМ извлечения знаний из текста.
1) Составление базового списка литературы для ознакомления с ПО,
2) Беглое прочтение с выписыванием незнакомых слов
3) Консультация со специалистами или со словарем для понимания терминов
4) Внимательное (второе) прочтение текста с выписыванием НАБОРОВ КЛЮЧЕВЫХ СЛОВ (НКС).
5)Определение связей между НКС, разработка семантической структуры текста в форме графа или сжатого текста (реферата). Фактически формирование поля знаний.
6)Третье прочтение текста и коррекция поля знаний при необходимости.
Машинные методы извлечения знаний из текстов развиты очень слабо. Наиболее развитыми решениями в этой области являются т.н. методы лексико-семантического анализа, а также модели понимания текста на лингвистическом и семантическом уровнях.
Более продвинутыми являются модели понимания на лингвистическом уровне, включающие:
морфологический и синтаксический анализ,
- семантический анализ, который использует результаты работы первой части, а также словарную или справочную информацию для построения формализованного образа текста.
Анализ текста требует его предварительной разметки, а также наличия словаря ПО (тезауруса).