4.6.4. Приобретение знаний из текстов

Как было указано в параграфе 4.3, даже ручные методы выявления знаний из текста крайне слабо разработаны. В тех же немногих случаях, когда применяются автоматизированные методики, речь, как правило, идет о методах лексико-семантического анализа, а также о моделях понимания текста.

Наибольшую известность имеют модели понимания на лингвистическом уровне. Системы, основанные на них, состоят в большинстве случаев из двух частей:

• первая — морфологический и синтаксический анализ;

• вторая — семантический анализ, который использует результаты работы первой части, а также словарную или справочную информацию для построения формализованного образа текста.

Говоря о семантическом анализе текста, надо иметь в виду, что всякие отношения текстах его семантикой начинаются после того, как в нашем распоряжении оказывается некоторая модель действительности. Объектами этой модели, в частности, могут являться индивиды и отношения.

Таким образом, первая проблема, возникающая при попытках автоматического извлечения знаний из текста, — это выявление свойств элементов текста для соотнесения этих элементов с объектами модели. Крайне редко эти свойства присутствуют в тексте эксплицитно, то есть явно.

Вторая особенность существующих систем анализа текста — это, как правило, необходимость использования словаря предметной области для выполнения морфологического анализа, выделения имен и словосочетаний и т. д. Однако требование предварительного создания словаря предметной области одновременно сильно осложняет задачу и уменьшает степень универсальности получаемой системы.

Понимание текста на семантическом уровне предполагает выявление не только лингвистических, но и логических отношений между языковыми объектами [Апресян, 1974]. Среди подходов к пониманию текста на семантическом уровне следует выделить модели типа «смысл — текст», в частности, модель семантик предпочтения [Wilks, 1976], модель концептуальной зависимости [Хейес-Рот и др., 1987]. В модели «смысл — текст» [Мельчук, 1974] предлагается семантическое представление на основе семантического графа и описания коммуникативной структуры текста.

В системе KRITON [Diderich, Ruchman, May, 1987] анализ текста используется для выявления хорошо структурированных знаний из книг, документов, описаний, инструкций. Основанный на контент-анализе метод протокольного анализа используется для выявления процедурных знаний. Он осуществляется в пять шагов.

1. Протокол делится на сегменты на основании пауз, которые делает эксперт в процессе записи.

2. Семантический анализ сегментов, формирование высказываний для каждого сегмента.

3. Из текста выделяются операторы и аргументы.

4. Делается попытка поиска по образцу в БЗ для обнаружения переменных в высказываниях (переменная вставляется в высказывание, если соответствующая ссылка в тексте не обнаружена).

5. Утверждения упорядочиваются в соответствии с их появлением в протоколе.

В системе ТАКТ (Tool for Acquisition of Knowledge from Text) [Kaplan, Berry-Rog-ghe, 1991] предполагается предварительная подготовка (разметка посредством введения явной скобочной структуры) предложений текста до начала работы текстового анализатора. В результате анализа выделяются объекты, процессы и отношения каузального характера.

<<< < Предыдущая 26 27 28 29 30 31 32 33 34 35 36 3738 / 8538 39 40 41 42 43 44 45 46 47 48 49 50 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
21.11.20181.01 Mб17Базы данных. конспект лекций.doc
#
01.03.2025103.94 Кб0БАЗЫ ДАННЫХ.doc
#
01.05.2025129.69 Кб1Базы данных.docx
#
01.05.2025213.56 Кб0базы данных.rtf
#
01.03.20251.49 Mб1Базы данных_методичка.docx
#
12.11.20193.9 Mб459Базы знаний интелл. систем - Гаврилова.doc
#
01.07.2025141.82 Кб0Базюк - Организация полёта на Марс23.doc
#
06.11.2018862.21 Кб7Байдаков.doc
#
01.05.20251.93 Mб0Баймолдинова Гулнар Ораловна.docx
#
19.09.20196.4 Mб13Бак_работа_ОвсиенкоЕП.doc
#
01.04.2025645.63 Кб1бакалавр Ахмеда.doc