1.7. Текстологические методы извлечения знаний

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний. Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста.

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на компоненты для выделения истинно значимых для реализации базы знаний фрагментов. К компонентам можно отнести: наблюдения; научные понятия; субъективные взгляды; общие места; заимствования.

Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое “погружен” текст. Различают микроконтекст и макроконтекст. Микроконтекст – это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац – в контексте главы и т.д. Макроконтекст – это вся система знаний, связанная с предметной областью (т.е. знания об особенностях и свойствах, явно не указанных в тексте).

На языке современного языкознания понимание – это формирование второго текста, т.е. семантической структуры.

Основными моментами процесса понимания текста являются:

выдвижение предварительной гипотезы о смысле всего текста;
определение значений непонятных слов (т.е. специальной терминологии);
возникновение общей гипотезы о содержании текста;
уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям);
формирование смысловой структуры текста за счет установления внутренних связей между отдельными ключевыми словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний;
корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому);
принятие основной гипотезы.

При этом существенным является наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Благодаря этому удается при понимании текста учесть основные признаки текста: связность, цельность и законченность.

Центральным моментом процесса понимания является выделение “опорных”, ключевых слов или “смысловых вех” в тексте, и дальнейшее их связывание в единую семантическую структуру [1].

При анализе текста выделяют два вида связей – эксплицитные (явные связи) и имплицитные (скрытые связи). Эксплицитные связи выражаются во внешнем дроблении текста, они делят текст на параграфы с помощью перечисления компонентов, вводных слов типа “во-первых…, во-вторых…, однако и т. д.”. Имплицитные связи между “смысловыми вехами” вызывают основное затруднение при понимании.

Семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, о мире, общих знаний о предметной области, которой посвящен текст. Таким образом, для адекватного понимания текста необходима предварительная подготовка.

Подготовкой к прочтению специальных текстов является выбор совместно с экспертами базового списка литературы, который постепенно введет аналитика в предметную область. В этом списке, как правило, содержатся учебники, фрагменты из монографий, популярные издания. После ознакомления с указанным списком целесообразно приступать к чтению специальных текстов.

Следует подчеркнуть, что процедура разбивки текста на части (“смысловые группы”), а затем сгущение, сжатие содержимого каждого смыслового блока в “смысловую веху” является основой для любого процесса понимания. Представление текста в виде набора ключевых слов, передающих основное содержание текста, является методологической основой для проведения текстологических процедур извлечения знаний.

В качестве ключевого слова может служить любая часть речи (существительное, глагол, прилагательное и т. д.) или их сочетание. Набор ключевых слов – это набор опорных точек, по которым развертывается текст при кодировании в память и осознается при декодировании.

Алгоритм извлечения знаний из текста можно представить в следующем виде:

1. Составление базового списка литературы для ознакомления с предметной областью и чтение по списку.

2. Выбор текста для извлечения знаний.

3. Первое знакомство с текстом (беглое прочтение); для определения значения незнакомых слов – консультации со специалистами или привлечение справочной литературы.

4. Формирование первой гипотезы о макроструктуре текста.

5. Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение “смысловых вех” (компрессия текста).

6. Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или сжатого текста (реферата).

7. Формирование поля знаний на основании макроструктуры текста.

<<< < Предыдущая 1 2 3 4 5 67 / 437 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
29.05.20151.24 Mб9Programma_TMM_zaochniki_mekhaniki.pdf
#
25.04.20191.14 Mб19Programming.doc
#
10.11.2019304.13 Кб0Proizvodstvennaya_praktika_RP_prikladnaya_infor...doc
#
29.05.20153.69 Mб26Project_Management P.2.pdf
#
29.05.20153.89 Mб71Project_Management_P.1.pdf
#
04.11.20182.29 Mб50PrZn-Six-Mod-Print-2007.doc
#
24.08.2019461.82 Кб21Pr_3_zaschita.doc
#
15.07.2019128 Кб0pr_hist6.doc
#
10.08.2019417.51 Кб3Psychologiya_of_religion_RP.rtf
#
22.09.20195.46 Mб980pzrk.doc
#
04.11.2018178.74 Кб17Raboch tetr 2011.docx