Семантическая сеть – глобальное представление текста

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный лингвистический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Lecture 4.doc

Скачиваний:

Добавлен:

14.09.2019

Размер:

541.7 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 73 4 5 6 7 > Следующая >>>

Семантическая сеть – глобальное представление текста

Для корректной последующей обработки текста предварительно необходимо осуществить его (текста) «развертывание»: эксплицирование анафор и эллипсисов. Последующий статистический анализ текста, использующий когнитивный подход, позволяет выявить глобальную внутреннюю структуру текста как ассоциативную (однородную семантическую) сеть, вершинами которой являются ключевые понятия текста (слова и устойчивые словосочетания), а ребрами – их смысловые (ассоциативные) отношения в тексте, например, их попарная встречаемость в смысловых фрагментах текста. И ключевые понятия, и их связи взвешиваются численными характеристиками – смысловыми весами.

Ранее была реализована технология обработки текстовой информации TextAnalyst [28], позволяющая автоматически выявлять ключевые понятия в тексте на основе только информации о структуре самого текста (независимо от предметной области). Для этого формировался частотный портрет текста, содержащий информацию о частоте встречаемости понятий текста, представленных как корневые основы соответствующих слов, или их устойчивых сочетаний, встречающихся в тексте, а также об их совместной (попарной) встречаемости в смысловых фрагментах текста (например, в предложениях). Частотный портрет, таким образом, содержал информацию о частоте встречаемости понятий и их попарной (в терминах их ассоциативной связи) встречаемости в тексте. Использование хопфилдоподобного алгоритма [2] позволяло перейти от частоты встречаемости к смысловому весу (вес связей при этом оставался неизменным).

Этот способ включал несколько этапов. На этапе первичной обработки из текста удалялась нетекстовая информация, текст сегментировался на слова и предложения, из текста удалялись стоп-слова, рабочие и общеупотребимые слова, а оставшиеся слова подвергались морфологической обработке. Для простоты анализа морфологическая обработка производилась с использованием традиционного морфологического словаря – словаря первого уровня - . Далее формировался словарь второго уровня – – словарь корневых основ (и устойчивых словосочетаний). На следующем этапе строился частотный портрет текста, то есть выявлялись частоты встречаемости корневых основ понятий (полученных в результате морфологического анализа) и их устойчивых сочетаний, и частоты их попарной встречаемости в предложениях текста (то есть формировался словарь третьего уровня ). И, наконец, на третьем этапе, частоты встречаемости перенормировались в смысловые веса с использованием итеративной процедуры, похожей на алгоритм искусственной нейронной сети, предложенной Хопфилдом (2.17). В результате итеративной процедуры перенормировки наибольшие веса получали понятия, связанные с наибольшим числом других понятий с большим весом, то есть те понятия, которые стягивают на себя смысловую структуру текста. Полученные таким образом смысловые веса ключевых понятий показывают значимость этих понятий в тексте. В дальнейшем эта информация используется для выявления предложений текста, содержащих наиболее важную информацию в тексте.

В результате получается так называемая ассоциативная (однородная) семантическая сеть как совокупность несимметричных пар понятий , где и – понятия, связанные между собой отношением ассоциативности (совместной встречаемости в некотором фрагменте текста).

<<< < Предыдущая 1 23 / 73 4 5 6 7 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
08.06.20151.9 Mб36Lecture 21.doc
#
08.06.20151 Mб45Lecture 22.doc
#
29.08.20196.83 Mб9Lecture 23.doc
#
08.06.2015535.55 Кб63Lecture 25.doc
#
14.09.20191.02 Mб18Lecture 3.doc
#
14.09.2019541.7 Кб18Lecture 4.doc
#
08.06.2015123.39 Кб24Lecture 41.doc
#
08.06.2015208.38 Кб23Lecture 42.doc
#
08.06.2015466.94 Кб64Lecture 43.doc
#
10.11.2019913.41 Кб54Legal.doc
#
29.10.2018304.64 Кб44leksikologiq,_VSE_SPORY.doc