Тема «Обработка и поиск текстовой информации»

Вопросы:

Обработка входящей текстовой информации
Поиск текстовой информации
Эффективность дипс

1. Обработка входящей текстовой информации

На входе ДИПС документы представлены на естественном языке. Задача входной обработки таких документов – перевод их содержания с ЕЯ на ИПЯ (искусственный поисковый язык).

Тип используемого ИПЯ оказывает сильное влияние как на суть процессов обработки информации в конкретных ДИПС, так и на конечный поисковый образ документа. В наиболее общем виде все ИПЯ делятся на два класса:

классификационные (рубрицирование) и
дескрипторные (индексирование).

Соответственно в случае применения ИПЯ дескрипторного типа операция входной обработки документов (перевода) называется индексированием, при использовании рубрикаторов – рубрицированием.

Независимо от используемого языка, в операции перевода выделяют два основных этапа:

анализ смыслового содержания текста с целью выделения из него сведений об известных на уровне ИПЯ объектах, их свойствах, а также отношениях между ними. Такой смысловой анализ принято называть лингвистическим анализом текта;
выражение этих сведений на ИПЯ, т.е. принятие решения о приравнивании отдельных выражений входного документа отдельным элементам или их сочетаниям на ИПЯ. Как уже упоминалось, в зависимости от используемого языка этот процесс называется индексированием или рубрицированием.

Рассмотрим детальнее содержание этих этапов.

Лингвистический анализ текста, в свою очередь, также состоит из двух этапов:

морфологического анализа;
синтаксического анализа.

Цель морфологического анализа заключается в получении основ слов (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (часть речи, род, число, падеж и т.д.) для каждой из словоформ.

Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи в виде дерева зависимостей.

Собственно, выражение таких зависимостей на основе текста на ЕЯ, и припавнивание их некоторым конструкциям ИПЯ – это уже задача второго этапа обработки входной информации – рубрицирования или индексирования. Существуют различные подходы к установлению соответствия. В настоящее время наиболее широко используются следующие:

автоматическое индексирование. Определяется количество вхождений какого-либо термина, либо группы терминов в документ, в зависимости от количества вхождений присваиваются весовые коэффициенты;
автоматическое рубрицирование, основанное на знаниях: в этом случае заранее создаются некоторые базы знаний, в которых на основе знаний экспертов закладываются наиболее важные термины и их сочетания. Процесс создания подобных систем во многом напоминает создание экспертных систем для диагностики и классификации;
автоматическое рубрицирование, основанное на обучении и примерах – в этом случае используются нейросетевые технологии.

<<< < Предыдущая 1 2 3 45 / 255 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
10.11.2019271.87 Кб1lr3.doc
#
10.11.2019114.69 Кб4lr4.doc
#
10.11.2019324.1 Кб1lr7.doc
#
01.07.20251.6 Mб0LR_shablon_2017sp.docx
#
23.11.2019674.3 Кб18L_11-12_KVN10.doc
#
24.11.2019458.75 Кб17L_SOEI_Part1.doc
#
16.04.2019537.75 Кб34MAKROEKON_-MYeTOD_641.docx
#
01.07.20252.97 Mб1masterskaya_kompyuternoy_grafiki_gimp_dlya_8.doc
#
01.07.20251.87 Mб0Mater_dlya_spetskursa.doc
#
18.04.20191.23 Mб6MathCAD_ЗАСТАВКИ_сжато.doc
#
21.08.2019820.74 Кб4MathCAD_основы работы_ЗАСТАВКИ.doc

Тема «Обработка и поиск текстовой информации»

Обработка входящей текстовой информации

Поиск текстовой информации

Эффективность дипс

1. Обработка входящей текстовой информации