- •Вопросы к экзамену по курсу «Информационные технологии»
- •Понятие и свойства информации.
- •Основные направления искусственного интеллекта, экспертные системы
- •2)Работа с естественными языками
- •3)Накопление и использование знаний
- •4)Биологическое моделирование
- •5)Робототехника
- •6)Машинное творчество
- •Информация и знания. Виды знаний. Базы данных и базы знаний.
- •2)Знания в книгах. 3)знания в электронных книгах. 4)знания в Интернете.
- •Роль языка в интеллектуальных информационных системах. Структура лингвистической базы данных.
- •Компьютерная лингвистика, ее предмет и задачи. Соотношение теоретической и компьютерной лингвистики.
- •Способы представления знаний о языке в лингвистической базе данных. Классификация множеств элементов по n. Признакам.
- •Способы представления знаний о языке в лингвистической базе данных. Симметрично-асимметричные матрицы.
- •, 9) Типы машинных словарей. Словарь машинных основ и машинных флексий, его достоинства и недостатки.
- •Словарь словоформ, его достоинства и недостатки.
- •2 Основных формата машинных словарей:
- •Основные типы машинных грамматик.
- •Этапы автоматического анализа текста.
- •Уровни понимания микротекста. Моделирование понимания в интеллектуальных системах.
- •Машинный (автоматический) перевод как одно из направлений искусственного интеллекта. Стратегии машинного перевода.
- •Действующие промышленные системы машинного перевода.
- •Лингвистические проблемы при автоматическом переводе и способы их решения.
- •1.Проблема словаря.
- •2.Проблема грамматики.
- •Дистанционное обучение - перспективное направление информационных технологий. Компьютер как средство обучения.
- •Типы обучающих компьютерных программ. Учебно-методические комплексы и их составляющие.
- •Основные принципы и этапы создания обучающих систем.
- •Информационно-поисковые системы, принципы их работы. Перспективы интеллектуализации информационно-поисковых систем.
- •Лингвистические ресурсы Интернета. Электронные библиотеки.
- •10 Продолжение
- •13.2.3. Иерархия Хомского и контекстно-зависимые грамматики
Этапы автоматического анализа текста.
Несмотря на широкое использование мультимедиа, текст остается одним из основных видов информации в большинстве электронных хранилищ. Разработка эффективных подходов к обработке текстов с целью фильтрации, формирования смыслового портрета, навигации по базе текстов является одним из наиболее актуальных направлений современных информационных технологий.
Существующие подходы к анализу текстов можно разбить на два класса.
относятся простые, быстрые, не зависящие от языка и предметной области, но грубые механизмы анализа; чаще всего это подходы, использующие статистические методы.
формируют достаточно изощренные, дающие хороший результат, но сравнительно медленные подходы, зависящие от языка и предметной области; обычно они основаны на лингвистических методах.
Эффективным можно считать такой подход, который сочетал бы в себе быстроту и независимость от языка алгоритмов первого класса с высоким качеством обработки второго.
Предлагаемый подход к анализу текстовой информации реализован на основе однородной нейросетевой (а потому статистической) обработки информации, обладает достаточным быстродействием и не зависит от языка и предметной области, но при этом, в отличие от большинства алгоритмов обработки текстов, реализованных на основе статистического подхода, дает хорошие результаты. Так, по данным ведомственной экспертизы представленный подход, реализованный в системе TextAnalyst, признан лучшим в реализации одной из важных функций обработки текстов — построения рефератов — в сравнении с подходом, реализованным, например, на основе лингвистических алгоритмов норвежской компании CognIT [1].
Автоматический анализ текста (АА), операция, которая заключается в том, что из данного текста на естественном языке извлекается содержащаяся в этом тексте грамматическая и семантическая информация, выполняемая по некоторому алгоритму в соответствии с заранее разработанным описанием данного языка. Обратная операция называется автоматическим синтезом текста.
АА подразделяется на три этапа: 1 ) лексико-морфологический — переход от отдельной словоформы к её лексико-грамматической характеристике; 2) синтаксический — переход от цепочки лексико-грамматических характеристик, представляющих фразу, к её синтаксической структуре; 3) семантический — переход от синтаксически проанализированной фразы к её смысловой записи.
В алгоритме АА обычно различают
1)сведения о языке («грамматика»)
2) сведения о самом процессе анализа («механизм», или собственно алгоритм АА).
АА является необходимым этапом в разных видах автоматической обработки текстов: автоматического перевода, автоматического реферирования, информационного поиска и т. п. АА следует отличать от автоматического исследования текстов, при котором полностью (или почти полностью) отсутствуют сведения о языке текста и текст обрабатывается алгоритмом именно с целью построения описания языка.