- •Введение
- •3. Лингвистические основы информатики:
- •Список сокращений
- •1 Информационные системы как основной инструмент информатизации
- •1.1 Информационное развитие общества
- •1.2 Формы и содержание движения информации
- •1.3 Классификация информации
- •1.3.1 Требования к информации
- •1.4 Количество информации. Методы оценки
- •1.4.1 Статистический подход
- •1.4.2 Семантический подход
- •1.4.3 Прагматический подход
- •1.4.4 Структурный подход
- •1.5 Информационные технологии
- •1.5.1 Информатизация общества
- •1.5.2 Эволюция информационных технологий
- •1.5.2.1 Эра докомпьютерных технологий
- •1.5.2.2 Эра электронно - вычислительных машин
- •1.5.3 Роль информационных технологий в развитии и экономике общества
- •1.5.4 Свойства информационных технологий. Платформа
- •1.5.5 Классификация информационных технологий
- •1.6 Информационные ресурсы
- •1.7 Исследование информационных систем
- •1.7.1 Системный подход
- •Контрольные вопросы по разделу 1
- •Тест по разделу 1
- •5) Автоматизированный банк данных.
- •2 Лингвистические основы информатики
- •2.1 Языковые средства информационных систем
- •2.1.1 Основные функции языка
- •2.1.2 Классификация языков
- •2.2 Основные понятия семиотики
- •2.3 Онтология
- •2.4 Классификации
- •2.5 Компьютерная лингвистика. Анализ и синтез текста
- •2.5.1 Анализ текстов на естественном языке
- •2.5.2 Этапы автоматического анализа текста
- •2.5.3 Синтез текстов на естественном языке
- •2.5.4 Понимание текстов
- •2.5.5 Оживление текста
- •2.5.6 Машинный перевод
- •Контрольные вопросы по разделу 2
- •Тест по разделу 2
- •3) Оживление текста.
- •2) Онтология
- •5) Машинный перевод
- •2)Понимание текстов
- •3)Оживление текста
- •3 Управление в системах
- •3.1 Классификация систем управления
- •3.2 Обратная связь в системах управления
- •Контрольные вопросы по разделу 3
- •Тест по разделу 3
- •4 Социальные информационные системы
- •4.1 Процессы в социальных системах
- •Контрольные вопросы по разделу 4
- •Тест по разделу 4
- •5 Информационные системы в управлении
- •5.1 Свойства системы
- •5.2 Классификация информационных систем
- •Контрольные вопросы по разделу 5
- •Тест по разделу 5
- •6 Информационное обеспечение процессов и систем
- •6.1 Структура информационного обеспечения
- •6.2 Структура информационной системы
- •Контрольные вопросы по разделу 6
- •Тест по разделу 6
- •7 Информационно-поисковые системы
- •7.1 Виды информационно-поисковых систем
- •7.2 Эффективность ипс
- •Контрольные вопросы по разделу 7
- •Тест по разделу 7
- •8 Базы данных и знаний
- •8.1 Системы управления базами данных
- •8.1.1 Основные функции субд
- •8.2 Автоматизированный банк данных
- •8.3 Проектирование бд
- •8.3.1 Инфологическое проектирование бд
- •8.3.2 Концептуальное проектирование бд
- •8.3.3 Проектирование реализации
- •8.4 Классификация моделей данных
- •8.4.1 Сетевая модель данных
- •8.4.2 Иерархическая модель данных
- •8.4.3 Реляционная модель данных
- •8.4.3.1Свойства проектируемой бд
- •8.4.3.2 Нормализация отношений
- •8.5 Экспертные системы
- •8.5.1 Структура экспертной системы
- •8.5.2 Классификация экспертных систем
- •1 По задачам.
- •2 По связи с реальным временем
- •3 По типу эвм.
- •4 По степени интеграции.
- •8.5.3 Инструментальные средства построения эс
- •Контрольные вопросы по разделу 8
- •Тест по разделу 8
- •Сетевая модель данных.
- •Реляционная модель данных.
- •9 Мировые информационные ресурсы
- •9.1 Сетевые протоколы
- •9.2 Основы работы в Internet
- •9.2.1 Протоколы ip и tcp
- •9.2.2 Доменная система имен
- •9.2.3 Механизм работы протоколов ip и тср
- •9.2.4 Система ip-адресации
- •9.3 Программы работы в сети
- •9.3.1 Браузеры
- •9.3.3 Ftp передача файлов
- •9.4 Информационные ресурсы Internet
- •9.4.1 Сервис World Wide Web
- •9.4.2 Протоколы передачи данных http и https
- •9.4.3 Протокол передачи файлов ftp
- •9.4.4 Электронная почта
- •9.4.5 Группа новостей Usenet news
- •Контрольные вопросы по разделу 9
- •Тест по разделу 9
- •5) Все ответы верны
- •Контрольные вопросы по разделу 10
- •Тест по разделу 10
- •Литература
- •Приложение Закон рф "Об информации, информатизации и защите информации"
- •Глава 1 0бщие положения
- •Глава 2 информационные ресурсы
- •Глава 3 пользование информационными
- •Глава 4. Информатизация, информационные
- •Глава 5 защита информации и прав субъектов
2.5.2 Этапы автоматического анализа текста
Автоматический анализ текста имеет несколько обязательных этапов, обусловленных использованием компьютера для его проведения. К ним относятся следующие этапы, которые выполняются последовательно, один за другим:
1. Входной текст для анализа.
2. Преданализ (подготовка текста к восприятию компьютером; поиск и устранение ошибок, расшифровка сокращений и т.п.).
3. Морфологический анализ (обработка отдельных слов: выделение основ для поиска значений слов в словаре и флексий — т.е. приставки, суффикса, окончания и т.п.).
4. Поверхностный синтаксический анализ (установление грамматических отношений в рамках предложения; получение его поверхностной синтаксической структуры).
5. Глубинный синтаксический анализ (построение глубинной синтаксической структуры с использованием падежей Филмора и т.п.).
6. Поверхностный семантический анализ (установление семантических отношений в рамках предложения).
7. Глубинный семантический анализ (установление семантических связей предложений).
8. Прагматический анализ (смысловое связывание текста в единое целое и, в случае необходимости, побуждение к его исполнению — к интерпретации).
9. Выявление текстовых структур (в частности, в случае необходимости - компиляция)
2.5.3 Синтез текстов на естественном языке
Синтез – это объединение слов в предложения, предложений в текст по заданной на этапе анализа прагматической структуре. Задача синтеза может рассматриваться как обратная по отношению к анализу. Если заданы некоторая тема и цель будущего текста, то можно считать заданной прагматическую структуру текста. Ее надо декомпозировать в прагматические структуры отдельных предложений и для каждого предложения пройти все этапы анализа в обратном направлении.
Сегодня здесь еще масса нерешенных проблем. Неизвестно, как генерировать прагматическую структуру текста из тех целей, которые стимулируют создание текста. Непонятно, как эту структуру разбить на прагматические структуры предложений и как от этих частных прагматических структур перейти к более глубинным семантическим структурам.
Более известны методы дальнейшего продвижения по пути генерации текста.
Один из возможных путей состоит в использовании актантов действий8. С каждым действием связан некоторый набор сопутствующих ему объектов и характеристик. Они, как правило, совпадают с глубинными падежами Филмора.
Если, например, мы имеем дело с действием "идти", то с ним тесно связаны субъект, совершающий это действие, пункты начала и конца движения, цель движения и т.п.
Это позволяет связать с глаголом "идти" некоторую структуру с набором пустых пока мест (так называемых слотов):
Фрейм
Действие |
Идти |
Субъект |
. . . |
Куда |
. . . |
Откуда |
. . . |
Заглавными буквами в этой структуре (так называемом фрейме) обозначены некоторые имена. Первое имя конкретизируется глаголом « идти» , а остальные имена пока остаются незаполненными. Эти остальные имена и определяют актанты глагола "идти" . Примером заполнения может служить структура:
Фрейм
Действие |
Идти |
Субъект |
Петр |
Цель |
За молоком |
Ей соответствует фраза: "Петр идет за молоком" .
Наличие актантных структур действий позволяет представить процесс синтеза текстов в виде ряда следующих друг за другом шагов:
1) На первом шаге генерируется нужная последовательность глаголов-действий, напр., идти, любить, кушать, читать и т.п.
2) На следующем шаге заполняются их актантные структуры (подлежащее, обстоятельства места, времени и т.п.), что приводит к появлению глубинной семантической структуры отдельных предложений – "ехали медведи на велосипеде…".
3) Затем эти структуры связываются с учетом общих действующих субъектов и используемых объектов, а также иных связывающих параметров в единый текст.
4) Последний шаг — образование синтаксически правильных конструкций в предложениях по правилам языка – приёмника — в настоящее время не представляет труда, так как теоретически изучен почти досконально.
Таким образом, работает, например, автоматическая система создания текстов волшебных сказок TALE (сказка), созданная в начале 70-х гг. На первом шаге она выдает тексты примерно такого вида: "Жил-был X. Не было у X желаемого Y. Стал просить X Бога. Бог обещал. Появился Y. Вырос Y. Ушел раз X и не велел Y делать Z. Вернулся X – Y-ка нет. Понял X, что Y сделал Z. Пошел X искать Y..." . В памяти системы TALE хранятся данные для заполнения актантов, а одинаковые переменные показывают, что на эти места всюду надо поставить одни и те же заполнители. Так возникает текст: "Жил-был царь. Не было у царя желаемого наследника. Стал просить царь Бога. Бог обещал. Появился наследник. Вырос наследник ..." и т.д. "У попа была собака, поп её любил. Она съела кусок мяса – он её убил".
Рассмотрен лишь один из возможных путей построения текстов, да и то не с самого начала. При этом не объяснена генерация последовательности глаголов в использованном для примера тексте.
Для случаев текстов такого типа (типа волшебных сказок) используются специальные формальные грамматики Проппа, созданные впервые советским ученым В. Проппом в конце 20-х годов. Эти грамматики позволяют строить последовательности действий, не нарушающие логического порядка повествования (например, глагол "ушел X" относительно глагола "X отсутствует" возникнет раньше).
В настоящее время в компьютерной лингвистике проблемы синтеза текстов находятся в центре внимания исследователей, и нет сомнений, что в ближайшее время будут найдены эффективные средства для создания текстов на заданную тему.
