
- •III. Обработка текстов на естественном языке
- •Текст и его основные характеристики. Гипертекст.
- •Системы автоматического реферирования и аннотирования текстов.
- •Особенности систем обработки связных текстов. Необходимость создания систем обработки связных текстов.
- •1. Текст и его основные характеристики. Гипертекст.
- •2. Системы автоматического реферирования и аннотирования текстов.
- •3. Особенности систем обработки связных текстов. Необходимость создания систем обработки связных текстов.
3. Особенности систем обработки связных текстов. Необходимость создания систем обработки связных текстов.
Одной из существенных особенностей систем ИИ (искусственного интеллекта) является то, что общение человека с подавляющим большинством из них происходит на обычном естественном языке (русском, английском и т.д.), а не на алгоритмических языках типа Pascal, С, BASIC, Java и т.п. Такие системы ИИ называются системами естественно-языкового общения (системами ЕЯ-общения) или естественно-языковыми системами (ЕЯ-системами), к числу которых относятся и системы обработки связных текстов (COCT). Обработка в таких системах предполагает два основных вида действий с текстом: его понимание и передачу понятого пользователю (генерацию ответа в виде текста). Понимание в таких системах трактуется как извлечение из текста наиболее существенной с точки зрения ЕЯ-системы информации.
Если такая ЕЯ-система имеет блок «пополнение знаний», полученная в результате понимания информация пополняет имеющуюся в ЕЯ-системе базу знаний. Под передачей понятого пользователю имеют в виду возможность ЕЯ-систем отвечать на его вопросы относительно фактов, событий, явлений и прочих сущностей, которые явно или косвенно описаны в исходных текстах, введенных в ЕЯ-систему. Одной из основных особенностей систем обработки связных текстов является то, что ответы на вопросы пользователя осуществляются также в виде текста, а не отдельных, экстрагированных из текста предложений или слов.
В принципе такую систему ИИ можно рассматривать как комплексную систему, состоящую из двух самостоятельных частей – системы понимания текста и системы порождения текста. Общим для них является база знаний. Первая из двух указанных систем строит и пополняет базу знаний, а вторая,
опираясь на нее, порождает новый текст.
В целом необходимо сказать, что «системы обработки связных текстов находятся на стадии разработки экспериментальных образцов, которые используются для исследования и оценки методов решения этой крайне сложной и многогранной задачи».
Необходимость создания систем обработки связных текстов объясняется целым рядом причин:
1. Широкое внедрение вычислительной техники во все сферы человеческой жизни привело к возрастанию объема хранимой в компьютере текстовой информации (научные и газетные статьи, книги, доклады, патенты, рефераты, авторские свидетельства и т.д.) и необходимости оперативного извлечения из компьютерной памяти содержащихся в этих текстах разнообразных сведений.
2. Познание закономерностей организации текстов и их понимания, происходящее в процессе создания таких систем, способствует выявлению алгоритмов, которыми пользуется человек при написании и понимании различных текстов, что позволяет глубже изучить самого человека как часть
окружающего мира.
3. Знание законов текстообразования дает возможность автоматизировать процесс создания технических документов – текстов деловой прозы (описаний на продукцию, инструкций, справочных систем и т.п.).
4. Знание законов организации текстов, умение выделить в них главное и второстепенное поможет человеку, с одной стороны, в процессе обучения правильно и быстро постичь содержание текстов, а с другой – станет руководством для педагогов при создании принципиально новых учебников
и учебных пособий.
5. Знание законов построения художественных текстов, которое можно получить, строя системы обработки таких текстов, приблизит человека к познанию природы творчества.
6. Умение выявлять в художественном тексте главное и второстепенное, общечеловеческое и индивидуальное будет способствовать созданию искусствометрии – науки о количественной оценке произведений искусства (художественных произведений).
Порядок разработки системы обработки связных текстов, как и всякой другой ЕЯ-системы, включает 5 этапов:
• этап идентификации задачи;
• этап концептуализации задачи;
• этап формализации знаний системы;
• этап реализации системы;
• этап тестирования системы [Зубов 2007].