Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОФЛингв_Лекция 5_Естественно-языковые системы.doc
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
34.98 Mб
Скачать

4. Компонент генерации высказываний ея-системы

Первые попытки синтеза осмысленных ЕЯ-текстов с использованием ЭВМ относят к началу 60-х годов XIX века, когда были разработаны программы синтеза отдельных английских и русских предложений. В 1969 г. был предложен алгоритм синтеза русского абзаца с использованием упрощенной грамматики зависимостей. Первые программы синтеза связного текста строили последовательность ЕЯ-фраз заданной синтаксической структуры.

Общим недостатком ранних ЕЯ-систем является то, что они имитировали, а не порождали текст. Эти программы не имели заданной темы и заранее определенных действующих лиц.

Выделяют два основных этапа, необходимых для синтеза высказывания: генерация смысла высказывания и преобразование смысла в высказывание на ограниченном ЕЯ. Первый этап называют внелингвистическим синтезом, второй — лингвистическим.

Внелингвистический синтез является сложным и малоизученным, связанным с решением таких задач, как определение информации, которая должна быть сообщена пользователю; определение уровня общности информации, включаемой в высказывание; определение лексем и построение семантического представления высказывания и т.п.

Вопрос создания общей теории внелингвистического синтеза, позволяющей формализовать генерацию смысла высказывания, на данном этапе не решен.

В большинстве действующих ЕЯ-систем генерация смысла упрощена или сильно ограничена рамками решения конкретных задач, что приводит к значительному упрощению процедуры синтеза. Во многих приложениях используется метод шаблонов, содержащий элементы семантики и синтаксиса. Как правило, шаблон представляет собой текст на естественном языке с некоторыми пробелами. В процессе синтеза осуществляется подстановка на места пробелов необходимых слов в соответствующей форме. Собственно лингвистический синтез связан непосредственно с синтаксисом и лексикой ЕЯ, а также с референцией, т. е. с соотнесением языковых сущностей с сущностями внеязыковыми. Имеется ряд моделей для описания лингвистического синтеза. Наиболее распространены деревья синтаксического подчинения, системы составляющих, а также синтаксических групп. В современной лингвистике в последнее время для решения частных задач применяют математический аппарат теории автоматов и нечеткой логики. Предпринимаются попытки аксиоматического описания фрагментов естественного языка.

5. Классификация ея-систем

В контексте компьютерных систем естественный язык рассматривается как средство хранения и передачи информации внутри человеческого сообщества. Теорию языка как структуры, соответствующую классификацию и методы обработки формальных языков начали разрабатывать в математике (а позднее и в информатике) еще с 30-х годов XIX в. Однако прямое применение существующего аппарата описания формальных языков к ЕЯ невозможно вследствие того, что это объект принципиально другой природы. Естественный язык в отличие от формального языка не следует задуманной и последовательно реализованной концепции. Он развивается с течением времени под воздействием многих внешних и внутренних сил и усваивается в сообществе через использование в коммуникации, а не благодаря правилам. Кроме того, чисто грамматическое описание естественного языка недостаточно для использования, поскольку он соотносится со структурами знаний, используемыми его носителями. В результате описание грамматики ЕЯ как некоторого класса грамматики формальной оказывается затруднено.

Задача автоматизированной обработки ЕЯ-текстов впервые появилась в 60—70-х годах XIX в. С тех пор было предпринято множество различных попыток ее решения, однако широкого распространения такие системы пока не получили, как правило, из-за невысокого качества распознавания фраз, жестких требований к синтаксису «естественного языка», а также больших затрат машинных ресурсом, необходимых для их работы. Во всех системах машинного анализа текста используют ограниченный ЕЯ, поскольку полной и строгой формальной модели ни для одного ЕЯ пока не создано. Тем не менее ЕЯ-системы постоянно развиваются, что обусловлено, с одной стороны, развитием теоретических средств описания ЕЯ, а с другой прогрессом технологий программирования.

Исторически ЕЯ-системы происходят от информационно-поисковых систем, с одной стороны, и систем машинного перевода с другой. Поэтому на начальном этапе ЕЯ-системы представляли собой макеты информационно-поисковых систем, демонстрирующие принципиальную возможность ввода данных (фактов) и обработки запросов на естественном языке. Такие системы часто назывались интеллектуальными вопрос-ответными системами. Название можно, по-видимому, объяснить стремлением их разработчиков подчеркнуть, что в отличие от обычных информационно-поисковых систем и систем машинного перевода того времени в данных системах широко используются концепции, выработанные в исследованиях по искусственному интеллекту.

Основное внимание при разработке интеллектуальных вопрос-ответных систем уделялось не столько возможностям их практического использования в реальных задачах, сколько развитию моделей и методов, позволяющих осуществлять перевод ЕЯ-высказываний, относящихся к узким и заранее фиксированным проблемным областям, в формальное представление, а также обратный перевод. Накопленный опыт разработки интеллектуальных вопрос-ответных систем позволил, с одной стороны, углубить понимание процесса ЕЯ-общения и, следовательно, поставить новые проблемы (в том числе и специфичные для общения в различных классах проблемных областей), требующие дальнейшей проработки, а с другой - оценить перспективы практического применения ЕЯ-систем.

Первые предпосылки для практического использования ЕЯ-систем создало появление баз данных (БД). В связи с этим возникла проблема обеспечения доступа к информации, хранящейся в БД, широкому классу неподготовленных конечных пользователей, к которым относят специалистов в той или иной предметной области, как правило, не обладающих знаниями о логической структуре БД, о системе представления информации в БД и не умеющих пользоваться формализованными языками запросов. Для решения этой проблемы стали создаваться системы общения с базами данных, основная задача которых (в простейшем случае) заключается в выполнении перевода запросов неподготовленных конечных пользователей с ЕЯ на формализованные языки запросов к БД.

Следующим типом ЕЯ-систем стали диалоговые системы решения задач, которые в отличие от систем общения с БД берут на себя не только функции ЕЯ-доступа к БД, но и функции интеллектуального монитора, обеспечивающего решение заранее определенных классов задач (например, планирование путешествий, боевых операций, составление контрактов и т. п.). В этом случае разбиение задач на подзадачи и распределение ролей между участниками, т. е. определение, кто из участников (пользователь или система) решает ту или иную подзадачу, осуществляется не пользователем (как в случае применения систем общения с БД), а диалоговой системой. Решение подзадач, «порученных» системе, может осуществляться как на основе использования собственных знаний и механизмов вывода, так и в результате обращения к прикладным программам и пакетам, не входящим в состав ЕЯ-системы. Основным направлением практического использования ЕЯ-систем данного класса является реализация ЕЯ-общения с экспертными системами.

Возникновение последнего типа ЕЯ-систем — систем обработки связных текстов, обусловлено возрастанием объема хранимой в ЭВМ текстовой информации (газетные статьи, сообщения о различных событиях, патенты, авторские свидетельства и т.п.) и необходимостью извлечения из нее разнообразных сведений (например, о структуре некоторых объектов, о действующих лицах некоторых событий, о мотивах их поступков и т.д.).

С учетом истории развития различают следующие основные классы ЕЯ-систем:

интеллектуальные вопрос-ответные системы;

системы общения с базами данных;

диалоговые системы решения задач;

системы обработки текстов.

В данной классификации выделен аспект речевого взаимодействия.

Кроме того, существуют другие категории классификации ЕЯ-систем:

цель моделирования: анализ, синтез, машинный перевод;

количество языков: одноязычные, двуязычные, многоязычные;

уровень представления: морфологический, синтаксический, семантический, прагматический;

языковая единица: слово, предложение, текст, корпус текста;

тип обработки: внелингвистические, статистические, психолингвистические, морфологические, синтаксические, семантические, прагматические.

Каждый из классов ЕЯ-систем обладает специфическими особенностями, которые хорошо заметны при рассмотрении характера задач, решаемых основными функциональными компонентами этих систем (рис. 3).

Рис.3. Сравнительная характеристика основных классов ЕЯ-систем

Необходимо отметить, что класс систем обработки связных текстов дал начало развитию более совершенных ЕЯ-систем, к которым относятся:

системы обработки множества текстов;

системы проверки орфографии;

системы автоматического (машинного) перевода;

Поэтому указанные системы вместе с системами обработки связных текстов образовали более широкий класс ЕЯ-систем – систем обработки текстов.