Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы по Колесниковой 11- 17, 19 - 40.docx
Скачиваний:
6
Добавлен:
01.04.2025
Размер:
235.24 Кб
Скачать

28. Прикладная лингвистика: проблемы моделирования, информационно-поисковые аспекты. Компьютерная лингвистика.

Компьютерная лингвистика

Теоретическое языкознание изучает язык в системе, в состоянии. С развитием научнотехнического прогресса возникла потребность посмотреть на язык в действии. Для этого было необходимо собственно лингвистические проблемы решать в единстве с другими науками — логикой, математикой, психологией и кибернетикой. Цель такого семиозиса наук — создание автоматических систем искусственного интеллекта, моделирующих знание. Знание же хранится, обрабатывается и передается от поколения к поколению в языке и текстах. Поэтому моделирование научно-технических текстов — это моделирование системы знаний в соответствующей отрасли науки и техники. Новейшие направления прикладной лингвистики появились в середине XX века, однако ими она не ограничивается. Для прикладных наук важно то, что любая терминосистема по своему возникновению и функционально связана с соответствующей логико-понятийной системой знаний. Она всегда стремится найти свой оптимальный план выражения. Отсюда формулируется основополагающий постулат прикладной лингвистики: форма представления знаний — конечная цель моделирования картины мира в целом или отдельных ее фрагментов, поскольку формой любого понятия являются знаки прежде всего естественного языка. Следовательно, структурирование терминосистем — моделирование знаний — это структурирование соответствующей терминосистемы. Обычно используется сетевое представление системы знаний: узлы такой сети представлены терминами соответствующей науки, а дуги между ними показывают отношения между понятиями. Однако передать логико-понятийные знания, обосновать и интерпретировать их при помощи одних терминосистем невозможно. Для достижения этой цели служит научный текст, где терминосистемы органически взаимодействуют с морфологической и синтаксической подсистемами естественного языка (значениями морфем, частей речи, служебных слов и словосочетаний). Любая логико-понятийная система знаний может быть представлена в виде текста. Пожалуй, главнейшей задачей прикладных лингвистических наук, связанных с анализом текста, является создание текстовой базы данных для ЭВМ. Такая база данных напоминает автоматизированные библиотечные фонды. Текстовая база данных, хранящаяся в памяти ЭВМ, позволяет многократно использовать тот или иной текст, получая каждый раз нужную информацию: 1) полный список всех словоформ соответствующего текста; 2) элементы морфологической подсистемы текста; 3) частоту встречаемости каждой словоформы и всех словоформ (суммарно) данного текста или всех текстов, введенных в ЭВМ; 4) адреса словоформ (номера глав, параграфов, страниц); 5) статистику графических знаков (букв, буквосочетаний); 6) контексты каждой словоформы; 7) обратный словарь; 8) текст в полном виде. Использование ЭВМ в прикладных отраслях языкознания основано на возможности кодирования любой информации при помощи чисел, которые можно обрабатывать посредством ЭВМ. Почву для использования ЭВМ в лингвистике подготовило опережающее развитие математической логики, или, шире, — теории алгоритмов: создание машины Поста, машины Тьюринга, алгоритмов Маркова и др. С появлением этих машин стала возможной обработка нечисловой информации. Машины были «обучены» мыслить по образцу человеческого интеллекта. В результате создается искусственный интеллект. Первый опыт в этой области описан в статье А. Тьюринга «Может ли машина мыслить» (1950). Им же был разработан наиболее эффективный и универсальный тест для определения уровня интеллектуальности (тест Тьюринга). Он опирается на систему вопросов и ответов, которая охватывает практически любую область интеллектуальной деятельности человека. Система искусственного интеллекта способна решать самые разные задачи, но главными из них всегда считаются: а) решение задач, б) принятие решений и в) распознавание объектов. Решение задач охватывает широчайший спектр вопросов от сложнейших математических задач до простых рассуждений, нахождения ответов на бытовые (житейские) вопросы типа: какой обед можно приготовить из предложенного набора продуктов. Проблема принятия решений опирается на материал игровых стратегий (таких, как шахматы, шашки и т.п.). Механизм распознавания образов использует так называемые эталонные образы, с которыми человек имеет дело в обыденной деятельности (разные по форме, окраске, вкусу яблоки отождествляются с эталонным образом «яблоко» вообще). Понятие «образ» здесь отличается от одноименного психического понятия: это просто некоторое типовое родовое представление человека о группе видовых «предметов». Для этого машине необходимо узнавать объекты и подводить их под те или иные категории. Этим как раз и занимается прикладная лингвистика. Ее главная задача — моделирование речевой деятельности человека, анализ и синтез речи. Без участия человека выполнение подобных задач невозможно. Необходимо «общение» человека с машиной. С одной стороны, машина, восприняв заданный текст, на него определенным образом реагирует: а) отвечает на вопрос, б) принимает информацию к сведению. Для осмысления реагирования на тот или иной текст, необходимо сначала его понять. В связи с этим возникает, как минимум, два вопроса: а) что значит «понять текст» и б) как определить, что текст понят? Вопросы непростые уже потому, что сам термин понимание неоднозначно истолковывается и в теоретической лингвистике, где речь идет о человеческом осмыслении познаваемых объектов. Что уж говорить о способности машин понимать текст! Пока приходится лишь констатировать, что процесс понимания у машин напоминает процесс понимания, происходящий в голове человека. Однако сама голова человека обычно сравнивается с «черным ящиком», когда представления о работе интеллекта основываются исключительно на входящей и выходящей информации, т.е. на осмыслении объекта познания до и после его речемыслительной обработки. Ясно пока лишь, что для восприятия текста машиной необходимо перевести его в структуру внутреннего представления, т.е. структурировать смысл текста. Для этого машина должна хранить множество знаний о мире. Задача крайне сложная: ведь знания, как известно, бесконечны. Выход один: ориентировать машину только на одну, узкую, сферу знаний (биологию, математику, социологию и т.д.). В последнее время ученые увлечены принципиально новой идеей: нужно не только увеличивать объем памяти «умной» машины, но и создавать самообучающиеся системы. Смысл нового подхода в том, чтобы машина могла выполнять несколько важнейших операций: а) извлекать из текста новую информацию, б) включать ее в уже имеющиеся системы знаний, в) при нехватке информации задавать для осмысления непонятого вопросы человеку (пользователю машин) и таким образом (после получения удовлетворительных ответов) устранять пробелы в своей системе знаний* По этому принципу, кстати, работают многие компьютерные программы. В основе решения подобных задач лежат, разумеется, особые процедуры моделирования языка для его использования кибернетическими системами. С другой стороны, для использования языка кибернетическими системами, моделирующими восприятие и порождение речи, необходимы разработки структурных моделей фонологии, морфемики, морфологии и синтаксиса. Кроме компьютерной лингвистики, в сферу прикладного языкознания входят прикладное терминоведение, лексикография, автоматический перевод, реферирование, стилеметрия, дешифровка и др. Практическое терминоведение включает такие разделы, как лексикографическая терминология (теория и практика создания специальных словарей, одноязычных, переводных, частотных; информационно-поисковых тезаурусов, машинных словарей и т.п.), унификация терминосистем (их упорядочение и стандартизация); перевод терминов, создание терминологических банков данных, автоматизация их хранения и обработки. Предметом прикладной лингвистики стала и сама лексикография как один из самых трудоемких видов практического языковедения. Словари создаются, как известно, десятилетиями. Поэтому вполне объяснимо стремление ученых автоматизировать некоторые виды лексикографической деятельности. Появились автоматические словари. Их предназначение — повысить производительность труда при работе с текстами, по сбору, хранению и обработке различных единиц языка (фонем, морфем, лексем), т.е. тех единиц, которые являются объектом лексикографирования. Словари какого типа используются в системах автоматической переработки текстов. В основе автоматического, или машинного, перевода лежит предположение о возможности приведения в соответствие типологически разных языковых структур (словаря, порядка слов, словоизменения, синтаксических структур и т.п.). Такая возможность обеспечивается общими для всех языков свойствами: линейностью и знаковостью. Лингвистический принцип перевода заключается в сопоставлении эквивалентных по смыслу языковых единиц двух и более языков. В разработках систем автоматического перевода выделяют два периода. В первом периоде решались такие фундаментальные проблемы машинного перевода, как создание автоматических словарей, разработка языка-посредника, формализация грамматики, преодоление омонимии (лексической и синтаксической), обработка и понимание идиоматических образований и др. Во втором периоде продолжают достаточно плодотворно развиваться и воплощаться в практике теоретико-множественные модели грамматик, модели грамматик зависимостей, непосредственно составляющих, моделей порождающей грамматики. В этот период все более активно в прикладную лингвистику вовлекается семантика, в частности по модели «смысл — текст». Возникшие в отечественных и зарубежных университетах центры прикладной лингвистики разрабатывают стратегии машинного перевода (лаборатория математической лингвистики в Санкт-Петербургском университете, в Институте прикладной математики РАН; Всесоюзный центр перевода; группа «Статистика речи» в Ленинградском пединституте — ныне Российском государственном педагогическом университете им. А.И. Герцена, руководитель Р.Г. Пиотровский; группа по исследованию синтаксического моделирования «смысл — текст», руководитель — И.А. Мельчук; и др. Новый этап совершенствования машинного перевода связан с использованием языка-посредника — языка представления знаний. В его основе лежит анализ значения предложения, получаемого при осмыслении «входного предложения, дополненного и размеченного с помощью информации из базы знаний и в ее терминах»1. Процесс перевода представляет собой (в упрощенном, разумеется, виде) преобразование входного предложения (языка X) в выходную структуру (языка Y). Иными словами, результатом машинного перевода является скорее не собственно перевод, а пересказ исходного текста (X). Качество перевода зависит от эффективности языка представления знаний, который осуществляет семантический анализ входной фразы (X) относительно семантической сети и генерацию (синтезирование) ее в выходную фразу (Y). Высокое качество машинного перевода может быть обеспечено только созданием надежных лингвистических основ и программных средств для построения мощных семантических сетей на основе автоматизированных лексиконов. Автоматическое реферирование вызвано к жизни непрерывно растущим объемом научно-технической информации, поиск которой (а значит, и ее использование по первичным текстам) становится все более трудоемким. Поэтому возникла идея вести поиск по так называемым вторичным текстам, представляющим собой свернутую информацию первичного документа (библиографическое описание, аннотация, реферат, научный перевод). Беляева Л.Н., Откупщикова М.И. Автоматический (машинный) перевод // Прикладное языкознание. СПб., 1996. Свертывание первичного текста осуществляется путем его сжатия (компрессии). Разработаны специальные методы свертывания первичного текста: статистико-дистрибутивные (выделение наиболее информативных предложений, в которых сосредоточены наиболее значимые для данного текста языковые знаки); методы использования смысловых индикаторов (помет наиболее содержательных «точек» текста — предмет исследования, цель, методы, актуальность, область применения, выводы, результаты, рекомендации и т.д.); метод текстовых связей (учет межфразовых связей делает реферат целостным).