Перевод. Машинный перевод
Деятельность, заключающаяся в передаче содержания текста на одном языке средствами другого языка, а также результат такой деятельности. Ее теоретическим осмыслением и оптимизацией занимается дисциплина, называемая наукой о переводе, переводоведением и включающая в себя несколько направлений, среди которых выделяются теория перевода, анализ перевода, методика обучения переводу. Особое место занимает машинный перевод – научная и одновременно технологическая дисциплина, связанная и с наукой о переводе, и с компьютерной лингвистикой. Как и многие другие разделы прикладной лингвистики, перевод по существу междисциплинарен – он связан не только с наукой о языке, но и с литературоведением, когнитивными науками, культурной антропологией, страноведением.
Начало работ по машинному переводу (МП), или автоматическому переводу (АП), относят к 50-м гг. XX в. Идея машинного перевода обязана своим происхождением чисто практическим нуждам. В начале 50-х гг. происходит информационный взрыв — существенно возрастают объемы научно-технической информации. Перевод всей научной и технологической периодики оказывается невозможным. Дополнительный импульс исследованиям в области МП дала «холодная война»: противостоящие общественно-политические системы внимательно следили за развитием научно-технического потенциала друг друга. Именно по этой причине многие первые зарубежные системы МП работают с русским языком.
Формальная дата начала эры машинного перевода — 1949 г. В этом году известный американский специалист по дешифровке Уоррен Уивер составил меморандум, в котором теоретически обосновал принципиальную возможность создания систем МП. Он исходил из того, что структурное сходство между языками может быть формально описано, а это является необходимым условием разработки алгоритмов для ЭВМ. Меморандум был разослан двумстам специалистам в области лингвистики, дешифровки и теории программирования. С этого времени в США появляются коллективы разработчиков МП (в Массачусетском технологическом институте, в Калифорнийском университете, в Национальном бюро стандартов в Лос-Анджелесе, в Техасском университете). Первая международная конференция по МП организуется в 1952 г. в Массачусетском технологическом институте. Наконец, в 1954 г. проводится известный Джорджтаунский эксперимент, в процессе которого осуществляется перевод с русского языка на английский. Хотя программа работала со словарем всего лишь в 250 слов, успех этого эксперимента стимулировал дальнейшие исследования в области МП.
В СССР первый эксперимент по МП прошел в 1955 г.: был сделан перевод на русский язык текстов по прикладной математике.
Изначально предполагалось, что системы МП не должны быть ограничены проблемной сферой. Иными словами, машинный перевод должен осуществляться на текстах любых типов — от научно-технических до художественных. Однако довольно быстро обнаружилось, что это невозможно.
Периодизация стратегий машинного перевода. Первые системы МП характеризуются стратегией «прямого перевода». Сущность этого подхода к построению МП заключается в том, что исходный текст на языке L1 (= «входной язык») постепенно через ряд этапов преобразуется в текст языка L2 (= «выходной язык»). Преобразования сводятся к тому, что слово (словосочетание) на входном языке заменяется на его словарный эквивалент на выходном языке. Понятно, что в системах первого поколения, использующих стратегию прямого перевода, нет необходимости моделировать функционирование языковой системы в целом. Прямой перевод всегда привязан к конкретной паре языков.
Критика стратегии прямого перевода привела к созданию «стратегии перевода через язык-посредник» или «стратегии языка-посредника». Главная особенность этой стратегии заключаются в том, что между структурами входного языка и структурами выходного языка находится один или несколько промежуточных языков, на которые по соответствующим правилам последовательно «переписываются» выражения языка L1. Анализ и синтез при использовании языка-посредника принципиально разделяются. Анализ ведется в категориях входного языка, а синтез — в категориях выходного. Системы машинного перевода, основанные на знаниях (knowledge-based systems), возникшие в 80-х гг., рассматриваются как часть систем искусственного интеллекта.
Достаточно условно эта стратегия соответствует второму поколению систем МП с тем уточнением, что системы второго поколения используют почти исключительно синтаксические и семантико-синтаксические языки-посредники (см. ниже систему СЕТА).
Последовательное проведение идеи языка-посредника привело к возникновению стратегии «универсального семантического языка», независимого от конкретного входного и выходного языка. Преимущества такой стратегии очевидны. Однако современное состояние семантической теории не оставляет надежд на успешную реализацию этой стратегии в ближайшем будущем. Таким образом, системы МП третьего поколения остаются в настоящее время весьма отдаленной перспективой.
Машинный перевод: элементы типологии систем. Компьютерные средства перевода обычно разделяют на три больших группы: системы машинного перевода, системы человеко-машинного перевода (ЧМП) и терминологические базы/банки данных (ТБД). Системы собственно машинного перевода не исключают (даже, как правило, предполагают) участие человека на этапе предредактирования и постредактирования. В данном случае существенно, что после ввода текста в систему перевод осуществляется без вмешательства человека. Используются только алгоритмы и словари, введенные в ЭВМ.
Системы человеко-машинного перевода, в свою очередь, разделяются на две подгруппы: системы машинного перевода с участием человека и системы человеческого перевода с участием машины. В первом случае компьютерная программа сама осуществляет перевод, однако на определенных этапах она может обратиться к человеку, предложив ему, например, выбрать наиболее подходящее слово для перевода, дать синоним для неизвестного выражения или определить структуру сложной синтаксической конструкции. Наконец, человеческий перевод с участием машины всегда осуществляется в режиме реального времени, причем основную часть работы по переводу берет на себя человек. Переводчик обращается к компьютеру для автоматической обработки отдельных фрагментов текста, для вызова информации из терминологических банков данных (часто удаленных), для автоматического форматирования результирующего текста, проверки орфографии и пунктуации и т.д. Компьютерные системы такого рода иногда называют автоматизированным рабочим местом переводчика.
Терминологические банки данных удобны тем, что они легко модифицируются и позволяют фиксировать самую последнюю словарную информацию по выбранной проблемной области. Часто они используются для создания обычных двуязычных и многоязычных словарей, а также для разработки автоматизированных словарей систем МП. ТБД составляют важную часть рабочего места переводчика.
Основные области использования машинного перевода.
В службах научной информации различных ведомств и организаций.
Вторая сфера применения МП — крупные международные организации, использующие документы на многих языках (ООН, ЕС и др.). Требования к качеству перевода здесь довольно высоки и этап постредактирования необходим даже для систем МП.
Третья область использования МП — техническая документация. Экспорт продукции — особенно высокотехнологичной — требует перевода больших массивов описаний и инструкций. Так, документация к самолетам достигает 100 и более тыс. страниц.
В настоящее время системы МП успешно функционируют в тех областях, где или не требуется абсолютная точность перевода, или существуют существенные ограничения на использование структур естественного языка, где входной язык нормирован и упрощен. К числу проблемных областей последнего типа относится, например, подъязык метеосводок.
Цель создания промышленных МП ясна — это получение МП потоков документов, организованное как регулярный процесс. Промышленные системы МП должны отвечать следующим требованиям.
Устойчивость работы системы. Система МП должна давать результат, который специалист может использовать даже в случае дефектов исходного перерабатываемого материала и неполноты словарного обеспечения. При этом «грубые» переводы могут быть использованы как исходный материал для получения качественного ручного перевода (ср. систему SYSTRAN).
Тиражируемость системы. Система должна иметь достаточно простые программные и лингвистические средства для расширения областей ее применения. Кроме того, в системе должны выделяться универсальные модели, использование которых облегчает переход к новым предметным областям и языкам.
Адаптируемость системы. Система МП должна иметь средства настройки на потребности конкретных пользователей и особенности обрабатываемых материалов.
Оптимальность временных параметров. Скорость перевода текстов в системе МП должна соответствовать либо объему поступающей в единицу времени информации, либо нормам работы редакторов, переводчиков или специалистов, являющихся пользователями системы.
Комфорт пользователя. Сервисные средства системы должны обеспечивать удобство работы пользователя как в пакетном, так и диалоговом режиме.
