Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КТ.docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
270.35 Кб
Скачать

1 История машинного перевода

40-е: первые шаги

История машинного перевода (МП) как научно-прикладного направления началась в конце 40-х годов прошлого века (если не считать механизированное переводное устройство П.П. Смирнова-Троянского, своего рода лингвистический арифмометр, изобретенный в 1933 году). В марте 1947 г. Уоррен Уивер (Warren Weaver), директор отделения естественных наук Рокфеллеровского фонда (Rockefeller Foundation), в переписке с Эдрю Бутом (Andrew D. Booth) и Норбертом Винером (Norbert Wiener) впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 г.) развил в своем меморандуме, адресованном Фонду.

У.Уивер писал: "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.’’ ("У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно — это взломать код чтобы извлечь информацию, заключенную в тексте."). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva: стадия передачи информации разделена на два этапа: на первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), на втором этапе результат этого перевода представляется средствами выходного языка.

Меморандум Уивера вызвал самый живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс (Richard Richens) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания).

В те годы машины были очень большие и дорогие и довольно сильно отличались от современных. Они занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР — англо-русскому.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г в Нью-Йорке была представлена первая система МП — IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Была представлена очень ограниченная в своих возможностях программа (она имела словарь в 250 единиц и 6 грамматических правил), осуществлявшая перевод с русского языка на английский. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс). Профессиональные переводчики всерьез опасались в скором времени остаться без работы.

50-е: первое разочарование

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив.). Pen в данном случае должно переводиться не как "ручка" (инструмент для письма), а как "детский манеж" (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз").

Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США — и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии).

60-е: низкий старт

Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе — группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

70-80-е: новый импульс

С развитием вычислительной техники в конце 70-х годов (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в эпоху "Ренессанса". При этом несколько сместились акценты: исследователи теперь ставили целью развитие "реалистических" систем МП, предполагавших участие человека на различных стадиях процесса перевода. Системы МП из "врага" и " конкурента" профессионального переводчика превращаются в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

О возрождении МП в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итальяно-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем МП в Японии (главным образом основанных на технологии interlingva, разработанной Уивером в конце 40-х гг.); в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг., впоследствии развились в полноценные коммерческие системы.

За период 1978-93 в США на исследования в области МП истрачено 20 миллионов долларов, в Европе — 70 миллионов, в Японии — 200 миллионов.

Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. А в конечном итоге "не нужно дважды переводить одно и то же предложение!". В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

От 90-х к XXI веку

90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах

В настоящее время несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, Trados, Caterpillar Co., LingoWare, Ata Software, Lingvistica b.v., и др.

Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети:

- www.alphaworks.ibm.com/aw.nsf/html/mt;

- http://www.freetranslation.com/;

- http://www.transtlate.ru/;

- www.logomedia.net/text.asp;

- www.foreignword.com/Tools/transnow.htm;

- babelfish.altavista.com/translate.dyn; 

- infinit.reverso.net/traduire.asp;

- http://www.t-mail.com/.

С начала 1990-х гг. на рынок систем ПК выходят отечественные разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer’s Machine Translation). В 1991 г. было создано ЗАО "ПРОект МТ", и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система МП для Windows. В 1994 г. вышла версия STYLUS 2.0 для Windows 3.Х/95/NT, а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем МП.

В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" выпустила систему, реализованную по технологии Гигант — для поддержки нескольких языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite.

В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете – PROMT Internet, и переводчик для корпоративных почтовых систем – PROMT Mail Translator. Для корпоративных клиентов разработаны также специальные серверные решения – корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS).

В 2000 г. "ПРОМТ" обновила всю линию своих программных продуктов, выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000.

В 2005 году компания PROMT выпустила новую версию электронного словаря PROMT VER-Dict 2.0. В новом продукте увеличено количество языковых направлений, а также объем и количество словарей.

В 2007 году компания PROMT представила новую линейку систем перевода – PROMT 8.0. Новое поколение переводчиков PROMT обладает еще более широким диапазоном настроек, имеет упрощенный механизм ввода словарных статей, доступ к онлайновым словарным базам, а также встроенную технологию ТМ. В состав восьмой версии PROMT входит переводчик для малого офиса PROMT Standard 8.0, программа для бизнес-пользователей PROMT Professional 8.0, система для профессиональных переводчиков PROMT Expert 8.0 и продукт для домашних пользователей PROMT 4U.

В 2008 году выпуск первого переводчика для смартфонов, КПК и коммуникаторов – PROMT Mobile 7.0, а также корпоративного решения PROMT Translation Server 8.0 Intranet Edition с поддержкой Microsoft ® Office 2007 и Windows Vista и инструмента разработчиков PROMT Translation Server 8.0 Developer Edition

Ключевым событием 2009 года стал выход новой версии наших систем машинного перевода - PROMT 8.5. Была обновлена вся линейка программ PROMT, а розничная линейка также расширена за счет принципиально нового продукта: впервые в России компания PROMT представила комплекты переводческих программ - инновационное решение для работы с переводческими задачами любого объема - от одного слова до целого текста.

Весной 2010 года вышла новая линейка программ-переводчиков – PROMT 9.0. Семейство программ 9.0 рассчитано на использование в корпоративном и частном сегменте, впервые в линейке PROMT представлены программы для профессиональных переводчиков.

Качество перевода заметно улучшено за счет расширения словарных баз (общее обновление составило более 300 000 слов и выражений) и совершенствования механизмов перевода. Акцент делался на улучшение качества перевода новостных текстов, бизнес- и IT-тематик.

В продуктах новой линейки появился доступ к персональному разделу пользователя на сайте – My PROMT. В конце 2010 года PROMT представил Гибридную технологию перевода, совмещающую в себе подход RBMT и SMT. Суть такого совмещения в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов. Совмещение RBMT и SMT подходов дает преимущество от обеих технологий. Такой подход также позволяет быстро обучать переводчиков.

2011 год прошел под знаком переноса приоритетов с домашних систем перевода на корпоративные. В июне появилась новая линейка 9.5. Она включала в себя только корпоративные системы перевода, причем максимум изменений получили серверные решения PTS 9.5 IE и PTS 9.5 DE. У них обновились словарные базы, появился доступ к новым языкам – украинскому, латышскому и польскому, добавилась возможность перевода в браузерах Opera и Google Chrome. С 2011 г. PROMT также предлагает решения на основе статистического подхода.

Перевод в режиме он-лайн при поддержке системы "ПРОМТ" используется на ряде отечественных и зарубежных сайтов: http://www.translate.ru/,  infinit.reverso.net/traduire.asp, http://itranslate4.eu/en/  и др.

Программные продукты компании "ПРОМТ" удостоены целого ряда отечественных и зарубежных наград, подробнее см. http://www.promt.ru/company/history/.

Контрольные вопросы:

1 Чьи идеи легли в основу подхода машинного перевода, который был основан на концепции interlingva?

2 В каком году и где была представлена первая система машинного перевода?

3 Каковы причины первого разочарования исследований, произведенных в области машинного перевода?

4 Что являлось причиной сокращения финансирования исследований в области машинного перевода в США в 50-е годы?

5 Охарактеризуйте 70-е годы развития машинного перевода?

6 Назовите основные страны, которые активно занимаются разработкой систем машинного перевода?

7 В каком году в России была представлена первая коммерческая система машинного перевода? Проследите этап ее разработки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]