Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

11-23 (2).docx

Скачиваний:

Добавлен:

27.09.2019

Размер:

115 Кб

Скачать

☆

1 / 31 2 3 > Следующая >>>

11.2 Теза́урус (от греч. θησαυρός — сокровище), в общем смысле — специальная терминология, более строго и предметно — словарь, собрание сведений, корпус или свод, полномерно охватывающие понятия, определения и термины специальной области знаний или сферы деятельности, что должно способствовать правильной лексической, корпоративной коммуникации (проще говоря — пониманию в общении и взаимодействии лиц, связанных одной дисциплиной или профессией); в современной лингвистике — особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами. Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей.

В отличие от толкового словаря, тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться для наполнения баз знаний систем искусственного интеллекта.

В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами её употребления в текстах.

Тезаурус научно-технических терминов — это собрание научно-технической терминологии (около 19 тыс. терминов), отобранной и систематизированной на основе статистического анализа словарного состава научных и политических текстов.

Цели и задачи: Тезаурус предназначается для работников научно-сследовательских институтов и широкого круга научных и редакционных работников, занимающихся обработкой и поиском информации и редактированием научно-технической литературы.

Структура:

В России наиболее известен Тезаурус научно-технических терминов (Шемакин, 1974), который издан в 1972 году. Тезаурус описывает терминологию военно-промышленного комплекса 70-х годов, не соответствует реалиям и технологиям настоящего времени. ВИНИТИ обладает громадным массивом научно-технических текстов, имеются наборы терминов (Белоногов и др., 1993) по научно-техническим отраслям. Но эти термины не организованы иерархическими связями в единый ресурс научно-технической терминологии. Тезаурус состоит из четырех разделов: лексико-семантическое собрание терминов; систематический указатель дескрипторов; указатель иерархических отношений дескрипторов; пермутационный указатель терминов. Систематический указатель дескрипторов включает 33 дескрипторных области. Тезаурус принадлежит военной технологии и большинство дескрипторных областей военных, например: Авиация; Автобронетанковая техника; Артиллерия; Военная медицина и т.д.; а каждая область включает тематические группы. Перечень дескрипторов по группам, организован по алфавитному порядку и обеспечивает доступ к дескрипторам по тематической группировке.

Тезаурус по атомной науке и технике, лексико-семантический указатель (Семенова В.Ф., Москва, Атомиздат, 1975) сосредоточивает внимание на терминах атомной технологии и науки. Тезаурус состоит из лексико-семантического и систематического указателей. Систематический указатель включает и английские эквиваленты. Тезаурусные отношения, включая родовые дескрипторы, дескрипторы первого и второго подчинения, т.е. видовые термины, иерархические и ассоциативные дескрипторы, представлены и в указателях: указательная, или информационно-поисковая информация содержится в отдельных томах.

№12. Банки данных, базы данных , базы знаний. При увеличении объемов информации для многоцелевого применения и эффективного удовлетворения информационных потребностей различных пользователей используется интегрированный подход к созданию внутримашинного ИО. При этом данные рассматриваются как информационные ресурсы для разноаспектного и многократного использования. Внутримашинное информационное обеспечение в настоящее время проектируется на принципе интеграции в виде базы и банка данных. База данных (БД) – это специальным образом организованное хранение информационных ресурсов в виде интегрированной совокупности файлов, обеспечивающей удобное взаимодействие между ними и быстрый доступ к данным. Банк данных (БнД) – это автоматизированная система, представляющая совокупность информационных, программных, технических средств и персонала, обеспечивающих хранение, накопление, обновление, поиск и выдачу данных. Главными составляющими банка данных являются база данных и программных продукт, называемый системой управления базой данных (СУБД). Средствами СУБД любой пользователь может создать файлы БД, просматривать их, изменять, выполнять поиск, формировать отчеты произвольной формы. Кроме того, поскольку структура файлов БД записана на диске в его начале, можно открыть, просмотреть, выбрать данные и из чужого файла, созданного кем-то программно или средствами СУБД. В настоящее время создано большое количество СУБД, имеющих приблизительно одинаковые возможности. Все они позволяют создавать файлы БД на диске (то есть записать их структуру), вводить данные, просматривать созданные файлы, редактировать их, обновляя записи, удаляя ненужные, добавляя новые. Созданные файлов БД можно упорядочивать по значению определенного ключевого реквизита или нескольких реквизитов, выполнять поиск информации в базе, формировать отчеты заданной формы по ее данным, Кроме того, очень важной является функция изменения структуры уже созданного файла базы данных. Технология баз и банков данных является ведущим направлением организации внутримашинного информационного обеспечения. Развитие технологий баз и банков данных определяется рядом факторов: ростом информационных потребностей пользователей, требованиями эффективного доступа к информации, появлением новых видов массовой памяти, увеличением ее объемов, новыми средствами и возможностями в области коммуникаций и многим другим. Как банк данных, так и база данных могут быть сосредоточены на одном компьютере или распределены между несколькими компьютерами. Для того чтобы данные одного исполнителя были доступны другим и наоборот, эти компьютеры должны быть соединены в единую вычислительную систему с помощью вычислительных сетей. Банк и база данных, расположенные на одном компьютере, называются локальными, а на нескольких соединенных сетями ПЭВМ называются распределенными. Распределенные банки и базы данных более гибки и адаптивны, менее чувствительны к выходу из строя оборудования. Назначение локальных баз и банков данных в организации более простого и дешевого способа информационного обслуживания пользователей при работе с небольшими объемами данных и решении несложных задач. Назначение распределенных баз и банков данных состоим в предоставлении более гибких форм обслуживания множеству удаленных пользователей при работе со значительными объемами информации в условиях географической или структурной разобщенности. Распределенные системы баз и банков данных обеспечивают широкие возможности по управлению сложных многоуровневых и многозвенных объектов и процессов.

БАЗЫ ЗНАНИЙ. В развитии информационного обеспечения автоматизированных информационных технологий управления экономической деятельностью наибольший интерес представляют применения в области искусственного интеллекта. Одной их форм реализации достижений в этой области является создание экспертных систем – специальных компьютерных систем, базирующихся на системном аккумулировании, обобщении, анализе и оценке знаний высококвалифицированных специалистов – экспертов. В экспеттной системе используется база знаний, в которой представляются знания о конкретной предметной области. База знаний – эта совокупность моделей, правил и факторов (данных), порождающих анализ и выводы для нахождения решений сложных задач в некоторой предметной области. Выделенные и организованные в виде отдельных, целостных структур информационного обеспечения знания о предметной области становятся явными и отделяются от других типов знаний, например общих знаний. Базы знаний позволяют выполнять рассуждения не только и не столько на основе формальной (математической) логики, но и на основе опыта, фактов, эвристик, т.е. они приближены к человеческой логике. Разработки в области искусственного интеллекта имеют целью использование больших объемов высококачественных специальных знаний о некоторой узкой предметной области для решения сложных, неординарных задач. База знаний является основой экспертной системы, она накапливается в процессе ее построения. Знания выражаются в явном виде, позволяющем сделать явным способ мышления и решения задач, и организованы так, чтобы упростить принятие решений. База знаний, обусловливающая компетентность экспертной системы, воплощает в себе знания специалистов учреждения, отдела, опыт групп специалистов и представляет собой институциональные знания (свод квалифицированных, обновляющихся стратегий, методов, решений). Развитие концепции баз знаний связано с исследованиями и достижениями в области систем искусственного интеллекта. Области применения баз знаний и систем на их основе расширяются. Создается целый спектр баз знаний – от небольших по объему для портативных систем до мощных, предназначенных для профессионалов, эксплуатирующих сложные и дорогие автоматизированные рабочие места. Очень большие базы знаний хранятся в централизованных хранилищах, доступ к которым осуществляется через сети пользователями различных систем, уровней, масштабов и т.д. Успехи в разработке баз знаний сделают их доступными для массового пользователя, что будет способствовать их появлению как актуального коммерческого продукта.

13.2

Текстовая база данных - база данных, записи в которой содержат (главным образом) текст на естественном языке.

Текстовые файлы можно редактировать с помощью обычного текстового редактора, а также распечатать на бумаге без привлечения каких-либо специальных средств. Текстовые файлы баз данных очень просто создавать, а также вносить в них первоначальные данные.

Текстовые файлы баз данных могут быть легко импортированы в программы электронных таблицы, текстовые процессоры или СУБД. Практически все известные приложения могут импортировать данные, хранящиеся в текстовых файлах.

А теперь, как вы могли догадаться, настала очередь поговорить о плохом. Чтобы разобраться в истоках проблемы, давайте рассмотрим традиционный метод организации баз данных в текстовых файлах. В каждой строке текстового файла обычно хранится одна запись, которая состоит из столбцов данных, называемых полями. Для операционной системы текстовый файл базы данных ничем не отличается от обычного файла — потока текстовых символов, разбитого на строки. Давайте рассмотрим пример простейшей текстовой базы данных.

Если файл базы данных хранится на диске в виде непрерывного потока символов: В этом потоке элементы [пробел] и [новая строка] представляют зависимые от конкретной операционной системы признаки пробела и новой строки. Например, в качестве признака новой строки в разных операционных системах может использоваться либо символ перевода строки, либо символ возврата каретки, либо их комбинация. Другими словами, символы всех полей и всех записей файла базы данных упакованы в один сплошной поток байтов файла. Правда, стоит отметить, что подобные файлы отображаются в текстовом редакторе, распечатываются на принтере и представляются Perl в удобном для восприятия человеком виде.

А теперь, после того как вы познакомились со структурой текстовых баз данных, давайте обсудим некоторые их недостатки.

В середину текстового файла нельзя вставить новые данные. При вставке новых записей файл нужно полностью или частично обновлять. Поэтому вставка данных в начало или середину файла автоматически вызывает перезапись расположенных следом данных. Предположим, например, что после записи Борис 555-1212 необходимо вставить запись Сергей 555-613. В результате данные Мария[пробел]555-0912[новая строка] ... нужно сдвинуть к концу файла так, чтобы после записи Борис 555-1212 образовалось место для новой записи Сергей 555-613:

Таким образом, видно, что вставка записей в середину текстовой базы данных — довольно медленная и не лишенная ошибок операция (особенно при больших размерах файлов). При сбое в момент перезаписи файла может произойти частичная или полная потеря данных.

Приведенные выше замечания справедливы также и для операции удаления записей, которая является обратной вставке данных. Удалить данные из начала или середины файла непросто, поскольку при этом нужноперезаписать оставшуюся часть файла на новое место и удалить образовавшееся свободное место. Предположим, например, что мы хотим удалить запись Мария 555-0912 из исходного файла базы данных. При этом нам нужно сдвинуть к началу файла записи о Павле и Ольге:

При поиске информации в текстовом файле приходится последовательно просматривать файл от начала и до конца. В отличие от DBM-файлов, в которых поиск информации выполнять очень просто, поскольку он связан с хэшем, в текстовых файлах нужно анализировать каждую запись на предмет совпадения с шаблоном. А время выполнения этого процесса зависит от размера текстовой базы данных.

Вставка и удаление записей из текстового файла

Несмотря на перечисленные в предыдущем разделе недостатки, текстовые файлы баз данных все же не так плохи, особенно когда они имеют небольшой размер. Операции вставки и удаления записей из текстовой базы данных выполняются быстро и без особых проблем, если рассматривать текстовый файл как одномерный массив. Например, если база данных имеет вид и сохранена в текстовом файле под именем phone.txt, то написать на Perl короткую программу, загружающую содержимое файла в массив, совсем несложно. Вот один из вариантов программы:

В этом примере функция readdata() предназначена для считывания файла phone.txt и помещения его содержимого в массив @DATA. При этом из элементов массива удаляются символы конца строки. Если добавить еще одну функцию, writedata(), записи базы данных можно будет и читать, и модифицировать. Текст функции writedata() выглядит так:

А теперь, чтобы вставить в базу данных новую запись, сначала нужно вызвать функцию readdata(), которая загрузит содержимое файла в указанный массив. После этого для работы с массивом можно использовать функции push, unshift или splice. Завершив все операции с массивом, для сохранения информации в файле вызовите функцию writedata(), как показано в следующем примере:

Чтобы удалить записи из базы данных, примените одну из функций splice, pop или shift к массиву @PHOKELIST, а затем запишите содержимое этого массива в файл. Кроме того, содержимое массива можно отредактировать, например с помощью функции grep, выполнив перебор элементов в цикле:

В этом примере все записи базы данных сначала копируются с помощью функции readdata() из файла в массив @PHONELIST. Затем с помощью функции grep проверяется, не содержат ли элементы массива строку Анн. Те элементы, в которых такая строка не найдена, снова присваиваются массиву &PHONELIST. И в конце этот массив записывается в файл с помощью функции writedata().

Создание и исследование словарных баз данных. Это направление тоже относится к числу основных в деятельности лаборатории. В разное время были созданы базы данных по ряду существующих словарей, а также были созданы оригинальные словари. Ниже приводится список этих баз данных с комментариями об оригинальности словаря и руководителе разработки.

- Грамматический словарь русского языка (на основе словаря А.А. Зализняка, 1977) (рук.- О.В. Кукушкина) [Кукушкина, 1997]

- Словарь синонимов русского языка (на основе словаря А.П. Евгеньевой, 1975) (рук.- А.А. Поликарпов) - Большой словарь лексических и корневых омонимов русского языка (оригинальный словарь О.С. Ахмановой и Н.П. Колесникова) (рук.- А.А. Поликарпов)

- Словарь русских идиоматических фразеологизмов (Random House, 1995) (рук.- О.В. Кукушкина)

- Словарь грамматических фразеологизмов (на основе словаря Р.П. Рогожниковой) (рук.- О.В. Кукушкина)

- Словарь антонимов русского языка (на основе словаря Р.М. Львова) (рук.- А.А. Поликарпов)

- Сводный словник русских словарей и энциклопедий (на основе словаря Р.П. Рогожниковой и др. словарей) (рук.- А.А. Поликарпов)

Словарь новых слов и значений русского языка (на основе словаря Н.З. Котеловой, 1984) (рук.- А.А. Поликарпов) [Поликарпов 2000]

- Словарь новых слов и значений английского языка (на основе словаря компании Лонгман, 1990) (рук.- А.А. Поликарпов)

- Словарь-тезаурус 10 тыс. более употребительных слов русского языка (оригинальный, автор - О.В. Кукушкина)

- Комплексный частотный словарь лексики современой русской прозы (оригинальный, автор - Ю.К. Крылов)

- Семантический частотный словарь пушкинской лексики (на основе "Словаря языка А.С. Пушкина") (рук.- А.А. Поликарпов)

- Словарь синонимов, антонимов и семантически соотнесенных слов английского языка (на основе Webster's New Dictionary of Synonyms, 1973) (рук.- А.А. Поликарпов)

- Хронологический морфемно-словообразовательный словарь русского языка (рук.- А.А. Поликарпов);

- Частотный словарь газетной лексики и фразеологии современного русского языка (рук.- А.А. Поликарпов, О.В. Кукушкина);

- Параметрический словарь древнерусского языка (рук.- А.А.Поликарпов);

- Параметрический словарь лексики славянских языков на основе "Этимологического словаря славянских языков" О.Н.Трубачёва (рук.- А.А.Поликарпов).

Лингвистическое обеспечение:

- словарь словоизменения (более 100 тыс. слов русского языка)

- словарь моделей управления предикатов русского языка

- тезаурус общей лексики (прежде всего синонимы и обобщающие понятия)

- специальные словари и правила.

Используется морфологический анализ при поиске английских слов.

Пробная версия: как указано на сайте, в пробном варианте доступна только версия для Oracle. Остальные только по специальному договору с фирмой.

Ценовая политика: Цены на продукт определена в зависимости от версии системы. Версия определяется установленными ограничениями, в основном на число документов в базе.

число серверов и документов не ограничено

Вывод: Архитектура системы характерна для реляционных СУБД. Применительно к текстовому поиску это несколько утяжеляет систему и ухудшает характеристики. Интерфейс требует профессиональной настройки. Система предназначена для разработчиков корпоративных систем поиска информации, прежде всего полнотекстовых баз данных в Интернете. Для использования в качестве персональной системы поиска информации конечным пользователем не предназначена.

Основное направление деятельности компании это теория и практика компьютерного распознавания смысла текста — наиболее сложное и перспективное направление развития информационно-поисковых систем. В этой облпсти RCO можно считать лидером. Специализация на программах интеллектуальной обработки текста определила ориентацию на использование для поиска информации промышленных СУБД других фирм, прежде всего СУБД Oracle и MS SQL Server

№14. Лексикографические БД. Устройство записи лексикографической БД. Блок морфологического анализа в автоматическом словаре.

В центре внимания лексикографии находятся методы создания словарей. В отличие от лексикологии - теоретической дисциплины, являющейся частью семантики и занятой разработкой методов описания значения слов (в том числе и методов их толкования), проблематика лексикографических работ лежит в сфере словарной практики. Центр ее интереса - способы организации словарной статьи, устройство словарей и технология их создания.

Современная лексикография существенно расширила и усилила свой инструментарий компьютерными технологиями создания и эксплуатации словарей. Это направление прикладной лингвистики получило название компьютерной лексикографии. Специальные программы - базы данных, компьютерные картотеки, программы обработки текста - позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее.

Основные направления компьютерной лексикографии:

1. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д.)

2. теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing)

3. создание словарей, являющихся машинными версиями традиционных словарей.

Первое и второе направления занимаются разработкой «программ поддержки лексикографических работ».

Этапы создания современного словаря:

● корпус текстов (на его основе формируется словник и иллюстрации),

● словарные статьи,

● ввод информации в базу данных,

● редактирование информации в базе данных,

● компиляция словаря в текст,

● редактирование в тексте и базе данных,

● верстка и оригинал-макет,

● печать.

Компьютерные программы поддержки лексикографических работ

Традиционная форма фиксации словарных данных - это католожная карточка, где описывается слово, пример словоупотребления, источник примера, синтаксическая информация и дополнительная информация, исходя из целей создания словаря. Каталожные карточки собираются в картотеки, а из картотек уже формируются словари различного рода.

Вместо обычной картотеки в компьютерных средах используются записи в базы данных. Лексикографические базы данных фиксируют первичный материал, который используется для написания словарных статей словаря. Лексикографические базы данных не существуют, но традиционные стандартные пакеты для баз данных (MS Access, Paradox, D-Base) подходят для такой работы.

Другим этапом лексикографической работы является поиск примеров на словоупотребление и формирование картотеки примеров. На компьютере это намного проще, так как выбор примеров из корпуса текстов автоматизируется с помощью макросов или специальных программ-конкордансов.

Базы данных

Лексикографическая база данных (англ.: «Lexicographic database») - база данных, запись в которой содержит данные об одной лексической единице и соответствует статье словаря. Глоссарий: «лексикографические базы данных – это словари, рубрикаторы, классификаторы и т.п. С их помощью ведутся систематический, предметный и другие виды поиска. Среди этих БД могут быть словари ключевых слов (нормализованной лексики), словари предметных рубрик, тезаурусы, классификационные системы, БД авторитетных записей (точек доступа)».

Схема системы базы данных (от англ. Database scheme) — её структура, описанная на формальном языке, поддерживаемом системой управления базами данных (СУБД). В реляционных базах данных схема определяет таблицы, поля в каждой таблице, а также отношения между полями и таблицами.

Схемы в общем случае хранятся в словаре данных. Хотя схема определена на языке базы данных в виде текста, термин часто используется для обозначения графического представления структуры базы данных.

Блок морфологического анализа.

Автоматический морфологический анализ

Автоматический морфологический анализ - специальный модуль автоматического анализа языка, обеспечивающий анализ словоформ на морфологическом уровне.

Анализ, осуществляемый морфологическим модулем автоматической обработки естественного языка, может заключаться в следующем:

нормализация словоформ (лемматизация), т.е. сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме);

стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "псевдооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательного фотографический и существительного фотография, так как пользовательскому запросу будут удовлетворять и документы со словосочетанием фотографический портрет и со словосочетанием портретная фотография)

частеречный тэгинг (pos-tagging), т.е. указание части речи для каждой словоформы в тексте)

полный морфологический анализ - приписывание грамматических характеристик словоформе

Основные проблемы, связанные с любым типом морфологического анализа - это морфологическая омонимия (ср. предложение Эти типы стали есть в цехе, где стали может быть формой глагола стать и формой существительного сталь), а также существование новых, редких слов или окказионализмов. Затем используют лексико-грамматический анализ словоформ.

База данных для морфологического анализа и синтеза.

База данных с рассмотренной выше структурой допускает поиск только по буквенной цепочке — ключу записи. База же, поддерживающая как морфологический анализ, так и синтез, должна допускать поиск записи по идентификатору основы.

Поясним понятие идентификатора основы. В общем случае предполагается, что для одной лексемы в словаре может храниться несколько записей с разными ключами, соответствующими морфологическим основам ее словоформ. Например, для лексемы ЧЕЛОВЕК в словаре хранятся отдельно записи с ключами человек-* и люд-(и); для лексемы ГЛУБОКИЙ — записи с ключами глубок‑(ий), глубоч‑(айш‑ий), глубж‑(е). Каждой такой записи соответсвует некоторое уникальной число, называемое далее идентификатором основы. Считается, что имеется возможность по идентификатору лексемы установить идентификаторы соответствующих ей основ, и наоборот. Например, идентификатор лексемы может быть равен идетификатору одной из ее основ.

15.2

Разработка автоматизированных систем – зачем это нужно?

23.08.2011

Прежде чем начать разговор о разработке автоматизированных систем, давайте посмотрим, а что же такое в принципе «автоматизированная система»?

Знающая все Википедия сообщает, что «автоматизированная система (АС) — это организованная совокупность средств, методов и мероприятий, используемых для регулярной обработки информации для решения задачи. Если автоматизируемый процесс связан в основном с обработкой информации, то такая система называется автоматизированной информационной системой (АИС).

Главной целью создания АС является не упрощение, но категоризация и стандартизация автоматизируемого процесса, что позволяет обеспечивать стабильность работы системы, прозрачность её контроля и анализа слабых мест и основания для её развития либо свёртывания (списания, замены)».

Все эти «наукообразные» фразы скрывают вполне простую мысль:

автоматизированные системы – это средства для решения прикладных задач в различных сферах деятельности, которые позволяют выполнять ежедневную рутинную работу легче и быстрее.

Поначалу АС, и в частности, автоматизированная информационная система, представляла собой программный продукт, который устанавливался на отдельном персональном компьютере и позволял повысить эффективность работы конкретного пользователя.

Размещение автоматизированных систем в локальных сетях организаций позволило оптимизировать групповую работу. Однако в ряде случаев, например на предприятиях с филиальной структурой, полноценное использование систем было сложным.

Повсеместное распространение Интернета позволило по-новому организовать доступ к автоматизированным системам. Созданные по типу сайтов или просто размещенные в разделах уже существующего корпоративного сайта, системы могут использоваться независимо не только от места нахождения сотрудников, но и от времени (после работы, в выходные дни и т. п.).

С течением времени менялась и роль автоматизированных информационных систем. Первоначально они применялись лишь для автоматизации всем привычной «бумажной рутины». Сейчас же АС способны автоматизировать сложнейшие процессы, состоящие из большого количества разнообразных действий. Автоматизация учета, автоматизация торговли, автоматизация производственных процессов, автоматизация документооборота, автоматизация процессов управления – сложно найти сферу, где не используются автоматизированные системы.

В связи с этим вырос и спрос на разработку автоматизированных систем. За последние годы мы выполнили несколько проектов, самыми серьезными из которых стали система автоматизации процесса управления муниципальным заказом и автоматизированная система обмена информацией между госорганами и плательщиками налогов и взносов в рамках электронного документооборота.

Разработка автоматизированных систем – дело непростое, требующее для достижения полноценного результата не только грамотного программирования, но и глубокого «погружения» в предметную область.

Ведь, как уже говорилось, количество специфических процессов, которые необходимо автоматизировать, может быть необычайно велико. Например, автоматизированная «Система управления муниципальным заказом», разработанная по заказу мэрии Новосибирска, включает размещение информации о товарных позициях, сбор заказов от бюджетополучателей, формирование лотов, публикацию сведений о проведении торгов и выборе поставщика и многое другое.

Конечно, далеко не всем компаниям требуется такая сложная автоматизация. Иногда для повышения эффективности работы достаточно автоматизировать самые простые, привычные действия – все зависит от вида деятельности, масштабов бизнеса и решаемых задач.

Обладая значительным опытом, мы можем выполнить для вас разработку автоматизированной системы любого уровня сложности.

Информационные языки — специализированные искусственные языки, используемые в различных системах обработки информации. От информационных языков следует отличать языки программирования, машинные языки и формализованные языки науки. Обычно различают:

информационно-логический язык — язык для информационно-логических систем. В первую очередь, языки представления знаний (напр., SC, SCP, SCL) и языки баз данных (напр., SQL).

информационно-поисковый язык — знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Примером информационно-поискового языка является язык библиографического описания, который служит средством идентификации текстов и используется в алфавитных каталогах, картотеках и библиографических указателях. В его составе — библиографические элементы (фамилии авторов, заглавия, названия учреждений, периодических изданий и т. п.). Другим примером информационно-поискового языка являются языки обращений к поисковым системам Yandex или Google.

Между логическими и поисковыми языками нет принципиальной разницы, так как многие информационные языки могут использоваться как в одной, так и в другой системе. Любые информационные языки должны обеспечивать однозначную запись информации и её последующее распознавание с определённой полнотой и точностью, а информационно-логический язык, помимо этого — формализацию логического вывода.

Искусственные языки и попытки их создания

Многим уже само словосочетание «искусственный язык» может показаться крайне странным. Почему именно «искусственный»? Если есть «искусственный язык», то, что такое «язык естественный»? И, наконец, самое важное: зачем создавать ещё один новый язык, когда в мире итак существует огромное количество живых, умирающих и древних языков?

Искусственный язык, в отличие от естественного, не является плодом человеческого общения, возникшим в результате сложных культурных, социальных и исторических процессов, а создан человеком как средство коммуникации с новыми характеристиками и возможностями. Возникает вопрос, не является ли он механическим порождением человеческого ума, живой ли он, есть ли у него душа? Если мы обращаемся к языкам, созданным для литературных или кинематографических произведений (например, язык эльфов Квэнья, придуманный профессором Дж. Толкиеном, или же язык империи Клингон из сериала Star Trek), то в данном случае причины их появления ясны. Это же относится и к языкам компьютерным. Однако чаще всего люди пытаются создать искусственные языки как средство общения между собой представителей различных национальностей, по политическим и культурным причинам.

Например, известно, что все современные славянские языки родственны друг другу, как и все современные славянские народы. Идея их объединения витала в воздухе с давних времен. Сложная грамматика старославянского никак не могла бы сделать его языком межнационального общения славян, а остановить выбор на каком-либо конкретном славянском языке представлялось почти невозможным. Ещё в 1661 году был выдвинут проект всеславянского языка Крыжанича, заложивший основы панславизма. За ним последовали другие идеи общего для славян языка. А в 19 веке распространение получил общеславянский язык, созданный хорватским просветителем Кораджичем.

Проекты создания универсального языка занимали и математика Рене Декарта, и просветителя Яна Амоса Коменского, и утописта Томаса Мора. Ими всеми двигала притягательная идея разрушения языкового барьера. Однако большинство искусственно созданных языков так и остались увлечением очень узкого круга энтузиастов.

Первым языком, добившимся более или менее заметного успеха, считается волапюк, изобретенный немецким священником Шлейром. Он отличался очень простой фонетикой и был построен на основе латинского алфавита. Язык имел сложную систему образования глаголов и 4 падежа. Несмотря на это, он довольно быстро завоевал популярность. В 1880-х на волапюке даже издавались газеты и журналы, существовали клубы его любителей, выходили в свет учебники.

Но вскоре пальма первенства перешла к другому гораздо более простому в изучении языку — эсперанто. Варшавский врач-окулист Лазарь (или же, на немецкий манер, Людвиг) Заменгоф некоторое время публиковал свои труды под псевдонимом «доктор Эсперанто» (надеющийся). Работы были посвящены как раз созданию нового языка. Свое творение сам он называл «internacia» (международный). Язык был настолько простым и логичным, что сразу же вызвал интерес у публики: 16 незамысловатых грамматических правил, отсутствие исключений, слова, заимствованные из греческого и латыни — все это делало язык очень удобным для изучения. Эсперанто и по сей день остается самым популярным искусственным языком. Интересно отметить, что в наше время существуют также носители эсперанто. Одним из них является Джордж Сорос, чьи родители некогда познакомились на конгрессе эсперантистов. Знаменитый финансист — изначально билингв (его первый родной язык — венгерский) и редкий пример, демонстрирующий то, как искусственный язык может стать родным.

В наше время искусственных языков великое множество: это и лолган, разработанный специально для лингвистических исследований, и созданный канадским филологом язык Токи Пона, и Эдо (реформированный эсперанто), и словио (панславянский язык, разработанный Марком Гуцко в 2001 году). Как правило, все искусственные языки очень просты, что нередко вызывает ассоциации с описанным Оруэллом в романе «1984» новоязом, языком который изначально конструировался как политический проект. Потому и отношение к ним часто бывает противоречивым: зачем учить язык, на котором не написана великая литература, на котором не говорит никто, кроме нескольких любителей? И, наконец, зачем учить язык искусственный, когда существуют международные естественные языки (английский, французский?)

№16. Автоматизированные и полуавтоматизированные системы перевода. Автоматические и компьютерные словари. Системы Translation memory.

Автоматизированный перевод (АП, англ. Computer-Aided Translation) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.

В современной форме идея АП была развита в статье Мартина Кея 1980 года[2], который выдвинул следующий тезис: «by taking over what is mechanical and routine, it (computer) frees human beings for what is essentially human» (компьютер берет на себя рутинные операции и освобождает человека для операций, требующих человеческого мышления).

В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями, памятью переводов (англ. Translation Memory, TM), содержащей примеры ранее переведенных текстов, терминологическими базами, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.

Автоматизированный перевод — это широкое и не совсем точное понятие, охватывающее широкий спектр простых и сложных инструментов. Они могут включать:

Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;

Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;

Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме. Это может быть и простая таблица, созданная в текстовом редакторе, и электронная таблица, и база данных, созданная в программе FileMaker. Для более трудоемких (и более дорогих) решений существует специальное программное обеспечение, например, LogiTerm, MultiTerm, Termex, TermStar и т. п.

Словари на компакт-дисках, одноязычные или многоязычные;

Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету, например The Open Terminology Forum или TERMIUM;

Программы для полнотекстового поиска (или индексаторы), которые позволяют пользователю обращаться с запросами к ранее переведенным текстам или разного рода справочным документам. В индустрии переводов известны такие индексаторы, как Naturel, ISYS Search Software и dtSearch;

Программы конкорданса, которые позволяют находить примеры слов или выражений в употребляемом контексте в одноязычном, двуязычном или многоязычном корпусе, как например, битекст или память переводов, например Transit NXT;

Битекст, одно из нововведений последнего времени, это результат слияния исходного текста и его перевода, который впоследствии может быть проанализирован при помощи программ для полнотекстового поиска или конкорданса;

Программное обеспечение для управления проектами, которое позволяет лингвистам структурировать сложные переводческие проекты, передавать выполнение различных задач разным сотрудникам и наблюдать за процессом выполнения этих задач;

Программы управления памятью переводов (TMM), состоящие из базы данных сегментов текста на исходном языке и их переводов на один или более целевых языков, например Transit NXT;

Почти полностью автоматические системы, напоминающие машинный перевод, но позволяющие пользователю вносить определенные изменения в сомнительных случаях. Иногда такие программы называют машинным переводом с участием человека.

Автоматические словари. Автоматический словарь — это словарь в специальном машинном формате, предназначенный для испюльзования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различаются автоматические словари конечного пользователя-человека (АСКП) и автоматические словари для программ обработки текста (АСПОТ). Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от АС, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т. д. Чаще всего они являются компьютерными версиями хорошо известных обычных словарей. Автоматические словари такого типа практически повторяют структуру словарной статьи обычных словарей, однако они обладают функциями, недоступными своим прототипам. Например, многие АСКП позволяют осуществлять сортировку данных по полям словарной статьи (пр. отбор всех прилагательных), проводить автоматический поиск всех вокабул, имеющих в толковании определенный семантический компонент и т. д.

Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют. Так, количество зон словарной статьи такого словаря может варьировать от одной до сотни. Чрезвычайно разнообразны и области лексикографического описания. Это может быть синтаксический словарь, семантический словарь, словарь морфем, псевдооснов, словарь устойчивых словосочетаний и т.д. АС, используемые в системах информационного поиска, имеют вид тезаурусов, а АС систем машинного перевода включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова.

В принципе, к автоматическим словарям можно применить те же параметры классификации, которые подходят для обычных словарей.

Память переводов (ПП, англ. translation memory, TM, иногда также называемая «накопитель переводов») — база данных, содержащая набор ранее переведенных сегментов текста.

Одна запись в такой базе данных соответствует сегменту или «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения, либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format), который основан на XML и который может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик работающий с OmegaT может использовать ПП, созданную в ТРАДОСе и наоборот.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

№17. Важнейшие системы машинного перевода с исторической точки зрения. Перспективы машинного перевода.

Начало работ по машинному переводу (МП) или автоматическому переводу (АП) относят к 50-м гг. XX в. Идея машинного перевода обязана своим происхождением чисто практическим нуждам. В начале 50-х гг. происходит информационный взрыв — существенно возрастают объемы научно-технической информации. Перевод всей научной и технологической периодики оказывается невозможным. Дополнительный импульс исследованиям в области МП дала «холодная война»: противостоящие общественно-политические системы внимательно следили за развитием научно-технического потенциала друг друга. Именно по этой причине многие первые зарубежные системы МП работают с русским языком (см. ниже).

В СССР первый эксперимент по МП прошел в 1955 г.: был осуществлен перевод на русский язык текстов по прикладной математике. К этому времени относится начало работ по МП в Институте прикладной математики АН СССР под руководством О. С. Кулагиной и И. А. Мельчука. Коллектив разработчиков создал три экспериментальные системы МП — с французского языка на русский (ФР-1), с английского на русский и с французского на русский (в новом варианте) [Кулагина 1979]. В 1959 г. открывается Лаборатория машинного перевода в МГПИ-ИЯ им. М. Тореза (ныне Московский государственный лингвистический университет), в которой возникли идеи, во многом предвосхитившие дальнейшее развитие теории МП и в какой-то степени систем искусственного интеллекта — концепция языка-посредника, понятие модели управления слова, роль словаря в МП и т. д. Серия публикаций этой лаборатории под общим названием «МП и ПЛ» (Машинный перевод и прикладная лингвистика), оказала существенное влияние не только на прикладную, но и на теоретическую лингвистику. Многие из этих идей нашли отражение в проекте системы англо-русского автоматического перевода (АРАП), которая, однако, не была завершена.

Первые системы МП характеризуются стратегией «прямого перевода». Сущность этого подхода к построению МП заключается в том, что исходный текст на языке L₁ (= «входной язык») постепенно через ряд этапов преобразуется в текст языка L₂ (= «выходной язык»). Преобразования сводятся к тому, что слово (словосочетание) на входном языке заменяется на его словарный эквивалент на выходном языке. Понятно, что в системах первого поколения, использующих стратегию прямого перевода, нет необходимости моделировать функционирование языковой системы в целом. Для работы таких систем оказывается вполне достаточно правил словарных соответствий. В редких случаях проводится анализ контекста для перевода неоднословных выражений, опять-таки представленных в словаре системы. Важно иметь в виду, что стратегия прямого перевода не делает различий между пониманием (анализом) и синтезом (порождением), поскольку они фактически исключены из преобразований по правилам словарных соответствий. Прямой перевод всегда привязан к конкретной паре языков. Например, неоднозначность выражений входного языка разрешается только в той степени, в которой это оказывается необходимым для выходного языка. Стратегия прямого перевода в принципе неприменима для проектирования систем МП на более, чем один язык. По временным рамкам системы первого поколения в основном создавались в период с конца 40-х до середины 60-х гг. Один из типичных примеров системы такого типа — разбираемая ниже программа GAT.

Существенная модификация стратегии «прямого перевода» обнаруживается в системах с «трансфером» — этапом межъязыковых операций, не сводимых только к замене лексем входного языка на словарные соответствия выходного языка. Наличие этапа трансфера предполагает построение «промежуточного» или «внутреннего» представления, которое далее «приспосабливается» к структуре предложения выходного языка. В отличие от первой стратегии, в архитектуре систем МП с трансфером анализ (понимание) и синтез существуют как особые процедуры и обслуживаются различными алгоритмами. В некотором смысле системы с трансфером оказываются промежуточным звеном между стратегией прямого перевода и последующей стратегией языка-посредника (см. ниже систему TAUM).

Критика стратегии прямого перевода привела к созданию «стратегии перевода через язык-посредник» или «стратегии языка-посредника». Главная особенность этой стратегии заключаются в том, что между структурами входного языка и структурами выходного языка находится один или несколько промежуточных языков, на которые по соответствующим правилам последовательно «переписываются» выражения языка L₁ ^l3). Анализ и синтез при использовании языка-посредника принципиально разделяются. Анализ ведется в категориях входного языка, а синтез — в категориях выходного. В качестве языка (языков)-посредников могут выступать языки представления синтаксической и семантико-синтакси-ческой структуры, чисто семантические языки, языки глубинной семантики, приближающиеся к концептуальному представлению в категориях теории знаний (фреймов, сценариев, планов). Системы машинного перевода, основанные на знаниях (knowledge-based systems), возникшие в 80-х гг., рассматриваются как часть систем искусственного интеллекта. Достаточно условно эта стратегия соответствует второму поколению систем МП с тем уточнением, что системы второго поколения используют почти исключительно синтаксические и семантико-синтаксические языки-посредники (см. ниже систему СЕТА).

Последовательное проведение идеи языка-посредника привело к возникновению стратегии «универсального семантического языка», независимого от конкретного входного и выходного языка. Преимущества такой стратегии очевидны. Однако современное состояние семантической теории не оставляет надежд на успешную реализацию этой стратегии в ближайшем будущем. Таким образом, системы МП третьего поколения остаются в настоящее время весьма отдаленной перспективой.

Как компенсация проблем, возникших со стратегией универсального семантического языка, развивается несколько промежуточных стратегий, позволяющих существенно улучшить параметры промышленных систем МП. Стратегия «сужения проблемной области» предлагает разработчикам МП ориентироваться на узкие тематические сферы текстов. Это позволяет существенно облегчить словарь системы МП и ограничиться только теми особенностями устройства языковой системы, которые реально представлены в данном подъязыке. Эта стратегия универсальнадля многих сфер прикладной лингвистики — от лексикографии до лингвистического обеспечения информационно-поисковых систем и систем искусственного интеллекта. Стратегия «ограниченного машинного перевода» позволяет включать в технологическую цепочку автоматического перевода человека — на этапе предредактирования, постредактирования или в режиме обработки текста (например, для разрешения синонимии и омонимии).

Компьютерные средства перевода обычно разделяют на три больших группы: системы машинного перевода, системы человеко-машинного перевода (ЧМП) и терминологические базы/банки данных (ТБД). Системы собственно машинного перевода не исключают (даже, как правило, предполагают) участие человека на этапе предредактирования и постредактирования. В данном случае существенно, что после ввода текста в систему перевод осуществляется без вмешательства человека. Используются только алгоритмы и словари, введенные в ЭВМ.

Количество реально работающих и проектируемых систем МП к настоящему времени перевалило за сотню; в некоторых обзорах содержатся описания более, чем семидесяти систем МП [Леонтьева, Шаляпина 1990]. Остановимся на тех программах перевода, которые интересны с точки зрения введенных противопоставлений, характеризующих стратегии МП и типы систем МП.

Система GAT. Одна из первых систем МП, разрабатывавшаяся с 1952 г. в Джорджтаунском университете США. Проблемная область — перевод русскоязычных текстов по физике на английский язык. Стратегия создания — прямой перевод, сопровождавшийся некоторыми синтаксическими перестановками, приближавшими русский порядок слов к порядку слов английской фразы. В процессе разработки система последовательно настраивалась на определенный текст, затем на следующий текст и т. д. В результате получилась структурно непрозрачная программа, которая практически не поддавалась модификации. Работы над системой были закончены в 1964 г., после чего она была передана для эксплуатации в Комиссию по атомной энергии и в Евроатом. При том, что программа не имела под собой никакой серьезной лингвистической базы, она эксплуатировалась в Евроатоме до 1976 г.

Системы СЕТА¹⁵⁾ и GETA¹⁶⁾. Система русско-французского машинного перевода, разрабатывавшаяся во Франции в Гренобльском университете с 1961 по 1971 гг. Стратегия построения — использование языка-посредника, независимого от структуры входного и выходного языков. Опыт разработки оказался не вполне удачным, поскольку сконструированный язык-посредник приводил к потере релевантной информации. Тем не менее с помощью СМП СЕТА были переведены русские тексты по математике и физике общим объемом 400 тыс. слов. В дальнейшем проект трансформировался в новый проект разработки СМП GETA, в которой реализовывалась стратегия построения СМП с трансфером. Грамматический модуль системы GETA состоит из трех типов программ: преобразование линейных цепочек в деревья (например, при морфологическом анализе); преобразование одних деревьев в другие (например, при синтаксическом анализе и в ходе межъязыковых операций); преобразование деревьев в линейные цепочки (например, при морфологическом синтезе). Системы СЕТА и GETA являются научно-экспериментальными, хотя в настоящее время предпринимаются усилия по разработке промышленной версии СМП GETA.

Система TAUM¹⁷⁾. Система TAUM, предназначенная для перевода английских текстов на французский язык, разрабатывалась в Монреальском университете с 1965 г. СМП TAUM строилась как система с трансфером. Изначально проект не имел направленности на конкретную проблемную область. Позднее система была переориентирована на перевод прогнозов погоды — TAUM—METEO — и на перевод текстов руководств и инструкций по эксплуатации авиационной техники — TAUM-AVLATION. Второе направление развития системы оказалось не вполне удачным из-за неэкономичности разработанного прототипа. Между тем СМП TAUM—METEO к настоящему времени является единственной в мире полностью автоматической системой машинного перевода. Успешность работы этой системы связана в значительной степени с жесткой структурой входного языка. В подъязыке метеосводок используется сильно редуцированный английский язык. Кроме того, имеются и значительные ограничения на макроструктуру текста.

Системы семейства ЭТАП¹⁸⁾. Работа над системами началась в 1974 г. в ИНФОРМЭЛЕКТРО и была продолжена в Институте проблем передачи информации РАН; в 1980 г. была сдана первая очередь ЭТАП-1 (французско-русский перевод), а в 1985 — ЭТАП-2 (англо-русский перевод). СМП ЭТАП-2 предназначена для перевода связных текстов и заголовков патентов. Система ЭТАП-2 работала в режиме качественного перевода на основе полного синтаксического анализа и в режиме пословного перевода, в процессе которого привлекался только морфологический анализ. Второй вариант перевода использовался в тех случаях, когда возникали проблемы с синтаксическим анализом фразы¹⁹⁾. По архитектуре системы семейства ЭТАП относятся к системам МП с трансфером: анализ — преобразование (трансфер) — синтез. Однако в идеологии их построения имеются важные концептуальные особенности: в качестве теоретической основы положены постулаты модели «СМЫСЛ—ТЕКСТ», предполагающей независимое лингвистическое описание входного и выходного языков, интегральный язык представления морфологии, синтаксиса и словаря, независимость лингвистического описания от алгоритмов программы, отказ от привязки синтаксиса и морфологии к конкретной проблемной сфере (разумеется, словаря это касается в меньшей степени). В СМП ЭТАП-1 перевод происходит через поверхностно-синтаксическую структуру, а в СМП ЭТАП-2 перевод осуществляется на уровне нормализованных синтаксических структур, которые занимают промежуточное положение между поверхностно-синтаксической и глубинно-синтаксической структурами.

Система ФРАП. Начало работ над системой ФРАП — французско-русский автоматический перевод — относится к 1975 г. В этом году во Всесоюзном центре переводов начала работать группа исследователей под руководством Н. Н. Леонтьевой. В техническом задании к системе указывалось, что СМП должна обеспечивать перевод небольшого количества документов, не имеющих жестких тематических ограничений. Такая постановка задачи существенно осложнила разработку системы, поскольку большинство имеющихся реально работающих СМП привязаны к конкретной проблемной области. Было реализовано две экспериментальные версии системы (первая версия — в 1980 г., вторая — в 1985 г.). Архитектура СМП ФРАП основывалась на стратегии перевода через язык-посредник семантического типа. Синтаксический анализ в системе не обязательно должен всегда давать правильные синтаксические структуры, однако на этапе работы семантического блока даже неправильные и неполные синтаксические структуры получают семантическую интерпретацию, которая далее преобразуется в текст на выходном языке. Иными словами, выбранная стратегия оказывается «помехоустойчивой». Синтаксический компонент системы не зависим от конкретной

проблемной области; роль связующего мостика между разными тематическими областями выполняет семантический компонент. В существующем варианте системы реализована лишь часть модели, выполняющая следующие функции: построение подстрочника, грамматический режим, неполный семантический режим.

Теоретическая особенность СМП ФРАП заключается в том, что в процессе работы системы текст входного языка интерпретируется не только на семантическом, но и на информационном уровне — в терминах категорий тезауруса той проблемной области, которая в данный момент обслуживается системой. Информационный уровень представления должен обеспечивать в перспективе и построение реферата по тексту перевода.

Переводческий комплекс АНРАП. Структурно комплекс состоит из двух больших систем — АМПАР (англо-русский перевод) и НЕРПА (немецко-русский перевод), разрабатывавшихся с конца 50-х гг. разными научными коллективами. Объединение этих систем связано с общим программным обеспечением, общим русским словарем и общим блоком русского морфологического синтеза. Переводческий комплекс предназначен для использования в крупных информационных службах и переводческих организациях для перевода текстов различных тематических областей. Для обеспечения тематической привязки предусматривается возможность подключения дополнительных терминологических словарей, описывающих конкретные тематические сферы. Система АМПАР занимает центральное положение в комплексе АНРАП. Теоретические основания СМП АМПАР были заложены в исследованиях И. К. Вельской. Руководили проектной группой АМПАРа сначала Ю. А. Моторин и позже Ю. Н. Марчук²⁰⁾. В промышленную эксплуатацию система принята в 1981 г. На 1987 г. система была установлена в ВЦП и пяти отраслевых организациях. СМП НЕРПА сдана в промышленную эксплуатацию в 1985 г. Технологически в системах АМПАР и НЕРПА реализована прямая стратегия перевода, опирающаяся на значительные по объему словари. В СМП АМПАР программа взаимодействует с шестью различными словарями: 1) английский морфологический словарь; 2) словарь фразеологических выражений; 3) переводной словарь однозначных слов; 4) переводной словарь многозначных слов, представленных в виде процедурных правил выбора значения; 5) словарь перевода многозначных слов по умолчанию; 6) словарь русских слов с морфологической, словообразовательной и синтаксической информацией. Обращение к каждому словарю образует отдельный цикл. Скорость перевода довольно высока (3-5 авторских листов в час), что является необходимым условием функционирования промышленных систем МП, однако качество перевода невысоко. Постредактирование переводов оказывается необходимым.

Система CULT²¹⁾. Программа CULT представляет собой типичный пример системы человеко-машинного перевода. Разработка системы, предназначенной для перевода китайских математических и физических текстов на английский язык, началась в Китайском университете Гонконга в 1968 г. Работа программы CULP требует активного участия человека не только на этапе предредактирования, но и в процессе самого перевода. Так, пользователь в ряде случаев должен выявить границы составляющих, определить, в каком значении используется то или иное слово. Проблема ввода в ЭВМ китайской графики (иероглифов) была решена с помощью кодирования. По имеющимся данным можно судить, что активное участие человека в процессе работы программы практически исключает этап постредактирования, что может служить показателем весьма успешной работы системы человеко-машинного перевода.

Системы семейства ALPS. Программы, разрабатываемые фирмой ALPS, можно рассматривать как типичный пример компьютерного инструментария, образующего рабочее место переводчика. Анализ работы переводчика показывает, что до семидесяти процентов времени, затрачиваемого на перевод, тратится на поиск слова в словаре, выбор и подстановку нужного значения в переводимый текст, а также на форматирование результирующего текста. Системы фирмы ALPS позволяют проводить экранное редактирование текста в многооконном текстовом редакторе, осуществлять оперативный поиск слова в словарных базах данных, переносить информацию из баз данных в текстовый файл, а также делать пословный перевод текста, опирающийся на введенные в систему словарные источники. Предусмотрена возможность пофразового перевода, которая, впрочем, пока не реализована в полном объеме. В настоящее время системы поддержки перевода, распространяемые на рынке фирмой ALPS, обеспечивают перевод на английский, немецкий, французский, португальский и испанский языки.

1 / 31 2 3 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.202536 Кб111-20.docx
#
01.07.202571 Кб311-20_2.docx
#
01.04.2025170 Кб511-20_ruslit.docx
#
01.07.202532 Кб111-21.docx
#
01.05.2025127 Кб311-21_voprosy.doc
#
27.09.2019115 Кб811-23 (2).docx
#
01.05.2025278 Кб211-25.doc
#
17.04.2019297 Кб211-3.doc
#
22.08.201937 Кб411-30.docx
#
31.07.201957 Кб911-я+лекция.docx
#
01.03.202527 Кб311. 1 Писатели – декабристы. Общая характеристи...docx