Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

17 Компью́терная лексикогра́фия

.docx
Скачиваний:
25
Добавлен:
11.02.2015
Размер:
30.01 Кб
Скачать

Компью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это — временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям.

В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы — базы данных, компьютерные картотеки, программы обработки текста — позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её[1]. Множество различных компьютерных лексикографических программ разделяются на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных.

История компьютерной лексикографии

Термин «Компьютерная лексикография» был придуман для обозначения изучения машиночитаемых (электронных) словарей[3] и появился в середине 1960-х годов. Эта дисциплина не получила значительного внимания вплоть до начала 1990-х годов. Термин «машиночитаемый словарь» означает что данные из словаря (которые хранятся в электронном виде) могут быть обработаны и изучены с помощью современной вычислительной техники.

Компьютерная лексикография пришла в упадок, поскольку исследователи пришли к заключению, что технология машиночитаемых словарей была полностью использована[4]. Тем не менее, многие издатели словарей приняли эти исследования во внимание, чтобы включать больше информации, которая могла бы быть полезной. Таким образом ученые-практики, работающие над темой «компьютерная лексикография», могут внести свой вклад в дальнейшее расширение лексической информации. Чтобы обеспечить основание для этого вклада, нужно учитывать результаты, полученные в начале исследования компьютерной лексикографии.

Новаторская работа Эвенса[5] и Амслера[6] (1980) послужила толчком для расширения исследований электронных словарей, например была проведена практическая работа с использованием Седьмого Энциклопедического словаря Вебстера[7]. Стимулом для этих исследований послужило также широкое использование Longman Dictionary of Contemporary English[8] в 1980-х, этот словарь по-прежнему является одним из лучших электронных словарей.

Первоначально электронные словари имели такую же форму записи, как обычные словари, и исследователям приходилось тратить много времени для интерпретации такой формы записи (например, чтобы определить, к какой части речи относится определенное слово). С развитием технологий издатели решили отделить базу данных электронного словаря от того, как он выглядит при печати. Сегодня существуют более удобные формы записи, например расширяемый язык разметки XML. Используя XML, исследователи получают быстрый доступ к информации, хранящейся в электронном словаре.

Основные понятия компьютерной лексикографии

Автоматический словарь  — это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различаются автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста. Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д[1];

Гипертекст  — это множество текстов со связывающими их отношениями (системой переходов)[9].

Гипертекстовые технологии позволяют легко сочетать различные виды информации — обычный текст, рисунок, график, таблицу, схему, звук и движущееся изображение. Как традиционный текст, так и гипертекст — феномены, порожденные новыми технологиями. В первом случае технология позволила легко тиражировать и распространять знания самых различных типов, а во втором — компьютерные технологии дали возможность изменить сам внешний вид текста и его структуру. Разнородность гипертекста — это первое технологическое свойство гипертекста, технологическое в том смысле, что оно непосредственно следует из используемой компьютерной технологии. Второе технологическое свойство гипертекста — его нелинейность. Гипертекст не имеет стандартной, обычной последовательности чтения. Прочие свойства гипертекста в той или иной степени являются следствиями из этих двух технологических свойств.[9];

Надо отметить, что практическая ценность гипертекста в компьютерной лексиграфии состоит в том что, он описывает тип интерактивной среды с возможностями переходов по ссылкам. Нелинейный характер гипертекста дает возможность формирования информации в виде разветвленной структуры, что позволяет в значительной степени расширить словарной статьи[1];

Средства навигации по словарю  — ссылки, внедренные в различные элементы электронной среды — часть гипертекстового устройства электронного словаря, представляющего собой соединение смысловой структуры, структуры внутренних связей некоего содержания и технической среды и технических средств, дающих человеку возможность осваивать структуру смысловых связей, а также осуществлять переходы между взаимосвязанными элементами[10].;

Основные типы электронных словарей

Электронный словарь  — это любой упорядоченный, относительно конечный массив лингвистической информации, представленный в виде списка, таблицы или перечня, удобного для размещения в памяти ЭВМ и снабженного программами автоматической обработки и пополнения.[11].

Типы электронных словарей

Портативные электронные словари — здесь в роли электронного словаря выступает специальное портативное устройство. Существует целый класс подобных устройств, предназначенных для туристов, переводчиков, а также других людей, использующих иностранные языки;

Словари-программы;

Онлайновые словари — размещены на веб-сайте, и для доступа к ним требуется постоянное подключение компьютера к Интернету;

Терминологические базы данных — это базы данных, содержащие ключевые термины, которые должны одинаково переводиться в пределах всего документа (проекта).

Преимущества[править | править исходный текст]

Новое возможности электронных словарей позволяют преодолеть ограничения в использовании традиционных бумажных[17]. К ним относятся

более широкие возможности отображения в словарях не только содержания словарной статьи в целом, но и частичного показа по разным критериям, разнообразные графические средства, которые не используются в обычных словарях;

для доступа к содержанию используются разнообразные лингвистические технологии (морфологический и синтаксический анализ, полнотекстовый поиск, распознавание и синтез звука и т. п.);

возможность более удобного использования словарей с большим объемом статей с полными и доказательными описаниями лексических значений;

так как данные словари постоянно обновляются, то они является актуальными не только на данный момент.

Существующие электронные словари:

Проект «Визуальный словарь» является первой частью группы ресурсов семиологической информационной системы. Для каждого слова строится его понятийное окружение, позволяющее как с первого взгляда понять смысл этого слова через определяющие термины, так и быстро перейти на определяющее слово, смысл которого требуется узнать. Перемещаясь по семантическому окружению слова, с помощью визуального интерфейса, можно быстро ознакомиться с требуемой предметной областью. Окружения всех слов сформированы программным анализатором. В связи с этим, возможны некоторые ошибки выбора термина, относящегося к другой предметной области. В дальнейшем алгоритм работы анализатора будет улучшаться, что должно уменьшить количество таких ошибок.

WordNet — электронный словарь для английского языка, разработанный в Принстонском университете и выпущенный вместе с сопутствующим программным обеспечением.Словарь состоит из 4 сетей для основных знаменательных частей речи: существительных, глаголов, прилагательных и наречий. Базовой словарной единицей в WordNet является не отдельное слово, а так называемый синонимический ряд («синсеты»), объединяющий слова со схожим значением и по сути своей являющимися узлами сети. Для удобства использования словаря человеком каждый синсет дополнен дефиницией и примерами употребления слов в контексте. Слово или словосочетание может появляться более чем в одном синсете и иметь более одной категории части речи. Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами. Слова, имеющие несколько значений, включаются в несколько синсетов и могут быть причислены к различным синтаксическим и лексическим классам.

Русский ассоциативный тезаурус, полученный на основе психолингвистических экспериментов. Интернет-сервис для работы с базой данных крупнейшего[источник не указан 27 дней] ассоциативного эксперимента на русском языке, проведенного в 1988-1997 гг. Ключевой особенностью веб-версии русского ассоциативного тезауруса является возможность проведения компаративного анализа ассоциаций по полу, возрасту и профессии. Тезаурус содержит свыше 1 млн. ассоциаций, более 6 тыс. уникальных стимулов и 100 тыс. рекаций.