Компьютерные программы поддержки лексикографических работ

Традиционная форма фиксации словарных данных - это каталожная карточка, где описывается слово, пример словоупотребления, источник примера, синтаксическая информация и дополнительная информация, исходя из целей создания словаря. Каталожные карточки собираются в картотеки, а из картотек уже формируются словари различного рода.

Вместо обычной картотеки в компьютерных средах используются записи в базы данных. Лексикографические базы данных фиксируют первичный материал, который используется для написания словарных статей словаря. Лексикографические базы данных не существуют, но традиционные стандартные пакеты для баз данных (MS Access, Paradox, D-Base) подходят для такой работы.

Одним из этапов лексикографической работы является поиск примеров на словоупотреблениеи формирование картотеки к примерам на каждое слово. Обычно это делают с помощью макросов и специальных программ конкордансов.

Примеры словарей:

Частотный словарь – используется при выборке частотной лексики, например, при помощи иностранного языка в машинном переводе для подбора ближайшего значения слова, в лексико-грамматическом анализе

№	word	статистика встречаемости
1	value	5060
2	temperature	4200
3	field	4000

Делается на базе текстов одно тематики, могут включаться все формы (сущ., нар.)

Словарь-тезаурус – есть несколько определений:
1. Это словарь, в котором полно представлены все слова языка, обычно идеографический словарь, где показаны все семантические отношения между лексическими единицами (известный словарь такого типа – это словарь P.Roget)
2. Тезаурус может быть информационно-поисковым, одноязычным и в пределах словарной статьи такого словаря можно найти указания на синонимы, вышестоящие термины и ассоциативные термины

Словарная статья

слово Linguistics

с(синоним) – языкознание

в(вышестоящий термин) – наука

н(виды слова) – компьютерная/ прикладная лингвистика

а(ассоциативные термины) - язык

Новые разработки в лексикографии

Семантические словари – в настоящее время существуют сетевые версии, объединенные между странами. Это уже лексико-грамматические ресурсы. Широко известным здесь является проект «WordNet», который стал разрабатываться в США в Принстонском университете в рамках лексико-семантического исследования под руководством Миллера. «WordNet» - это лексико-семантическая база данных. Основным элементом здесь являются наборы синонимов в различных языках, которые называются синсеты (sinset).

Кроме того в нашей стране существовали похожие разработки. Их ввел известный российский лингвист Ю.Апресян в рамках известных моделей языка «Смысл-текст». Эти технологии обеспечивали полное лингвистическое портретирование слов.

Терминография

Терминография – это наука о составлении словарей терминов. Развивается автоматическая терминография.

Современные технологии помогают разрабатывать терминологические банки данных (ТБД)

ТБД – это автоматизированная система представления терминологической лексики в системах человеко-машинного общения. Это единая служба, описывающая все сведения о термине с удобным доступом.

Типы ТБД:

Переводческие – ориентированы на перевод научно-технической терминологии
Информационно-нормативные – определяют стандарты использования терминологии в своей стране

Например, одна из известных ТБД – это переводческая в фирме “Simens” на 8 языках мира, включает в себя несколько миллионов терминов.

Любая ТБД состоит из ряда массивов-терминов, которые называются подфондами.

Подфонды:

межотраслевые
отраслевые
общенаучные
общетехнические

Используются для перевода, издания терминологических словарей, для справочно-информационных служб специалистов.

Корпусная лингвистика (Corpus Linguistics и Corpora). Основные задачи корпусной лингвистики и требования. Традиционная и компьютерная корпусная лингвистика. Основные понятия корпусной лингвистики. Типы корпусов. Опыт разработки корпусов текстов (для английского, немецкого, русского языка). Компьютерная поддержка корпусной лингвистики. Конкордансы.
Корпусная лингвистика

(Corpus Linguistics)

Лингвистическое исследование как научный метод опирается на анализ языкового материала, т. е. чем больше такого материала, тем выше достоверность выводов.

Традиционно для лингвистического исследования использовались корпусы текстов (Corpora-Corpus). Традиционные способы сбора и хранения корпусов были трудоемкими (корпусы формировались в виде хрестоматий, сборников текстов, архивов).

В настоящее время корпуса текстов в основном представлены в электронном формате, у них есть свои форматы, стандарты представления. Большинство корпусов открыты. Современный подход корпусной лингвистике развивается в России с 2000 г.

<<< < Предыдущая 1 2 3 4 5 67 / 227 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.04.2015764.05 Кб76Grishina.pdf
#
20.04.2015394.73 Кб5gunbina.docx
#
20.04.2015349.7 Кб124heyne_isolde_yildiz_heisst_stern.doc
#
30.04.2019121.86 Кб1Home reading 2012 Contents.doc
#
20.04.2015667.65 Кб5HOME READING.doc
#
16.08.2019879.62 Кб33I часть.doc
#
20.04.201561.16 Кб276IGRA.docx
#
16.08.20191.52 Mб46II часть.doc
#
23.03.20161.38 Mб124Informatika_Kbd-1kurs.doc
#
20.04.2015808.45 Кб150Informatika_misha.doc
#
20.04.2015175.44 Кб269Istoria_-_Material_dlya_podgotovki_k_ekzamenu.docx