
- •1. Теория и практика лексикографии. История лексикографии.
- •2. Типы словарей. Прототипический словарь.
- •I. Типы словарей
- •1.1. Прототипический словарь
- •3. Методы и принципы лексикографического описания.
- •4. Толковый словарь. Принцип организации единиц. Структура словарной статьи.
- •5. Тезаурус. Понятие таксона. Структура статьи
- •6. Переводные словари, глоссарии. Структура статьи.
- •7. Принцип классификации словарей. Словари vs. Энциклопедии. Структура статьи.
- •1.2.1. Словари vs. Энциклопедии
- •8. Словари естественного языка vs. Словари других семиотических систем
- •10. Различие словарей по объему инвентаризуемых единиц
- •11. Различие словарей по социокультурной интенции
- •12. Основные структурные компоненты словаря
- •13. Различие словарей по месту, занимаемому в них семантическим описанием
- •14. Словари языковых форм
- •15. Идеографические, семантические и ассоциативные словари
- •16. Различие словарей по месту, занимаемому в них историческими сведениями
- •1.2.8. Общие и частные словари
- •18. . Основные структурные компоненты (зоны ) словарной статьи
- •21. Идиолексические словари
- •23. Структура словарных статей в смп аспера
- •24. Компьютерная лексикография. Типология электронных словарей.
23. Структура словарных статей в смп аспера
Информация о каждом слове должна состоять из следующих основных частей.
1) Информация о грамматических и семантических характеристиках русского слова.
2) Информация о грамматических и семантических характеристиках английского эквивалента русского слова.
3) Информация о наличии моделей управления (валентностей) слова, их грамматике и семантике.
1. Информация о русском слове вводится строчкой, символически обозначаемой латинской заглавной буквой "B". Далее, через пробел, следуют:
- порядковый номер слова (назначается администратором словаря ),
- основа или квазиоснова слова (часть слова без окончания/квазиокончания),
- символическая запись грамматики слова (если не одна запись, то последние разделяются запятыми),
- семантическая характеристика слова (не более 7-ми наборов признаков). Для существительных ,прилагательных и глаголов в статье указываются их основы, а для причастий, кратких причастий и деепричастий - квазиоснова (глагольная основа без окончаний и суффиксов), например, для слов: открывший, открыть, открыв, открыт, открыл - одна основа "откры".
В случаях с морфологическим чередованием в основах слов ("ошибк" - "ошибок", "друг" - "друз"), а также при отсутствии соответствующего квазиокончания в списке, позволяющем добавлять его алгоритмически (например, для страдательного причастия прошедшего времени и краткого причастия на "-ен": "уплат" - "уплачен"), разные основы одного слова вводятся следующими строчками, начинающимися соответственно латинской заглавной буквой "B". При этом порядковый номер слова и семантические характеристики копируются, изменяется лишь набор грамматических признаков разных основ.
Если квазиоснова насчитывает менее 4-х букв, то ее парадигма приводится полностью - ДЕН/ь: "день" - "дня" - "дню" и т.д.
2. Информация об английском слове-эквиваленте вводится строчкой, символически обозначаемой латинской заглавной буквой "E". Далее через пробелы следуют:
- номер русского слова (копируется из строки B),
- основа английского соответствия,
- набор грамматических признаков.
Семантические характеристики в строчке "E" отсутствуют - предполагается, что они полностью тождественны семантическим характеристикам русских основ.
В случаях морфологического чередования в основах английских слов ("man" - "men", "berry" - "berries") для каждой новой основы вводится следующая строчка "E". Порядковый номер основы при этом копируется.
В отличие от строк с записью русских основ (строк "B"), где информация о грамматике слова представлена очень подробно (например, дается перечисление всех возможных временных форм глагола: "ги0000,гн0000,гп0000,гi2000" и т.д.), в строчках "E" эта информация может быть представлена более обобщенно ("г00000"). Это, однако, верно лишь для случаев с правильными глаголами, оканчивающимися на согласную (но не на "ch", "sh"), где окончания глаголов прошедшего времени ("ed"), настоящего времени, 3 лица, ед. числа ("s"), а также окончания действительных причастий и деепричастий ("ing") приписываются алгоритмически. Во всех остальных случаях (неправильные глаголы; окончание глагола настоящего времени не "s", а "es"; окончание глагола прошедшего времени не "ed", а "d") - каждая новая основа вводится отдельной строчкой "E". При этом учитывается тот факт, что программный поиск основы осуществляется в направлении сверху вниз и слева направо. Следовательно, более частная основа ("wishes" - только для глаголов настоящего времени, ед. числа, 3 лица) должна стоять выше, чем более общая ("wish" - от нее образуются глаголы настоящего времени, причастные и деепричастные формы и т.д.). Порядок следования основ неправильных глаголов не важен, так как каждой основе приписывается характерная только для единственного случая характеристика ("went" - "гп0000").
Словарная статья глагола содержит в себе сведения о причастиях, кратких причастиях, деепричастиях как специфических глагольных формах.
Словарная статья прилагательного учитывает информацию о кратких прилагательных и наречиях, образованных от основы прилагательного.
Пример:
B 5322 кратк я000,ю00,н0 свсв
B 5322 краток ю1м свсв
E 5322 brief я000,ю00,н0
Наречия, не образованные от основы прилагательного("завтра"), выделяются в отдельную словарную статью.
Встречаются случаи, когда основе русского слова соответствует английский эквивалент, состоящий из более чем одной основы. В этом случае английские основы записываются без усечения окончаний (кроме последней из них) и "связываются" знаком "_" ("полочка" на строке), например: "отказыва" - "put_aside". При этом учитывается, что алгоритмически обрабатываются только основы, занимающие последнее место в цепочке. Следовательно, для того, чтобы правильно написать словарную статью английской цепочки, в которой глагол, например, находится на последнем месте, надо ввести несколько строк "E" с подробной информацией об основе глагола и ее грамматических характеристиках.
Например, для глагола ОТКЛАДЫВА/ть:
puts_aside - гн3100
put_aside - ги0000,гп0000,гн0000,гi2000,е000нс0
putting_aside - дн0,е0000д0
Особые случаи представляют русские слова, пишущиеся через дефис. Если при этом первая часть слова не склоняется ("парфюмерно-косметическая"), то достаточно отбросить квазиокончание от второй части слова ("парфюмерно-косметическ"). Если склоняются обе части ("завод-изготовитель"), то каждая часть вводится как отдельное слово.
3. Если русское или английское слово приводится полностью (не основой, а словоформой), то в его грамматической информации ставится русская буква "а":
- у наречий в 3-м разряде (н0а),
у глаголов и причастий - в 6-м разряде (гн100а0),
у существительных - в 7-м разряде (сж1и00а),
4. Информация о валентностях русского слова и его эквивалента вводится строчкой, символически обозначаемой латинской заглавной буквой "L". Далее через пробелы следуют:
- порядковый номер русских и английских основ (копируется из "B");
- название валентности (список названий моделей управления приведен в Приложении 6);
- набор грамматических признаков (возможно использование предлогов для русской и английской основ;
- набор грамматических признаков для английской основы (вводится после латинской заглавной буквы "Q");
- набор семантических характеристик именно данной валентности(а не основного слова словарной статьи), общий для русских и английских основ.
Названия валентностей пишутся латинскими строчными буквами и содержат не более четырех символов.
Цифры "2" и "1" после названия валентности обозначают соответственно ее факультативность (2) или обязательность (1). Каждая словарная статья может содержать не более 7-ми валентностей.
После обозначения валентности для русского языка или после Q для английского языка указываются либо грамматические признаки соответствующего слова, либо вид представления слова в тексте - предлог+грамматическая характеристика слова.
Пример:
B 22071 уплачива ги0000,гн0000,гп0000,гi0000,е000н00,е000пд0,дн0 фин#,возд
E 22071 pay ги0000,гн0000,гi0000,е0000д0,д00
E 22071 paid е000нс0а,гп0000а
L 22071 sub#1 с00и Qс000 лицо,прст,имя#
L 22071 obj#1 с00в Qч000,с000 едиз,имп#
L 22071 caus2 за+с00в Qfor+с000 унвс
L 22071 rcip2 с00д Qto+с000 лицо,прст,имя#
L 22071 med#2 с_помощью+с00р,при_помощи+с00р,посредством+с00р,с00т Qwith_the_help_of+с000,by_means_of+с000,by+с000 оргн,имя#
L 22071 temp2 в+с00в,ч00р,в+ч00р,во+ш00п Qin+с000,on+ч000 врем,исч#
L 22071 prid2 за+ч00р Qfor+с000 врем,исч
Словарная статья словосочетания (с/с) должна состоять из следующих основных компонентов:
1) русская часть с/с;
2) английская часть с/с;
3) валентности с/с (модели управления).
1. Русская часть словаря с/с содержит словосочетания, насчитывающие не более 4-х слов, имеющие фиксированный порядок слов в предложении, т.е. идиоматичные и полуидиоматичные словосочетания типа "доверенное лицо", "индивидуальная трудовая деятельность", "по крайней мере", которые не переводятся пословно на английский язык.
Русская часть с/с вводится на нескольких строках, первая из которых начинается латинской заглавной буквой "A", а все последующие - латинской заглавной буквой "C" так, чтобы каждое слово с/с располагалось на отдельной строке. Знаки препинания, апострофы, артикли и другие символы также требуют отдельной строки.
Порядок записи на каждой из строк должен быть следующим (соответственно через пробелы):
а) знак обозначения начала строки ("A" или "C'");
б) порядковый номер с/с (общий на всю словарную статью);
в) номер следования каждого слова в с/с;
г) основа слова без квазиокончания;
д) грамматическая характеристика основы;
е) семантические признаки основы (только для главного слова словосочетания).
При этом требования к оформлению записи на строке совпадают с требованиями к оформлению основ отдельных слов (см. Приложение 3) в том, что касается правил записи основ с морфологическим чередованием, основ, состоящих менее чем из 4-х букв, и т.д.
Особенностями оформления основ слов с/с являются следующие:
а) перед главным словом с/с, записанным в виде одной/нескольких основ, ставится знак "#" ("диез, решетка"); Главным словом следует считать слово, грамматическая информация которого определяет информацию всего с/с, например, в с/с "ценные бумаги" главное слово - "бумаги", а в с/с "в течение" главное слово "в", поскольку все с/с означает предлог;
б) символы типа знаков препинания, апострофов и артиклей грамматически трактуются как неизменяемые части речи - наречия, им приписывается характеристика "н0";
в) с/с как устойчивые идиоматические образования могут характеризоваться более подробным заполнением грамматических позиций с нулями (0). Так, например, в с/с "ценные бумаги" у основы "бумаг" грамматическая информация будет "сж20" ("2" указывает на использование формы только множественного числа) в отличие от обычного слова "бумаг" - "сж00";
г) семантика основы слова с/с может не совпадать с семантикой основы свободного слова: "(ценные) #бумаги" - "фин#", а "бумаг" - "субс, двум, артф".
2. Английская часть с/с не имеет ограничений на длину и вводится на нескольких строках, каждая из которых начинается латинской заглавной буквой "K". При этом учитывается тот факт, что русское с/с переводится на английский язык не пословно и, следовательно, возможно несоответствие в порядке следования основ в русском с/с и его английском эквиваленте: некоторые русские основы могут остаться без перевода, и, наоборот, в английском варианте могут появиться основы, не имеющие оригиналов в строчках "A" и "C". В любом случае должно выполняться единственное требование: номер следования русской основы главного слова (основа со знаком "#") в строчках "K" должен быть скопирован (он, например, может быть и 4-ым ("4"), даже если русское с/с переведено на английский язык одним словом).
Неизменяемые части речи (наречия, артикли, союзы и т.п.) в английских строчках имеют порядковый номер "0".
3. Валентности с/с вводятся на строках, начинающихся с латинской заглавной буквы "L". Способ их оформления на строке соответствует способу оформления на строке валентностей отдельных слов (см. Приложение 6). У каждого с/с возможно наличие не более 7-ми валентностей. В большинстве случаев порядковый номер валентности должен определяться по номеру главного слова с/с (основа со знаком "#" в строчках "A" или "C"), чтобы модели управления смогли "привязаться" именно к главному слову с/с. Однако бывают случаи, когда валентность относится не к главному слову с/с. При этом важно проследить, чтобы порядковый номер валентности копировал номер того слова в строчках "A" или "C", к которому относится валентность, и чтобы в английском переводе перед этим словом не стоял "0".
Примеры:
A 2680 1 #недогрузк сж10 возд,огрн
C 2680 2 производственн яж2р
C 2680 3 мощност сж2р
K 2680 1 undercapacity с000
L 2680 1 poss2 с00р Qof+с000 оргн,прст
A 2993 1 #прим гб0000,гi2000 созд,фин#
A 2993 1 #приня ги0000,гп0000,дп0,е000пд0 созд,фин#
A 2993 1 #принят е000пс0,у00 созд,фин#
C 2993 2 платеж см0в
K 2993 1 accept г00000,е000000,д00,у00
K 2993 0 the н0
K 2993 2 payment с000
L 2993 1 sub#1 с00и Qс000 лицо,имя#
L 2993 1 cntr2 от+с00р Qfrom+с000 лицо,имя#
L 2993 1 loc#2 в+с00п Qin+с000 оргн,част
L 2993 1 obj#2 за+с00в Qfor+с000 прдк,усл#,инфо,неод
L 2993 1 mod#2 по+с00д Qon_the_basis_of+с000 фин#,имп#,необ,ткст
СТРУКТУРА ГРАММАТИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ РАЗЛИЧНЫХ ЧАСТЕЙ РЕЧИ
Существительное
1 - с
2 - род (м, ж, н, 0)
3 - число (1, 2, 0)
4 - 0 или падеж (и, р, д, в, т, п)
5-6 - номер морфологического класса или '0'
7 - 0 или "а"(словоформа)
Глагол
1 - г
2 - время (i-императив, и-инфинитив, н-настоящее, б-будущее, п-прошедшее)
3 - лицо (1, 2, 3) или 0
4 - число для настоящего и будущего времени (1,2) или 0
5 - род для прошедшего времени (м-мужской, ж-женский, н-средний) или 0
6 - а (признак словоформы) или 0
7 - в (признак возвратности), н(невозвр.) или 0