компьютерная лексикография 1-4 вопросы

.doc

Скачиваний:

Добавлен:

01.06.2015

Размер:

32.26 Кб

Скачать

☆

Краткая характеристика традиционной лексикографии как раздела общего языкознания. Лексикография теоретическая и практическая. Проблематика теоретической лексикографии. Социальные функции, выполняемые практической лексикографией.

Лексикография — это наука о словарях, это раздел языкознания, который занимается практикой и теорией составления словарей. Эта область отчасти относится к прикладной лингвистике. Условно можно разделить лексикографию на практическую и теоретическую.

Теоретическая лексикография охватывает следующий комплекс проблем:

разработка общей типологии словарей и словарей новых типов;
разработка макроструктуры словаря (отбор лексики, принцип расположения слов и словарных статей, выделение омонимов, включение в корпус словаря и пр.);
разработка микроструктуры словаря, т.е. отдельной словарной статьи (грамматический и фонетический комментарий к слову, выделение и классификация значений, типы словарных определений и т.д.);

Большое внимание уделяется вопросу соотношения лингвистической и внелингвистической (энцеклопедической, страноведческой и т.д.) информации в словаре.

Практическая лексикография выполняет несколько важных социальных функций:

обучение языку как родному, так и иностранному;
описание родного языка (толковые словари);
межъязыковое общение (двуязычные или другие словари, разговорники);
научное изучение лексики языка (этимологические, исторические словари, словари мертвых языков).

Основные противоположения, на которых основывается классификация традиционных словарей (словарь академического типа vs. справочник и т.д.). Конкретные виды словарей, примеры.

Первым в российской науке к проблеме типологии словарей обратился Л.В.Щерба. Он предложил классификацию словарей, в основе которой лежат 6 противоположений:

Словарь академического типа— словарь-справочник. Словарь академического типа является нормативным, описывающим лексическую систему данного языка: в нём не должно быть фактов, противоречащих современному употреблению. В противоположность академическим словарям словари-справочники могут содержать сведения о более широком круге слов, выходящих за границы нормативного литературного языка.
Энциклопедический словарь— общий словарь. Противопоставление энциклопедических (описывают вещь, реалию) и лингвистических словарей (описывают слова)
Тезаурус— обычный (толковый или переводной) словарь. Тезаурусом считаются словари, в которых приводятся все слова, встретившиеся в данном языке хотя бы один раз.
Обычный (толковый или переводной) словарь— идеологический (идеографический) словарь. В идеологическом словаре слова-понятия должны быть классифицированы так, чтобы показать их живую взаимосвязь.
Толковый словарь— переводной словарь
Неисторический словарь— исторический словарь

Определение и основные направления компьютерной лексикографии.

Компьютерная лексикография: создание автоматических словарей, лингвистических баз данных и разработка программ поддержки лексикографических работ.

Основные направления:

автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т. д.)
теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing)
создание словарей, являющихся машинными версиями традиционных словарей.

Электронные коллекции документов. Корпусная лингвистика, ее связь с компьютерной лексикографией. Понятия корпуса, разметки, репрезентативности. Примеры корпусов.

Ко́рпусная лингви́стика— раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Корпусная лингвистика является разделом компьютерной лингвистики.

В понятие корпус текста входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют «корпусным менеджером». Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Под репрезантативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов.

Среди лингвистических типов разметки различаются:

морфологическая (Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического.)
синтаксическая (Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих. Графически синтагматические отношения между членами предложения изображаются, как известно, в виде дерева, а в тексте они представлены пaрами из открывающейся и закрывающейся квадратных скобок, которые обрамляют различные синтаксические конструкции – именные, глагольные и предложные словосочетания, придаточные предложения. )
семантическая (В схемах семантической разметки предусмотрены те случаи, когда в качестве единицы смысла выступает не отдельное слово, а словосочетание. Все члены такого словосочетания получают один и тот же код, при этом для каждого из них дополнительно указываются его порядковый номер, а также общее число слов в идиоматическом выражении; )
анафорическая (Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. )
просодическая (В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию. Просодической часто сопутствует так называемая дискурсная разметка, которая служит для обозначения пауз хезитации, повторов, оговорок и т. д. )

Примеры корпусов:

В течение последних десятилетий во многих странах ведется работа над созданием корпусов текстов на национальных языках. Наиболее интенсивно идет строительство корпусов английского языка, первые из которых появились еще в 60-е годы: это Brown University Corpus и Lancaster/Oslo-Bergen Corpus (LOB). Текстовое содержимое каждого из них включает примерно один миллион словоупотреблений и снабжено морфологической разметкой. Помимо этого, Lancaster/Oslo-Bergen Corpus имеет в своем составе два подкорпуса - Leeds-Lancaster Treebank и Lancaster Parsed Corpus, - снабженных синтаксической разметкой. Самым крупным в настоящее время является Британский Национальный Корпус (BNC), объем которого достигает ста миллионов словоупотреблений. Корпус начал создаваться в 90-х годах, примерно на 90% он состоит из письменного материала и на 10% – из речевых записей. Содержимое корпуса размечено морфологически. Из текстовых корпусов, созданных для других европейских языков, стоит упомянуть о корпусе Института немецкого языка в Маннгейме.

– Национальный корпус русского языка, British National Corpus, International Corpus of English, Чешский национальный корпус

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025139.78 Кб4Коллоквиум ММСИ.doc
#
01.04.202548.93 Кб7командообразование.docx
#
21.07.201927.77 Кб9комент.docx
#
01.06.201541.79 Кб86комплексное развитие городов (Леонова) (1).docx
#
01.06.201536.44 Кб29Компоненты идей Мао.docx
#
01.06.201532.26 Кб57компьютерная лексикография 1-4 вопросы.doc
#
01.06.2015163.33 Кб86Компьютерные информационные технологии ДОУ,ГОС.doc
#
01.04.20254.51 Mб7Коноплина_Пробки_1517.docx
#
16.11.2018133.12 Кб35Консп лекций 1 КУРС-2003.doc
#
13.07.2019153.09 Кб40Конспект лекций ИСУ.doc
#
01.06.20151.17 Mб119Конспект лекций СГМУ.doc 4 КУРС.doc