Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

компьютерная лексикография 1-4 вопросы

.doc
Скачиваний:
43
Добавлен:
01.06.2015
Размер:
32.26 Кб
Скачать
  1. Краткая характеристика традиционной лексикографии как раздела общего языкознания. Лексикография теоретическая и практическая. Проблематика теоретической лексикографии. Социальные функции, выполняемые практической лексикографией.

Лексикография — это наука о словарях, это раздел языкознания, который занимается практикой и теорией составления словарей. Эта область отчасти относится к прикладной лингвистике. Условно можно разделить лексикографию на практическую и теоретическую.

Теоретическая лексикография охватывает следующий комплекс проблем:

  1. разработка общей типологии словарей и словарей новых типов;

  2. разработка макроструктуры словаря (отбор лексики, принцип расположения слов и словарных статей, выделение омонимов, включение в корпус словаря и пр.);

  3. разработка микроструктуры словаря, т.е. отдельной словарной статьи (грамматический и фонетический комментарий к слову, выделение и классификация значений, типы словарных определений и т.д.);

Большое внимание уделяется вопросу соотношения лингвистической и внелингвистической (энцеклопедической, страноведческой и т.д.) информации в словаре.

Практическая лексикография выполняет несколько важных социальных функций:

  1. обучение языку как родному, так и иностранному;

  2. описание родного языка (толковые словари);

  3. межъязыковое общение (двуязычные или другие словари, разговорники);

  4. научное изучение лексики языка (этимологические, исторические словари, словари мертвых языков).

  1. Основные противоположения, на которых основывается классификация традиционных словарей (словарь академического типа vs. справочник и т.д.). Конкретные виды словарей, примеры.

Первым в российской науке к проблеме типологии словарей обратился Л.В.Щерба. Он предложил классификацию словарей, в основе которой лежат 6 противоположений:

  1. Словарь академического типа— словарь-справочник. Словарь академического типа является нормативным, описывающим лексическую систему данного языка: в нём не должно быть фактов, противоречащих современному употреблению. В противоположность академическим словарям словари-справочники могут содержать сведения о более широком круге слов, выходящих за границы нормативного литературного языка.

  2. Энциклопедический словарь— общий словарь. Противопоставление энциклопедических (описывают вещь, реалию) и лингвистических словарей (описывают слова)

  3. Тезаурус— обычный (толковый или переводной) словарь. Тезаурусом считаются словари, в которых приводятся все слова, встретившиеся в данном языке хотя бы один раз.

  4. Обычный (толковый или переводной) словарь— идеологический (идеографический) словарь. В идеологическом словаре слова-понятия должны быть классифицированы так, чтобы показать их живую взаимосвязь.

  5. Толковый словарь— переводной словарь

  6. Неисторический словарь— исторический словарь

  1. Определение и основные направления компьютерной лексикографии.

Компьютерная лексикография: создание автоматических словарей, лингвистических баз данных и разработка программ поддержки лексикографических работ.

Основные направления:

  1. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т. д.)

  2. теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing)

  3. создание словарей, являющихся машинными версиями традиционных словарей.

  1. Электронные коллекции документов. Корпусная лингвистика, ее связь с компьютерной лексикографией. Понятия корпуса, разметки, репрезентативности. Примеры корпусов.

Ко́рпусная лингви́стика— раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Корпусная лингвистика является разделом компьютерной лингвистики.

В понятие корпус текста входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют «корпусным менеджером». Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Под репрезантативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов.

Среди лингвистических типов разметки различаются:

  1. морфологическая (Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического.)

  2. синтаксическая (Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих. Графически синтагматические отношения между членами предложения изображаются, как известно, в виде дерева, а в тексте они представлены пaрами из открывающейся и закрывающейся квадратных скобок, которые обрамляют различные синтаксические конструкции – именные, глагольные и предложные словосочетания, придаточные предложения. )

  3. семантическая (В схемах семантической разметки предусмотрены те случаи, когда в качестве единицы смысла выступает не отдельное слово, а словосочетание. Все члены такого словосочетания получают один и тот же код, при этом для каждого из них дополнительно указываются его порядковый номер, а также общее число слов в идиоматическом выражении; )

  4. анафорическая (Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. )

  5. просодическая (В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию. Просодической часто сопутствует так называемая дискурсная разметка, которая служит для обозначения пауз хезитации, повторов, оговорок и т. д. )

Примеры корпусов:

В течение последних десятилетий во многих странах ведется работа над созданием корпусов текстов на национальных языках. Наиболее интенсивно идет строительство корпусов английского языка, первые из которых появились еще в 60-е годы: это Brown University Corpus и Lancaster/Oslo-Bergen Corpus (LOB). Текстовое содержимое каждого из них включает примерно один миллион словоупотреблений и снабжено морфологической разметкой. Помимо этого, Lancaster/Oslo-Bergen Corpus имеет в своем составе два подкорпуса - Leeds-Lancaster Treebank и Lancaster Parsed Corpus, - снабженных синтаксической разметкой. Самым крупным в настоящее время является Британский Национальный Корпус (BNC), объем которого достигает ста миллионов словоупотреблений. Корпус начал создаваться в 90-х годах, примерно на 90% он состоит из письменного материала и на 10% – из речевых записей. Содержимое корпуса размечено морфологически. Из текстовых корпусов, созданных для других европейских языков, стоит упомянуть о корпусе Института немецкого языка в Маннгейме.

– Национальный корпус русского языка, British National Corpus, International Corpus of English, Чешский национальный корпус