 
        
        компьютерная лексикография 1-4 вопросы
.doc- 
Краткая характеристика традиционной лексикографии как раздела общего языкознания. Лексикография теоретическая и практическая. Проблематика теоретической лексикографии. Социальные функции, выполняемые практической лексикографией. 
Лексикография — это наука о словарях, это раздел языкознания, который занимается практикой и теорией составления словарей. Эта область отчасти относится к прикладной лингвистике. Условно можно разделить лексикографию на практическую и теоретическую.
Теоретическая лексикография охватывает следующий комплекс проблем:
- 
разработка общей типологии словарей и словарей новых типов; 
- 
разработка макроструктуры словаря (отбор лексики, принцип расположения слов и словарных статей, выделение омонимов, включение в корпус словаря и пр.); 
- 
разработка микроструктуры словаря, т.е. отдельной словарной статьи (грамматический и фонетический комментарий к слову, выделение и классификация значений, типы словарных определений и т.д.); 
Большое внимание уделяется вопросу соотношения лингвистической и внелингвистической (энцеклопедической, страноведческой и т.д.) информации в словаре.
Практическая лексикография выполняет несколько важных социальных функций:
- 
обучение языку как родному, так и иностранному; 
- 
описание родного языка (толковые словари); 
- 
межъязыковое общение (двуязычные или другие словари, разговорники); 
- 
научное изучение лексики языка (этимологические, исторические словари, словари мертвых языков). 
- 
Основные противоположения, на которых основывается классификация традиционных словарей (словарь академического типа vs. справочник и т.д.). Конкретные виды словарей, примеры. 
Первым в российской науке к проблеме типологии словарей обратился Л.В.Щерба. Он предложил классификацию словарей, в основе которой лежат 6 противоположений:
- 
Словарь академического типа— словарь-справочник. Словарь академического типа является нормативным, описывающим лексическую систему данного языка: в нём не должно быть фактов, противоречащих современному употреблению. В противоположность академическим словарям словари-справочники могут содержать сведения о более широком круге слов, выходящих за границы нормативного литературного языка. 
- 
Энциклопедический словарь— общий словарь. Противопоставление энциклопедических (описывают вещь, реалию) и лингвистических словарей (описывают слова) 
- 
Тезаурус— обычный (толковый или переводной) словарь. Тезаурусом считаются словари, в которых приводятся все слова, встретившиеся в данном языке хотя бы один раз. 
- 
Обычный (толковый или переводной) словарь— идеологический (идеографический) словарь. В идеологическом словаре слова-понятия должны быть классифицированы так, чтобы показать их живую взаимосвязь. 
- 
Толковый словарь— переводной словарь 
- 
Неисторический словарь— исторический словарь 
- 
Определение и основные направления компьютерной лексикографии. 
Компьютерная лексикография: создание автоматических словарей, лингвистических баз данных и разработка программ поддержки лексикографических работ.
Основные направления:
- 
автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т. д.) 
- 
теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing) 
- 
создание словарей, являющихся машинными версиями традиционных словарей. 
- 
Электронные коллекции документов. Корпусная лингвистика, ее связь с компьютерной лексикографией. Понятия корпуса, разметки, репрезентативности. Примеры корпусов. 
Ко́рпусная лингви́стика— раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов.
Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Корпусная лингвистика является разделом компьютерной лингвистики.
В понятие корпус текста входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют «корпусным менеджером». Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.
Под репрезантативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов.
Среди лингвистических типов разметки различаются:
- 
морфологическая (Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического.) 
- 
синтаксическая (Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих. Графически синтагматические отношения между членами предложения изображаются, как известно, в виде дерева, а в тексте они представлены пaрами из открывающейся и закрывающейся квадратных скобок, которые обрамляют различные синтаксические конструкции – именные, глагольные и предложные словосочетания, придаточные предложения. ) 
- 
семантическая (В схемах семантической разметки предусмотрены те случаи, когда в качестве единицы смысла выступает не отдельное слово, а словосочетание. Все члены такого словосочетания получают один и тот же код, при этом для каждого из них дополнительно указываются его порядковый номер, а также общее число слов в идиоматическом выражении; ) 
- 
анафорическая (Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. ) 
- 
просодическая (В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию. Просодической часто сопутствует так называемая дискурсная разметка, которая служит для обозначения пауз хезитации, повторов, оговорок и т. д. ) 
Примеры корпусов:
В течение последних десятилетий во многих странах ведется работа над созданием корпусов текстов на национальных языках. Наиболее интенсивно идет строительство корпусов английского языка, первые из которых появились еще в 60-е годы: это Brown University Corpus и Lancaster/Oslo-Bergen Corpus (LOB). Текстовое содержимое каждого из них включает примерно один миллион словоупотреблений и снабжено морфологической разметкой. Помимо этого, Lancaster/Oslo-Bergen Corpus имеет в своем составе два подкорпуса - Leeds-Lancaster Treebank и Lancaster Parsed Corpus, - снабженных синтаксической разметкой. Самым крупным в настоящее время является Британский Национальный Корпус (BNC), объем которого достигает ста миллионов словоупотреблений. Корпус начал создаваться в 90-х годах, примерно на 90% он состоит из письменного материала и на 10% – из речевых записей. Содержимое корпуса размечено морфологически. Из текстовых корпусов, созданных для других европейских языков, стоит упомянуть о корпусе Института немецкого языка в Маннгейме.
– Национальный корпус русского языка, British National Corpus, International Corpus of English, Чешский национальный корпус
