
- •1. Соотношение теоретической и прикладной лингвистики. Основные задачи и методы прикладных лингвистических работ.
- •2. Декларативные и процедурные знания. Формы представления знаний в прикладной лингвистике. Фреймы, сценарии, планы, модели мира.
- •3. Ситуации и ключевые слова. Ключевые слова и текст. Ключевые слова и поисковый образ документа.
- •4. Теоретические и прикладные аспекты моделирования общения.
- •5. Гипертекст как особая форма передачи информации. Структурные и функциональные особенности гипертекста. Основные типы гипертекстов.
- •6. Квантитативная (количественная) лингвистика, ее лингвистические и математические основания. Структурно-вероятностная модель языка и ее приложения.
- •11. Прикладные аспекты лексикографии. Типология словарей. Компьютерная поддержка создания и использования словарей.
- •12. Структурные компоненты (зоны) словарной статьи. Параметризация лексики. Интегральное представление лексики в словаре.
- •13. «Новый объяснительный словарь синонимов русского языка» (рук. Ю.Д. Апресян) как словарь нового типа, отражающий системные связи лексики.
- •14. Частотные словари. Их создание и использование. Специфика информации, содержащейся в частотных словарях. Строение словарной статьи частотного словаря. Лексические зоны частотного словаря.
- •15. Компьютерная поддержка лексикографических работ. Автоматические словари.
- •16. Термин, терминология и специальные подъязыки. Прикладные работы в области терминологии. Стандартизация терминологической лексики.
- •18. Словари лингвистических терминов.
- •19. Корпусная лингвистика, ее идеология и основные понятия.
- •20. Текстовый корпус как модель коммуникативной сферы. Текстовая структура Британского национального корпуса.
- •21. Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.
- •22. Конкордансы и автоматические конкордансы. Автоматический конкорданс unilex.
- •23. Автоматический морфологический анализ и процедура лемматизации.
- •1. Маркеры - вставка маркеров абзаца и строки.
- •2. Сканирование - получение словника из текста.
- •3. Лемматизация - лемматизация полученного словника.
- •4. Сортировка - сортировка по [леммам и] словоформам.
- •5. Статистика - слияние, получение частоты и ранга.
- •6. Индекс - создание индекса к словнику.
- •6. Сортировка - получение алфавитного, частотного, обратного словника и по частям речи.
- •7. Печать - печать полученного словника.
- •24. Проблема переводимости. Переводческая эквивалентность.
- •25. Переводческие трансформации.
- •I. Лексические трансформации
- •1) Словообразовательные
- •3) Синтаксические
- •26. Лингвистические модели (теории) переводческой деятельности.
- •III. Семантическая модель (Кетфорд)
- •IV. Трехфазовая модель
- •VI. Теория уровней эквивалентности.
- •27. Специфика перевода текстов разных функциональных стилей.
- •I. Научные и научно-технические
- •II. Научно-учебный текст
- •III. Научно-популярный текст
- •IV Энциклопедические тексты
- •29. Информационный поиск. Ипс, их типы, использование. Лингвистические основы разработки и функционирования ипс.
- •30. Контент-анализ, его идеология, основные понятия, использование.
20. Текстовый корпус как модель коммуникативной сферы. Текстовая структура Британского национального корпуса.
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме.
Британский национальный копус, 100 млн. словоформ, представляющих письменные тексты и разговорную речь, конец 20 века. Последнее издание в 2007. Письменные тексты (90%) разнообразной тематики (местные и национальные газеты, журналы, книги, письма и т.д.). Разговорные тексты (10%), орфографическая транскрипция неформальных разговоров (участники разных возврастов из разных социальных групп, разных профессий). Корпус одноязычный, он содержит только современный британский английский. Синхроничность: в корпусе содержатся тексты конца 20 века. В корпус входят тексты самых различных жанров и стилей.
21. Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме, объемом более 140 млн. слов.
Характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода, содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном Интернете, в том числе и на русском языке (таких, как, по-видимому, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»).
Предназначен для обеспечения научных исследований лексики и грамматики языка, тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка).
НКРЯ включает подкорпуса: глубоко аннотированный корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);
параллельный русско-английский корпус текстов, в котором можно найти все переводы для определенного русского или английского слова или словосочетания;
корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;
корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);
обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;
корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.
Все тексты, составляющие Национальный корпус русского языка, находятся на этом сайте и доступны для некоммерческого использования в научно-исследовательских и учебных целях. Тексты, помещаемые на сайт, не предназначены ни для чтения, ни для копирования: они могут использоваться в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление.
В Национальный корпус русского языка включены прежде всего прозаические оригинальные тексты, представляющие русский литературный язык (с середины XVIII века), но также и переводные сочинения, поэтические тексты, тексты, представляющие разговорную (записи устной речи, публичной и непубличной), диалектную формы.
Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на три главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века), корпус живой русской речи (записи устных текстов того же периода) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим трём массивам ведётся одновременно, выбрать один из них (и задать дополнительные параметры) можно на странице установки пользовательского подкорпуса.
Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа.
Представительный корпус современных текстов с морфологической разметкой является основным и самым объёмным из подкорпусов. Планируемый объем этого корпуса — 100 млн. словоупотреблений. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:
современная художественная проза разных жанров и направлений, современная драматургия, мемуарно-биографическая литература, журнальная публицистика и литературная критика, газетная публицистика и новости, научные, научно-популярные и учебные тексты, религиозные и религиозно-философские тексты, производственно-технические тексты, официально-деловые и юридические тексты, бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)
Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.
Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей). Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.