- •I. Пояснительная записка
- •1.1. Цели и задачи дисциплины
- •1.2. Требования к уровню освоения содержания дисциплины
- •1.3. Объем дисциплины и виды учебной работы
- •II. Содержание дисциплины
- •2.1. Разделы дисциплины и виды занятий
- •Содержание разделов дисциплины
- •I модуль. Элементы прикладной лингвистики
- •Языкознание и математика. Семиотика. Математическая (комбинаторная и квантитативная) лингвистика. Основные области приложения структурно-вероятностной модели языка
- •Прикладная лингвистика. Сравнение методов описательной, теоретической и прикладной лингвистики.
- •II модуль. Вероятностно-статистическое изучения языка и речи
- •Статистический подход к исследованию языковых структур. Основания и условия вероятностно-статистического изучения языка и речи.
- •Методика статистического эксперимента. Методика создания выборочной лингвистической совокупности (выборки). Репрезентативность и рациональный объем выборки
- •Корпусная лингвистика. Электронные корпуса текстов.
- •Частотный словарь как структурно-вероятностная модель языка и речи. Важнейшие применения частотных словарей.
- •Методика, сущность, этапы подготовки и проведения контент-анализа.
- •2.3. Практические и семинарские занятия
- •№ 1. Языкознание и математика. Математическая лингвистика
- •№ 2. Вероятностно-статистическое изучение языка и речи
- •№ 3. Контент-анализ
- •№ 4. Важнейшие применения частотных словарей
- •№ 5. Семиотика и лингвосемиотические основы переводоведения
- •№ 6. Современная глоттохронология
- •2.4. Основные понятия дисциплины
- •2.5. Задания для самостоятельной работы
- •III. Формы контроля и требования к зачёту по дисциплине
- •3.1. Текущий и итоговый контроль усвоения знаний
- •3.2. Вопросы к зачёту
- •IV. Учебно-методическое обеспечение дисциплины
- •4.1. Рекомендуемая литература
- •4.2. Средства обеспечения освоения дисциплины Материально-техническое обеспечение дисциплины
- •Современные информационные технологии и мультимедийные продукты
- •V. Методические рекомендации по организации изучения дисциплины
- •5.1. Общие рекомендации
- •5.2. Указания по выполнению заданий самостоятельной работы Задание № 1. (Задача а.Б. Долгопольского и а.А. Зализняка)
- •Задание № 2. Классификация местоимений русского языка
- •Задание № 3. Лабораторная работа № 1 «Статистический анализ рекламных текстов из нкря»
- •Изучить информацию о Национальном корпусе русского языка на сайте корпуса: http://ruscorpora.Ru/ (разделы «что такое корпус?», «состав и структура», «статистика», «параметры текстов»).
- •Провести статистический анализ рекламных текстов, представленных в Национальном корпусе русского языка
- •Задание № 4. Лабораторная работа № 2 «Статистический анализ современного газетного текста»
- •Задание для отделения иностранных языков
- •Задание для филологического и переводческого отделений
- •Задание № 5. Лабораторная работа № 3 «Контент-анализ литературного текста»
- •Контент-анализ литературного текста «Евгений Онегин»
- •I. Заполните таблицу
- •II. Проведите анализ личностных качеств героев
- •Контент-анализ различных переводов текста «Ромео и Джульетта»
- •I. Заполните таблицу
- •II. Проведите анализ личностных качеств героев
- •Теоретические основы исследования.
- •Требования к оформлению работы (контент-анализ)
- •5.3. Рекомендации по выполнению практического зачетного задания
- •Образец практического зачётного задания
- •I. Предварительный эксперимент
- •II. Определение минимально достаточного объёма выборки
- •III. Анализ
- •5.4. Указания для студентов заочной формы обучения
- •VI. Приложение задачи по глоттохронологии
- •Домашнее задание
2.4. Основные понятия дисциплины
Индуктивные науки – науки, которые строятся на основе обобщения наблюдений и экспериментов, их выводы имеют вероятностный характер и различную надёжность.
Дедуктивные науки – науки, которые строятся на основе аксиоматического метода (математика, логика, некоторые разделы физики).
Аксиоматический метод – способ построения научной теории, при котором в основу кладутся некоторые исходные положения (аксиомы или постулаты), а все остальные положения (теоремы) выводятся из исходных путем рассуждений, называемых доказательствами.
Количественный анализ – выявление и формирование системы численных характеристик изучаемых объектов, явлений и процессов, которые будут подвергнуты определенной математической обработке.
Квантитативная лингвистика – междисциплинарное направление в прикладных исследованиях (условное название, широко используемое в современной научной литературе). В качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Противопоставляется комбинаторной лингвистике, в которой доминирующую роль занимает «неколичественный» математический аппарат – теория множеств, математическая логика, теория алгоритмов и т. д.
Лингво-математическая модель – математическое представление таких сторон и свойств лингвистических объектов, которые могут быть формализованы и выражены на математическом языке при помощи математических средств.
Математическая экспликациия лингвистического объекта или явления – расчленение сложной лингвистической проблемы (не имеющей полного решения) на более простые, логически сформулированные и имеющие алгоритмическое решение математические задачи.
Адекватность математического метода – степень соответствия формальной модели, предполагаемой методом, характеру изучаемого с его помощью явления. В силу трудностей формализации лингвистических явлений проблема адекватности математического метода в лингвистике стоит очень остро. Любая модель всегда более проста, чем отражаемая ею реальность. Задачи лингвиста, желающего эффективно применить математический метод, сводятся к четкому выделению того, что именно он отразил, использовав тот или иной математический аппарат и от чего в процессе такого использования абстрагировался; к определению на этой основе того, какими выводами и в каком смысле он может практически пользоваться; к выработке подходов к тому, чтобы максимально использовать отображенные обстоятельства; к попытке учесть то, что не было отражено, при интерпретации результатов применения математического метода. Решение этих задач возможно лишь при соблюдении ряда методологических принципов применения математических методов в лингвистическом исследовании и требует тесного контакта лингвиста и математика.
Выборочный метод – метод изучения некоторой обозримой части генеральной совокупности (ГС) – выборочной совокупности (ВС) из-за невозможности или нецелесообразности рассмотрения всей ГС. При этом основные статистические характеристики ВС рассматриваются как некое приближение характеристик объектов ГС, и результаты обработки выборочных данных обобщаются (экстраполируются) на всю ГС и даже на подобные однородные совокупности.
Генеральная совокупность (ГС) – множество всех возможных однородных объектов, обладающих признаками (признаком), составляющими предмет анализа. Генеральная лингвистическая совокупность (ГЛС) – совокупность однородных лингвистических объектов (лингвистических единиц), обладающих признаком/признаками, составляющим/и предмет лингвистического анализа.
Выборочная совокупность (ВС) или выборка – часть объектов ГС, отобранная с помощью специальных приемов для получения надёжной информации обо всей ГС.
Репрезентативность – способность ВС отражать все исследуемые свойства объектов в той пропорции, которая наблюдается в ГС, т. е. частота исследуемых свойств в ВС должна быть близка соответствующей частоте в ГС.
Объём выборки – число единиц наблюдения, составляющих ВС. Определение объёма выборки, удовлетворяющего заданным требованиям точности, представляет собой один из основных этапов ее формирования.
Относительная ошибка δ (степень точности) – величина, которая характеризует ширину доверительного интервала, в который попадает относительная частота исследуемого свойства. Таким образом, если частота f какого-либо свойства (параметра и т. п.) вычислена с относительной ошибкой δ, то это означает, что реальная частота попадает в интервал от (f - δ*f) до (f + δ*f).
Надежность ρ (измеряемую в % или в виде десятичной дроби) трактуют обычно так. Пусть проведен один опыт на выборке А и получена частота f исследуемого свойства с относительной ошибкой δ, тогда надёжность ρ=95% (или ρ =0,95) означает, что если взять 100 аналогичных А выборок, то в 95 из них относительная частота f будет находиться в пределах от (f - δ*f) до (f + δ*f) и лишь в 5 из них может выходить за эти пределы.
В лингвостатистических моделях:
– словоупотребление (по Г. Глúсону) – цепочка букв, заключенная между двумя пробелами в тексте и имеющая одно значение (омонимические словоупотребления рассматриваются как различные);
– словоформа – полностью совпадающие словоупотребления;
– слово – некоторый класс (сумма) семантически и грамматически связанных между собой словоформ.
– лемма (словарная словоформа) – слово в основной, исходной форме, в качестве которой в русском языке выступает обычно именительный падеж единственного числа – для именных форм и инфинитив – для глагольных форм.
Словоупотребление является единицей текста (речь), слово – единицей словаря (язык), словоформа обычно используется в качестве единицы частотного словаря.
Корпусная лингвистика – раздел лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов текстов с помощью компьютерных технологий. Предмет корпусной лингвистики – теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований широким кругом пользователей.
Лингвистический (языковой) корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Под репрезентативностью корпуса понимают необходимо-достаточное и пропорциональное представление текстов различных периодов, жанров, стилей, авторов и т. п. Строго математическое описание репрезентативности невозможно, однако к этому нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.
Частотный словарь – включает в себя те слова или другие лингвистические единицы (словоформы, словосочетания), которые зарегистрированы составителем в обследованных им текстах (или тексте). При этих словах, словоформах и т.д. указываются частоты их употребления в данных текстах (тексте).
Сущность контент-анализа – по внешним (количественным) характеристикам текста на уровне слов и словосочетаний делаются правдоподобные предположения о его плане содержания и, как следствие, выводы об особенностях мышления и сознания автора текста – его намерениях, установках, желаниях, ценностных ориентациях и т. д.