Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2010_la_umk.doc
Скачиваний:
5
Добавлен:
10.09.2019
Размер:
477.7 Кб
Скачать

2.4. Основные понятия дисциплины

Индуктивные науки – науки, которые строятся на основе обобщения наблюдений и экспериментов, их выводы имеют вероятностный характер и различную надёжность.

Дедуктивные науки – науки, которые строятся на основе аксиоматического метода (математика, логика, некоторые разделы физики).

Аксиоматический метод – способ построения научной теории, при котором в основу кладутся некоторые исходные положения (аксиомы или постулаты), а все остальные положения (теоремы) выводятся из исходных путем рассуждений, называемых доказательствами.

Количественный анализ – выявление и формирование системы численных характеристик изучаемых объектов, явлений и процессов, которые будут подвергнуты определенной математической обработке.

Квантитативная лингвистика – междисциплинарное направление в прикладных исследованиях (условное название, широко используемое в современной научной литературе). В качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Противопоставляется комбинаторной лингвистике, в которой доминирующую роль занимает «неколичественный» математический аппарат – теория множеств, математическая логика, теория алгоритмов и т. д.

Лингво-математическая модель – математическое представление таких сторон и свойств лингвистических объектов, которые могут быть формализованы и выражены на математическом языке при помощи математических средств.

Математическая экспликациия лингвистического объекта или явления – расчленение сложной лингвистической проблемы (не имеющей полного решения) на более простые, логически сформулированные и имеющие алгоритмическое решение математические задачи.

Адекватность математического метода – степень соответствия формальной модели, предполагаемой методом, характеру изучаемого с его помощью явления. В силу трудностей формализации лингвистических явлений проблема адекватности математического метода в лингвистике стоит очень остро. Любая модель всегда более проста, чем отражаемая ею реальность. Задачи лингвиста, желающего эффективно применить математический метод, сводятся к четкому выделению того, что именно он отразил, использовав тот или иной математический аппарат и от чего в процессе такого использования абстрагировался; к определению на этой основе того, какими выводами и в каком смысле он может практически пользоваться; к выработке подходов к тому, чтобы максимально использовать отображенные обстоятельства; к попытке учесть то, что не было отражено, при интерпретации результатов применения математического метода. Решение этих задач возможно лишь при соблюдении ряда методологических принципов применения математических методов в лингвистическом исследовании и требует тесного контакта лингвиста и математика.

Выборочный метод – метод изучения некоторой обозримой части генеральной совокупности (ГС) – выборочной совокупности (ВС) из-за невозможности или нецелесообразности рассмотрения всей ГС. При этом основные статистические характеристики ВС рассматриваются как некое приближение характеристик объектов ГС, и результаты обработки выборочных данных обобщаются (экстраполируются) на всю ГС и даже на подобные однородные совокупности.

Генеральная совокупность (ГС) – множество всех возможных однородных объектов, обладающих признаками (признаком), составляющими предмет анализа. Генеральная лингвистическая совокупность (ГЛС) – совокупность однородных лингвистических объектов (лингвистических единиц), обладающих признаком/признаками, составляющим/и предмет лингвистического анализа.

Выборочная совокупность (ВС) или выборка – часть объектов ГС, отобранная с помощью специальных приемов для получения надёжной информации обо всей ГС.

Репрезентативность – способность ВС отражать все исследуемые свойства объектов в той пропорции, которая наблюдается в ГС, т. е. частота исследуемых свойств в ВС должна быть близка соответствующей частоте в ГС.

Объём выборки – число единиц наблюдения, составляющих ВС. Определение объёма выборки, удовлетворяющего заданным требованиям точности, представляет собой один из основных этапов ее формирования.

Относительная ошибка δ (степень точности) – величина, которая характеризует ширину доверительного интервала, в который попадает относительная частота исследуемого свойства. Таким образом, если частота f какого-либо свойства (параметра и т. п.) вычислена с относительной ошибкой δ, то это означает, что реальная частота попадает в интервал от (f - δ*f) до (f + δ*f).

Надежность ρ (измеряемую в % или в виде десятичной дроби) трактуют обычно так. Пусть проведен один опыт на выборке А и получена частота f исследуемого свойства с относительной ошибкой δ, тогда надёжность ρ=95% (или ρ =0,95) означает, что если взять 100 аналогичных А выборок, то в 95 из них относительная частота f будет находиться в пределах от (f - δ*f) до (f + δ*f) и лишь в 5 из них может выходить за эти пределы.

В лингвостатистических моделях:

– словоупотребление (по Г. Глúсону) – цепочка букв, заключенная между двумя пробелами в тексте и имеющая одно значение (омонимические словоупотребления рассматриваются как различные);

словоформа – полностью совпадающие словоупотребления;

слово – некоторый класс (сумма) семантически и грамматически связанных между собой словоформ.

лемма (словарная словоформа) – слово в основной, исходной форме, в качестве которой в русском языке выступает обычно именительный падеж единственного числа – для именных форм и инфинитив – для глагольных форм.

Словоупотребление является единицей текста (речь), слово – единицей словаря (язык), словоформа обычно используется в качестве единицы частотного словаря.

Корпусная лингвистика – раздел лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов текстов с помощью компьютерных технологий. Предмет корпусной лингвистики – теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований широким кругом пользователей.

Лингвистический (языковой) корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Под репрезентативностью корпуса понимают необходимо-достаточное и пропорциональное представление текстов различных периодов, жанров, стилей, авторов и т. п. Строго математическое описание репрезентативности невозможно, однако к этому нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.

Частотный словарь – включает в себя те слова или другие лингвистические единицы (словоформы, словосочетания), которые зарегистрированы составителем в обследованных им текстах (или тексте). При этих словах, словоформах и т.д. указываются частоты их употребления в данных текстах (тексте).

Сущность контент-анализа – по внешним (количественным) характеристикам текста на уровне слов и словосочетаний делаются правдоподобные предположения о его плане содержания и, как следствие, выводы об особенностях мышления и сознания автора текста – его намерениях, установках, желаниях, ценностных ориентациях и т. д.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]