- •Прикладная и математическая лингвистика. Лексикостатистика.
- •Основные понятия квантитативной лингвистики и статистики речи.
- •4. Максимальная лексическая система и генеральная совокупность текстов.
- •Лексическая подсистема языка и внутренний лексикон
- •6. Слово в словаре и тексте. Употребительность слова в речи.
- •Частотные словари: структура, функции, составление.
- •Закон Ципфа и его интерпретации. Частотно-ранговые распределения.
- •Квантитативные исследования в области стилистики.
- •Возраст слова и языковая диахрония. Глоттохронология.
- •Лингвистическая статистика
Основные понятия квантитативной лингвистики и статистики речи.
Квантитати́вная лингви́стика (англ. quantitative linguistics) — это раздел общей лингвистики и, в частности, математической лингвистики. КЛ исследует язык при помощи статистических методов; её конечная цель — сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков. Специально для этой цели была создана синергетическая лингвистика (Synergetic linguistics). Эта область знаний не обязательно связана с фундаментальными научными целями.
Языковые законы в квантитативной лингвистике
В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть, несмотря на многочисленные попытки.
Некоторые языковые (лингвистические) законы
Существует целый ряд языковых законов, среди которых:
Закон диверсификации: Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определенными законами.
Распределение длин (многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы. На данный момент были изучены следующие единицы: закон распределения длин морфов; ритмических единиц; предложений; слогов; слов;
Другие языковые единицы, которые также подчиняются этому закону, — это, например, буквы (символы) различной сложности, длины так называемых hrebs и речевых актов. Это же справедливо и для распределений звуков (фонов) различной длительности (долготы).
Закон Мартина: Этот закон касается лексических цепочек, которые образуются при поиске дефиниций (определений) слов в словаре, затем дефиниций только что найденных дефиниций и т. д. В конце концов все эти дефиниции образуют иерархию всё более и более общих значений, при этом дефиниций становится тем меньше, чем более общее значение получается. Среди уровней данной иерархии существует целый ряд подчиняющихся закону отношений.
Закон Менцерата-Альтмана: Данный закон гласит, что размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.
Законы частотно-рангового распределения: Практически любая языковая единица подчиняется этим закономерностям. Приведем лишь несколько примеров:
Слова в тексте организованы в соответствии с частотой их появления в тексте, и каждому из них присвоен номер ранга и соответствующая частота. Со времен Ципфа (закон Ципфа), предлагалось большое количество математических моделей, описывающих отношения между рангом и частотой.
Можно наблюдать похожее распределение между рангом и частотой звуков, фонем и букв.
Закон изменения языка: Процессы роста в языке (как, например, рост словаря), распространение иностранных и заимствованных слов, изменения во флективной системе и т. д. подчиняются закону, известному в КЛ как закон Пиотровского, и соответствуют моделям роста в других научных дисциплинах. Закон Пиотровского — это частный случай так называемой логистической модели. Было показано, что он затрагивает и процессы усвоение языка (ср. закон усвоения языка).
Закон текстового блока: Лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определенное распределение частоты в одинаково больших блоках текстов.
Закон Ципфа: Частота слова обратно пропорциональна его порядковому номеру в списках частотности.
Генеральная совокупность (в англ. — population) — совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.
Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.
Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения.
Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д.
3. Квантитативно-системный подход в лингвистике.
Концепция системного подхода сформировалась в результате приложения идей и методов, разработанных для решения инженерно-физических задач, к решению задач лингвистических, связанных главным образом с проблемами языковой типологии.
Система — это объект, свойства структуры и субстанции которого взаимосвязаны.
Свойства системы:
1.целостный комплекс взаимосвязанных элементов.
2.образует особое единство со средой.
3.любая система представляет собой элемент системы более высокого порядка.
4.элементы любо системы – подсистемы или системы более низкого порядка.
Системный подход актуальный потому, что является одной из основ общей методологии науки. Еще Фердинанд де Соссюр писал о языке как о системе знаков. Сегодня бытует мнение, что язык следует изучать не обособленно от окружающего мира, как было определено Соссюром, а системно, то есть с учетом его связей с внешними факторами.
Системный подход в лингвистике, в основе которого лежит идея языка как целостности — системы, состоящей из взаимообусловленных частей (подсистем), предполагает обязательное наличие зависимостей между различными характеристиками единиц лексической подсистемы языка. Эти зависимости обнаруживаются в результате объединения лексических единиц в разнообразные группировки.
Язык представляет собой, как Принято говорить в современном языкознании, некоторое системно-структурное образование. Отдельные подсистемы языка называют уровнями, которые представлены соответствующими единицами - фонемами, морфемами, лексемами, синтагмами (предложениями)..
Системный подход к языку поставил в изучении слова новые задачи: определение слова как единицы языка, критерии его выделения, изучение содержательной стороны слова, методов ее анализа, исследование системности лексики; изучение слова в языке и речи, в тексте. В истории науки было выдвинуто более 70 различных критериев определения слова, в основе которых лежали графические, фонетические, структурные, грамматические, синтаксические, семантические, системные принципы:
Морфологический критерий исходит из того, что морфологический показатель оформляет слово в целом, а не его часть или словосочетание. Этот критерий нередко позволяет отделить слово от сочетания слов, но и он не универсален. Так, части сложного слова могут получить отдельное морфологическое оформление: морфологический формант может оформлять словосочетание (англ, 's в the King of England's... «английского короля»)
Согласно синтаксическому критерию, слово – либо потенциальный минимум предложения, либо минимальная синтаксическая единица. Однако этот критерий не позволяет отделить от морфем служебные слова, не способные составить отдельные предложения. Применяемый исключительно на синтагматическом уровне, синтаксический критерий ведет к выделению не слов как таковых, но членов предложения, которые могут объединять ряд слов, (ср.: «Где он?» – «В школе», а не «школе»)
Согласно семантическому критерию, слово – все, что выражает одно определенное понятие (А. А. Реформатский, А. Ельмслев). Слово – минимальная значимая единица, для которой существенным оказывается идиоматичность значения, т. е. отсутствие полного параллелизма между значением целого и значением компонентов. Однако один только семантический критерий не позволяет отличить слово от фразеологического или терминологического словосочетания.
Аналогия – все, что может быть подтверждено аналогичными явлениями, а то, что не попадает, относится к области аномалий.
Язык – функция совокупности, а речь – выборки.
Язык – это вероятностная система, но вероятность есть всегда в определении условий.
Вероятность – того или иного речевого события выражается мерой объективной возможности реализации события.
Два основных принципа в КЛ:
1.системность
2.вероятностно- систематический подход к языковым явлениям
Речь (текст) явление объективное, им присуще наличие квантитативных характеристик.
Все языковые единицы проявляются с повторяемостью рекуррентности.
