
Частотные словари
Вопросы:
Общее понятие частотного словаря
Единицы учета в частотном словаре
Способы расположения словарного материала
Учет омонимии и омографии при составлении частотного словаря
Виды частот, указываемых в частотном словаре
*Правила анализа различных частей речи при подготовке частотного словаря (Засорина – Частотный словарь русского языке (предисловие), 1977)
*Алгоритм автоматического построения частотного словаря
Практическое применение частотных словарей
e-mail: gamrat@tut.by
Список литературы:
Основные пособия:
Арапов М. В. Квантитативная лингвистика. – М., 1988.
Математическая лингвистика. – М., 1973.
Пиотровский Р. Г. Информационные измерения языка. – Л. 1968.
Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. – М., 1977.
Сухотин В. В. Исследование грамматики числовыми методами. – М., 1990.
Дополнительные пособия:
Алексеев П. М. Семантические частотные словари // Статистика речи и автоматический анализ текста. – Л., 1973.
Алексеев П. М. Частотные словари английского языка и их практическое применение // Статистика речи и их автоматический анализ текста. – Л., 1973.
Гинзбург С. Математическая теория контекстно-свободных языков. – М.: Мир, 1970.
Головин Б. Н. Язык и статистика. – М.: Просвещение, 1970.
Лекомцев Ю. К. Введение в формальный язык лингвистики. М., 1983.
Мельников Г. П. Системалогия и языковые аспекты кибернетики. – М., 1978.
Налимов В. В. Вероятностная модель языка. О соотношении естественных и искусственных языков. – М., 1979.
Шайкевич А. Я. Дистрибутивно-статистический анализ в семантике // Принципы и методы семантических исследований. – М., 1976.
Шенк Р. Обработка концептуальной информации. – М., 1980.
Математическая лингвистика как область знаний
Взаимодействие языка и математики
Области математическая лингвистики и их связь с разделами математики
Лингвистическое явление как математическая величина
Дискретные и непрерывные величины в лингвистике
Отличия математического знака и языкового
1. Причины проникновения математических методов в лингвистику:
- развитие языковедческой теории в практике требует введения все более точных и объективных методов для анализа языка и текста; использование математических приемов при систематизации измерения и обобщения лингвистического материала позволяет языковедам глубже познать построение языка и построения текста;
- все более расширяющиеся контакты языкознания с информатикой, кибернетикой, физиологией, психологией и др. науками; все эти контакты могут осуществляться только при использовании математического языка, который обладает высокой степенью общности и универсальности для различных отраслей знания.
Появление математическая лингвистики была мотивирована разработкой электронных технологий.
Язык математики и естественный язык являются семиотическими системами, т.е. знаковыми системами. Однако существует значительные отличия в знаках данных систем.
Применение математических методов в языкознании имею своей целью заменить диффузную интуитивно сформулированную и не имеющую полного решения лингвистическую задачу одной или несколькими простыми логически сформулированными и имеющими алгоритмическое решение математическими задачами. Такое членение сложной лингвистической задачи на более простые алгоритмизуемые задачи называется математической экспликацией лингвистического объекта или явления.
2.
- квантитативная (количественная) лингвистика. Оперирует математическим аппаратом следующих разделов математики: математическая статистика, теория вероятности, теория информации, математический анализ.
- комбинаторная лингвистика. Предметом является изучение грамматик порождающих текст. При этом грамматика понимается как конечное множество детерминированных правил, в том числе неграмматических (к примеру, семантика), а язык рассматривается как бесконечное число регулярных цепочек слов, порождаемых этой грамматикой. Соответственно, комбинаторная лингвистика опирается на следующие разделы математики: теория множеств, математическая логика, теория алгоритмов.
3.
При изучении количественных закономерностей языка встречаются такие лингвистические явления как употребительность слова или словосочетания, порядок их в частотном списке, длина звука, длина буквосочетания, информационный вес морфемы или слова, степень аналитичности языка и многие другие. Если лингвистическое явление может быть выражено в виде числа, то его можно рассматривать в качестве математической величины. Величины: переменные и постоянные (алфавит, степень аналитизма языка); параметры – сохраняют одно и то же значение при определенных условиях исследования (зависимость длины слога от длины слова). Переменная величина считается заданной, если указано множество значений, которые она может принимать. Это множество называется областью изменения переменной.
4.
Область изменения дискретной величины состоит из отдельных изолированных точек числовой оси.
Область изменения непрерывной величины состоит из всех точек, расположенной на каком-либо участке числовой оси. Например, степень аналитизма языка.
Субстанция (дискретно-непрерывное построение) |
План содержания |
Форма (дискретное построение) |
|
Форма (дискретное построение) |
План выражения |
Субстанция (дискретно-непрерывное построение) |
Субстанция содержания – все то, что может быть предметом мысли.
Форма содержания – потенциально бесконечное множество идей, которые выступают в качестве особого упорядочения в данном языка квази-дискретных инвариантов плана содержания, образующие обычно нечеткие множества конкретных значений (набор слов=значений, входящих в конкретный язык).
Форма выражения организует этот материал в систему дискретных инвариантов плана выражения. В любом языке есть ограниченные набор знаков-букв, с помощью которые строятся слова.
Субстанция выражения – акустический, графический или другой материал для формирования знаков.
Если рассматривать процессы изменения языка во времени, а также его территориальное и социальное варьирование, то здесь преобладают непрерывные процессы. Пример, процесс изменения языка во времени (звук «ять» в русском языке – исчезновение на протяжении какого-то времени).
В ходе количественных группировок постоянно возникают ситуации, когда разность между смежными дискретными переменными, характеризующими эти группировки, очень мала по сравнению с их величинами. В таких случаях лингвистические явления можно рассматривать в качестве непрерывной переменной величины. Например, количество слов в языке – величина дискретная.
5.
Язык математики подобно естественному языку является знаковой системой, выполняющей классификационную и коммуникативную функции. Однако математический знак обнаруживает ряд отличий от знака языкового.
Отличия:
Абстрактность математических объектов исключает противопоставление денотата и сигнификата (денотат оказывается поглощенным сигнификатом).
Математический знак обычно однозначен, в естественном языке очень распространена омонимия. В случае, когда математический знак имеет несколько сигнификатов, эта многозначность полностью устраняется через контекст.
Поскольку языку математики не свойственен противопоставленный язык-идиолект, в значении математического языка отсутствуют дополнительные смысловые оттенки, т.е. коннотат.
Интенсиональная значимость математического знака – место с современной архитектуре математики строго определено. Значимость вместе со значением математического знака четко детерминирует его валентность. Пример: если есть открывающая скобка, то должна быть и закрывающая; знак «=» не может стоять рядом со скобкой (как открывающей, так и закрывающей).
Таким образом, изучение и сопоставление знаков естественного языка и языка математики обнаруживают ряд трудностей, стоящий на пути математического моделирования естественного языка. Они связаны с противопоставлением континуальной аморфности лингвистических объектов и четкой дискретности моделирующего математического аппарата, а также несоответствие между смысловым богатством знака в естественном языке и семантической бедностью математического знака.