Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МЕТОДЫ V.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
223.74 Кб
Скачать

Лингвостатистический метод

Для современного лингвистического исследования актуальным остается философское положение о том, что предмет, не отра­женный в аспекте количества, не может считаться конкретно познанным и что наука вообще достигает совершенства лишь там и в той мере, в какой ей удается взять на вооружение математику.

Категория количества в языке связана с установлением количе­ственных изменений, вызывающих качественные преобразования языковых явлений. Именно действие в языке закона перехода ко­личественных изменений в качественные служит важнейшим ус­ловием выявления в нем его закономерностей. В связи с этим ос­новной задачей количественного метода в языкознании является раскрытие закономерностей функционирования единиц языка и речи, а также установление закономерностей построения текста. Теоретическое обоснование этого метода и создание алгоритмов его практического применения в языкознании — предмет особой отрасли науки о языке, получившей название лингвостатистики.

Возможность применения лингвостатистического метода в нашей науке обусловлена природой и сущностью языка.

1.Язык как система представляет собой совокупность взаимо­связанных дискретных (членимых) единиц, обладающих ко­личественными характеристиками. Этот фактор в скрытом виде признается всеми языковедами, традиционно использующи­ми такие количественные понятия, как «часто», «редко», «мно­гочисленные», «наиболее употребительные», «редко употреб­ляемые» и т.п.

2. Количественные характеристики языковых единиц (и их эле­ментов) одного уровня формируют качественное своеобразие единиц другого уровня. Так, язык с десятью фонемами обра­зует иное количество звуковых «оболочек» морфем и слов, чем язык с пятьюдесятью фонемами.

3. Язык имеет вероятностный характер. Так, для образования слов используется незначительная часть возможных комбинаций фонем и морфем. В этом выражается действие вероятностных ограничений в сочетании фонем и морфем.

Речь, как известно, — область реализации языковой системы. Применение к ее исследованию лингвостатистического метода пред­определяется: а) множественностью языковых единиц, б) их по­вторяемостью в речи и в) избирательностью языковых единиц (элементов) из ряда однородных (возможностью выбора соответ­ствующей замыслу высказывания единицы).

Итак, Лингвостатистический метод применим для изучения как языка, так и речи. Однако следует помнить, что количествен­ные характеристики в системе языка не тождественны их количе­ственным отношениям в речи. Дело в том, что на речь влияют не только законы языка (и, прежде всего, закономерности строения языковых единиц, закономерности их речевой реализации), но и законы сочетаемости языковых единиц в речи, законы жанра, тема высказывания, идиостилистические особенности речи и т.п. Характер воздействия этих факторов предсказать сложно.

Количественные и качественные методы должны допол­нять друг друга. Следовательно, лингвостатистический метод, как и матема­тизация языкознания, «не отменяет и не умаляет значимости ка­чественных методов».

Шире всего количественные методики используются при описании лексического уровня языковой системы. Лингвисты убеждены, что лексемный ярус системен, но его системность осо­бого рода. В лексике целостность и устойчивость системы соче­тается с автономностью частей (подсистем). В ней заметна мас­совость и случайность и одновременно господствует необходи­мость. Всё это характерно для вероятностных систем.

Единицами и уровнями квантитативного анализа являются сло­воформы, лексема и словоупотребление [Тулдава 1987]. Практическим результатом статистического изучения лек­сики являются частотные словари, отличающиеся от обычных лингвистических (толковых, орфографических и других) тем, что словарные единицы располагаются в них не только в ал­фавитном порядке, но и в порядке убывающей частотности. В первом случае это будет алфавитный частотный словарь, а во втором — ранговый частотный словарь. Частотные слова­ри характеризуются следующими параметрами: объём тек­ста (число словоупотреблений), объём словаря словоформ, объём словаря лексем. Первым частотным словарём был словарь Кединга (1898). За девяносто лет XX столетия было составлено несколько сот частотных словарей и частотных списков для нескольких де­сятков языков. Первым частотным словарём русского языка был словарь Г. Йоссельсона (США, Детройт, 1953). В нашей стране первый частотный словарь русского языка был состав­лен Э. Штейнфельд (1963). Интересны материалы к частот­ному словарю языка Пушкина (1963). В 1977 г. вышел в свет «Частотный словарь русского языка» под редакцией Л.Н. За-сориной. Создавался он на основе выборки в один миллион словоупотреблений из четырёх жанров (художественная про­за, драматургия, научная публицистика, газетно-журнальные материалы). В нём около 40 тыс. слов. Самое частотное слово — предлог в (во) далее идут служебные слова и местоимения (и, не, на, я, быть, что, он, с, а, как, это}. Самое частотное суще­ствительное — год. В 90-х гг. XX в. в Швеции вышел в свет «Частотный сло­варь современного русского языка» (Уппсала, 1993). Идея частотных словарей возникла из практической по­требности решения ряда вопросов: 1) создание рациональной методики изучения родного и иностранного языков; 2) усо­вершенствование различных кодовых систем; 3) выявление специфики разных стилей литературных памятников или языка отдельных авторов. Вслед за частотными списками слов появляются словари, отражающие частоты морфем и грам­матических форм. Частотные словари позволили обнаружить целый ряд ко­личественных закономерностей в лексическом составе язы­ка. Первые 1500 слов частотного словаря для любого языка составляют примерно 80% всех словоупотреблений. Причём 12 самых частотных слов — артикли и предлоги — из 20 тыс. слов (словарь Эсту) составляют примерно 40% всех словоу­потреблений. По Г. Йоссельсону, в русском языке наречия, предлоги, союзы, частицы составляют 13,9% всего текста. Сделан общий вывод, что первые 50 слов охватывают грам­матический словарь любого языка. Нет сомнения, что частотные словари окажутся мощным инструментом теоретического и практического языкознания. Они могут дать корректные в научном смысле выводы о струк­туре общенародной лексики и количественном соотношении её различных пластов, помогут решить проблему языковой нормы и строго определить понятие функционального стиля.

Частотные словари задали новые стимулы для развития лингвистической типологии.

Количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи в настоящее время широко используются в лексикологии и стилистике. Количественными парамет­рами обладают такие явления, как ритм и рифма. С примене­нием статистики увеличивается надежность типологических разысканий. С помощью статистических методов устанавли­вается мера генетической близости между славянскими язы­ками, сохраняемой, по данным праславянской лексики, каж­дым из них [Журавлев 1994].

С помощью формально-количественных методов изучает­ся авторский идиостиль, под которым В.П. Григорьев пони­мает взаимосвязь между языковыми средствами и особенно­стями творческой позиции писателя, его взгляда на мир, на окружающую действительность [Баранов 1998: 121]. Замече­но, например, что частицы разве и неужели по-разному рас­пределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия». В первом романе значительно чаще встре­чается частица разве, значение которой предполагает более активную, действенную позицию говорящего, подвергающе­го сомнению некоторое положение дел. В «Белой гвардии» чаще исп&льзуется частица неужели, которая указывает на то, что некоторое положение дел практически принимается го­ворящим и он лишь недоумевает, почему оно имеет место. Исследователь видит пассивное «изумление», «удивление» автора в «Белой гвардии» и активное восприятие в «Мастере и Маргарите» [Баранов 1998: 121].

Количественная методика стала более эффективной с по­явлением вычислительной техники. Определение авторства с помощью формально-количе­ственных и статистических методов стимулировало поиск и выявление характерных структур авторского языка. На этом строятся многообразные методики, представленные в книге «От Нестора до Фонвизина. Новые методы определения ав­торства» (М., 1994). В многолетний спор по поводу того, кто является истин­ным автором романа «Тихий Дон», в свое время включились скандинавские ученые, норвежско-шведский коллектив под руководством Г. Хьетсо. Они взяли тексты, бесспорно при­надлежащие М. Шолохову, и тексты донского писателя Ф. Крюкова, которому приписывалось авторство великого романа, и проанализировали их, выявляя особенности писательс­кой манеры каждого. Учёные сравнили длину предложений, распределения длины предложений по количеству слов, распре­деление частей речи, сочетание частей речи в начале и в конце предложения, частоту применения союзов в начале предложе­ний, лексические спектры, повторяемость словарного запаса по богатству. Естественно, сделать это оказалось возможным толь­ко с помощью мощной вычислительной техники. Математи­ческая статистика при контрольной выборке на ЭВМ 12 тыс. фраз при 164 637 словах представлена в 250 таблицах, форму­лах и графиках [Книжное обозрение. — 1999. № 18—19. С. б]. Вывод однозначен: из двух претендентов на авторство «Ти­хого Дона» Крюков явно обладает наименьшим правом. «...Применение математической статистики позволяет нам исключить возможность того, что роман написан Крюковым, тогда как авторство Шолохова исключить невозможно».

В Эдинбурге (Англия) разработан аналитический метод, основывающийся на учёте зависимости частоты употребляе­мого слова и длины предложения, в котором оно появляется. Этот метод получил название «диаграммы накапливающих­ся сумм». С его помощью установлено, что каждому человеку свойствен прочно укоренившийся, неизменный стиль, кото­рый не поддаётся имитации. Например, стиль Т. Харди в «Руке Этельберты» (1876) убедительно совпадает со стилем «Джуда Неизвестного». Анализ показал, что авторы приобретают и сохраняют постоянный стиль, как бы ни сложилась их жизнь. Например, стиль В. Скотта в «Антикварии» (1816) полностью совпадает с его стилем в «Замке опасностей», написанном после того, как знаменитый английский писатель перенёс три инсульта, один из которых лишил его речи и нарушил двига­тельные способности.

Метод выявляет в тексте инородные вставки, обнаруживает попытки подделать авторский стиль.

Количествен­ное описание подъязыков науки и техники используется для ав­томатической обработки языковой информации (создания инфор­мационно-поисковых систем и программ для машинного рефе­рирования текстов), а также в методике преподавания языков.

Основные понятия лингвостатистики

Согласно философской категории всеобщей связи, между явле­ниями языка и речи существуют определенные связи и зависимо­сти. Обычно различают два вида зависимости — функциональную (динамическую) и статистическую. Функциональная зависимость состоит в том, что одному языковому явлению соответствует другое определенное явление. Такого рода зависимость присуща мно­гим физическим явлениям. Повышение температуры - жидкое состояние воды; понижение температуры — ее кристаллизация. функциональные зависимости дают точные определения установ­ленным закономерностям, т.е. могут быть сформулированы как закон. В нашем случае он имеет всем известную формулу: «Вода при температуре ниже О'С превращается в лед». При статистической (вероятностной) зависимости одному явлению или свойству языка могут соответствовать несколько явлений или свойств. Так, уже можно считать аксиомой: между числом значений слова в словаре и частотой его употребления в речи (тексте) существует определенная статистическая зависи­мость. Это значит, что выявленному числу значений того или иного слова не обязательно соответствует строго определенная частота употребления этого слова (М.В. Арапов). Такие нестрогие соответствия между качественной и количе­ственной характеристикой языкового явления получили назва­ние корреляций.

Термин корреляция имеет два значения: 1) обще­научное — «соотношение, соответствие, взаимосвязь, взаимоза­висимость явлений» и 2) в лингвистической статистике — «такая связь между языковыми явлениями, при которой одно из явле­ний входит в число причин, определяющих другие, или когда имеются общие причины, воздействующие на эти явления».

В лингвистике обычно используют линейную корреляцию, согласно которой возрастание значений одного признака сопро­вождается возрастанием или убыванием значений другого при­знака. В такой линейной корреляции могут находиться, напри­мер, лексико-семантические варианты слова и частота встречае­мости слова в речи (в тексте). Если при возрастании значений одного признака возрастают значения другого, то устанавливает­ся так называемая положительная корреляция. Если же при возра­стании значений одного признака значения другого признака убы­вают, то налицо отрицательная корреляция. Число, показывающее степень тесноты корреляции, называ­йся коэффициентом корреляции (это число находится между -1 и 1). Иными словами, коэффициент корреляции за-^ючается от нуля до единицы со знаком «плюс» или «минус»: ~1 <— о —> +1. Если между исследуемыми признаками нет никакой статистической эависимосги, величина коэффициента будет равна нулю.

Для описания и исследования лингвистических фактов привлекаются различные разделы математики: алгебра, тео­рия множеств, математическая логика, теория информации, теория вероятностей и математическая статистика.

В силу этого математическая лингвистика стала развиваться в не­скольких направлениях — алгебраическая лингвистика, ком­бинаторная лингвистика, которая опирается на разделы «не­количественной» математики (теория множеств, математи­ческая логика, теория алгоритмов), и квантитативная лингвистика, которая изучает лингвистические явления с по­мощью «количественной» математики (математическая ста­тистика, теория вероятностей, теория информации и др.). Квантитативная лингвистика отличается от математичес­кой лингвистики большим вниманием к языковой специфи­ке, которая стоит за количественными отношениями. Глав­ная её задача — поиск связи между количественными и каче­ственными сторонами языка: между употребительностью и возрастом слов, длиной слова и его употребительностью, по­лисемией и употребительностью; делается попытка выявить объективный критерий таких лингвистических категорий, как продуктивность классов слов, однородность и регуляр­ность отношений между единицами словаря [Арапов 1988].

Пока наиболее перспективным представляется исследо­вание сущностных характеристик языка при помощи аппа­рата теории вероятностей и математической статистики — квантитативная лингвистика. Собственно говоря, связь ма­тематики с языкознанием началась с попыток установить ста­тистические свойства речи, поскольку языку присущи объек­тивные количественные характеристики. Благодаря вероят­ностной природе языковой структуры, она легко поддается изучению математическим аппаратом теории вероятностей и математической статистики, Основа тому — регулярность, упорядоченность языковых явлений. Уже существует боль­шая специальная литература, отразившая результаты приме­нения статистических методик в исследовании различных ярусов языковой системы. Статистически исследуется фонетика, закладываются ос­новы статистического изучения морфемного состава слова и морфологических категорий. В частности, установлена связь между числом фонем и средней длиной морфемы, стало из­вестно, что количество фонем отражается на качестве морфем и слов, а количество морфем на качестве слов. Интересна по­пытка количественно выразить степень силы управления. Намечается статистическая классификация синтаксических конструкций, обследуются закономерности связи размера предложения с характером текста. Выявлено, что с XI до XX в. вероятность использования предлогов увеличилась с 0,096 (XI—XIII вв.) до 0,123 (XX в.), а союзов уменьшилась с 0,126 (XI—XIII вв.) до 0,085 (XX в.) [Русинов 1983: 37].

Математические методы обладают следу­ющими возможностями:

  • делают точными суждения, основанные на количествен­но-частотных соображениях;

  • указывают на такие обстоятельства функционирования языка или диалекта, которые иными способами не обнаружи­ваются;

  • позволяют глубже и всесторонне понять причины и результаты языковой эволюции, длительность эволюционных процессов и их хронологию, и даже прогнозировать будущее языковое развитие;

  • расширяют сферу прикладного использования языкоз­нания [Русинов 1983: 42].