- •6. Особые типы корпусов
- •3. Эмпирический подход в сравнении с хомскианской лингвистикой
- •4. Связь корпусной лингвистики с компьютерной и математической лингвистикой
- •5. Типология корпусов
- •Классификация корпусов
- •Устные – письменные
- •Одноязычные — многоязычные
- •Выровненные и не выровненные параллельные корпусы
- •Статические – динамические
- •6. Особые типы корпусов
- •6.1. Параллельные корпусы
- •6.2. Корпусы устной речи
4. Связь корпусной лингвистики с компьютерной и математической лингвистикой
ТПС
Связь корпусной и математической лингвистики двунаправленная. С одной стороны, корпусная лингвистика поставляет важные эмпирические данные, позволяя в частности верифицировать формулируемые в мат. лингвистике гипотезы и законы.
С другой стороны, создание корпусов невозможно без процедур формального анализа языка, в частности морфологического, синтаксического, семантического которые являются автоматическими и базируются на теории алгоритмов.
Довольно часто звучит вопрос о соотношении корпусной и так называемой
«компьютерной лингвистики». Эти ветви науки о языке, действительно, близки друг
другу, но всё же не совпадают.
Что такое «компьютерная лингвистика»? Вообще, термин довольно расплывчат,
тем более, что существует ещё некая «математическая лингвистика». В англоязычном
языкознании проще — там есть один общий термин computational linguistics, то есть,
«вычислительная лингвистика». Мы для простоты будем говорить «компьютерная
лингвистика», поскольку сейчас без компьютеров всё равно никто уже ничего не
вычисляет.
Так вот, обычно говорят, что компьютерная лингвистика — это такая
междисциплинарная ветвь лингвистики, занимающаяся либо статистическим либо
rule-based моделированием языка с использованием компьютеров. Моделирование –
это приблизительный эквивалент английского термина sampling. То есть, компьютерная
лингвистика строит модели языка. Кстати, корпусная занимается примерно тем же,
поэтому они друг другу помогают.
Немаловажно, что компьютерная лингвистика создаёт инструменты (то есть,
программы) для корпусной лингвистики. В этом смысле они тоже дополняют друг друга.
Например, корпусным лингвистам необходимы средства для автоматической разметки
классов слов в корпусах. Если у вас есть корпус на 100 миллионов словоупотреблений и
вам нужно отметить часть речи у каждого слова, то вручную это сделать совершенно
нереально. Тут и понадобится специализированное программное обеспечение. Обычно
сначала его нужно «обучить», то есть разметить вручную какое-то небольшое количество
слов, чтобы система «натренировалась». После этого разметка по классам слов будет
происходить в автоматическом режиме.
Очень активно в современном мире используются программы морфологического и
синтаксического анализа (Англ. POS (part-of-speech) tagging и parsing). Именно они лежат в основе автоматической проверки орфографии и грамматики, которая в текстовых процессорах подчёркивает вам красным неправильные слова и фразы. Для создания таких программ равно необходимы как программисты, так и лингвисты.
Пример:
Любой автоматический разбор слова на морфемы производится от его начала к концу. Программа «пытается» подобрать последовательность морфем, принадлежащих определенной части речи. Так, например, исходя из базы морфем, после глагольного суффикса «-л-» (изъявительное наклонение, прошедшее время) могут следовать такие окончания, как: «-а-», «-о-», «-и-», или нулевое окончание. Разбор считается завершенным успешно, если всё слово было разобрано на морфемы, в соответствии с правилами русского языка, и не осталось не разобранных букв.
Программа накапливает все возможные варианты разбора и выбирает из них оптимальный. Для этого используется система весов морфем: каждой морфеме или группе морфем присваивается некоторый вес. Вариант разбора, набравший наибольший вес, считается оптимальным. Так, междометия имеют более высокий вес, нежели существительные, это делается во избежание выбора оптимальным заведомо ложного варианта разбора междометия как существительного. Вес варианта разбора может уменьшиться в случае, если в нем встречается много корней. Если же морфема состоит из большого количества символов, то её вес увеличится.
После разбора программа формирует файл отчета, в который заносятся все слова с вариантами их разбора, где наглядно демонстрируются морфемы слова. Помимо этого производится подсчет статистики по введенному тексту. Так, например, программа выдаёт как часто и какие корни встречались в тексте.
Т.о видим: автоматический морфологический анализ производится с помощью компьютерной программы, включающей как квантитативные, так и статистические процедуры
