- •Как делать вещи при помощи слов
- •Список литературы
- •Вопросы философии языка в диалоге платона "кратил"
- •Корпусная лингвистика
- •История
- •Современное состояние
- •Проблемы Проблема представительности
- •Проблема разметки
- •Проблема представления результатов
- •Веб как корпус Использование поисковых машин
- •Использование веб-страниц
- •Проект Татоэба
- •Открытый корпус русского языка
- •Когнитивная лингвистика
- •Когниция
- •Основные направления
- •Разделы когнитивной лингвистики
- •К типологии просодических систем
- •Слоговые языки Силлабема как парадигматическая единица
- •Генетическое изучение языков
- •§ 139. Можно сделать вывод, что заключения о родстве языков или, наоборот, о его отсутствии на основании фонетических и грамматических свидетельств являются по меньшей мере рискованными.
Проблемы Проблема представительности
Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.
Проблема разметки
К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:
токенизация (разбиение на орфографические слова)
лемматизация (приведение словоформ к словарной форме)
морфологический анализ
Проблема представления результатов
В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.
Веб как корпус Использование поисковых машин
В качестве корпуса может использоваться множество текстов, доступных в интернете (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. В английском языке такая методология получила название англ. Googleology [2], для русского более подходящим названием может стать Яндексология. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.). Кроме того дело осложняется малой распространённостью семантической вёрстки.
На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также статистика запросов.
Использование веб-страниц
Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета.[3]
Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов.[4]