
Машинные фонды национальных языков (национальные корпуса зарубежных стран).
Концепция машинных фондов начала разрабатываться в 70-80х гг. ХХ века.
Машинный фонд (корпус) – сложная иерархическая разветвленная автоматическая система, способная решать как информационно-поисковые, так и исследовательские лингвистические задачи.
Первоначально основными составляющими МФ являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий.
В МФ хранятся все типы текстов, начиная с самых древних. Фонды охватывают десятки словоупотреблений. Эту информацию можно использовать в различных целях, но в т.ч. для составления словарей.
Корпусная лингвистика – новое направление лингвистической науки. В основном развита в Великобритании, Германии и США.
Корпус – полнотекстовая БД, имеющая ряд модулей, например, словарный, документально-фактографический и т.д.
Неотъемлемая часть понятия «корпус текста» - корпус-менеджер. Это система управления текстовыми лингвистическими данными. Это специальная система, включающая программные средства для поиска данных в корпусе, для получения статистической информации и предоставления ее пользователю в удобной форме.
Также важный параметр организации любого корпуса – это аннотация, или разметка, т.е. наличие в составе текста специальных меток, описывающих как сами тексты, так и их единицы, относящиеся к различным языковым уровням.
В национальном корпусе ресского языка сегодня разработаны 5 типов разметки:
Метатекстовая
Морфологическая
Акцентная
Синтаксическая
Семантическая
Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных политических и культурно-исторических мероприятий. Государства тратят на это огромные средства.
Мировым эталонным корпусом языков является Великобритания. В XXI веке среди лучших – японский и французский корпуса.
Национальный корпус – грандиозное собрание всех типов и видов информации; это внедрения уникальной программы по ее обработке, классификации и анализу перерыва.
Основные вехи создания компьютерных корпусов.
В 60е гг. был создан брауновский корпус в США (1 млн слов)
70е – ланкастерско-ослобергенский корпус (1 млн слов)
80е – началась работа над МФ русского языка (1 млн слов)
80е – в Швеции упсольский корпус русского языка
Кон. 80х – бирмингемский корпус (20 млн слов)
90е – британский национальный корпус (100 млн слов);
Венгерский, итальянский, хорватский, чешский, японский национальные корпуса (100 млн слов);
Бирмингемский корпус нарастили до 600 млн слов.
2000е – американский национальный корпус (100 млн слов);
Gigaword Corpora (англ., китайский, арабский) – 1 млрд слов.
В МФ русского языка есть богачайший материал в виде тексовых и звуковых документов.
Начал создаваться в в 1985 в Институте русского языка РАН по инициативе академика Ершова.
Много различных программ – программа создания и использования автоматических словарей, программы ведения лексикографических БД и автоматизации словарных работ.
Большое внимание уделялось терминоведению, а также автоматической обработке текста на ествественном языке.
В России наиболее хорошо развиты башкирский и татарский национальные фонды.
С 2005г в Институте истории языка и литературы уфимского научного центра РАН + в интернет-центре башкирского гос. Университета.
Доступен в интернете для широкого круга пользователей.
≈40 онлайн-словарей башкирского языка.
Татарский сектор разрабатывается РАН Татарстана.
Создаются словари и программы, ориентированные на обработку текстов.