- •6. Современные информационные технологии в лингвистических исследованиях (лингвистические корпуса, электронные библиотечные системы, словари и пр.)
- •The International Corpus of English (ice)
- •Brown Corpus
- •1 Млн. Словоупотреблений
- •130 Тыс. Словоупотреблений. Свободный доступ
- •Cambridge International Corpus
- •Icame Corpus Collection
- •Многоязычные словари:
The International Corpus of English (ice)
Корпус отражает словоупотребление в различных вариантах английского языка (Австралия, Великобритания, Гонконг, Индия, Ирландия, Канада, Кения, Малайзия, Новая Зеландия, Сингапур, США, Танзания, Филиппины, Шри-Ланка, Южная Африка, Ямайка). Каждый подкорпус включает письменные тексты разных типов и записи устной речи. В настоящее время полностью подготовлен Британский компонент корпуса (ICE-GB), его тексты снабжены морфологической и синтаксической разметкой
Предполагается дополнить записи устной речи аудиозаписями
Объем каждого национального подкорпуса – 1 млн. словоупотреблений
Британский компонент корпуса ICE распространяется на диске на платной основе, в свободном доступе находится его маленький фрагмент (20 тыс. словоупотреблений)
Brown Corpus
Первый в истории представительный корпус, создан в 1960-е гг. Корпус состоит из 500 прозаических фрагментов в 2000 слов, взятых из текстов, опубликованных в США в 1961 г. В конце 1970-х гг. корпус был дополнен разметкой частей речи и морфологических признаков слов
корпус; английский язык; американский вариант английского языка
1 Млн. Словоупотреблений
Свободный доступ к корпусу предоставляется через LDC (Linguistic Data Consortium) по адресу: http://wave.ldc.upenn.edu/cgi-bin/ldc/textcorpus?doc=yes&corpus=BROWN. Кроме того, Брауновский корпус распространяется на платной основе Международным компьютерным архивом современного английского языка (ICAME) (Берген, Норвегия)
Penn Treebank
Корпус создавался в конце 1980-х – начале 1990-х гг. в США в Пенсильванском университете. Основную часть корпуса образуют тексты из Wall Street Journal за 1989 г. Корпус включает морфологическую и синтаксическую разметку
корпус; английский язык. Объем корпуса – 1 млн. словоупотреблений
Корпус распространяется через LDC (Linguistic Data Consortium) на платной основе
The SUSANNE Corpus
Корпус SUSANNE создавался в университете Суссекса. Он представляет собой синтаксически аннотированный фрагмент Брауновского корпуса
корпус; английский язык; американский вариант английского языка
130 Тыс. Словоупотреблений. Свободный доступ
The CHRISTINE Corpus
Корпус устной речи CHRISTINE создавался в университете Суссекса как развитие проекта, в рамках которого сначала был создан корпус письменных текстов SUSANNE. В корпус CHRISTINE вошли записи британской спонтанной устной речи. Предполагается, что в корпус будут привлечены материалы из разных источников, но все доступные на настоящий момент тексты взяты из подкорпуса устной речи Британского национального корпуса. Тексты снабжены морфологической и синтаксической разметкой, используется специальная разметка для явлений, характерных для устной речи (паузы, повторы, дискурсивные маркеры и др.). Свободный доступ
Saarbruucken Corpus of Spoken English
Саарбрюкенский корпус разговорного английского языка состоит из трех подкорпусов: 1) беседы, записанные на магнитофон (большей частью с ведома информантов, в некоторых случаях тайно) профессором Н. Норриком и студентами Университета Северного Иллинойса; это, как правило, разговоры в кругу семьи, среди друзей, коллег и т. п.; 2) интервью с людьми старше 80 лет в Индианаполисе, записанные проф. Н. Норриком; 3) анекдоты, записанные профессором Н. Норриком и студентами Университета Северного Иллинойса и Университета Саарланда. Тексты корпуса можно скачать в формате pdf
American National Corpus
Американский национальный корпус создается по образцу Британского национального корпуса. На первом этапе основную часть корпуса будут составлять тексты 1990-х гг., однако в дальнейшем в корпус будут включаться и более ранние тексты (вплоть до 1960-х гг. и раньше). В настоящий момент готова первая версия корпуса, в которую вошли 10% от предполагаемого объема корпуса (10 млн. словоупотреблений). Представлены как письменные тексты, так и записи устной речи. Хотя планируется создание представительного корпуса, на данный момент тексты включаются в корпус в порядке поступления, поэтому готовый фрагмент корпуса не является сбалансированным. Тексты снабжаются метаразметкой и частеречной разметкой
Планируется создание представительного корпуса объемом 100 млн. словоупотреблений. Объем готового фрагмента корпуса – 10 млн. словоупотреблений.
Готовый фрагмент корпуса распространяется через LDC (Linguistic Data Consortium) на платной основе
