Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
6.docx
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
42.62 Кб
Скачать

The International Corpus of English (ice)

Корпус отражает словоупотребление в различных вариантах английского языка (Австралия, Великобритания, Гонконг, Индия, Ирландия, Канада, Кения, Малайзия, Новая Зеландия, Сингапур, США, Танзания, Филиппины, Шри-Ланка, Южная Африка, Ямайка). Каждый подкорпус включает письменные тексты разных типов и записи устной речи. В настоящее время полностью подготовлен Британский компонент корпуса (ICE-GB), его тексты снабжены морфологической и синтаксической разметкой

Предполагается дополнить записи устной речи аудиозаписями

Объем каждого национального подкорпуса – 1 млн. словоупотреблений

Британский компонент корпуса ICE распространяется на диске на платной основе, в свободном доступе находится его маленький фрагмент (20 тыс. словоупотреблений)

Brown Corpus

Первый в истории представительный корпус, создан в 1960-е гг. Корпус состоит из 500 прозаических фрагментов в 2000 слов, взятых из текстов, опубликованных в США в 1961 г. В конце 1970-х гг. корпус был дополнен разметкой частей речи и морфологических признаков слов

корпус; английский язык; американский вариант английского языка

1 Млн. Словоупотреблений

Свободный доступ к корпусу предоставляется через LDC (Linguistic Data Consortium) по адресу: http://wave.ldc.upenn.edu/cgi-bin/ldc/textcorpus?doc=yes&corpus=BROWN. Кроме того, Брауновский корпус распространяется на платной основе Международным компьютерным архивом современного английского языка (ICAME) (Берген, Норвегия)

Penn Treebank

Корпус создавался в конце 1980-х – начале 1990-х гг. в США в Пенсильванском университете. Основную часть корпуса образуют тексты из Wall Street Journal за 1989 г. Корпус включает морфологическую и синтаксическую разметку

корпус; английский язык. Объем корпуса – 1 млн. словоупотреблений

Корпус распространяется через LDC (Linguistic Data Consortium) на платной основе

The SUSANNE Corpus

Корпус SUSANNE создавался в университете Суссекса. Он представляет собой синтаксически аннотированный фрагмент Брауновского корпуса

корпус; английский язык; американский вариант английского языка

130 Тыс. Словоупотреблений. Свободный доступ

The CHRISTINE Corpus

Корпус устной речи CHRISTINE создавался в университете Суссекса как развитие проекта, в рамках которого сначала был создан корпус письменных текстов SUSANNE. В корпус CHRISTINE вошли записи британской спонтанной устной речи. Предполагается, что в корпус будут привлечены материалы из разных источников, но все доступные на настоящий момент тексты взяты из подкорпуса устной речи Британского национального корпуса. Тексты снабжены морфологической и синтаксической разметкой, используется специальная разметка для явлений, характерных для устной речи (паузы, повторы, дискурсивные маркеры и др.). Свободный доступ

Saarbruucken Corpus of Spoken English

Саарбрюкенский корпус разговорного английского языка состоит из трех подкорпусов: 1) беседы, записанные на магнитофон (большей частью с ведома информантов, в некоторых случаях тайно) профессором Н. Норриком и студентами Университета Северного Иллинойса; это, как правило, разговоры в кругу семьи, среди друзей, коллег и т. п.; 2) интервью с людьми старше 80 лет в Индианаполисе, записанные проф. Н. Норриком; 3) анекдоты, записанные профессором Н. Норриком и студентами Университета Северного Иллинойса и Университета Саарланда. Тексты корпуса можно скачать в формате pdf

American National Corpus

Американский национальный корпус создается по образцу Британского национального корпуса. На первом этапе основную часть корпуса будут составлять тексты 1990-х гг., однако в дальнейшем в корпус будут включаться и более ранние тексты (вплоть до 1960-х гг. и раньше). В настоящий момент готова первая версия корпуса, в которую вошли 10% от предполагаемого объема корпуса (10 млн. словоупотреблений). Представлены как письменные тексты, так и записи устной речи. Хотя планируется создание представительного корпуса, на данный момент тексты включаются в корпус в порядке поступления, поэтому готовый фрагмент корпуса не является сбалансированным. Тексты снабжаются метаразметкой и частеречной разметкой

Планируется создание представительного корпуса объемом 100 млн. словоупотреблений. Объем готового фрагмента корпуса – 10 млн. словоупотреблений.

Готовый фрагмент корпуса распространяется через LDC (Linguistic Data Consortium) на платной основе

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]