Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Zygmantovich (1).doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
201.73 Кб
Скачать

29. Лингвистические информационные ресурсы: определение, основные составляющие, письменный лексикон

ЛИР - одна из составляющих информационных ресурсов. Инф. ресурсы - некотор. интеллект. ресурс, результ. коллектив. твор-ва.

К пассив. ыормам ИР отн. книги, журналы, словари, энцилопедии, базы и банки данных.

К активным формам - модели, алгоритмы, базы знаний.

ЛИР - мно-ство определ. образом организ. реч. и языковых данных, нах. на машин. носителях и используемых в различн. сферах практ. деят-сти (в образовании, экономике, издательстве)

В самом общем виде ЛИР - это своеобраз. лингв. БД, к. можно обновлять и в к. можно искать ту или иную информацию.

ЛИР необх. как пользователям ПК, так и различн. комп. с-мам, связанным с автомат. обработкой текста и речи:

- с-мы перевода текста

- с-мы анализа, синтеза, распознавания речи и текста

ЛИР дел. на:

1) письм. лексикон

2) письм. текстов. массивы (корпусы т-в)

3. фонетич. ресурсы

1) письм. лексикон представлен однояз. и многояз. лексиконом (словарями)

Многояз. лексикон - электр. словари для поиска перевод. эквивалентов

Однояз. лексикон:

- частотно-алфавит. словарь словоформ к-л текста

- словоуказатель, в к. кроме абсолют. частоты употребления словоформы указ.номер страниц и строк, где встреч. словоформа

- конкордансы - в них словоформа характериз. не только числ. показателем, но и некоторым контекстом, в к. она употреблена (как прав., это 3 предлож.)

- словари-энциклопедии (содержат х-ки не слова как такового, а обознач. им. предмета, факта или явления, БЗ Кирилла и Мефодия, кругосвет, Британика на англ. яз.)

- тезаурус - словарь, в кот. указ. семант. связи между определ. частью его лексич. единиц; 1852 - первый словарь-тезаурус

- терминологич. словарь (осн. единицей явл. термин - слова, словосочетание, имеющее спец. значение, выраж и формир-е проф. понятие и применяемое в процессе познания)

30. Лингвистические информационные ресурсы: определение, основные составляющие: письменные текстовые массивы, фонетические ресурсы

Письменные текстовые массивы - это совокупность текстов, являющаяся достаточной для обеспечения надёжных выводов (научн.) о некотором языке, диалекте или ином подмножестве языка.

Создание таких корпусов - новое направление в лингвистике. Суть его свод. к тому, что достовер. данные о морфол., синт. и семант. структуре языка могут быть получены из достаточно большого массива текстов.

Корпусы текстов исп.:

1. в лексикологии для составления различн. словарей, выделения терминов, определения значения многознач. слов.

2. в грамматике для определения частоты употребления грам. морфем, для выявления наиболее употребляемых типов словосочетаний и предложений, частоты употребления классов слов

3. в лингвистике для дифференир-я типов текстов, создания конкордансов; при машин. переводе для созд. прав. структуры предложений перевод. текста.

Как показ. результаты исп-я корпуса текста, многие лингв. задачи с их помощью не могут быть решены.

Во многих языках нельзя установить принадлежность слова к тому или иному грам. классу, что не позвол. определить частоту употребления грам. классов слов, прав. структуру предложения, а следовательнои употребляемость стр-ры, поэтому стали созд. тагированные корпусы текстов.

Слова т. корпуса получ. букв. и цифр. индексы, к. обознач. их грам., лексич., семант. структур. признаки.

Сущ. прог-мы, к. произв. автомат. тегирование текста.

В послед. время стали созд. параллельные тегиров. корпусы текстов на 2 языках.

фонетические ресурсы (корпусы устной речи)

Глав. трудность созд-я таких корпусов связ. с необходимостью транскрибирования устной речи.

В наст. время общепринято, что для создания машиночит-х фонетич. корпусов или транскрипция на основе орфограф. представления звуков речи с дополнит. знаками, передающими (при необходимости) просодич., паралингвистич. и другие особенности произношения.

В мире сущ. много фонет. корпусов текстов, к. широко исп. для:

1) сопоставит. изуч. устн. и письм. формы яз.

2. для изучения грам. и лекс. особенностей уст. речи.

3. для исследования фонетич. особенностей диалектов

4. для построения частот. списков фонем и их соч-й

5. для созд. комп. систем исп. с целью распознавания символов устной речи.

Напр., в США создан корпус устной речи, сост. из 255 записей психоаналитич. сеансов (9 городов)

в Герм. - записи радиопередач (222 текста).