Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный педагогический университет им. М. Танка

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Zygmantovich (1).doc

Скачиваний:

Добавлен:

01.03.2025

Размер:

201.73 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 1817 18 > Следующая >>>

29. Лингвистические информационные ресурсы: определение, основные составляющие, письменный лексикон

ЛИР - одна из составляющих информационных ресурсов. Инф. ресурсы - некотор. интеллект. ресурс, результ. коллектив. твор-ва.

К пассив. ыормам ИР отн. книги, журналы, словари, энцилопедии, базы и банки данных.

К активным формам - модели, алгоритмы, базы знаний.

ЛИР - мно-ство определ. образом организ. реч. и языковых данных, нах. на машин. носителях и используемых в различн. сферах практ. деят-сти (в образовании, экономике, издательстве)

В самом общем виде ЛИР - это своеобраз. лингв. БД, к. можно обновлять и в к. можно искать ту или иную информацию.

ЛИР необх. как пользователям ПК, так и различн. комп. с-мам, связанным с автомат. обработкой текста и речи:

- с-мы перевода текста

- с-мы анализа, синтеза, распознавания речи и текста

ЛИР дел. на:

1) письм. лексикон

2) письм. текстов. массивы (корпусы т-в)

3. фонетич. ресурсы

1) письм. лексикон представлен однояз. и многояз. лексиконом (словарями)

Многояз. лексикон - электр. словари для поиска перевод. эквивалентов

Однояз. лексикон:

- частотно-алфавит. словарь словоформ к-л текста

- словоуказатель, в к. кроме абсолют. частоты употребления словоформы указ.номер страниц и строк, где встреч. словоформа

- конкордансы - в них словоформа характериз. не только числ. показателем, но и некоторым контекстом, в к. она употреблена (как прав., это 3 предлож.)

- словари-энциклопедии (содержат х-ки не слова как такового, а обознач. им. предмета, факта или явления, БЗ Кирилла и Мефодия, кругосвет, Британика на англ. яз.)

- тезаурус - словарь, в кот. указ. семант. связи между определ. частью его лексич. единиц; 1852 - первый словарь-тезаурус

- терминологич. словарь (осн. единицей явл. термин - слова, словосочетание, имеющее спец. значение, выраж и формир-е проф. понятие и применяемое в процессе познания)

30. Лингвистические информационные ресурсы: определение, основные составляющие: письменные текстовые массивы, фонетические ресурсы

Письменные текстовые массивы - это совокупность текстов, являющаяся достаточной для обеспечения надёжных выводов (научн.) о некотором языке, диалекте или ином подмножестве языка.

Создание таких корпусов - новое направление в лингвистике. Суть его свод. к тому, что достовер. данные о морфол., синт. и семант. структуре языка могут быть получены из достаточно большого массива текстов.

Корпусы текстов исп.:

1. в лексикологии для составления различн. словарей, выделения терминов, определения значения многознач. слов.

2. в грамматике для определения частоты употребления грам. морфем, для выявления наиболее употребляемых типов словосочетаний и предложений, частоты употребления классов слов

3. в лингвистике для дифференир-я типов текстов, создания конкордансов; при машин. переводе для созд. прав. структуры предложений перевод. текста.

Как показ. результаты исп-я корпуса текста, многие лингв. задачи с их помощью не могут быть решены.

Во многих языках нельзя установить принадлежность слова к тому или иному грам. классу, что не позвол. определить частоту употребления грам. классов слов, прав. структуру предложения, а следовательнои употребляемость стр-ры, поэтому стали созд. тагированные корпусы текстов.

Слова т. корпуса получ. букв. и цифр. индексы, к. обознач. их грам., лексич., семант. структур. признаки.

Сущ. прог-мы, к. произв. автомат. тегирование текста.

В послед. время стали созд. параллельные тегиров. корпусы текстов на 2 языках.

фонетические ресурсы (корпусы устной речи)

Глав. трудность созд-я таких корпусов связ. с необходимостью транскрибирования устной речи.

В наст. время общепринято, что для создания машиночит-х фонетич. корпусов или транскрипция на основе орфограф. представления звуков речи с дополнит. знаками, передающими (при необходимости) просодич., паралингвистич. и другие особенности произношения.

В мире сущ. много фонет. корпусов текстов, к. широко исп. для:

1) сопоставит. изуч. устн. и письм. формы яз.

2. для изучения грам. и лекс. особенностей уст. речи.

3. для исследования фонетич. особенностей диалектов

4. для построения частот. списков фонем и их соч-й

5. для созд. комп. систем исп. с целью распознавания символов устной речи.

Напр., в США создан корпус устной речи, сост. из 255 записей психоаналитич. сеансов (9 городов)

в Герм. - записи радиопередач (222 текста).

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 1817 18 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.04.202527.44 Кб0Zh_I_Shif.docx
#
18.03.2015916.87 Кб81zoolog.docx
#
18.03.201516.9 Mб27Zoologia.doc
#
18.08.20191.87 Mб24zvuko-bukvennye_sootvetstvia.doc
#
22.11.20182.14 Mб24Zvukobukvennye_sootvetstvia.doc
#
01.03.2025201.73 Кб0Zygmantovich (1).doc
#
07.03.20162.6 Mб73[Kapranova_V.A.]_Istoriya_pedagogiki(BookFi.org).pdf
#
07.03.20161.85 Mб16[Lyutova-Roberts_E.K.,_Monina_G.B.,_CHutko_L.S.]_G(BookFi.org).pdf
#
11.09.2019526.85 Кб16[slil.by]zadachi-primery-resheniya.doc
#
07.03.20164.85 Mб156_Корнев А.Н., Как научить ребенка говорить, читать и думать.doc
#
07.03.20162.13 Mб33_курсовая_янкович_403_группа.doc