Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Все_ЛР.doc
Скачиваний:
13
Добавлен:
21.11.2019
Размер:
487.94 Кб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАТИКИ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

МЕТОДИЧЕСКИЕ УКАЗАНИЯ

к лабораторным работам

по курсу

«Компьютерная обработка естественного языка»

Донецк

2010

Методические указания содержат 4 лабораторные работы по созданию средств автоматизации обработки естественно-языковых текстов на фонетическом, морфологическом и синтаксическом уровне. Работа, посвящённая созданию средств автоматизации обработки естественно-языковых текстов синтаксическом уровне предполагает использование средств библиотеки декларативного морфологического анализа слов русского языка РДМА_ИПИИ (RDMA_IAI).

Приведены теоретические сведения, необходимые для выполнения каждой лабораторной работы и контрольные вопросы для самопроверки.

Методическое пособие предназначено для студентов технических специальностей.

1 Обработка естественного языка на фонетическом уровне

1.1 Понятие фонемы

Звуки языка, все вместе составляют систему – совокупность единиц, в которой каждая единица определяется всеми остальными. Системообразую­щей единицей языка на фонетическом уровне является фонема. Каждый язык в определенную эпоху своего развития имеет ограниченное число фонем.

Для обозначения некоторой фонемы или некоторой последователь­ности фонем, её заключают в угловые скобки.

Например: <д>, <о>, <м>, <дом>.

Фонема – множество звуков, обладающих определённой артикулятор­но-слуховой общностью и функционально друг другу не противопоставлен­ных.

Фонема является минимальной единицей языка, которая служит для различения и отождествления значимых единиц языка – морфем (словофом).

Замена в слове одной фонемы на другую, изменение порядка следования фонем, удаление или добавление фонемы приводит получению другого слова.

Например: <д>ом – <т>ом, <сон> – <нос>, <трон> – <тон>.

В современном русском языке имеется 42 фонемы:

  • 5 гласных:

<а>, <о>, <у>, <и>, <э>;

  • 37 согласных:

<в>, <в'>, <т>, <т'>, <д>, <д'>, <ф>, <ф'>, <к>, <к'>, <н>, <н'>, <г>, <г'>, <ш>, <ш:'>, <з>, <з'>, <х>, <х'>, <п>, <п'>, <р>, <р'>, <л>, <л'>, <ж>, <ж:'>, <ц>, <ч'>, <j>, <с>, <с'>, <м>, <м'>, <б>, <б'>.

Апострофом обозначается мягкость согласного звука.

Фонема может находиться в сильной (позиция фонеморазличения) или слабой (нейтрализация противопоставленных фонем) позиции. В сильной позиции фонема выступает в своем основном виде, а в слабой позиции в виде своих вариантов. Варианты звучания фонемы, обу­словленные конкретным фонетическим окружением, называют аллофонами.

Для обозначения аллофона или последовательности аллофонов используют квадратные скобки. Например, [а].

В то время как фонема является абстрактным понятием, аллофон – конкретным речевым звуком.

Звуки речи разделяют на гласные и согласные. Гласные образованы тоном. Согласные образуются шумом. В зависимости от степени участия шума и тона все согласные разделяют на шумные и сонорные. У сонорных согласных тон преобладает над шумом, и в этом отношении они близки к гласным. У шумных согласных, шум преобладает над тоном.

К сонорным относятся: [л], [л'], [м], [м'], [р], [р'], [н], [н'], [j].

К шумным относятся все согласные, кроме сонорных.

Звуки речи противопоставляются друг другу по ряду признаков, называемых дифференциальными. Пример дифференциальных признаков согласных:

  • твёрдость / мягкость;

  • звонкость / глухость.

Каждой фонеме присущ свой набор дифференциальных признаков. Причём все эти признаки проявляются в сильной позиции фонемы, а в слабой позиции реализуется только часть из них.

Классификация согласных по месту и способу образования приведены в таблице А.1 (см. прил. А).

В русском языке, в соответствии с положениями московской фонологической школы (МФШ), различаются 5 гласных фонем: <и, э, а, о, у>.

Гласные могут быть нижнего, среднего и верхнего подъема; переднего, среднего и заднего ряда; огубленные и неогубленные.

Русский язык, имея столь небольшую группу гласных фонем, превращает их в различных позиционных условиях в поразительное разнообразие гласных звуков.

В связи с этим существует множество таблиц звуков разной подробности. Рассмотрим одну из простейших (см. табл. 5.2). Знаки огубленных гласных напечатаны жирным шрифтом.

Таблица 5.2 – Классификация гласных современного русского языка.

Подъем

Ряд

передний

передне-средний

средний

средне-задний

задний

верхний

и

ÿ

ы

-

у

верхне-средний

эи

ыэ

-

-

средний

э

ö

ъ

-

Λ, о

средне-нижний

-

ä

-

-

-

нижний

-

-

а

â

-

Некоторые звуки покажем на словах.

Гласный [ъ], среднего ряда, среднего подъема, неогубленный. Встречается в безударных слогах, но не во всех. Примеры: [г ъ л а в  ] (голов ), [с ъ д а в   т] (садов д), [в   г ъ в ъ р' и л] (в говорил). Под ударением этот гласный встречается только в междометии: Чтоб тебе! = [ш т   п т' и б'  ].

Гласные [ä], [ ], [ö], [ÿ] – это гласные, артикуляционно продвинутые вперед или вверх (сравнительно с гласными [а], [э], [о], [у]). Встречаются только в ударных слогах между мягкими согласными. Примеры: [с' ä т'], [п'   т'], [т' ö т' ъ], [ч' ÿ т'] (сядь, петь, тётя, чуть).

Гласный [эи] произносится в первых предударных слогах: [п' эи т'  ], [л' эи т'   т'] (пяти, лететь). В произношении многих он совсем и-образный; но здесь имеется в виду другой тип произношения, когда звук сохраняет близость к [э].

Гласный [эы] слышен в первых предударных слогах таких слов: шы]сты, цы]дить.

Гласный [â] ("а напряженный") встречается в словах: ал, бал, вал, перед [л].

Гласный [Λ] встречается в индивидуальном произношении там, где у других – предударный [а]: одни говорят [т р а в  ], другие [т р Λ в  ], одни – [в а д  ], другие [в Λ д  ]. Гласный [Λ] – это нелабиализованный (неогубленный) [о].

1.2 Понятие фонетической подсистемы

В русском литературном языке существует несколько фонетических подсистем, каждая из которых имеет свои особенности: свой набор звуковых единиц, свои законы их поведения.

Различают следующие подсистемы.

  1. Фонетическая подсистема общеупотребительных слов1).

Общеупотребительные слова – те, которые используются всеми говорящими в повседневной, обычной речи. Это наиболее частые слова.

Одна из особенностей этой подсистемы: под ударением бывают гласные [ ] и [ ], без ударения – только [а]: [с   м] – [с а м  ], [с м] – [с а м  ].

  1. Фонетическая подсистема, необщеупотребительных слов.

Они используются либо всеми литературно говорящими людьми, но редко, либо часто – но только некоторыми говорящими, в особых условиях (например, в профессиональной речи).

Особенность данной подсистемы – [а] и [о] различаются не только под ударением, но и в безударных слогах (например, [б о  ] с [о] безударным).

  1. Фонетическая подсистема иностранных слов.

В этой подсистеме гласные [а] и [о] тоже различаются в ударных и безударных слогах, например, [р   д' иэ о];

  1. Фонетическая подсистема служебных слов (предлогов, союзов и частиц).

Без ударения различаются [а] и [о];

  1. Фонетическая подсистема междометий.

Различаются гласные [а] - [о] без ударения.

В разных подсистемах звуки ведут себя по-разному. Поэтому следует строго следить, чтобы законы одной подсистемы не смешивались с законами других подсистем.

Далее будем рассматривать подсистему общеупотребительных слов.

1.3 Нейтрализация и ассимиляция звуков

В потоке речи соседние звуки влияют друг на друга: влияет позиция начала и конца слова, характера слога, положение по отношению к ударению и т.д.

Нейтрализацией называется совпадение звучания двух или нескольких фонем в определенной позиции. В позиции нейтрализации различные фонемы реализуются одним и тем же аллофоном.

В речи звуки могут уподобляться друг другу.

Уподобление звуков друг другу называется ассимиляцией.

Уподобление происходит между звуками того же рода: у гласных с гласными, у согласных с согласными.

Ассимиляция может быть полной и неполной, прогрессивной и регрессивной, контактной и дистактной.

Полная ассимиляция – это полное уподобление звуков. Обычно возникает в тех случаях, когда согласные имеют много общих черт и отличаются друг от друга лишь одним дифференциальным признаком.

Например, в русских словах в группах сш, зж происходит полная ассимиляция по второму согласному: [ш:]ить, и[ж:]ога. Полная ассимиляция происходит в русском языке на стыке морфем.

Неполная ассимиляция – это частичное стирание различий в артикуляции звуков. В русском языке неполная ассимиляция охватывает шумные согласные (по признаку глухости), например: надпись [н а т п' и с'], просьба [п р о з' б ъ], по мягкости твердых шумных перед мягкими зубными, например: отнять [а т' н' ä т'], здесь[з' д'   с'], и по месту и способу образования, например: тщательно [ч' ш': ä т' иэ л' н ъ].

Прогрессивная ассимиляция – это ассимиляция, при которой последу­ющий звук уподобляется предыдущему. В русском языке прогрессивная ассимиляция не встречается.

Регрессивная ассимиляция – это ассимиляция, при которой предшест­вующий звук уподобляется последующему. В русском литературном языке ассимиляция всегда регрессивная, например: травка [т р a ф к ъ], юбка [j' у п к ъ].

Контактная ассимиляция – уподобление рядом стоящих звуков. Дистактная ассимиляция – уподобление отстоящих друг от друга звуков. Примеры дистактной ассимиляции встречаются в просторечии; так, слово сейчас [с' ие ч' a с] в просторечии иногда произносится [ч' и ч' a с].

Самым распространенным видом ассимиляции в русском языке является неполная регрессивная контактная ассимиляция.

1.3 Правила транскрибирования слов русского языка

Специальное фонетическое письмо, при котором определенным значком пере­дается один и тот же звук (аллофон) называется фонетической транскрипцией.

Фонетическая транскрипция – способ письменной фиксации звучащей речи с помощью специальных знаков с целью точной передачи звучания.

В основе транскрипции используется алфавит того языка, на котором звучит речь, с добавлением или изменением определенных букв. Так, в основе той системы транскрипции, которой мы будем пользоваться, лежит русская азбука, но не употребляются буквы «е», «ё», «й», «ю», «я», а «ъ», «ь» обозначают особые безударные гласные звуки. Используются отдельные буквы и других алфавитов: j (йот) из латинского.