- •1 Обработка естественного языка на фонетическом уровне
- •1.3.1 Нейтрализация звонких и глухих согласных
- •1.3.2 Нейтрализация твердых и мягких согласных
- •1.3.3 Нейтрализация удвоенных фонем и одиночных
- •1.3.4 Нейтрализация и ассимиляция согласных фонем по месту и способу образования
- •1.3.5 Непроизносимые согласные
- •1.3.7 Аккомодация
- •1.3.8 Редукция гласных в безударном положении
- •2 Разработка средств обработки естественного языка на морфологическом уровне
- •2.3.1 Классификация исходных форм
- •2.3.2 Склонение имен
- •Чередования в основе.
- •К этой же группе относятся существительные с пометой "мн.", например, санки, ножны, ср. Санок, ножен. Построение сравнительной степени прилагательных.
- •2.3.3 Спряжение
- •Построение глагольных форм.
- •Настоящее время несовершенного вида и будущеевремя совершенного вида.
- •Неличные формы.
- •3 Инструментальные средства морфологического анализа слов русского языка
- •Задания к лабораторным работам Лабораторная работа №1
- •Задание
- •Лабораторная работа №2
- •Содержание отчёта
- •Литература
- •Лабораторная работа №3
- •Содержание отчёта
- •Контрольные вопросы
- •Срок выполнения – 2 недели.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАТИКИ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
МЕТОДИЧЕСКИЕ УКАЗАНИЯ
к лабораторным работам
по курсу
«Компьютерная обработка естественного языка»
Донецк
2010
Методические указания содержат 4 лабораторные работы по созданию средств автоматизации обработки естественно-языковых текстов на фонетическом, морфологическом и синтаксическом уровне. Работа, посвящённая созданию средств автоматизации обработки естественно-языковых текстов синтаксическом уровне предполагает использование средств библиотеки декларативного морфологического анализа слов русского языка РДМА_ИПИИ (RDMA_IAI).
Приведены теоретические сведения, необходимые для выполнения каждой лабораторной работы и контрольные вопросы для самопроверки.
Методическое пособие предназначено для студентов технических специальностей.
1 Обработка естественного языка на фонетическом уровне
1.1 Понятие фонемы
Звуки языка, все вместе составляют систему – совокупность единиц, в которой каждая единица определяется всеми остальными. Системообразующей единицей языка на фонетическом уровне является фонема. Каждый язык в определенную эпоху своего развития имеет ограниченное число фонем.
Для обозначения некоторой фонемы или некоторой последовательности фонем, её заключают в угловые скобки.
Например: <д>, <о>, <м>, <дом>.
Фонема – множество звуков, обладающих определённой артикуляторно-слуховой общностью и функционально друг другу не противопоставленных.
Фонема является минимальной единицей языка, которая служит для различения и отождествления значимых единиц языка – морфем (словофом).
Замена в слове одной фонемы на другую, изменение порядка следования фонем, удаление или добавление фонемы приводит получению другого слова.
Например: <д>ом – <т>ом, <сон> – <нос>, <трон> – <тон>.
В современном русском языке имеется 42 фонемы:
5 гласных:
<а>, <о>, <у>, <и>, <э>;
37 согласных:
<в>, <в'>, <т>, <т'>, <д>, <д'>, <ф>, <ф'>, <к>, <к'>, <н>, <н'>, <г>, <г'>, <ш>, <ш:'>, <з>, <з'>, <х>, <х'>, <п>, <п'>, <р>, <р'>, <л>, <л'>, <ж>, <ж:'>, <ц>, <ч'>, <j>, <с>, <с'>, <м>, <м'>, <б>, <б'>.
Апострофом обозначается мягкость согласного звука.
Фонема может находиться в сильной (позиция фонеморазличения) или слабой (нейтрализация противопоставленных фонем) позиции. В сильной позиции фонема выступает в своем основном виде, а в слабой позиции в виде своих вариантов. Варианты звучания фонемы, обусловленные конкретным фонетическим окружением, называют аллофонами.
Для обозначения аллофона или последовательности аллофонов используют квадратные скобки. Например, [а].
В то время как фонема является абстрактным понятием, аллофон – конкретным речевым звуком.
Звуки речи разделяют на гласные и согласные. Гласные образованы тоном. Согласные образуются шумом. В зависимости от степени участия шума и тона все согласные разделяют на шумные и сонорные. У сонорных согласных тон преобладает над шумом, и в этом отношении они близки к гласным. У шумных согласных, шум преобладает над тоном.
К сонорным относятся: [л], [л'], [м], [м'], [р], [р'], [н], [н'], [j].
К шумным относятся все согласные, кроме сонорных.
Звуки речи противопоставляются друг другу по ряду признаков, называемых дифференциальными. Пример дифференциальных признаков согласных:
твёрдость / мягкость;
звонкость / глухость.
Каждой фонеме присущ свой набор дифференциальных признаков. Причём все эти признаки проявляются в сильной позиции фонемы, а в слабой позиции реализуется только часть из них.
Классификация согласных по месту и способу образования приведены в таблице А.1 (см. прил. А).
В русском языке, в соответствии с положениями московской фонологической школы (МФШ), различаются 5 гласных фонем: <и, э, а, о, у>.
Гласные могут быть нижнего, среднего и верхнего подъема; переднего, среднего и заднего ряда; огубленные и неогубленные.
Русский язык, имея столь небольшую группу гласных фонем, превращает их в различных позиционных условиях в поразительное разнообразие гласных звуков.
В связи с этим существует множество таблиц звуков разной подробности. Рассмотрим одну из простейших (см. табл. 5.2). Знаки огубленных гласных напечатаны жирным шрифтом.
Таблица 5.2 – Классификация гласных современного русского языка.
Подъем |
Ряд |
||||
|
передний |
передне-средний |
средний |
средне-задний |
задний |
верхний |
и |
ÿ |
ы |
- |
у |
верхне-средний |
|
эи |
ыэ |
- |
- |
средний |
э |
ö |
ъ |
- |
Λ, о |
средне-нижний |
- |
ä |
- |
- |
- |
нижний |
- |
- |
а |
â |
- |
Некоторые звуки покажем на словах.
Гласный [ъ], среднего ряда, среднего подъема, неогубленный. Встречается в безударных слогах, но не во всех. Примеры: [г ъ л а в ] (голов ), [с ъ д а в т] (садов д), [в г ъ в ъ р' и л] (в говорил). Под ударением этот гласный встречается только в междометии: Чтоб тебе! = [ш т п т' и б' ].
Гласные [ä], [ ], [ö], [ÿ] – это гласные, артикуляционно продвинутые вперед или вверх (сравнительно с гласными [а], [э], [о], [у]). Встречаются только в ударных слогах между мягкими согласными. Примеры: [с' ä т'], [п' т'], [т' ö т' ъ], [ч' ÿ т'] (сядь, петь, тётя, чуть).
Гласный [эи] произносится в первых предударных слогах: [п' эи т' ], [л' эи т' т'] (пяти, лететь). В произношении многих он совсем и-образный; но здесь имеется в виду другой тип произношения, когда звук сохраняет близость к [э].
Гласный [эы] слышен в первых предударных слогах таких слов: ш[эы]сты, ц[эы]дить.
Гласный [â] ("а напряженный") встречается в словах: ал, бал, вал, перед [л].
Гласный [Λ] встречается в индивидуальном произношении там, где у других – предударный [а]: одни говорят [т р а в ], другие [т р Λ в ], одни – [в а д ], другие [в Λ д ]. Гласный [Λ] – это нелабиализованный (неогубленный) [о].
1.2 Понятие фонетической подсистемы
В русском литературном языке существует несколько фонетических подсистем, каждая из которых имеет свои особенности: свой набор звуковых единиц, свои законы их поведения.
Различают следующие подсистемы.
Фонетическая подсистема общеупотребительных слов1).
Общеупотребительные слова – те, которые используются всеми говорящими в повседневной, обычной речи. Это наиболее частые слова.
Одна из особенностей этой подсистемы: под ударением бывают гласные [ ] и [ ], без ударения – только [а]: [с м] – [с а м ], [с м] – [с а м ].
Фонетическая подсистема, необщеупотребительных слов.
Они используются либо всеми литературно говорящими людьми, но редко, либо часто – но только некоторыми говорящими, в особых условиях (например, в профессиональной речи).
Особенность данной подсистемы – [а] и [о] различаются не только под ударением, но и в безударных слогах (например, [б о ] с [о] безударным).
Фонетическая подсистема иностранных слов.
В этой подсистеме гласные [а] и [о] тоже различаются в ударных и безударных слогах, например, [р д' иэ о];
Фонетическая подсистема служебных слов (предлогов, союзов и частиц).
Без ударения различаются [а] и [о];
Фонетическая подсистема междометий.
Различаются гласные [а] - [о] без ударения.
В разных подсистемах звуки ведут себя по-разному. Поэтому следует строго следить, чтобы законы одной подсистемы не смешивались с законами других подсистем.
Далее будем рассматривать подсистему общеупотребительных слов.
1.3 Нейтрализация и ассимиляция звуков
В потоке речи соседние звуки влияют друг на друга: влияет позиция начала и конца слова, характера слога, положение по отношению к ударению и т.д.
Нейтрализацией называется совпадение звучания двух или нескольких фонем в определенной позиции. В позиции нейтрализации различные фонемы реализуются одним и тем же аллофоном.
В речи звуки могут уподобляться друг другу.
Уподобление звуков друг другу называется ассимиляцией.
Уподобление происходит между звуками того же рода: у гласных с гласными, у согласных с согласными.
Ассимиляция может быть полной и неполной, прогрессивной и регрессивной, контактной и дистактной.
Полная ассимиляция – это полное уподобление звуков. Обычно возникает в тех случаях, когда согласные имеют много общих черт и отличаются друг от друга лишь одним дифференциальным признаком.
Например, в русских словах в группах сш, зж происходит полная ассимиляция по второму согласному: [ш:]ить, и[ж:]ога. Полная ассимиляция происходит в русском языке на стыке морфем.
Неполная ассимиляция – это частичное стирание различий в артикуляции звуков. В русском языке неполная ассимиляция охватывает шумные согласные (по признаку глухости), например: надпись [н а т п' и с'], просьба [п р о з' б ъ], по мягкости твердых шумных перед мягкими зубными, например: отнять [а т' н' ä т'], здесь[з' д' с'], и по месту и способу образования, например: тщательно [ч' ш': ä т' иэ л' н ъ].
Прогрессивная ассимиляция – это ассимиляция, при которой последующий звук уподобляется предыдущему. В русском языке прогрессивная ассимиляция не встречается.
Регрессивная ассимиляция – это ассимиляция, при которой предшествующий звук уподобляется последующему. В русском литературном языке ассимиляция всегда регрессивная, например: травка [т р a ф к ъ], юбка [j' у п к ъ].
Контактная ассимиляция – уподобление рядом стоящих звуков. Дистактная ассимиляция – уподобление отстоящих друг от друга звуков. Примеры дистактной ассимиляции встречаются в просторечии; так, слово сейчас [с' ие ч' a с] в просторечии иногда произносится [ч' и ч' a с].
Самым распространенным видом ассимиляции в русском языке является неполная регрессивная контактная ассимиляция.
1.3 Правила транскрибирования слов русского языка
Специальное фонетическое письмо, при котором определенным значком передается один и тот же звук (аллофон) называется фонетической транскрипцией.
Фонетическая транскрипция – способ письменной фиксации звучащей речи с помощью специальных знаков с целью точной передачи звучания.
В основе транскрипции используется алфавит того языка, на котором звучит речь, с добавлением или изменением определенных букв. Так, в основе той системы транскрипции, которой мы будем пользоваться, лежит русская азбука, но не употребляются буквы «е», «ё», «й», «ю», «я», а «ъ», «ь» обозначают особые безударные гласные звуки. Используются отдельные буквы и других алфавитов: j (йот) из латинского.