Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Zygmantovich (1).doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
201.73 Кб
Скачать

19. Методы автоматического аннотирования и реферирования текста: статистический метод.

1) В статист. методе ключевое слово - это знаменат слово текста, к. с учётом всех его синонимов встреч. в тексте наиб. число раз.

Ключевое предложение - предложение текста, к.:

а) имеет несколько ключевых слов

б) содержит ключ. слова на небольшом расстоянии друг от друга

Принадлежность слова к числу ключевых опред. спец. коэффициентом важности.

Задача: используя для выделения ключ. (опорных) слов текста один из вариантов статистич. метода, а именно:

Кважн= , где F= частота употребления слова в тексте

m = число абзацев, в которых встречется слово

N = число слов в тексте

n = число абзацев в тексте

Состав. алгоритм позволяет получить:

а) аннотацию текста в виде релятора со следующими за ними ключевыми словосочетаниями.

Ключевым словосочетанием будем считать ключ. имя существительное со стоящим перед ним определением, выраженным именем прилагательным или причастием.

б) словесный р-т текста в виде послед. цепочки ключ. предложений.

Ключевое предложение - предложение, содерж. 3 и более ключ. слов или слововсочетаний.

Словоупотребление - цепочка буквенных символов, заключённых между двумя знаками пробелов.

Слово - несколько словоформ, имеющие одинак. лексическое значение

Предложение - несколько словоупотреблений, находящихся между 2 знаками конца предложения.

Скоро придёт зима. Зимой легче дышится. Приходи, зима!

дышится 1 -> 7 словоупотреблений, 5 слов

зима 2

зимой 1

легче 1

придёт 1

приходи 1

скоро 1

Алгоритм решения задачи:

1 шаг: Компьютер по каждому абзацу составляет алфовито-частотный словарь словоформ.

2 шаг: Алфовитно-частотные словари объедин. в единый распределительный алфовитно-частотный словарь всего текста.

3 шаг: Комп. с-ма проводит чистку алфавитно-частотного словаря, сжимая его до словаря потенциально опорных словоформ:

- удал. из словаря служ. и общеупотребительной лексики

- объедин. все грам. формы одного и того же слова, объедин. синонимы

- удал. слова, которые встречаются в одном абзаце

4 шаг: Словарь потенц. ключ. слов дел. на 2 части:

а) словари главных опорных слов

б) словарь второстеп. опорных слов, что осуществляется на основе коэффициента важности.

Шаг 5: строит. аннотация, к. составл. из слов - реляторов со следущими за ними ключевыми словосочетаниями. Исп. только глав. опорные слова.

Шаг 6: Строит. реферат на базе главных и второстепенных опорных слов. Просматривая исход. текст, компьютер извл. из него предложение, содерж. три разных опорных слова и сост. из них реферат.

20. Способы перевода текста с использованием компьютера.

Перевод - вид чел. языковой деятельности, в результате которой некотор. текст на одном языке ставится в соответствие тексту на другом языке, при этом обесп. их смысловая эквивалентность.

Типы перевода по степени автоматизации:

I. традиционный (ручной) перевод, выполн. человеком.

II. автоматизированный:

1) перевод, выполненный ПК с помощью чел. (диалог)

2) перевод, выполн. человеком с помощью ПК:

а) в памяти ПК двуязыч. словарь и текст. процессор

б) ТМ (Translation Memory) программные продукты этой технологии наз. автоматизир. раб. местом

В основе этих программ лежит принцип сбора и хранения фрагментов переведённых человеком текстов на 2 языках. Они хран. в спец. накопителе переводов (памяти) и служат бесценным поспорьем при послед. переводе текстов той же тематики.

Для кажд. тематики созд. свой накопитель. Ими можно обмениваться. Программных продуктов этой технологии около 10. Лидером среди них явл. Trados.

III. машинный (автоматич.) перевод (МТ - машинный перевод) - выполн. компьютером действя по преобразованию текста на одном естеств. языке в текст на другом иностранном языке при сохранении эквив. содержания, и ???

Первый машинный перевод был продемонстрирован в 1954 в Джорджтаунском университете (с руск. на англ.) В Москве первый машинный перевод - 1955.

Специалисты утв., что такой перевод по существу невозможен. Реально авт. перевод возможен только в условиях искусственно ограниченного языка (как по словарному запасу, так и по грамматике). Поэтому человек участвует в подготовке маш. перевода и его доведения до удобочитаемого вида (предредактор и постредактор)

Если КПД человека-переводчика сост. 4-5 автор. листов (18 стр. А4) в месяц, то машина - 120 авт. листов.

Виды машинного перевода:

1) информатив. (грубый пословный перевод, достаточный для поверхностного ознакомления с содержанием текста)

2) профессиональный (кач-во перевода сравнимо с качеством чел. перевода и при небольшом редактировании явл. удовлетворительным)

3) персональный (авторский) перевод (авторы заранее избавл. тексты от неоднозначности и работают в режими диалога).