- •Вопрос 1.
- •Вопрос 2.
- •Вопрос 3.
- •Вопрос 4.
- •Вопрос 5.
- •Вопрос 6.
- •Вопрос 7.
- •Вопрос 8.
- •Вопрос 9.
- •Вопрос 10.
- •Вопрос 11.
- •Вопрос 12.
- •Вопрос 13.
- •Вопрос 14.
- •Вопрос 15.
- •Вопрос 16.
- •Вопрос 17.
- •Вопрос 18.
- •Вопрос 19.
- •Вопрос 20.
- •Вопрос 21.
- •Вопрос 22.
- •Вопрос 23.
- •Вопрос 24.
- •Вопрос 25.
- •Вопрос 26.
- •Вопрос 27.
- •Вопрос 28.
- •Вопрос 29.
- •Вопрос 30.
Вопрос 19.
Методы автоматического реферирования:
Статистический: в данном методе ключевое слово – это знаменательное слово текста, которое с учётом синонимов встретилось в тексте наибольшее число раз.
Задача: по формуле где F – число повторений слова в тексте, m – число абзацев, где есть это слово, N – количество слов в тексте, n – количество абзацев в тексте составить алгоритм, позволяющий получить:
аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста – ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями;
словесный реферат текста в виде последовательной цепочки ключевых предложений – предложений, содержащих три и более ключевых слова.
Словоупотребление – цепочка символов, заключённых между двумя пробелами.
Словоформа – словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово.
Алгоритм решения задачи:
ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;
Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;
Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:
Удаляется служебная и общепринятая лексика;
Объединяются грамматические формы одного и того же слова;
Объединяются синонимы;
Удаляются слова, встреченные только в одном абзаце;
Словарь потенциальных опорных слов делится (с помощью Кважн) на
Словарь главных опорных слов;
Словарь второстепенных опорных слов;
Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения.
Вопрос 20.
Системы машинного перевода
Перевод – вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке при обеспечении их смысловыми эквивалентами.
Типы перевода по степени автоматизации:
Ручной
Автоматизированный
Перевод, выполняемый ПК с помощью человека (ПК обращается за справками к человеку);
Перевод, выполняемый человеком с помощью ПК:
В памяти ПК двуязычный словарь и текстовый редактор;
Системы ТМ ( Translation Memory) – в их основе лежит принцип сбора и хранения фрагментов переведённых человеком текстов на 2 языках, они хранятся в специальном накопителе перевода и служат бесценным подспорьем при последующем выполнении переводов той же тематики.
Машинный (автоматический) – выполняемое ПК действие по преобразованию текста на одном языке в текст на другом языке при сохранении эквивалентности).
Традиционный (выполненный человеком)
Статистический (машинный)
Первые теоретические разработки по машинному переводу относятся к 30-40-м, но практическое применение идея машинного перевода нашла в 50-е. Первый машинный перевод был выполнен в Джорджстаунском университете в 1954. В Москве первый машинный перевод был выполнен в 1955. Так как большинство слов имеют несколько значений, то основная трудность заключается именно в выборе нужного варианта, для чего человек использует контекст, жизненный опыт, который фактически невозможно формализовать и загрузить в ПК, => идеального машинного перевода быть не может и человек постоянно участвует в редактировании текста.