
- •Оглавление
- •1. Понятие прикладной лингвистики. Основные проблемы и направления.
- •2. Денотатные модели содержания текста. Понятие о денотатной структуре текста.
- •3. Принципы формального описания языков. Формальные грамматики.
- •4. Разрешение семантической неоднозначности. Основные методы.
- •5. Вероятностное моделирование лингвистических процессов
- •6. Моделирование как основной метод прикладной лингвистики. Типы моделей
- •7. Тема-рематическое структурирование текста. Понятие темы и ремы. Формальный анализ.
- •10. Типы и виды диалогов. Модели управления диалогом
- •11. Понятие политической лингвистики. Специфика речевого общения в политической сфере коммуникации.
- •12. Проблемы квантитативной лингвистики
- •13. Принципы морфологической разметки в корпусе русского литературного языка (narusco).
- •14. Корпусная лингвистика. Типы корпусов.
- •15. Аннотирование корпусов. Виды разметки корпусов.
- •18. Оптимизация обработки информации с помощью компьютера
- •20. Характеристика основных программ анализа звучащей речи (Praat, CoolEditPro, WinPitch) (основные действия, для чего, основные принципы анализа)
- •21. Основы современных программ распознавания речи. Марковские цепи
- •22. Характеристика программ распознавание письменного текста.
- •24. Дешифровка текста и диагностика искажений в словах.
- •25. Экспертные системы. Лингвистическое обеспечение экспертных систем
- •26. Автоматический семантический анализ. Проблемы и достижения. Поверхностные и глубинные уровни семантического анализа
- •27. Семантические сети. Принципы организации и применение. WordNet, RusNet
- •28. Автоматический морфологический анализ. Словарные и бессловарные методы. Тэггинг
- •29. Моделирование речевой деятельности. Модели порождения речи.
- •30. Автоматический синтаксический анализ. Парсинг. Деревья зависимостей.
- •31. Модели восприятия речи. Соотношение восприятия и понимания.
- •32. Основные проблемы терминоведения. Терминологические словари. Представление терминологии в информационных системах.
- •33. Мультимедийные и онлайновые словари. Компьютерная лексикография.
- •34. Проблемы компьютерной лингводидактики. Типы обучающего по.
- •35. Основные проблемы преподавания иностранных языков. Этапы и типы обучения ия. Структурный и коммуникативный подходы.
- •37. Обучающие и образовательные технологии и системы. Проблема эффективности компьютерных обучающих средств.
- •39. Проблемы речевого взаимодействия: коммуникативные стратегии, тактики, постулаты, импликатуры.
- •41. Пропозициональный анализ текста как одно из направлений формально-логического анализа.
- •44. Типология текстов и особенности перевода различных типов текста (Художественный и специальный перевод).
- •45. Формальный подход к переводческой эквивалентности. Методы. Особенности реализаций.
- •46. Понятие машинного перевода, классификация систем мп.
- •47. Понятие эквивалентности в теории перевода. Типы и уровни эквивалентности.
- •48. Формальный подход к оценке качества перевода. Методы. Особенности реализаций.
- •49. Системы прямого перевода, алгоритм прямого перевода.
- •50. Системы статистического перевода, особенности формирования массива переводческих пар.
- •51. Системы автоматизированного перевода. Назначение, классификация, особенности реализации.
- •52. Моделирование как метод исследования перевода. Языковые и коммуникативные модели.
- •I этап: 40-ые гг. «Первые шаги»
- •II этап: 50-ые гг. «Первое разочарование»
- •III этап: 60-ые гг. «Низкий старт»
- •IV этап: 70-80-ые гг. «Новый импульс»
- •V этап: Современное состояние:
- •53. Судебная (юридическая) лингвистика как одно из актуальных направлений прикладной лингвистики. Предмет, цели, задачи
- •55. Методология и методика лингвистической экспертизы.
- •56. Основные понятия когнитивной лингвистки. Общая характеристика когнитивного подхода к языку и речевой деятельности.
- •57. Модель концептуальной зависимости р. Шенка. Применение в пл.
- •59. Теория концептуальной метафоры Дж. Лакоффа.
- •60. Модель «смысл - текст» и.А. Мельчука. Применение в пл.
27. Семантические сети. Принципы организации и применение. WordNet, RusNet
Семантическая сеть — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними.
Объектами могут быть понятия, события, свойства, процессы.
Таким образом, семантическая сеть является одним из способов представления знаний.
В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа — набора вершин, соединённых дугами (рёбрами).
В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними.
Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.
Графическое представление
Основной формой представления семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках и соединяются стрелками с подписями — дугами. Это наиболее удобно воспринимаемая человеком форма.
Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка.
Схемы семантических сетей, на которых указаны направления навигационных отношений, называют картами знаний, а их совокупность, позволяющая охватить большие участки семантической сети, атласом знания.
Классификация семантических сетей
1.По количеству типов отношений, сети могут быть однородными и неоднородными.
•Однородные сети обладают только одним типом отношений (стрелок), например, таковой является вышеупомянутая классификация биологических видов (с единственным отношением AKO).
•В неоднородных сетях количество типов отношений больше двух. Классические иллюстрации данной модели представления знаний представляют именно такие сети. Неоднородные сети представляют больший интерес для практических целей, но и большую сложность для исследования. Неоднородные сети можно представлять как переплетение древовидных многослойных структур.
2.По арности:
•Типичными являются сети с бинарными отношениями (связывающими ровно два понятия). Бинарные отношения очень просты и удобно изображаются на графе в виде стрелки между двух концептов.
•На практике, однако, могут понадобиться отношения, связывающие более двух объектов — N-арные. При этом возникает сложность — как изобразить подобную связь на графе, чтобы не запутаться. Концептуальные графы снимают это затруднение, представляя каждое отношение в виде отдельного узла.
3.По размеру:
•Для решения конкретных задач, например, тех которые решают системы искусственного интеллекта.
•Сем.сеть отраслевого масштаба должна служить базой для создания конкретных систем, не претендуя на всеобщее значение.
•Глобальная семантическая сеть. Теоретически такая сеть должна существовать, поскольку всё в мире взаимосвязано. Возможно, когда-нибудь такой сетью станет Всемирная паутина.
Семантические отношения
Количество типов отношений в семантической сети определяется её создателем, исходя из конкретных целей. В реальном мире их число стремится к бесконечности. Каждое отношение является, по сути, предикатом, простым или составным. Скорость работы с базой знаний зависит от того, насколько эффективно реализованы программы обработки нужных отношений.
Наиболее часто возникает потребность в описании отношений между элементами, множествами и частями объектов. Отношение между объектом и множеством, обозначающим, что объект принадлежит этому множеству, называется отношением классификации (ISA). Иерархические отношения образуют древовидную структуру.
•Отношение между надмножеством и подмножеством. (Пример: «собака является животным» = тип с именем собака является подтипом типа животные). Элемент подмножества называется гипонимом (собака), а надмножества — гиперонимом (животное), а само отношение называется отношением гипонимии. Это отношение определяет, что каждый элемент первого множества входит и во второе, а также логическую связь между самими подмножествами: что первое не больше второго и свойства первого множества наследуются вторым.Отношение АКО (Род-Вид) часто используется для навигации в информационном пространстве,например, в Википедии.
•Объект, как правило, состоит из нескольких частей, или элементов. Например, компьютер состоит из системного блока, монитора, клавиатуры, мыши и т. д. Это отношение, описывающее связь частей и целого — отношение меронимии. В этом случае свойства первого множества не наследуются вторым. Мероним и холоним — противоположные понятия:
Мероним — объект, являющийся частью для другого. (Двигатель — мероним автомобиля.)
Холоним — объект, который включает в себя другое. (Например, у дома есть крыша. Дом — холоним крыши. Компьютер — холоним монитора.)
Часто в семантических сетях требуется определить отношения синонимии и антонимии. Эти связи либо дублируются явно в самой сети, либо определяются алгоритмической составляющей.
Использование семантических сетей
Семантизация
Семантизация - процесс изменения текстов, в которых выделяются семантические отношения без изменения их содержания.
Семантизация статей заключается в основном путём использования шаблонов, при этом некоторые категории создаются автоматически.
Семантическая паутина
Концепция организации гипертекста напоминает однородную бинарную семантическую сеть, однако здесь есть существенное отличие:
Связь, осуществляемая гиперссылкой, не имеет семантики, т. е. не описывает смысла этой связи.
Страницы, связываемые гиперссылками, являются документами, описывающими, как правило, проблемную ситуацию в целом. В семантической сети вершины (то, что связывают отношения) представляют собой понятия или объекты реального мира.
В лингвистике отношения фиксируются в словарях и в тезаурусах.
•В словарях в определениях через «род и видовое отличие» родовое понятие занимает определённое место.
•В тезаурусах в статье каждого термина могут быть указаны все возможные его связи с другими родственными по теме терминами. От таких тезаурусов необходимо отличать тезаурусы информационно-поисковые с перечнями ключевых слов в статьях, которые предназначены для работы дескрипторных поисковых систем (более подробно про тезаурус – Леонтьева, стр.149).
WordNet
Семантическая сеть для английского языка, разработанная в Принстонском университете, и выпущенная вместе с сопутствующим программным обеспечением.
Словарь состоит из 4 сетей для основных знаменательных частей речи: существительных, глаголов, прилагательных и наречий.
Базовой словарной единицей в WordNet является не отдельное слово, а так называемый синонимический ряд («синсеты»), объединяющий слова со схожим значением и по сути своей являющимися узлами сети.
Для удобства использования словаря человеком каждый синсет дополнен дефиницией и примерами употребления слов в контексте. Слово или словосочетание может появляться более чем в одном синсете и иметь более одной категории части речи. Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами. Слова, имеющие несколько значений, включаются в несколько синсетов и могут быть причислены к различным синтаксическим и лексическим классам.
Синсеты в WordNet связаны между собой различными семантическими отношениями:
•гипероним (breakfast → meal) (завтрак → пища);
•гипоним (meal → lunch) (пища → обед);
•мероним: has-part (table → leg) (стол → ножка);
•антоним (leader → follower) (лидер → последователь).
Также, существуют различные другие связи: лексические, антонимические, контекстные (слово 'x' имеет отношение к слову 'y') и другими.
Использование
WordNet можно свободно использовать в коммерческих и научных целях. Для работы с ним существует несколько программ, множество интерфейсов и API, реализуемых на большинстве возможных языков, так и с помощью протокола DICT, программы GoldenDict и других. Также, пакеты WordNet присутствуют в некоторых репозиториях ПО для GNU и Linux и их дистрибутивов.
RusNet
Самая крупная русскоязычная IRC-сеть (сервисная система, при помощи которой можно общаться через сеть Интернет с другими людьми в режиме реального времени) в России, на Украине и некоторых странах бывшего СССР. Основана в 1997 году. В данный момент насчитывает в своём составе свыше 40 серверов.
При создании русской версии WordNet используются:
•В качестве основы множества синсетов - словарь синонимов, базовый грамматический словарь, толковый словарь, словари географических названий, имен и фамилий, разработанные в ЗАО Руссикон;
•Для нормализации любой словоформы синсета используются базовый грамматический словарь, морфологический анализатор и нормализатор ЗАО Руссикон;
•Для построения ILI-индекса (обеспечивает параллельное использование английской и русской версий WordNet) издательство Oxford Press предоставило исследовательскую лицензию на следующие словари:
- Oxford Dictionary of English (2-edition);
- New Oxford Thesaurus of English;
- Oxford Russian Dictionary