Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
I часть.doc
Скачиваний:
33
Добавлен:
16.08.2019
Размер:
879.62 Кб
Скачать

Иерархия Хомского:

Грамматика типа 0

Грамматика типа1

Грамматика типа 2

Грам. типа 3

Хомский предложил классификацию формальных грамматик по типу выражения правил и предложил выделить 4 основных формальных грамматик, называемых Иерархией Хомского:

  • Грамматика типа 0 - генеративная, самая сложная, никаких ограничений на вид ее правил не накладывается. Грамматика типа 0, порождающая (generative grammar), - в классической записи это четверка G=(N,∑, P, S), где N, ∑ - алфавит (N - нетерминальные символы, ∑ - терминальные символы метаязыка); S - начальный символ нетерминального множества, Р - правила репродукции. Для распознавания языков, порождаемых этими грамматиками, используются машины Тьюринга - мощные, абстрактные, и следовательно неприменимые на практике математические модели, которые используются в теории информатики.

  • Грамматика типа 1 - называются контекстно-зависимыми грамматиками, и в них возможность замены цепочки символов может определяться контекстом. Используются для генерации элементов естественных языков и подъязыков

  • Грамматика типа 2 - контекстно-свободные, причем в левой части нетерминала могут быть всем, чем угодно. Они распознаются в информатике так называемыми автоматами с магазинной памятью (стековые автоматы). Используются для генерации элементов языков программирования (выражений, команд).

  • Грамматика типа 3 - называют регулярными, самые простые и ограниченные грамматики, распознаются конечными автоматами. Используется для простых элементов языков (числа, константы, переменные)

Язык называется контекстным языком, если он порождается некоторой контекстной грамматикой. Контекстно-свободные языки также называют алгебраическими языками, ими занимается математическая лингвистика (ныне раздел компьютерной лингвистики. В компьютерной лингвистике выделяют раздел - лингвистические основы информатики, который занимается проблематикой формальных языков и грамматик.

  1. Компьютерная лексикография. Основные направления компьютерной лексикографии. Компьютерные программы поддержки лексикографических работ. Электронные словари. Особенности автоматических словарей. Коммерческие электронные словари. Основные типы электронных словарей. Тезаурусы. Информационно-поисковый тезаурус. Компьютерная терминография. Терминологические банки данных (ТБД).

Компьютерная лексикография

Это важное направление в прикладной лингвистике, которыое занимается составлением словарей. Основные направления:

1. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д.) 2. теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing) 3. создание словарей, являющихся машинными версиями традиционных словарей

Первое и второе направления занимаются разработкой «программ поддержки лексикографических работ»

Здесь выделяют 2 класса электронных словарей:

  • Словари для программы обработки текста – это информационно-поисковые тезаурусы, частотные словари, рубрикаторы, классификаторы, словари морфологического анализа; словари для машинного перевода, которые включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова. Количество зон словарных статей в таких словарях варьируется от 1 до 100. Каждая зона словарной статьи содержит особый тип словарной информации: лемма, грамматическая информация или стилистические пометы, зоны значения и толкования;

  • Словари конечного пользователя – это копии бумажных словарей, но с возможностями сортировки, поиска, группирования понятий. Например, Lingvo, Webster (на англ.яз.), энциклопедический словарь Ожегова и др.

Существуют этапы технологии создания электронных словарей (это словарь конечного пользователя), можно выделить 7 этапов:

  1. Формирование корпусов текстов, из которых выбираются данные слова

  2. Создание словника (без толкования)

  3. Автоматическое толкование примеров

  4. Формирование и ввод в базу данных словарных статей

  5. Редактирование и корректура словарных статей

  6. Формирование оригинала макета

  7. Печать словаря в типографии

На этапах 5 и 6 при компьютерной подготовке словаря идет работа с издательскими системами, например, PageMaker, Frame Maker, Quark Express.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]