Задача идентификации. Транслитерация.

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

шпорки.docx

Скачиваний:

Добавлен:

01.04.2025

Размер:

352.68 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 113 4 5 6 7 8 9 10 11 > Следующая >>>

Задача идентификации. Транслитерация.

Обобщенная схема ЛА

классификатор

идентификатор

транслитератор

сканер

Сканер
- сканирует текст и заносит его в буфер
- выделяет комментарии
- приводит к одному регистру
Транслитератор – возвращает класс входного символа
Идентификатор – выделяет слово и определяет, где оно заканчивается
Классификатор – распознает лексему и определяет ее класс

Несмотря на то, что лексический анализатор обрабатывает входную цепочку, удобнее на его вход подавать не просто отдельные символы, а символы, сгруппированные по категориям. Поэтому, перед лексическим анализатором осуществляется дополнительная обработка, сопоставляющая с каждым символом его класс, что позволяет сканеру манипулировать единым понятием для целой группы символов, иногда достаточно большой. Устройство, осуществляющее сопоставление класса с каждым отдельным символом, называется транслитератором. Наиболее типичными классами символов являются:

буква - класс, с которым сопоставляется множество букв, причем необязательно только одного алфавита;
цифра - множество символов, относящихся к цифрам, чаще всего от 0 до 9;
разделитель - пробел, перевод строки, возврат каретки перевод формата;
игнорируемый - может встречаться во входном потоке, но игнорируется и поэтому просто отфильтровывается из него (например, невидимый код звукового сигнала и другие аналогичные коды);
запрещенный - символы, который не относятся к алфавиту языка, но встречается во входной цепочке;
прочие - символы, не вошедшие ни в одну из определенных категорий.

Пара, класс символа и его значение, поступают на вход сканера, который выбирает для анализа тот ее элемент, который наиболее удобен в данный момент. Например, при анализе идентификатора удобнее манипулировать понятием "буква", тогда как при анализе действительного числа можно сразу смотреть значение буквы "E" или "e", означающей начало порядка. Следует также отметить, что во всех дальнейших рассуждениях будем считать, что понятия "буква" и "цифра" являются терминалами, как полученные в транслитераторе до начала лексического анализа. В предыдущей трактовке эти понятия считались нетерминальными символами.

Методы лексического анализа.

Выделяются методы непрямого и прямого лексического анализа.

Непрямой лексический анализ, или лексический анализ с возвратами, заключается в последовательной проверке версий о классах лексем. Если проверка текущей версии не подтверждается, то происходит откат назад по цепочке символов и осуществляется проверка следующей версии.

Прямой лексический анализ позволяет определить значение лексемы без откатов назад по цепочке символов.

Организация непрямого лексического анализатора

Непрямой лексический анализатор состоит из отдельных автоматов, каждый из которых распознает одну заданную лексему. Все автоматы имеют одинаковую структуру и отличаются только внутренними состояниями, что связано с различием распознаваемых лексем.

Организация прямого лексического анализатора

Прямой лексический анализатор строится на основе одного детерминированного автомата, объединяющего множество автоматов, распознающих отдельные лексемы. Такой автомат на каждом шаге читает один входной символ и переходит в следующее состояние, приближающее его к распознаванию текущей лексемы или формированию ошибки. Для лексем, имеющих одинаковые подцепочки, автомат имеет общие фрагменты, реализующие единое множество состояний. Отличающиеся части реализуются своими фрагментами.

АЛГОРИТМЫ ПОИСКА

Бинарный поиск

Условие работы: список слов должен быть лексографически (в алфавитном порядке) упорядочен.

Для поиска слова в словаре, словарь делим пополам и среднее слово сравниваем с искомым. Если оно совпадает, то поиск окончен, если нет, то смотрим, в верхней или нижней части словаря находится это слово. Делим эту часть пополам. И снова проверяем…

Трудоёмкость: log₂N

Метод линейного списка

Приводим список в соответствии с частотой появления слов. Можно хранить и длину слова.

Вначале проверяем по длине слова, потом пробегаем по списку слов…

Трудоёмкость: меньше n/2

Хеширование

Один из самых распространенных и оптимальных методов.

Выбираем функцию хеширования F(x)=k, 0<k<m. Все зависит от того, какую функцию мы выберем.

Трудоёмкость: n/m

Метод индексов

Смотреть 3) при условии, что m=n

Трудоёмкость: ~время определения индекса

<<< < Предыдущая 1 23 / 113 4 5 6 7 8 9 10 11 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
16.09.201991.38 Кб41шпора.специальная.docx
#
01.03.2025607.72 Кб1Шпора1.docx
#
19.11.201984.48 Кб21шпорка вир инф.doc
#
18.09.20191.31 Mб3шпорка.docx
#
01.04.2025135.68 Кб0Шпорки статистикс.docx
#
01.04.2025352.68 Кб0шпорки.docx
#
01.05.202575.26 Кб0шпоры по финансовой математике.doc
#
11.09.201942.1 Кб5шпоры 1-15.docx
#
01.04.2025245.69 Кб0шпоры 2.docx
#
15.04.2019555.01 Кб5шпоры бд.doc
#
23.09.2019119.64 Кб1шпоры бух.docx

Задача идентификации. Транслитерация.

Методы лексического анализа.