Поиск информации в файлах данных.

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Томский Политехнический Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kursovaya_rabota_Kirillova_Christina_8K21.doc

Скачиваний:

Добавлен:

29.05.2015

Размер:

840.19 Кб

Скачать

☆

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

Поиск информации в файлах данных.

Постановка задачи

1. Создать файл данных, описывающий данную предметную область. Выбрать одно из полей как ключ поиска.

1. На основе файла создать словарь, состоящий из пар: КЛЮЧ- № записи.

2. Упорядочить словарь по возрастанию ключей.

3. Реализовать поиск данных в файле по ключу с использованием словаря, используя прямой доступ к записям файла

4. Сравнить времена поиска со словарем и без словаря (графики и таблицы)

2. Исследовать эффективность алгоритмов поиска всех вхождений образцов в тексте, для различных образцов, используя КМП- алгоритм.

Краткое теоретическое описание

Ассоциативный массив (словарь) —абстрактный тип данных(интерфейск хранилищу данных), позволяющий хранить пары вида «(ключ, значение)» и поддерживающий операции добавления пары, а также поиска и удаления пары по ключу:

INSERT(ключ, значение)
FIND(ключ)
REMOVE(ключ)

Предполагается, что ассоциативный массив не может хранить две пары с одинаковыми ключами.

В парезначениеназывается значением, ассоциированным с ключом. Семантика и названия вышеупомянутых операций в разных реализациях ассоциативного массива могут отличаться.

ОперацияFIND(ключ)возвращает значение, ассоциированное с заданным ключом, или некоторый специальный объект UNDEF, означающий, что значения, ассоциированного с заданным ключом, нет. Две другие операции ничего не возвращают (за исключением, возможно, информации о том, успешно ли была выполнена данная операция).

Ассоциативный массив с точки зрения интерфейса удобно рассматривать как обычныймассив, в котором в качестве индексов можно использовать не только целые числа, но и значения других типов — например, строки.

Существует множество различных реализаций ассоциативного массива.

Самая простая реализация может быть основана на обычном массиве, элементами которого являются пары (ключ, значение). Для ускорения операции поиска можно упорядочить элементы этого массива по ключу и осуществлять нахождение методомбинарного поиска. Но это увеличит время выполнения операции добавления новой пары, так как необходимо будет «раздвигать» элементы массива, чтобы в образовавшуюся пустую ячейку поместить новую запись.

Поиск- нахождение какой-либо конкретной информации в большом объеме ранее собранных данных.

Данные делятся на записи, и каждая запись имеет хотя бы один ключ. Ключ используется для того, чтобы отличить одну запись от другой.

Целью поиска является нахождение всех записей подходящих к заданному ключу поиска.

Алгоритм Кнута-Морриса-Пратта

КМР осуществляется сдвиг слова на каждом шаге алгоритма на некоторое переменное количество символов. Таким образом, перед тем как осуществлять очередной сдвиг, необходимо определить величину сдвига. Для повышения эффективности алгоритма необходимо, чтобы сдвиг на каждом шаге был бы как можно большим.

Если j определяет позицию в слове-образце, содержащую первый несовпадающий символ то величина сдвига определяется как j-d_j. Значения D – таблица сдвигов определяется как размер самой длинной последовательности символов слова, непосредственно предшествующих позиции j (суффикс), которая полностью совпадает с началом слова (префикс). D зависит только от слова и не зависит от текста. Для каждого j будет своя величина D, которую обозначим d_j. Перед поиском осуществляется формированиеD.

Алгоритм КМП результативно находит подстроку в строке. Поиск информации — одно из основных использований компьютера. Одна из простейших задач поиска информации — поиск точно заданной подстроки в строке. Тем не менее, эта задача чрезвычайно важна — она применяется в текстовых редакторах, СУБД, поисковых машинах…

Результаты работы программы

1) 2)

8540 символов 145100 символов

Время поиска по ключу: 8 мс Время поиска по ключу: 26 мс

Время поиска со словарем: 3 мс Время поиска со словарем: 18 мс

Чем больше текст, тем больше времени занимает поиск и с ключом, и со словарем. Но на протяжении всего эксперимента поиск по словарю происходит быстрее.

Рис. 2 . Поиск с использованием словаря

Рис. 3. Поиск с использование ключа

Длина подстроки	Время (мс)
10	4
20	17
50	22
100	18
300	34
500	62
800	108

Таблица 1. Алгоритм Кнута-Морриса-Пратта

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
29.05.201530.9 Mб179krasnoshchekova_osnovyi_prak_petr_zac.pdf
#
02.09.201963.96 Mб269Krec_make1t_18_08.doc
#
29.05.201574.75 Кб43KSE_otvety.doc
#
25.03.201624.98 Кб19kursovaya.docx
#
21.09.201980.22 Кб5Kursovaya_po_ekonomike_Malkova1.docx
#
29.05.2015840.19 Кб74Kursovaya_rabota_Kirillova_Christina_8K21.doc
#
24.11.2019405.5 Кб17kursovaya_svetofor_moya (1).doc
#
23.12.2018349.5 Кб0kursovik.docx
#
22.11.201975.67 Кб0kursovik_elektrorazvedka.docx
#
22.11.2019542.76 Кб4kursovik_gravyka_Timchenko.docx
#
27.08.2019112.64 Кб2kursovoi.doc