Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лаба 5

.docx
Скачиваний:
2
Добавлен:
18.02.2023
Размер:
42.97 Кб
Скачать

Лабораторная работа №5

Практическая задача: «Конкорданс»

Обычной проблемой анализа текстов является определение частоты и расположения слов в документе. Эта информация запоминается в конкордансе, где различные слова перечислены в алфавитном порядке и каждое слово снабжено ссылками на строки текста, в которых оно встречается. Рассмотрим следующую цитату.

Слово "piper" встречается здесь 4 раза в строках 1, 2 и 3. Слово "pickled" встречается 3 раза в строках 1 и 3.

В этой задаче создается конкорданс для текстового файла следующим образом:

Вход: Открыть документ как текстовый файл и ввести текст по словам, отслеживая текущую строку.

Действие: Определить запись, которая состоит из слова, счетчика появлений и списка номеров строк, содержащих это слово. При первой встрече некоторого слова в тексте создать запись и вставить ее в дерево. Если слово уже есть в дереве, обновить частоту его появления и список номеров строк.

Выход: После ввода файла распечатать слова в алфавитном порядке вместе со счетчиками частоты и упорядоченными списками строк, где встречается каждое слово.

Таким образом,

файл concord.txt выглядит так:

Если выполнить программу с файлом concord.txt в качестве параметра, результаты будут выглядеть так:

Реализовать задачу и сформировать отчет по данной лабораторной работе.

Соседние файлы в предмете Структуры и алгоритмы обработки данных