Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Ульяновский Государственный Технический Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

kernigan_paik.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

2.91 Mб

Скачать

☆

<<< < Предыдущая 45 46 47 48 49 50 51 52 53 54 55 5657 / 8457 58 59 60 61 62 63 64 65 66 67 68 69 > Следующая >>>

6.8. Тестирование программы markov

Программа ma rkov из главы 3 достаточно сложна, поэтому ее надо особенно тщательно оттестировать. Производит она белиберду, которую трудно проверить на корректность, и, кроме того, мы написали несколько версий на разных языках. И последнее затруднение — вывод программы случаен по определению, и по идее при каждом запуске должен изменяться. Как же применить уроки данной главы к тестированию такой программы?

Первый набор тестов состоит из нескольких крошечных файлов — для проверки граничных условий. Цель этого этапа — убедиться в том, что программа работает нормально при вводе размером всего в несколько слов. Для префиксов длиной два мы использовали пять файлов, содержащих, соответственно (по одному слову-символу на строку!):

(пустой файл)

a b

a b с

abed

Для каждого из приведенных файлов вывод должен быть тождественен вводу. При этой проверке были обнаружены несколько ошибок на единицу при инициализации таблицы, а также при запуске и остановке генератора.

Второй тест проверял сохранность данных. Для префиксов из двух слов каждое слово, каждая пара слов и каждая тройка слов в выходном тексте должны содержаться также и во введенном тексте. Мы написали программу на Awk, которая считывает входной текст в гигантский массив, строит массивы пар и троек слов, потом считывает вывод программы в другой массив и сравнивает массивы:

# markov test: проверяет, что все слова, пары и тройки слов

# выводе ARGV[2] есть в исходном тексте ARGV[1]

BEGIN {

while (getline <ARGV[1] > 0)

for (i = 1; i <= NF; i++) {

wd[++nw] = $i # слова во вводе s

ingle[$i]++

}

for (i = 1; i < nw; i++)

pair[wd[i],wd[i+1]]++

for (i = 1; i < nw-1; i++)

triple[wd[i],wd[i+1],wd[i+2]]++

while (getline <ARGV[2] > 0) {

outwd[++ow] = $0 # слова в выводе

if (!($0 in single))

print "постороннее слово", $0

}

for (i = 1; i < ow; i++)

if (!((outwd[i],outwd[i+1]) in pair))

print "посторонняя пара", outwd[i], outwd[i+1]

for (i = 1; i < ow-1; i++)

if (!((outwd[i],outwd[i+1],outwd[i+2]) in triple))

print "посторонняя тройка",

outwd[i], outwd[i+1], outwd[i+2]

}

Мы не пытались сделать этот тест особо эффективным, наоборот, хотели лишь написать как можно более простую программу. Сравнение 10 000 слов вывода с 42 685 словами ввода занимает у нее шесть или семь секунд — не дольше, чем компилируются некоторые версии самой программы markov. Проверка сохранности данных обнаружила важную ошибку в версии, написанной на Java: программа иногда переписывала значения таблицы, поскольку использовала ссылки вместо того, чтобы создавать копии префиксов.

Приведенный тест иллюстрирует принцип, согласно которому проще бывает проверить свойства результата, чем получить этот результат. Например, проще удостовериться в том, что файл отсортирован, чем выполнить саму сортировку.

Третий тест — статистический по своей природе. Ввод состоит из поcледовательностей

a b c a b c ... a b d ...

в которых на одно вхождение abd приходится десять вхождений abc. Теперь, если генератор случайных чисел работает правильно, в выводе должно быть примерно в десять раз больше с, чем d. Проверяли мы это, естественно, с помощью f req.

Статистический тест показал, что ранняя Java-версия программы, в которой с каждым суффиксом ассоциировался счетчик, выводит около двадцати с на каждое d, то есть в два раза больше, чем предполагалось. Немного поломав голову, мы осознали, что генератор случайных чисел в Java возвращает как положительные, так и отрицательные целые значения; множитель два появился, таким образом, из-за того, что диапазон значений для генератора был в два раза больше ожидаемого и поэтому первый элемент в списке выпадал чаще (а это была именно буква с). Исправить ошибку оказалось гораздо проще, чем найти, — достаточно взять значения по модулю. Без этого теста мы никогда не нашли бы ошибки, на глаз вывод выглядел совершенно нормально.

Наконец, мы скормили программе нормальный английский текст для того, чтобы убедиться, что на выходе будет очаровательная нелепица. Естественно, этот тест мы производили и на ранних стадиях написания программы. Однако теперь, даже убедившись, что программа нормально обрабатывает те данные, для которых, собственно, и создавалась, мы не прекратили тестирования. Всегда приятно оттестировать простые случаи и убедиться, что все в порядке, однако трудные случаи также должны быть проверены. Автоматизированное, систематическое тестирование — единственный способ обойти все ловушки.

Весь процесс тестирования программы markov был автоматизирован. Специальный скрипт генерировал необходимые входные данные, запускал тесты, отмечал время их работы и распечатывал аномальные результаты вывода. Скрипт мы написали настраиваемый, так что одни и те же тесты можно было применить к версии на любом языке: каждый раз при внесении изменений в одну из программ мы без дополнительных усилий прогоняли на ней все тесты.

<<< < Предыдущая 45 46 47 48 49 50 51 52 53 54 55 5657 / 8457 58 59 60 61 62 63 64 65 66 67 68 69 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025736.26 Кб0itog_diplom_vadim.doc
#
01.07.2025176.64 Кб0ITU_otvety_na_voprosy.doc
#
01.05.2025100.69 Кб2IZUChENIE_SPOSOBOV_OChISTKI_STOChNYKh_VOD_Labor...docx
#
01.05.2025448.51 Кб0jclock.UlGTU.Fedosina.doc
#
23.03.2016579.07 Кб119KEAKhD_krat_kurs.doc
#
01.07.20252.91 Mб0kernigan_paik.doc
#
01.03.20251.04 Mб1KG_LEC.doc
#
27.04.2019568.32 Кб8Khimia.doc
#
25.11.2019111.1 Кб9KM_i_MM_v_E.doc
#
23.03.201615.09 Mб321kolkunov_n_v_posobie_po_stroitelnoi_mehanike_staticheski_opr.doc
#
24.09.2019528.26 Кб9Kompyuternaya_grafika_1-20.docx