- •Предисловие
- •Сфера применения
- •Ключевые слова
- •ЧАСТЬ 1
- •СОДЕРЖАНИЕ
- •1 Введение
- •2 Общие особенности оценки
- •2.1 Общие условия просмотра
- •2.1.1 Общие условия просмотра для субъективных оценок в лабораторной среде
- •2.1.2 Общие условия просмотра для субъективных оценок в домашней среде
- •2.1.3 Расстояние просмотра
- •2.1.3.1 Предпочтительное расстояние просмотра
- •2.1.3.2 Расчетное расстояние просмотра
- •2.1.4 Угол обзора
- •2.1.5 Условия помещения – цветовая гамма
- •2.1.6 Дисплей
- •2.1.6.1 Обработка дисплея
- •2.1.6.2 Разрешение дисплея
- •2.1.6.3 Настройка дисплея
- •2.1.6.4 Контрастность дисплея
- •2.1.6.5 Яркость дисплея
- •2.1.6.6 Искажения движения на дисплее
- •2.1.6.7 Безопасные области изображения широкоэкранных дисплеев формата 16:9
- •2.2 Исходные сигналы
- •2.3 Выбор материалов для испытания
- •2.4 Диапазон условий и привязки
- •2.5 Наблюдатели
- •2.5.1 Число наблюдателей
- •2.5.2 Отбор наблюдателей
- •2.5.3 Инструкции для оценки
- •2.6 Сеанс испытаний
- •2.7 Представление результатов
- •3 Выбор методов испытаний
- •A1-1 Введение
- •A1-2 Общие методы анализа
- •A1-2.1 Вычисление средних оценок
- •A1-2.2 Расчет доверительного интервала
- •A1-2.2.1 Обработка первоначальных (нескорректированных и/или неаппроксимированных) данных
- •A1-2.2.2 Обработка скорректированных и/или аппроксимированных данных
- •A1-2.3 Последующее отсеивание наблюдателей
- •A1-2.3.1 Последующее отсеивание на основе эксцесса для методов DSIS, DSCQS и альтернативных методов за исключением метода SSCQE
- •A1-2.3.2 Последующее отсеивание на основе эксцесса для метода SSCQE
- •A1-2.3.3 Последующее отсеивание на основе корреляции
- •A1-2.3.3.1 Корреляция Пирсона
- •A1-2.3.3.2 Ранговая корреляция Спирмена
- •A1-2.4 Расчет средних баллов и доверительных интервалов в случае испытаний в сложных условиях
- •A1-3 Обработка для нахождения зависимости между средней оценкой и объективным измерением искажений изображения
- •A1-3.1 Аппроксимация при помощи симметричной логической функции
- •A1-3.2 Аппроксимация несимметричной функцией
- •A1-3.2.1 Описание функции
- •A1-3.2.2 Оценка параметров аппроксимации
- •A1-3.3 Устранение остаточного ухудшения/улучшения и влияния краев шкалы
- •A1-3.4 Включение аспекта надежности в графики
- •A1-4 Выводы
- •A3-1 Введение
- •A3-2 Получение характеристик искажения
- •A3-3 Использование характеристики искажений
- •A4-1 Введение
- •A4-2 Анализ содержания программ
- •A4-3 Анализ канала передачи
- •A4-4 Получение характеристики общих искажений
- •ЧАСТЬ 2
- •CОДЕРЖАНИЕ
- •1 Введение
- •2 Рекомендуемые методики оценки изображения
- •3 Замечания
- •A1-1 Общее описание
- •A1-2 Общий порядок
- •A1-3 Представление материала для испытаний
- •A1-4 Шкалы оценок
- •A1-5 Представление оценок
- •A1-6 Сеанс испытаний
- •A2-1 Общее описание
- •A2-2 Общий порядок
- •A2-3 Представление материала для испытаний
- •A2-4 Шкала оценок
- •A2-5 Анализ результатов
- •A2-6 Интерпретация результатов
- •A3-1 Общий порядок
- •A3-2 Выбор материала для испытаний
- •A3-3 Сеанс испытаний
- •A3-4 Типы методов с одним источником воздействия (SS)
- •A3-4.1 Методы оценок с использованием определенных категорий
- •A3-4.2 Численные методы оценок с использованием категорий
- •A3-4.3 Методы оценок без использования категорий
- •A3-4.4 Методы оценки качества
- •A4-1 Общий порядок
- •A4-2 Выбор материала для испытаний
- •A4-3 Сеанс испытаний
- •A4-4 Типы методов со сравнением воздействий
- •A4-4.1 Методы оценок с использованием определенных категорий
- •A4-4.2 Методы оценок без использования категорий
- •A4-4.3 Методы оценки качества
- •A5-1 Записывающее устройство и установка
- •A5-2 Общая форма испытательного протокола
- •A5-3 Параметры просмотра
- •A5-4 Шкалы оценок
- •A5-5 Наблюдатели
- •A5-6 Инструкции для наблюдателей
- •A5-7 Представление данных, обработка и представление результатов
- •A5-8 Калибровка результатов непрерывной оценки качества и получение общей оценки качества
- •A6-1 Процедура испытания
- •A6-2 Различные этапы
- •A6-3 Особенности протокола испытаний
- •A6-4 Обработка данных
- •A6-5 Надежность участников
- •A7-1 Введение
- •A7-2 Явный, скрытый эталоны и алгоритмы
- •A7-3 Условия проведения испытаний
- •A7-4 Организация испытаний
- •A7-5 Демонстрация и анализ данных
- •A7-5.1 Итоговая информация
- •A7-5.2 Методы анализа
- •A7-5.3 Отбор наблюдателей
- •A7-6 Пример интерфейса SAMVIQ (информационный)
- •A8-1 Организация лабораторных условий
- •A8-1.1 Выбор дисплея и настройка
- •A8-1.2 Расстояние просмотра
- •A8-1.3 Условия просмотра
- •A8-2 Зрители
- •A8-3 Базовая ячейка испытаний
- •A8-4 Оценочный лист и шкала оценок
- •A8-5 План испытания и формирование сеанса
- •A8-6 Подготовка участников
- •A8-7 Сбор и обработка данных
- •A8-8 Условия использования результатов протокола просмотра экспертами
- •A8-9 Ограничения использования результатов EVP
- •ЧАСТЬ 3
- •СОДЕРЖАНИЕ
- •A1-1 Введение
- •A1-2 Условия просмотра
- •A1-2.1 Лабораторная среда
- •A1-2.2 Домашняя среда
- •A1-3 Методы оценки
- •A1-3.1 Оценка базового качества изображения
- •A1-3.2 Оценка качества изображения после постобработки
- •A1-3.3 Оценка характеристик искажения
- •A1-3.4 Характеристики искажения содержания изображения
- •А1-3.4.1 Определение критичности
- •A1-3.4.2 Процедура получения характеристик искажения содержания изображения
- •A1-4 Замечания по применению
- •A2-1 Условия просмотра
- •A2-2 Методы оценки
- •A2-3 Испытательные материалы
- •A3-1 Условия просмотра
- •A3-2 Методы оценки
- •A3-3 Контекст оценки
- •A4-1 Общие рекомендации по оценке
- •A4-2 Процедуры субъективной оценки изображений для многопрограммных служб с постоянной скоростью передачи битов
- •A4-3 Процедуры субъективной оценки изображений для многопрограммных служб с переменной скоростью передачи битов
- •A5-1 Введение
- •A5-2 Почему новый метод основан на "просмотре экспертами"
- •A5-3 Определение экспертов
- •А5-4 Выбор оценщиков
- •A5-5 Испытательный материал
- •A5-6 Условия просмотра
- •A5-7 Методика
- •A5-7.1 Сеансы оценки
- •A5-7.1.1 Этап I
- •A5-7.1.1.1 Демонстрация материала
- •A5-7.1.1.2 Шкала оценки
- •A5-7.1.1.3 Сеанс оценки
- •A5-7.1.1.4 Обработка результатов испытаний
- •A5-7.1.2 Этап II
- •A5-7.1.2.1 Группирование материала для испытания
- •A5-7.1.2.2 Тренировочный сеанс просмотра экспертами
- •A5-7.1.2.3 План этапа II
- •A5-8 Отчет
- •A6-1 Введение
- •A6-2 Общие особенности
- •A6-2.1 Условия просмотра
- •A6-2.2 Исходные сигналы
- •A6-2.3 Подбор материалов для испытания
- •A6-2.4 Диапазон условий и привязки
- •A6-2.5 Наблюдатели
- •A6-2.6 Проектирование эксперимента
- •A6-3 Методы оценки
- •A7-1 Показатели (воспринимаемые) оценки
- •A7-1.1 Первичные воспринимаемые показатели
- •A7-1.2 Дополнительные воспринимаемые показатели
- •A7-2 Методики субъективной оценки
- •A7-3 Общие условия просмотра
- •A7-4 Материал для испытаний
- •A7-4.1 Использование эталонного видеоматериала
- •A7-4.2 Пределы визуального комфорта
- •A7-4.3 Несоответствия между левым и правым изображениями
- •A7-4.4 Диапазон, распределение и изменение параллакса
- •A7-5 Экспериментальная аппаратура
- •A7-6 Наблюдатели
- •A7-6.1 Размер выборки наблюдателей
- •A7-6.2 Отсеивание по зрению
- •A7-7 Инструкции для наблюдателей
- •A7-8 Продолжительность сеанса
- •A7-9 Изменчивость ответов
- •A7-10 Критерии исключения зрителей
- •A7-11 Статистический анализ
- •A7-1 Испытания зрения
70 |
Рек. МСЭ-R BT.500-15 |
Разрешается использовать уменьшенную часть активной области просмотра дисплея, но в этом случае цвет области вокруг активной части дисплея следует установить средне-серым. При таком условии использования следует запрещать установку разрешающей способности дисплея, отличную от его собственной.
Дисплей должен обеспечивать надлежащую настройку и калибровку яркости и цвета с использованием профессионального люксметра. Калибровка дисплея должна соответствовать параметрам, определенным в соответствующей Рекомендации для проводимого испытания.
A8-1.2 Расстояние просмотра
Расстояние просмотра, на котором располагаются эксперты, следует выбирать в соответствии с разрешающей способностью экрана и высотой активной части экрана, в соответствии с проектным расстоянием просмотра, которое описано в пункте 2.1.3.2 части 1, или выбирать меньшее расстояние просмотра в соответствии с требованиями, определяемыми критическими условиями просмотра.
A8-1.3 Условия просмотра
Эксперимент для получения протокола просмотра экспертами (EVP) необязательно проводить в испытательной лаборатории, но важно, чтобы место проведения испытаний было защищено от видимых и слышимых помех (например, можно использовать тихое служебное помещение или комнату для переговоров).
Следует устранить любой источник прямого или отраженного света, падающего на экран; другой окружающий свет должен быть тусклым, поддерживаемым на минимальном уровне, позволяющем заполнять оценочные листы (если таковые используются).
Число сидящих перед дисплеем экспертов может варьироваться в зависимости от размера экрана, с тем чтобы гарантировать одинаковое для зрителей воспроизведение изображения и представление входных последовательностей.
A8-2 Зрители
Зрители, участвующие в эксперименте для получения EVP, должны быть экспертами в предметной области исследования.
Необязательно проверять остроту зрения и дальтонизм зрителей, так как они должны быть отобраны из числа квалифицированных лиц.
Минимальное число разных зрителей должно составлять девять.
Для охвата минимального числа зрителей тот же эксперимент может быть проведен в том же месте с повторением испытаний или в нескольких местах. Оценки, полученные в разных местах проведения одного сеанса просмотра экспертами, могут быть статистически обработаны вместе.
A8-3 Базовая ячейка испытаний
Представляемый экспертам материал должен быть организован с созданием базовой ячейки испытаний (BTC) для каждой пары оцениваемых условий кодирования (см. рисунок 2-13).
Рассматриваемые в рамках BTC фрагменты исходных эталонных последовательностей (SRC) и фрагменты обработанных видеопоследовательностей (PVS) всегда должны относиться к той же видеопоследовательности, с тем чтобы эксперты могли определить любое улучшение качества изображения, обеспечиваемое испытываемыми алгоритмами сжатия.
Рек. МСЭ-R BT.500-15 |
71 |
РИСУНОК 2-13
Временные интервалы базовой ячейки испытаний для протокола просмотра экспертами
BTC должна быть организована следующим образом:
−0,5 с – экран, цвет которого установлен средне-серым (среднее значение шкалы яркости);
−10 с – представление эталонного несжатого видеофрагмента;
−0,5 с – показ сообщения "А" (первое видео для оценки) на средне-сером фоне;
−10 с – представление ухудшенной версии видеофрагмента;
−0,5 с – показ сообщения "В" (второе видео для оценки) на средне-сером фоне;
−10 с – представление ухудшенной версии видеофрагмента;
−5 с – показ сообщения, предлагающего зрителям выразить свое мнение.
Сообщение "Голосование" должно сопровождаться числом, которое помогает ориентироваться в оценочном листе.
A8-4 Оценочный лист и шкала оценок
Как показано на рисунке 2-13, представление видеофрагментов должно быть организовано таким образом, чтобы первой была показана неухудшенная эталонная последовательность (SRC), а далее – две ухудшенные видеопоследовательности (PVS). Порядок представления PVS должен произвольно меняться для каждой BTC, и зрители не должны знать порядок представления.
РИСУНОК 2-14
Пример оценочного листа для состоящего из 24 BTC сеанса просмотра экспертами
72 Рек. МСЭ-R BT.500-15
Используется 11-балльная числовая шкала от 10 (неразличимые ухудшения) до 0 (сильно раздражающие ухудшения).
В таблице 2-4 показаны значения 11-балльной числовой шкалы.
ТАБЛИЦА 2-4
Значения 11-балльной числовой шкалы
Оценка |
Ухудшение |
||
|
|
|
|
10 |
Неразличимое |
|
|
|
|
|
|
9 |
Малоразличимое |
кое-где |
|
|
|
||
8 |
везде |
||
|
|||
|
|
|
|
7 |
Различимое |
кое-где |
|
|
|
||
6 |
везде |
||
|
|||
|
|
|
|
5 |
Очевидно различимое |
кое-где |
|
|
|
||
4 |
везде |
||
|
|||
|
|
|
|
3 |
Раздражающее |
кое-где |
|
|
|
||
2 |
везде |
||
|
|||
|
|
|
|
1 |
Чрезвычайно раздражающее |
кое-где |
|
|
|
||
0 |
везде |
||
|
|||
|
|
|
|
Зрителям предлагается заполнить формуляр, в котором для каждой BTC предусмотрены две ячейки (помеченные как "A" и "B"), проставив в каждой из этих двух ячеек оценку, выбранную по 11-балльной числовой шкале.
На рисунке 2-14 представлен пример оценочного листа для сеанса, состоящего из 24 BTC.
Для каждой BTC зрители заполняют ячейку, обозначенную буквой A (для оценки видеофрагмента, показанного первым), и ячейку, обозначенную буквой B (для оценки видеофрагмента, показанного вторым).
Представление исходного не ухудшенного видеофрагмента упрощает оценку экспертами любых ухудшений.
Значения 11-балльной числовой шкалы следует подробно объяснить в ходе "тренировочных сеансов", описанных ниже.
A8-5 План испытания и формирование сеанса
Порядок представления BTC должен устанавливаться разработчиком испытания произвольным образом, так чтобы исключить представление два раза подряд того же видеофрагмента, как и того же ухудшенного фрагмента.
Любой сеанс просмотра следует начинать с "этапа стабилизации", в который включается "лучшая" BTC, "худшая" BTC и две BTC "среднего качества" наряду с прочими BTC, включенными в каждый сеанс испытаний. Это позволит зрителям сразу получить непосредственное представление о диапазоне качества уже в начале сеанса испытаний.
Если продолжительность сеанса испытаний превышает 20 минут, разработчик испытания должен разделить его на два (или более) отдельных сеанса просмотра и каждый из них не должен превышать 20 минут. В таком случае каждый сеанс просмотра следует начинать с "этапа стабилизации".
Рек. МСЭ-R BT.500-15 |
73 |
A8-6 Подготовка участников
Даже если проведение данной процедуры запланировано с участием экспертов, перед каждым экспериментом предпочтительно проводить короткий (5–6 BTC) тренировочный сеанс просмотра.
Для тренировочного сеанса может быть использован тот же видеоматериал, который будет использоваться в реальных сеансах, но порядок представления должен быть иным.
Зрители должны быть подготовлены к использованию 11-балльной шкалы, для чего им следует предложить внимательно просмотреть видеофрагменты, показываемые сразу после сообщений "А" и "В" на экране, и проверить, могут ли они заметить разницу по сравнению с видеофрагментом, показанным первым (SRC).
A8-7 Сбор и обработка данных
В конце каждого сеанса следует производить сбор оценок и их регистрацию в электронной таблице для расчета средних значений.
Желательно выполнить "последующее отсеивание" зрителей с использованием линейного коэффициента корреляции Пирсона.
Ко всем оценкам каждого участника следует применять функцию "корреляция" относительно средней экспертной оценки (MOS); может быть установлено пороговое значение для определения каждого зрителя как "допустимый" и "отклоненный" (в Рекомендации МСЭ-Т P.910 предлагается отклонять участников с оценками ниже порога исключения, равного 0,75).
A8-8 Условия использования результатов протокола просмотра экспертами
Протокол просмотра экспертами (EVP) может использоваться в тех случаях, когда время и ресурсы не позволяют проводить эксперимент для формальной субъективной оценки.
Для получения EVP требуется меньше времени, чем для проведения формальной субъективной оценки, и такой просмотр может проходить в "неформальной" среде при отсутствии видимых и слышимых внешних помех.
К единственным обязательным условиям относятся окружающее освещение и условия просмотра (дисплей, угол наблюдения и расстояние просмотра), которые описаны в предыдущих пунктах.
A8-9 Ограничения использования результатов EVP
Даже при том что EVP демонстрирует возможность обеспечения приемлемых результатов с участием всего девяти зрителей, MOS по результатам эксперимента для получения EVP не может рассматриваться в качестве замены результатов, которые возможно получить по итогам эксперимента для формальной субъективной оценки.
Данные MOS, получаемые с использованием EVP, могут использоваться как предварительное представление уровня ухудшения.
Данные MOS, получаемые с использованием EVP, могут использоваться для предварительного ранжирования оцениваемых схем обработки видео.
Если удобно или необходимо, эксперимент для получения EVP может проводиться параллельно в большем числе мест, при условии идентичности условий просмотра, расстояния просмотра и плана испытаний.
Если число экспертов-зрителей, участвующих в том же эксперименте для получения EVP, а также при проведении эксперимента в разных местах, составляет 15 или более, необработанные субъективные данные могут обрабатываться для получения MOS, среднеквадратического отклонения и доверительного интервала, что может помочь провести более точное ранжирование испытуемых элементов. В этом последнем случае может быть выполнен более точный инферентный статистический анализ, например T-критерий Стьюдента.
74 |
Рек. МСЭ-R BT.500-15 |
Прилагаемый документ 1 к Приложению 8 (информационный)
к части 2
Применение протокола на основе просмотра экспертами и его динамика при участии большого числа экспертов-оценщиков
В настоящем информационном Прилагаемом документе представлены сведения о результатах двух разных сеансов субъективной оценки кодированных видеофрагментов высокой четкости (ВЧ) и сверхвысокой четкости (СВЧ) для получения EVP, которые проводились в ходе 117-го собрания MPEG с применением положений Приложения 8, с тем чтобы быстро и надежно оценить два разных метода кодирования источника.
Ввиду присутствия большого числа экспертов, участвующих в 117-м собрании MPEG, количество оценщиков, участвовавших в двух сеансах для получения EVP, было значительно больше девяти – рекомендованного значения в Приложении 8 к части 2 настоящей Рекомендации; в испытательном сеансе оценки ВЧ для получения EVP приняли участие 30 экспертов, а в сеансе оценки СВЧ для получения EVP – 32 эксперта.
Широкое участие экспертов-оценщиков предоставило возможность проанализировать данные MOS с целью проверки уровня надежности, обеспечиваемого при использовании Приложения 8 для оценки кодированных видеофрагментов.
В оценке участвовали четыре группы зрителей (9, 12, 15 и 18 человек), и проводилось сравнение значений MOS, полученных от девяти экспертов, со значениями MOS, полученными от 12, 15 и 18 зрителей.
Цель состояла в том, чтобы сравнить оценки, полученные от девяти экспертов (то есть в соответствии с протоколом EVP), с оценками, полученными от 12, 15 и 18 экспертов (то есть аналогично эксперименту для формальной субъективной оценки).
Как видно из рисунков 2-15 (эксперимент с видеоматериалом СВЧ) и 2-16 (эксперимент с видеоматериалом ВЧ), результаты оценки во всех четырех рассмотренных случаях весьма близки.
Приняв результаты, полученные от 18 зрителей, за своего рода "реальную ситуацию", можно построить графики, представленные на рисунках 2-15 и 2-16, на которые нанесены контрольные точки в соответствии с полученными значениями MOS от 18 зрителей (сплошная красная линия).
Другие линии на графиках отражают результаты, полученные от девяти зрителей (пунктирная красная линия), 12 зрителей (синяя пунктирная линия) и 15 зрителей (сплошная зеленая линия).
Анализируя результаты, представленные на рисунках 2-15 и 2-16, можно отметить:
–графики результатов 15 и 18 зрителей отражают монотонное снижение от значений MOS высокого качества к значениям низкого качества;
–графики результатов 9 и 12 зрителей отражают некоторые "инверсии" оценок по сравнению с графиком результатов 18 зрителей, хотя эти колебания оценок довольно ограничены по величине.
В итоге, описанные здесь эксперименты для получения EVP показывают очень хорошую характеристику протокола EVP, подтверждая то, что заявлено в тексте Приложения 8, а именно что протокол EVP, хотя и не может рассматриваться в качестве полной замены формального субъективного эксперимента, он может рассматриваться в качестве стабильной процедуры оценки, обеспечивающей результаты, весьма близкие к тем, которые получены с участием гораздо большего числа зрителей при проведении формальной субъективной оценки.
Рек. МСЭ-R BT.500-15 |
75 |
РИСУНОК 2-15
Оценка, полученная в ходе эксперимента по оценке фрагментов СВЧ, в зависимости от числа оценщиков
РИСУНОК 2-16
Оценка, полученная в ходе эксперимента по оценке фрагментов ВЧ, в зависимости от числа оценщиков
