Скачиваний:
0
Добавлен:
13.05.2026
Размер:
5.13 Mб
Скачать

22

Рек. МСЭ-R BT.500-15

где:

r = мин (корреляция Пирсона, ранговая корреляция Спирмена);

mean(r): среднее значение корреляций для всех участвующих в испытании наблюдателей;

sdt(r): стандартное отклонение корреляций для всех участвующих в испытании наблюдателей.

Порог максимальной корреляции (MCT) = 0,85.

Значение MCT = 0,85 действительно для методов SAMVIQ и DSCQS, в ином случае должно рассматриваться значение MCT = 0,7 для методов SS и DSIS.

A1-2.4 Расчет средних баллов и доверительных интервалов в случае испытаний в сложных условиях

Очень часто субъективные испытания приходится проводить в сложных условиях. Например, в ходе краудсорсингового испытания испытуемые подвергаются воздействию менее контролируемой среды, чем в лаборатории. В крупномасштабных испытаниях, проводимых несколькими лабораториями, межлабораторная вариация может вызвать значительное расхождение полученных оценок. Методы, представленные в разделах A1 2.1–A1-2.3, зачастую не вполне подходят для таких условий. В настоящем разделе представлен усовершенствованный метод анализа данных, который, как было показано, улучшает качество восстановленных средних оценок и доверительных интервалов. В Прилагаемом документе 1 к настоящему Приложению содержится эталонная реализация на языке Python.

Идея, лежащая в основе этого метода, заключается в следующем. Полезно явно моделировать поведение каждого участника; в частности, двумя важными человеческими факторами, влияющими на решения участников, являются необъективность и последовательность участников. С помощью итеративной процедуры этот метод определяет общую оценку истинного качества каждой демонстрации, а также необъективность и последовательность каждого участника. Возможная интерпретация оцениваемого истинного качества каждой демонстрации – "средняя экспертная оценка, взвешенная по последовательности, без необъективности". По сравнению с последующим отсеиванием участников, описанным в разделе A1-2.3.1, которое либо сохраняет, либо отклоняет все решения участника ("жесткое отклонение"), этот метод можно охарактеризовать как "мягкое отклонение". То есть для "выпадающего" участника, который голосует непоследовательно, решения будут иметь небольшой вес и, следовательно, малый вклад в общую MOS. Побочным результатом этого метода является оценка необъективности и последовательности каждого участника. Это ценная информация о пригодности участника для проведения субъективных испытаний, поэтому ее возможно использовать для отбора участников для будущих испытаний. Например, если участник принимал крайне непоследовательные решения, он/она может быть исключен/исключена из будущих сессий.

Сначала определяются средние оценки для каждой демонстрации по всем участникам и повторам:

̅

=

1

 

 

,

(13)

 

 

 

 

=1

=1

 

 

 

 

 

 

 

 

 

 

 

где – оценка наблюдателя i для условия j, последовательности/изображения k, повтора r, N – число наблюдателей, R – количество повторов.

На втором этапе оценивается необъективность каждого наблюдателя следующим образом:

=

1

 

 

 

− ̅ ,

(14)

 

 

 

 

 

= 1

= 1

= 1

 

 

 

 

 

 

 

 

 

 

 

 

где J и K – количество условий и количество последовательностей, соответственно. Затем

выполняются следующие шаги в итерационном цикле.

 

 

 

 

Текущая оценка средней оценки по каждой демонстрации записывается как ̅

, то есть:

 

 

 

 

 

 

 

 

 

 

 

 

̅

= ̅

 

 

 

(15)

 

 

 

 

 

 

 

 

 

 

с последующим вычислением остатка в каждой полученной оценке, который не может быть объяснен средней оценкой и необъективностью наблюдателя:

 

=

 

− ̅

.

(16)

 

 

 

 

 

Соседние файлы в папке элементы