Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
37
Добавлен:
01.05.2014
Размер:
261.12 Кб
Скачать

Определение объема выборки при оценке среднего

Лучше всего мы сможем рассмотреть взаимозависимость базовых факторов, влияющих на определение объема выборки, на конкретном примере. Представьте, что департамент туризма некоего штата, находящегося на Среднем Западе, задался целью узнать средние годовые расходы рыболовов на питание и проживание во время их походов по территории штата. Мы как исследователи должны при помощи простой случайной выборки оценить среднегодовые расходы этих рыболовов, пользуясь списком лиц, получивших в течение года рыболовные лицензии. Центральная предельная теорема говорит о том, что распределение выборочных средних для выборок разумных размеров будет нормальным вне зависимости от распределения расходов в генеральной совокупности рыболовов. Рассмотрим выборочное распределение средних, показанное на диаграмме 17.1, для двух случаев: случай I, когда известна генеральная дисперсия, и случай II, когда генеральная дисперсия неизвестна.

СЛУЧАЙ I: ГЕНЕРАЛЬНАЯ ДИСПЕРСИЯ ИЗВЕСТНА

Дисперсия генеральной совокупности может быть известна из предыдущих обследований, хотя средние значения расходов на питание и проживание могут быть неизвестными, поскольку дисперсия обычно изменяется медленнее, чем уровень. Это означает, что размах распределения , заданного среднеквадратической ошибкой оценки известен с точностью до коэффициента пропорциональности квадратному корню из объема выборки, поскольку

Тем самым, мы получаем некоторое представление о первом ингредиенте при определении объема выборки — среднеквадратической ошибке оценки.

Предположим, что руководитель туристского департамента хочет, чтобы оценка находилась в интервале ± $25 от истинного генерального значения. Таким образом, общая точность будет составлять $50, а половинная точность, которую мы будем обозначать Н, составит $25. Мы будем иметь дело именно с Н, а не со всей длиной интервала, поскольку кривая нормального распределения симметрична относительно истинного генерального среднего. В результате этого вычисления упрощаются.

Нам остается определиться с доверительным уровнем результата. Пусть доверительный уровень того, что построенный исследователем интервал будет содержать в себе генеральное среднее, принят равным 95%. При этом 2 равно примерно 2.

Теперь мы имеем в своем распоряжении все данные, необходимые для определения объема выборки, поскольку известно, что для нормальной кривой интервал длиной в определенное число среднеквадратических отклонений от среднего включает определенную часть всех наблюдений. В нашем случае интервал в два среднеквадратических отклонения содержит 95 % всех наблюдений. Каждое наблюдение является выборочным средним, а распределение этих выборочных средних имеет центром генеральное среднее; два среднеквадратических отклонения — это (в общем случае). Заметьте, что среднеквадратическое отклонение для этого распределения служит среднеквадратической ошибкой среднего, поскольку рассматриваемое распределение является распределением выборочных средних. Коль скоро мы хотим, чтобы наша оценка отличалась от истинного генерального значения не более чем на $25 (H), мы можем уравнять размер заданного полуинтервала и количество среднеквадратических отклонений ().

(17.1)

Это уравнение (17.1) может быть разрешено относительно n, поскольку H и z заданы, а σ известна из предыдущих обследований. Соответственно

(17.2)

или

Например, пусть определенная прежде дисперсия генеральной совокупности равна $100. Тогда

Таким образом, для оценки среднего уровня расходов при среднеквадратическом отклонении $100 и заданной точности плюс или минус $25 достаточно взять сравнительно небольшую выборку.

Другой способ решения проблемы оценки заключается в построении номограммы уравнения и считывании с нее потребного объема выборки. Номограмма, или карта для статистического описания, является, по сути, графическим решением уравнения. При задании всех членов уравнения кроме одного последнее значение может быть считано с номограммы. Рис. 17.2 является номограммой уравнения 17.2 для доверительного уровня 95%. Поместив линейку (лучше всего воспользоваться прозрачной линейкой) на значения Н=25 и σ =100, мы можем считать объем выборки из соответствующего столбца. Для доверительного уровня 95% номограмма дает значение п=64.

Посмотрим, что произойдет при увеличении точности обследования в 2 раза: общая ширина требуемого интервала теперь будет равняться $25, а половина его или Н, соответственно, $12,5. И номограмма 17.2 и уравнение 17.2

дают значение п=256; то есть для увеличения точности в 2 раза объем выборки должен быть увеличен в 4 раза. Это соотношение выражает зависимость точности и объема выборки. При увеличении точности в с раз, объем выборки возрастает в с2 раз. Так, скажем, если бы заданная точность была равна не $50, а $10, точность оценки должна была бы вырасти в 5 раз (с=5), а объем выборки увеличился бы с 64 до 1600 (с2 =25).

За увеличение доверительного уровня также приходится платить. Предположим, мы задаемся не 95, а 99% доверительным уровнем. Мы можем воспользоваться номограммой, соответствующей 99% доверительному интервалу, показанной на диаграмме 17.3, или вычислить n, подставив в уравнение 17.2, z равное 3(а не2). Пусть, как и в предыдущем случае,H=25, σ =100. Тогда

в то время как при z, равном 2, п=64. Таким образом, при увеличении в d раз (в нашем примере d=3/2), объем выборки увеличивается в d2 раз (в нашем случае d2=9/4).

При всех вычислениях такого рода вы должны помнить о цене, которую придется платить за увеличение точности и достоверности результатов. С одной стороны, мы стремимся к получению очень точных и предельно достоверных результатов; с другой стороны, в реальном мире кому-то приходится подписывать счета, отражающие эти наши стремления.

СЛУЧАЙ II: ГЕНЕРАЛЬНАЯ ДИСПЕРСИЯ НЕИЗВЕСТНА

Мы разобрали ситуацию, при которой генеральная дисперсия известна. Но как быть в более типичном случае, когда она неизвестна? Процедура оценки объема выборки остается практически неизменной, но теперь вместо известного значения дисперсии мы используем оценочное значение генеральной дисперсии ст. Когда же выборка сформирована, при определении доверительных интервалов мы применим вместо первоначальной оценки дисперсии выборочную дисперсию.

Представьте, к примеру, что в нашем распоряжении нет результатов предыдущих исследований, по которым мы могли бы оценить генеральное среднеквадратическое отклонение о. Каким же образом мы можем это сделать? Необходимо провести предварительное исследование. Порой первичная ситуативная оценка дисперсии может производиться при постановке проблемы. Исследовательское окно 17.1 дает пример подобной оценки дисперсии в ситуации, когда для определения важных переменных используется шкала оценок. Третья возможность заключается в учете того обстоятельства, что для величины с нормальным распределением область изменения примерно равна плюс-минус трем среднеквадратическим отклонениям. Таким образом, если мы способны определить область изменения, тем самым мы можем путем деления на 6 определить и среднеквадратическое отклонение. Даже небольшой запас априорной информации об изучаемом феномене может позволить нам определить его область изменения. Ошибочная оценка скажется на точности доверительного интервала, которая может измениться и в большую, и в меньшую сторону. Проиллюстрируем сказанное примером.

Разумеется, некоторое число рыболовов не расходует на питание и проживание никаких средств, поскольку выезжает только на день. Другие совершают несколько недельных поездок в год. Предположим, что 15 дней в году — это типичный верхний предел пребывания на рыбалке; ежедневные же расходы составляют около $30 долларов в неделю, то есть верхний денежный предел равен $450. Область изменения этой величины также равна $450 (так как потратить менее $0 невозможно), а расчетное среднеквадратическое отклонение составляет 450/6=75.

При заданной точности ±$25 и 95% доверительном интервале объем выборки равен

Итак, будет отобрана выборка объемом 36 элементов. Предположим, что произведенные наблюдения дадут выборочное среднее =35 и среднеквадратическое выборочное отклонение =60. Доверительный интервал определяется так же, как и прежде — выборочное среднее ± z (среднеквадратическая ошибка среднего), где среднеквадратическая ошибка среднего определяется по среднеквадратическому отклонению выборки или или

или

Обратите внимание на произошедшее. Заданная точность составляла ±$25 долларов; полученная точность равна ±$20. Интервал оказался уже, чем планировалось (выигрыш), поскольку наша оценка генерального среднеквадратического отклонения по выборочному была завышенной. Если бы эта оценка была заниженной, доверительный интервал оказался бы шире заданного.

МНОГОЦЕЛЕВЫЕ НАБЛЮДЕНИЯ

Исследователи редко занимаются обследованием только одного параметра. Обычно обследования носят комплексный многоцелевой характер. Предположим, что исследователю необходимо определить также годовые расходы рыболовов на снасти и снаряжение и расстояние, которое они преодолевают за время рыбалок. Теперь нам надлежит определить уже не одну, но три средних величины. Допустим, каждая из них должна иметь 95% доверительный уровень; потребная же абсолютная точность и среднеквадратическое отклонение заданы в табл. 17.1. В этой же таблице содержатся объемы выборок, потребные для оценки каждой величины, которые были рассчитаны по формуле 17.2.

Таблица 17.1

Объем выборки, потребный для оценки каждого из трех средних

Показатель

Расходы на питание и проживание, $

Расходы на снасти и снаряжение, $

Пройденное расстояние, мили

Доверительный уровень

95% (z = 2)

95% (z = 2)

95% (z = 2)

Заданная точность

±25

±10

±100

Среднекв. отклонение

±75

±20

±500

Потребный объем выборки

36

16

100

Для каждой из трех оцениваемых величин мы получаем свое значение объема выборки. В зависимости от величины объем выборки п должен быть равным 36,16 или 100. Исследователю придется каким-то образом согласовать три этих значения, так чтобы принятый им объем выборки отвечал бы разом всем поставленным задачам. При консервативном подходе мы должны выбрать самое большое значение п=100. Тем самым мы гарантируем нужную точность оценки каждой величины при условии, что оценки среднеквадратических отклонений были корректными.

Рассмотрим ситуацию, когда наименее критичной из трех оцениваемых величин будет расстояние, проходимое рыболовами. В таком случае мы можем сэкономить на обследовании, задавшись выборкой меньшего объема. Оптимальный подход при подобных ситуациях состоит в выделении наиболее критичных величин и в соответствующем заданной точности и достоверности их определения выборе объема выборки. Величины, оценка которых требует большего объема выборки, в этом случае будут оцениваться с меньшей точностью или достоверностью, нежели планировалось. Предположим, что наиболее критичным показателем является уровень расходов, что побудило аналитика остановиться на значении объема выборки, равном 36. Предположим также, что эта выборка, состоящая из 36 рыболовов, дает выборочное среднее =300 миль и выборочное отклонение =500 миль. В данном случае результат выборки согласуется с первичной оценкой генерального среднеквадратического

отклонения и, соответственно, неточность никак не сказывается на доверительном интервале.

Используя стандартное выражение для определения величины доверительного интервала — выборочное среднее ±z (среднеквадратическая ошибка среднего) — получаем

Или . В то время как заданная точность составляла ±100 миль, полученная точность равна ± 166,7 миль. Для получения нужной точности оценки доверительный уровень следует сделать меньше нынешнего 95% уровня.

Соседние файлы в папке Часть 5