978-966-10-2413-6_Matematuka 11_rus
.pdfВыборочный метод в статистике |
451 |
сле все значения совокупности. В этом случае пренебрегают отличиями, существующими между отдельными значениями. Для измерения вариации значений внутри совокупности нуж- ны другие показатели. Одним из них является размах.
Размах измеряет на числовой шкале расстояние, в пределах которого изменяются значения совокупности.
Размах — это разность между максимальным и ми- нимальным значениями в совокупности.
Размах обозначается через w.
Например, по данным таблицы 53 w = 185 – 121 = 64. Преимуществом этого показателя является очевидная просто-
та его вычисления. Но часто он дает лишь очень приближенную характеристику вариации. Это особенно проявляется в случае достаточно многочисленной совокупности, когда подавляющее большинство значений сгруппированы около некоторой средней величины, и только некоторые из них в силу случайных причин имеют значения (наибольшее и наименьшее), существенно отли- чающиеся от основной массы. При этом размах вариации будет значительным, а вариация в сущности мала. Дело в том, что при его вычислении не учитывается каждое отдельное значение.
Охарактеризуем детальнее рассмотренные ста-
тистические характеристики. Сущность среднего
арифметического состоит в следующем. Если ка- ждое наблюдение заменить средним, то общая сум- ма результатов наблюдений не изменится. Это среднее можно
интерпретировать еще и так: если все наблюдения равны друг другу, а сумма наблюдений останется неизменной, то каждое на- блюдение будет равняться среднему. Так как среднее сохраняет неизменной сумму при равномерном распределении значений, то оно наиболее полезно в качестве обобщающего показателя при отсутствии резко выделяющихся наблюдений, то есть когда набор данных представляет собой более-менее однородную группу.
Обратите внимание именно на требование однородности ста- тистических данных при использовании среднего арифметиче- ского для ее характеристики. Русский писатель Глеб Успенский (1843–1902) однажды метко спародировал «усреднение», согласно которому миллионер Колотушкин и проскурняк Кукушкин, име- ющий один грош, владеют, в среднем, по полумиллиону.
452 Раздел7.Элементытеориивероятностей иматематическойстатистики
Медиана — это такое значение, которое приходится на середи- ну совокупности данных: половина значений меньше медианы, а другая половина — больше. На медиану влияют лишь централь- ные, серединные участки совокупности данных. Если концы ряда определены ненадежно, то это исказит среднее арифметическое, зависящее от всех вариант и их частот. Поэтому в подобных слу- чаях следует отдавать предпочтение медиане.
Среднее арифметическое, как и другие показатели централь- ной тенденции, могут использоваться для сравнения соответству- ющих признаков.
Пример 6. По данным, приведенным в таблице 60, выяснить, в каком году, 2008-ом или 2009-ом, были лучшими результаты те- стирования по математике выпускников школ нашей страны.
Таблица 60
|
|
|
|
|
|
|
|
|
|
|
|
Год |
|
|
|
|
2008 |
|
|
|
|
||
Количество |
100– |
124– |
136– |
151– |
162– |
173– |
184– |
191– |
196– |
200 |
|
баллов |
123 |
135 |
150 |
161 |
172 |
183 |
190 |
195 |
199 |
|
|
% тех, кто |
|
|
|
|
|
|
|
|
|
|
|
принимал |
4,6 |
14,0 |
29,3 |
22,9 |
14,7 |
9,2 |
3.3 |
1,3 |
0,7 |
0,1 |
|
участие в |
|||||||||||
|
|
|
|
|
|
|
|
|
|
||
тестировании |
|
|
|
|
|
|
|
|
|
|
|
Год |
|
|
|
|
2009 |
|
|
|
|
||
Количество |
100– |
124– |
135,5– |
150,5– |
160,5– |
170,5– |
180,5– |
190,5– |
195,5– |
200 |
|
баллов |
123,5 |
135 |
150 |
160 |
170 |
180 |
190 |
195 |
199,5 |
||
% тех, кто |
|
|
|
|
|
|
|
|
|
|
|
принимал |
9,63 |
14,43 |
23,15 |
19,86 |
16,40 |
8,87 |
5,49 |
1,19 |
0,80 |
0,18 |
|
участие в |
|||||||||||
|
|
|
|
|
|
|
|
|
|
||
тестировании |
|
|
|
|
|
|
|
|
|
|
Только глядя на данные, представленные в таблице, нель- зя дать ответ на поставленный вопрос. Попробуем это сделать с помощью среднего арифметического. Среднее количество баллов, набранных выпускниками в 2008 году, равно:
x1 = 1001 (111,5 4,6 +129,5 14,0 +143 29,3 +156 22,9 +167 14,7 +
+178 9,2 +187 3,3 +193 1,3 +197,5 0,7 + 200 0,1) = 152,1.
Среднее количество баллов, набранных выпускниками в 2009 году, равно:
x1 = 1001 (111,75 9,63 +129,5 14,43 +142,75 23,15 +155,25 19,86 +
+165,25 16,4 +175,25 8,87 +185,25 5,49 +192,75 1,19 +197,5 0,80 +
+200 0,18) = 150,4.
Выборочный метод в статистике |
453 |
По этим результатам можно сделать следующий вывод: в 2009 году результаты тестирования оказались несколько ниже показа- телей 2008 года. Но разница небольшая, она может быть в преде- лах погрешности измерений. Кроме того, данные за разные годы приведены с различной точностью. Следовательно, этих данных не хватает для сравнения результатов тестирования. g
99 Контрольные вопросы
1.Что нужно знать, кроме среднего числа отказов приборов, что- бы оценить общее количество их отказов?
2.Нужно выяснить потребность населения некоторого города в определенном товаре. Как может помочь понятие среднего арифметического в решении этой проблемы?
Вследствие дорожно-транспортных происшествий в среднем 61% погибших составляют водители-любители, 15% — пешехо- ды, 15 % — мотоциклисты, 5% — водители грузовых или служеб- ных машин, 4% — велосипедисты. Какая из статистических ха- рактеристик лучше всего характеризует ситуацию на дорогах? По окончании олимпиады подсчитаны баллы, набранные ее 20 участниками, определены места, занятые ими. Какой смысл имеет медиана полученной совокупности?
Собраны данные о тарифном разряде рабочих цеха. Среди них 4 рабочих имеют первый разряд, 6 — второй, 12 — третий, 16 — четвертый, 44 — пятый и 18 рабочих — шестой. Чему равны мода и медиана приведенной совокупности? Каков их смысл?
4. Сущность выборочного метода
В предыдущих параграфах мы видели, что вероят- ность случайного события часто нельзя установить с помощью теоретических рассуждений, приходит-
ся ее оценивать по результатам экспериментов. В качестве при- ближенного значения вероятности события принимают ее относи- тельную частоту:
P( A) ≈ ν( A) = n(nA) ,
где п — общее число опытов, п(А) — число тех опытов, в которых наступило событие А.
Здесь мы использовали результаты большого количества не- зависимых экспериментов, которые проведены примерно в оди-
454 Раздел7.Элементытеориивероятностей иматематическойстатистики
наковых условиях. Такая совокупность наблюдений называется
выборкой из результатов эксперимента.
Для описания выборки часто используют ее статистические ха- рактеристики (среднее арифметическое, моду, медиану). Их на-
зывают еще выборочными характеристиками.
Необходимость проведения выборочных обследований может быть вызвана разными причинами. В некоторых случаях полное обсле- дование изучаемого явления является дорогим и очень длитель- ным. Невозможно оценить качество большой партии зерна. О ней судят по нескольким небольшим меркам, взятым из разных мест оцениваемой партии. Иногда возможность использовать получен- ную информацию при полном обследовании может исчерпаться раньше, чем завершится процесс его подготовки. Измерение роста всех призывников с целью обеспечения соответствующей информа- цией швейных объединений, изготовляющих солдатскую форму оде- жды, — мероприятие бессмысленное. Сбор этой информации обой- дется очень дорого, потребуется много времени, а сама информация практически будет устаревшей. В связи с этим о распределении роста всех призывников судят по некоторой выборке наблюдений, достаточно представительной и правильно организованной. Иногда в результате проверки качества изделия происходит уничтожение исследуемого объекта. Например, электролампы проверяют на дли- тельность горения, вплоть до выхода их из строя. Если бы так же ис- пытывались все изготовленные лампы, то пришлось бы уничтожить всю произведенную продукцию. Поэтому для установления среднего времени горения лампы обследуют лишь некоторую ограниченную часть всех ламп.
Генеральная совокупность – это набор объектов, о которых не- обходимо получить информацию.
Выборка – это небольшой набор объектов, которые выбирают из генеральной совокупности.
Если нужно оценить какие-то параметры генеральной совокупно- сти, можно вычислить соответствующие параметры специально ор- ганизованной выборки и принять их в качестве оценок параметров генеральной совокупности. Так, мы видели, что относительная часто- та служит оценкой вероятности события. Выборочное среднее являет- ся оценкой среднего значения всей совокупности. Мода, найденная по выборке, приближенно равна значению генеральной совокупно- сти, которое встречается чаще всего. Выборочная медиана близка к элементу генеральной совокупности, делящему ее пополам. То же
Выборочный метод в статистике |
455 |
касается и размаха. Но для того, чтобы выборочные характеристики приближенно равнялись соответствующим характеристикам гене- ральной совокупности, выборка должна удовлетворять определен- ным требованиям.
Во-первых, выборка должна быть достаточно боль- шого объема. Нельзя утверждать, что три четверти жителей Одессы по утрам пьют кофе на основании того, что из четырех одесситов, которых мы рано
утром встретили в кафе, трое пили кофе.
Во-вторых, нужны такие способы построения выборки, которые представляли бы всю генеральную совокупность, то есть чтобы вы- борка быларепрезентативной(представительной). Для создания репрезентативной выборки целесообразно иметь перечень эле- ментов генеральной совокупности и из него каким-то случайным образом организовывать выборку. Информация, полученная в результате построения выборки, будет только тогда надежной ос- новой для принятия решения относительно тех или иных свойств генеральной совокупности, когда структура элементов, образу- ющих выборку, будет аналогичной структуре элементов в гене- ральной совокупности.
Случайной является выборка, в которую с одинако- выми шансами может попасть каждый отдельный элемент и каждая комбинация отдельных элемен- тов, принадлежащих начальной совокупности.
Ярким примером неудачи в истории применения выборочного метода являются результаты опроса, проведенного в 1936 году аме- риканским журналом “Literary Digest”. Редакция журнала разо- слала 10 млн. бюллетеней, в которых просила людей, получивших их, ответить, за кого они будут голосовать на будущих выборах – за кандидата от республиканской партии А. Лендона или за демократа Ф. Рузвельта. Возвратилось более 2 млн. заполненных бюллетеней. Опубликованные в журнале результаты опроса предсказывали, что президентом станет А. Лендон. Однако оказалось, что с большим преимуществом победу на выборах одержал Ф. Рузвельт, за которо- го проголосовало больше 60% избирателей. Причина такой сущест- венной ошибки журнала кроется в том, что полученная в резуль- тате проведения опроса выборка, на данных которой основывался прогноз, не была репрезентативной выборкой из генеральной сово-
456 Раздел7.Элементытеориивероятностей иматематическойстатистики
купности избирателей. Бюллетени были разосланы подписчикам журнала, людям, чьи фамилии и адреса были взяты из телефонных справочников, а также владельцам автомобилей. Следовательно, в выборке очень мало были представлены менее зажиточные люди, которые в своей массе поддерживали «новый курс» Ф. Рузвельта. Кроме того, ответы прислали не все, а люди, не только достаточно уверенные в своем мнении, но и привыкшие отвечать на письма, то есть в значительной мере представители делового мира, которые и поддерживали А. Лендона.
К основным задачам статистики обычно относят оценивание по выборке неизвестных параметров и проверку статистических гипотез. Рассмотрим на примерах эти задачи.
Пример 7. Ихтиолог хотел определить количество рыбы в пруду, пригодной для отлова. Для этого он забросил сетку с за- ранее заданными размерами ячеек и, вытянув ее, обнаружил 30 рыбин. Пометив каждую из них, он возвратил всю рыбу назад в пруд. На следующий день ихтиолог в том же месте забросил ту же сетку и поймал 40 рыбин, на двух из которых были его метки. Как он по таким данным найдет примерное количество рыбин в пруду, пригодных для отлова?
Пусть в пруду N рыбин, тогда вероятность события «наугад взятая рыба — мечена» равна 30N (по классическому определе-
нию вероятности).
Здесь генеральной совокупностью является совокупность всех рыб в пруду, неизвестным параметром — общее количество рыб в водоеме, или вероятность отлова меченой рыбы, выборкой – рыбы, пойманные во второй раз. На основе данных выборки мож- но вычислить долю меченых рыб среди отловленных. Эта величи- на случайна, в конкретном опыте она принимает определенное значение.
Согласно результатам 40 опытов (опытом считаем отлов одной рыбины), проведенных на следующий день, можно подсчитать от-
носительную частоту этого события. Она равна 402 = 201 . Имеем
приближенное равенство 30N » 201 . Отсюда N ≈ 600.
Почему рассматриваемые опыты можно считать статистически устойчивыми? Или можно ли считать полученную выборку репре-
Выборочный метод в статистике |
457 |
зентативной? Повысили репрезентативность выборки мы тем, что второй отлов рыб проводился той же сеткой, что и первый, причем она забрасывалась не сразу по возвращении рыб в водоем (ина- че меченые рыбы не успеют перемешаться с другими) и не через длительное время (иначе может состояться нерест рыб или сброс вредных отходов в пруд: и то, и другое существенно повлияют на общее количество рыб в водоеме), а на следующий день, в том же месте. g
По выборке в примере 7 оценивалась неизвестная величина — количество рыб в водоеме. По результатам, полученным для вы- борки, делался вывод относительно генеральной совокупности.
Человеку часто приходится принимать то или иное решение. У большинства принятых решений есть элемент риска. Во мно- гих случаях статистика может существенно помочь в обосновании принятия того или другого решения. Например, принятию реше- ния о переходе на новую технологию производства какого-то из- делия должна предшествовать экспериментальная проверка этой технологии, сбор необходимой информации, ее обработка, провер- ка того, говорят ли собранные данные в пользу новой техноло- гии. Аналогично, перед введением нового учебника в школу, при изменении содержания обучения по какому-то предмету должна проводиться апробация учебника, проверка необходимости и воз- можности изменения содержания обучения. На основе собранной информации должно приниматься решение, какой из выдвину- тых гипотез следует отдать предпочтение.
Рассмотрим пример. Пусть кто-то высказал предположение о том, что монета, с помощью которой футбольный судья проводит жеребьевку, не является правильной. Тогда проводится экспери- мент: эту монету подбрасывают, например, 100 раз и фиксируют, сколько раз выпал герб. Если герб выпал, скажем, 30 раз, а циф- ра — 70 раз, то это говорит в пользу того, что монета является не- правильной, и гипотезу о том, что она правильна, следует откло- нить. Если же герб выпал 45 раз, а цифра — 55 раз, то у нас нет оснований для отклонения гипотезы о том, что монета является правильной. Возникает вопрос, а где та граница для количест- ва выпадений герба, начиная с которой гипотезу о правильности монеты следует отклонять. Ответ на него дает математическая статистика.
458 Раздел7.Элементытеориивероятностей иматематическойстатистики
99 Контрольные вопросы
1°. В чем заключается польза применения выборок?
2°. Почему прибегают к выборочному контролю качества ампул для инъекций?
3°. Являются ли результаты переписи населения в стране гене- ральной совокупностью или выборкой для исследования фак- торов, присущих населению страны; мира?
4. Почему при определении средних характеристик некоторо- го биологического рода берут достаточно большое количество особей и проводят соответствующие измерения?
Задачи
398.Ниже приведены размеры проданной в магазине мужской обуви: 41; 39; 40; 38; 43; 41; 42; 40; 38; 41; 42; 41; 40; 42; 39; 41; 41; 36; 43; 41; 42; 38; 41; 40; 42; 41; 42; 42; 42; 40; 41; 41; 39; 42; 40; 40; 39; 41; 39; 38; 40; 41; 41; 40; 40; 39; 42; 40; 43; 37; 40; 42; 43; 42; 38; 40; 40; 41; 41; 41; 40; 43; 42; 42; 39; 43; 41; 40; 43; 41; 42; 42; 39; 41; 43; 42; 41; 42; 40; 37.
1°) Упорядочьте эти данные по возрастанию, подсчитайте частоты, относительные частоты значений, запишите дис- кретный вариационный ряд.
2°) Постройте интервальный вариационный ряд, включив в каждый интервал по два размера обуви.
3°) Постройте полигон частот и гистограмму.
4)Какая из выборочных характеристик лучше всего описы- вает средние показатели этой совокупности? Определите ее значение.
399.На диаграмме (рис. 361) приведены данные о рождаемости и смертности в 8 наибольших городах Украины.
1°) Выпишите эти данные отдельно для рождаемости и смертности.
2°) Упорядочьте первые данные по убыванию, вторые — по возрастанию.
3°) Вычислите по этим данным средние арифметические, медианы, размахи.
4)Можно ли принять эти выборочные характеристики в ка- честве оценок соответствующих характеристик рождаемости и смертности во всей Украине?
Выборочный метод в статистике |
459 |
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
400.В таблице 61 приведены данные о массе новорожденных при рождении.
Таблица 61
|
|
|
|
|
|
|
|||||
Мас- |
1000- |
1500- |
20002500300035004000- |
4500- |
5000- |
Всего |
|||||
са, г |
1500 |
2000 |
2500 |
3000 |
3500 |
4000 |
4500 |
5000 |
5500 |
|
|
К-тво |
84 |
205 |
502 |
1723 |
3752 |
2747 |
852 |
124 |
11 |
10000 |
|
детей |
|||||||||||
|
|
|
|
|
|
|
|
|
|
1)Вычислите относительные частоты и накопленные отно- сительные частоты.
2)Постройте по этим данным гистограмму и кумулятивную кривую.
401.Контрольная работа десяти учащихся проверялась дву- мя учителями и оценивалась ими по двенадцатибалльной шкале. Результаты оценивания представлены в таблице 62.
|
|
|
|
|
|
|
|
Таблица 62 |
||
№ ученика |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
|
|
|
|
|
|
|
|
|
|
Первый учитель |
7 |
11 |
6 |
8 |
3 |
10 |
8 |
5 |
7 |
10 |
Второй учитель |
5 |
12 |
6 |
7 |
2 |
11 |
9 |
3 |
6 |
10 |
Какой из учителей более строгий?
402. Вычислите моду и медиану по данным таблицы 63, в ко- торой приведены данные об успеваемости по математике
460 Раздел7.Элементытеориивероятностей иматематическойстатистики
100 учащихся 7-х классов (успеваемость оценивается по 12-балльной шкале).
|
|
|
|
|
|
|
|
|
Таблица 63 |
|||
Количество баллов |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Количество учеников |
3 |
4 |
4 |
9 |
11 |
12 |
18 |
14 |
9 |
8 |
6 |
2 |
Какое смысл имеет каждая из вычисленных характеристик?
403°. Какая из приведенных ниже выборок будет наиболее репре- зентативной для совокупности всех зарегистрированных из- бирателей Украины?
1) Случайная выборка из 1000 избирателей г. Винницы. 2) Случайная выборка из 1000 студентов Харьковского уни- верситета.
3) Выборка из 1000 лиц, образовавшаяся на основе случай- ных телефонных номеров.
4) Выборка из 1000 лиц — сторонников одной политической силы.
404°. Была ли выборка репрезентативной, если при изучении времени, затрачиваемого на выполнение уроков десяти- классниками 1) опрашивали только девочек;
2) опросы проводили только по средам;
3) опрашивали учащихся лицеев;
4) опрашивали только неуспевающих?
405°. В ходе опроса предстоит выяснить отношение жителей региона к введению внешнего независимого оценивания. Какие категории жителей должны быть включены, с вашей точки зрения, в выборку, которая для этого опроса составля- ется?
406°. Для определения количества собак в городе, больных чум- кой, из всех бездомных собак города образовали две выбор- ки: 1) одна собачья стая; 2) по несколько случайно отловлен- ных из каждого района города собак. Какую из них можно считать репрезентативной?
407.Обозначим неизвестное количество овец в отаре через N. Из этой отары наугад отбирают М овец, которые потом клей- мятся и возвращаются в отару. В следующий раз отбираются