Добавил:
researchgate.net Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

978-966-10-2413-6_Matematuka 11_rus

.pdf
Скачиваний:
20
Добавлен:
24.03.2018
Размер:
10.66 Mб
Скачать

Выборочный метод в статистике

451

сле все значения совокупности. В этом случае пренебрегают отличиями, существующими между отдельными значениями. Для измерения вариации значений внутри совокупности нуж- ны другие показатели. Одним из них является размах.

Размах измеряет на числовой шкале расстояние, в пределах которого изменяются значения совокупности.

Размах — это разность между максимальным и ми- нимальным значениями в совокупности.

Размах обозначается через w.

Например, по данным таблицы 53 w = 185 – 121 = 64. Преимуществом этого показателя является очевидная просто-

та его вычисления. Но часто он дает лишь очень приближенную характеристику вариации. Это особенно проявляется в случае достаточно многочисленной совокупности, когда подавляющее большинство значений сгруппированы около некоторой средней величины, и только некоторые из них в силу случайных причин имеют значения (наибольшее и наименьшее), существенно отли- чающиеся от основной массы. При этом размах вариации будет значительным, а вариация в сущности мала. Дело в том, что при его вычислении не учитывается каждое отдельное значение.

Охарактеризуем детальнее рассмотренные ста-

тистические характеристики. Сущность среднего

арифметического состоит в следующем. Если ка- ждое наблюдение заменить средним, то общая сум- ма результатов наблюдений не изменится. Это среднее можно

интерпретировать еще и так: если все наблюдения равны друг другу, а сумма наблюдений останется неизменной, то каждое на- блюдение будет равняться среднему. Так как среднее сохраняет неизменной сумму при равномерном распределении значений, то оно наиболее полезно в качестве обобщающего показателя при отсутствии резко выделяющихся наблюдений, то есть когда набор данных представляет собой более-менее однородную группу.

Обратите внимание именно на требование однородности ста- тистических данных при использовании среднего арифметиче- ского для ее характеристики. Русский писатель Глеб Успенский (1843–1902) однажды метко спародировал «усреднение», согласно которому миллионер Колотушкин и проскурняк Кукушкин, име- ющий один грош, владеют, в среднем, по полумиллиону.

452 Раздел7.Элементытеориивероятностей иматематическойстатистики

Медиана — это такое значение, которое приходится на середи- ну совокупности данных: половина значений меньше медианы, а другая половина — больше. На медиану влияют лишь централь- ные, серединные участки совокупности данных. Если концы ряда определены ненадежно, то это исказит среднее арифметическое, зависящее от всех вариант и их частот. Поэтому в подобных слу- чаях следует отдавать предпочтение медиане.

Среднее арифметическое, как и другие показатели централь- ной тенденции, могут использоваться для сравнения соответству- ющих признаков.

Пример 6. По данным, приведенным в таблице 60, выяснить, в каком году, 2008-ом или 2009-ом, были лучшими результаты те- стирования по математике выпускников школ нашей страны.

Таблица 60

 

 

 

 

 

 

 

 

 

 

 

Год

 

 

 

 

2008

 

 

 

 

Количество

100–

124–

136–

151–

162–

173–

184–

191–

196–

200

баллов

123

135

150

161

172

183

190

195

199

 

% тех, кто

 

 

 

 

 

 

 

 

 

 

принимал

4,6

14,0

29,3

22,9

14,7

9,2

3.3

1,3

0,7

0,1

участие в

 

 

 

 

 

 

 

 

 

 

тестировании

 

 

 

 

 

 

 

 

 

 

Год

 

 

 

 

2009

 

 

 

 

Количество

100–

124–

135,5–

150,5–

160,5–

170,5–

180,5–

190,5–

195,5–

200

баллов

123,5

135

150

160

170

180

190

195

199,5

% тех, кто

 

 

 

 

 

 

 

 

 

 

принимал

9,63

14,43

23,15

19,86

16,40

8,87

5,49

1,19

0,80

0,18

участие в

 

 

 

 

 

 

 

 

 

 

тестировании

 

 

 

 

 

 

 

 

 

 

Только глядя на данные, представленные в таблице, нель- зя дать ответ на поставленный вопрос. Попробуем это сделать с помощью среднего арифметического. Среднее количество баллов, набранных выпускниками в 2008 году, равно:

x1 = 1001 (111,5 4,6 +129,5 14,0 +143 29,3 +156 22,9 +167 14,7 +

+178 9,2 +187 3,3 +193 1,3 +197,5 0,7 + 200 0,1) = 152,1.

Среднее количество баллов, набранных выпускниками в 2009 году, равно:

x1 = 1001 (111,75 9,63 +129,5 14,43 +142,75 23,15 +155,25 19,86 +

+165,25 16,4 +175,25 8,87 +185,25 5,49 +192,75 1,19 +197,5 0,80 +

+200 0,18) = 150,4.

Выборочный метод в статистике

453

По этим результатам можно сделать следующий вывод: в 2009 году результаты тестирования оказались несколько ниже показа- телей 2008 года. Но разница небольшая, она может быть в преде- лах погрешности измерений. Кроме того, данные за разные годы приведены с различной точностью. Следовательно, этих данных не хватает для сравнения результатов тестирования. g

99 Контрольные вопросы

1.Что нужно знать, кроме среднего числа отказов приборов, что- бы оценить общее количество их отказов?

2.Нужно выяснить потребность населения некоторого города в определенном товаре. Как может помочь понятие среднего арифметического в решении этой проблемы?

Вследствие дорожно-транспортных происшествий в среднем 61% погибших составляют водители-любители, 15% — пешехо- ды, 15 % — мотоциклисты, 5% — водители грузовых или служеб- ных машин, 4% — велосипедисты. Какая из статистических ха- рактеристик лучше всего характеризует ситуацию на дорогах? По окончании олимпиады подсчитаны баллы, набранные ее 20 участниками, определены места, занятые ими. Какой смысл имеет медиана полученной совокупности?

Собраны данные о тарифном разряде рабочих цеха. Среди них 4 рабочих имеют первый разряд, 6 — второй, 12 — третий, 16 — четвертый, 44 — пятый и 18 рабочих — шестой. Чему равны мода и медиана приведенной совокупности? Каков их смысл?

4. Сущность выборочного метода

В предыдущих параграфах мы видели, что вероят- ность случайного события часто нельзя установить с помощью теоретических рассуждений, приходит-

ся ее оценивать по результатам экспериментов. В качестве при- ближенного значения вероятности события принимают ее относи- тельную частоту:

P( A) ≈ ν( A) = n(nA) ,

где п — общее число опытов, п(А) — число тех опытов, в которых наступило событие А.

Здесь мы использовали результаты большого количества не- зависимых экспериментов, которые проведены примерно в оди-

454 Раздел7.Элементытеориивероятностей иматематическойстатистики

наковых условиях. Такая совокупность наблюдений называется

выборкой из результатов эксперимента.

Для описания выборки часто используют ее статистические ха- рактеристики (среднее арифметическое, моду, медиану). Их на-

зывают еще выборочными характеристиками.

Необходимость проведения выборочных обследований может быть вызвана разными причинами. В некоторых случаях полное обсле- дование изучаемого явления является дорогим и очень длитель- ным. Невозможно оценить качество большой партии зерна. О ней судят по нескольким небольшим меркам, взятым из разных мест оцениваемой партии. Иногда возможность использовать получен- ную информацию при полном обследовании может исчерпаться раньше, чем завершится процесс его подготовки. Измерение роста всех призывников с целью обеспечения соответствующей информа- цией швейных объединений, изготовляющих солдатскую форму оде- жды, — мероприятие бессмысленное. Сбор этой информации обой- дется очень дорого, потребуется много времени, а сама информация практически будет устаревшей. В связи с этим о распределении роста всех призывников судят по некоторой выборке наблюдений, достаточно представительной и правильно организованной. Иногда в результате проверки качества изделия происходит уничтожение исследуемого объекта. Например, электролампы проверяют на дли- тельность горения, вплоть до выхода их из строя. Если бы так же ис- пытывались все изготовленные лампы, то пришлось бы уничтожить всю произведенную продукцию. Поэтому для установления среднего времени горения лампы обследуют лишь некоторую ограниченную часть всех ламп.

Генеральная совокупность – это набор объектов, о которых не- обходимо получить информацию.

Выборка – это небольшой набор объектов, которые выбирают из генеральной совокупности.

Если нужно оценить какие-то параметры генеральной совокупно- сти, можно вычислить соответствующие параметры специально ор- ганизованной выборки и принять их в качестве оценок параметров генеральной совокупности. Так, мы видели, что относительная часто- та служит оценкой вероятности события. Выборочное среднее являет- ся оценкой среднего значения всей совокупности. Мода, найденная по выборке, приближенно равна значению генеральной совокупно- сти, которое встречается чаще всего. Выборочная медиана близка к элементу генеральной совокупности, делящему ее пополам. То же

Выборочный метод в статистике

455

касается и размаха. Но для того, чтобы выборочные характеристики приближенно равнялись соответствующим характеристикам гене- ральной совокупности, выборка должна удовлетворять определен- ным требованиям.

Во-первых, выборка должна быть достаточно боль- шого объема. Нельзя утверждать, что три четверти жителей Одессы по утрам пьют кофе на основании того, что из четырех одесситов, которых мы рано

утром встретили в кафе, трое пили кофе.

Во-вторых, нужны такие способы построения выборки, которые представляли бы всю генеральную совокупность, то есть чтобы вы- борка быларепрезентативной(представительной). Для создания репрезентативной выборки целесообразно иметь перечень эле- ментов генеральной совокупности и из него каким-то случайным образом организовывать выборку. Информация, полученная в результате построения выборки, будет только тогда надежной ос- новой для принятия решения относительно тех или иных свойств генеральной совокупности, когда структура элементов, образу- ющих выборку, будет аналогичной структуре элементов в гене- ральной совокупности.

Случайной является выборка, в которую с одинако- выми шансами может попасть каждый отдельный элемент и каждая комбинация отдельных элемен- тов, принадлежащих начальной совокупности.

Ярким примером неудачи в истории применения выборочного метода являются результаты опроса, проведенного в 1936 году аме- риканским журналом “Literary Digest”. Редакция журнала разо- слала 10 млн. бюллетеней, в которых просила людей, получивших их, ответить, за кого они будут голосовать на будущих выборах – за кандидата от республиканской партии А. Лендона или за демократа Ф. Рузвельта. Возвратилось более 2 млн. заполненных бюллетеней. Опубликованные в журнале результаты опроса предсказывали, что президентом станет А. Лендон. Однако оказалось, что с большим преимуществом победу на выборах одержал Ф. Рузвельт, за которо- го проголосовало больше 60% избирателей. Причина такой сущест- венной ошибки журнала кроется в том, что полученная в резуль- тате проведения опроса выборка, на данных которой основывался прогноз, не была репрезентативной выборкой из генеральной сово-

456 Раздел7.Элементытеориивероятностей иматематическойстатистики

купности избирателей. Бюллетени были разосланы подписчикам журнала, людям, чьи фамилии и адреса были взяты из телефонных справочников, а также владельцам автомобилей. Следовательно, в выборке очень мало были представлены менее зажиточные люди, которые в своей массе поддерживали «новый курс» Ф. Рузвельта. Кроме того, ответы прислали не все, а люди, не только достаточно уверенные в своем мнении, но и привыкшие отвечать на письма, то есть в значительной мере представители делового мира, которые и поддерживали А. Лендона.

К основным задачам статистики обычно относят оценивание по выборке неизвестных параметров и проверку статистических гипотез. Рассмотрим на примерах эти задачи.

Пример 7. Ихтиолог хотел определить количество рыбы в пруду, пригодной для отлова. Для этого он забросил сетку с за- ранее заданными размерами ячеек и, вытянув ее, обнаружил 30 рыбин. Пометив каждую из них, он возвратил всю рыбу назад в пруд. На следующий день ихтиолог в том же месте забросил ту же сетку и поймал 40 рыбин, на двух из которых были его метки. Как он по таким данным найдет примерное количество рыбин в пруду, пригодных для отлова?

Пусть в пруду N рыбин, тогда вероятность события «наугад взятая рыба — мечена» равна 30N (по классическому определе-

нию вероятности).

Здесь генеральной совокупностью является совокупность всех рыб в пруду, неизвестным параметром — общее количество рыб в водоеме, или вероятность отлова меченой рыбы, выборкой – рыбы, пойманные во второй раз. На основе данных выборки мож- но вычислить долю меченых рыб среди отловленных. Эта величи- на случайна, в конкретном опыте она принимает определенное значение.

Согласно результатам 40 опытов (опытом считаем отлов одной рыбины), проведенных на следующий день, можно подсчитать от-

носительную частоту этого события. Она равна 402 = 201 . Имеем

приближенное равенство 30N » 201 . Отсюда N ≈ 600.

Почему рассматриваемые опыты можно считать статистически устойчивыми? Или можно ли считать полученную выборку репре-

Выборочный метод в статистике

457

зентативной? Повысили репрезентативность выборки мы тем, что второй отлов рыб проводился той же сеткой, что и первый, причем она забрасывалась не сразу по возвращении рыб в водоем (ина- че меченые рыбы не успеют перемешаться с другими) и не через длительное время (иначе может состояться нерест рыб или сброс вредных отходов в пруд: и то, и другое существенно повлияют на общее количество рыб в водоеме), а на следующий день, в том же месте. g

По выборке в примере 7 оценивалась неизвестная величина — количество рыб в водоеме. По результатам, полученным для вы- борки, делался вывод относительно генеральной совокупности.

Человеку часто приходится принимать то или иное решение. У большинства принятых решений есть элемент риска. Во мно- гих случаях статистика может существенно помочь в обосновании принятия того или другого решения. Например, принятию реше- ния о переходе на новую технологию производства какого-то из- делия должна предшествовать экспериментальная проверка этой технологии, сбор необходимой информации, ее обработка, провер- ка того, говорят ли собранные данные в пользу новой техноло- гии. Аналогично, перед введением нового учебника в школу, при изменении содержания обучения по какому-то предмету должна проводиться апробация учебника, проверка необходимости и воз- можности изменения содержания обучения. На основе собранной информации должно приниматься решение, какой из выдвину- тых гипотез следует отдать предпочтение.

Рассмотрим пример. Пусть кто-то высказал предположение о том, что монета, с помощью которой футбольный судья проводит жеребьевку, не является правильной. Тогда проводится экспери- мент: эту монету подбрасывают, например, 100 раз и фиксируют, сколько раз выпал герб. Если герб выпал, скажем, 30 раз, а циф- ра — 70 раз, то это говорит в пользу того, что монета является не- правильной, и гипотезу о том, что она правильна, следует откло- нить. Если же герб выпал 45 раз, а цифра — 55 раз, то у нас нет оснований для отклонения гипотезы о том, что монета является правильной. Возникает вопрос, а где та граница для количест- ва выпадений герба, начиная с которой гипотезу о правильности монеты следует отклонять. Ответ на него дает математическая статистика.

458 Раздел7.Элементытеориивероятностей иматематическойстатистики

99 Контрольные вопросы

1°. В чем заключается польза применения выборок?

2°. Почему прибегают к выборочному контролю качества ампул для инъекций?

3°. Являются ли результаты переписи населения в стране гене- ральной совокупностью или выборкой для исследования фак- торов, присущих населению страны; мира?

4. Почему при определении средних характеристик некоторо- го биологического рода берут достаточно большое количество особей и проводят соответствующие измерения?

Задачи

398.Ниже приведены размеры проданной в магазине мужской обуви: 41; 39; 40; 38; 43; 41; 42; 40; 38; 41; 42; 41; 40; 42; 39; 41; 41; 36; 43; 41; 42; 38; 41; 40; 42; 41; 42; 42; 42; 40; 41; 41; 39; 42; 40; 40; 39; 41; 39; 38; 40; 41; 41; 40; 40; 39; 42; 40; 43; 37; 40; 42; 43; 42; 38; 40; 40; 41; 41; 41; 40; 43; 42; 42; 39; 43; 41; 40; 43; 41; 42; 42; 39; 41; 43; 42; 41; 42; 40; 37.

1°) Упорядочьте эти данные по возрастанию, подсчитайте частоты, относительные частоты значений, запишите дис- кретный вариационный ряд.

2°) Постройте интервальный вариационный ряд, включив в каждый интервал по два размера обуви.

3°) Постройте полигон частот и гистограмму.

4)Какая из выборочных характеристик лучше всего описы- вает средние показатели этой совокупности? Определите ее значение.

399.На диаграмме (рис. 361) приведены данные о рождаемости и смертности в 8 наибольших городах Украины.

1°) Выпишите эти данные отдельно для рождаемости и смертности.

2°) Упорядочьте первые данные по убыванию, вторые — по возрастанию.

3°) Вычислите по этим данным средние арифметические, медианы, размахи.

4)Можно ли принять эти выборочные характеристики в ка- честве оценок соответствующих характеристик рождаемости и смертности во всей Украине?

Выборочный метод в статистике

459

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

400.В таблице 61 приведены данные о массе новорожденных при рождении.

Таблица 61

 

 

 

 

 

 

 

Мас-

1000-

1500-

20002500300035004000-

4500-

5000-

Всего

са, г

1500

2000

2500

3000

3500

4000

4500

5000

5500

 

К-тво

84

205

502

1723

3752

2747

852

124

11

10000

детей

 

 

 

 

 

 

 

 

 

 

1)Вычислите относительные частоты и накопленные отно- сительные частоты.

2)Постройте по этим данным гистограмму и кумулятивную кривую.

401.Контрольная работа десяти учащихся проверялась дву- мя учителями и оценивалась ими по двенадцатибалльной шкале. Результаты оценивания представлены в таблице 62.

 

 

 

 

 

 

 

 

Таблица 62

№ ученика

1

2

3

4

5

6

7

8

9

10

 

 

 

 

 

 

 

 

 

 

 

Первый учитель

7

11

6

8

3

10

8

5

7

10

Второй учитель

5

12

6

7

2

11

9

3

6

10

Какой из учителей более строгий?

402. Вычислите моду и медиану по данным таблицы 63, в ко- торой приведены данные об успеваемости по математике

460 Раздел7.Элементытеориивероятностей иматематическойстатистики

100 учащихся 7-х классов (успеваемость оценивается по 12-балльной шкале).

 

 

 

 

 

 

 

 

 

Таблица 63

Количество баллов

1

2

3

4

5

6

7

8

9

10

11

12

Количество учеников

3

4

4

9

11

12

18

14

9

8

6

2

Какое смысл имеет каждая из вычисленных характеристик?

403°. Какая из приведенных ниже выборок будет наиболее репре- зентативной для совокупности всех зарегистрированных из- бирателей Украины?

1) Случайная выборка из 1000 избирателей г. Винницы. 2) Случайная выборка из 1000 студентов Харьковского уни- верситета.

3) Выборка из 1000 лиц, образовавшаяся на основе случай- ных телефонных номеров.

4) Выборка из 1000 лиц — сторонников одной политической силы.

404°. Была ли выборка репрезентативной, если при изучении времени, затрачиваемого на выполнение уроков десяти- классниками 1) опрашивали только девочек;

2) опросы проводили только по средам;

3) опрашивали учащихся лицеев;

4) опрашивали только неуспевающих?

405°. В ходе опроса предстоит выяснить отношение жителей региона­ к введению внешнего независимого оценивания. Какие категории жителей должны быть включены, с вашей точки зрения, в выборку, которая для этого опроса составля- ется?

406°. Для определения количества собак в городе, больных чум- кой, из всех бездомных собак города образовали две выбор- ки: 1) одна собачья стая; 2) по несколько случайно отловлен- ных из каждого района города собак. Какую из них можно считать репрезентативной?

407.Обозначим неизвестное количество овец в отаре через N. Из этой отары наугад отбирают М овец, которые потом клей- мятся и возвращаются в отару. В следующий раз отбираются