Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Выборочный метод в исторических исследованиях

.pdf
Скачиваний:
19
Добавлен:
17.05.2015
Размер:
326.11 Кб
Скачать

Выборочный метод в исторических исследованиях

Проблема достоверности данных, связанная с тем, что историк оперирует выборочными, а не сплошными данными и на их основании выносит суждение обо всем изучаемом явлении, или, как говорят статистики,

о генеральной совокупности, достаточно удовлетворительно решается на основании теории выборки. Обращение историка к выборочным данным происходит в двух случаях: когда от прошлого осталось сравнительно мало или очень много статистических данных.

Идея выборочного метода — заменить сплошное обследование массовых однородных объектов частичным их обследованием, не допуская при этом существенных ошибок в выводах. Для этого выборка должна быть

репрезентативной (достаточно хорошо представлять изучаемый признак генеральной совокупности), что, в частности, обеспечивается случайностью отбора. Обеспечить случайность выборки, если историк производит отбор данных из многочисленной генеральной совокупности сохранившихся сведений, возможно при помощи жребия или таблицы случайных чисел.

Жеребьёвка может состоять, например, в отборе перенумерованных карточек из тщательно тасуемой колоды. При использовании таблицы случайных чисел для выборки отбираются те единицы, чей порядковый номер соответствует выписанным из таблицы числам. Когда отбор по жребию или таблице случайных чисел осуществить невозможно, используют другие способы отбора: механический, типический (районированный) и серийный.

Сложнее когда историк сохранившиеся от прошлого данные рассматривает как готовую выборку. Тогда требуются доказательства того,

что стихийно образовавшаяся выборка является случайной. Если сбор данных носил пристрастный характер, то принцип случайности нарушался, и,

следовательно, выборка не может быть представительной и дать вполне надежные результаты.

Для применения выборочного метода нужно знать следующие

1

характеристики статистической совокупности: выборочное среднее

 

 

1

k

 

xВ

 

xi ni , моду (М0) — величину признака, которая чаще всего

 

 

 

n i

1

встречается в статистическом ряду, медиану (Me) — величину признака у единицы наблюдения, находящейся в середине упорядоченного ряда,

дисперсию — D

 

1

k

 

x

 

 

в 2

n , среднее квадратическое отклонение

 

x

 

 

В

 

 

i

 

 

 

i

 

 

n i

1

 

 

 

 

 

выборки В.

Этапы выборочного метода:

1. Оценить случайность имеющихся данных. Нужно выяснить происхождение данных, способы сбора и хранения. Если происхождение и хранение не имело преднамеренного характера, применяют специальные методы оценки случайности выборки, например, критерий знаков. Для проверки случайности данных при помощи критерия знаков исходные данные записываются в той же последовательности, в которой они встречаются в источниках. Далее каждое значение признака, начиная со второго, вычитается из значения признака, стоящего перед ним. Результат записывается рядом в отдельный столбец в виде знаков «+» или «–», в

зависимости от того, была ли соответствующая разность положительной или отрицательной. В итоге получается определённое количество минусов и плюсов. Если различия между конкретными признаками случайны, то число минусов и плюсов должно быть примерно равным. Также для заключения о случайности выборки необходимо, чтобы получившееся число плюсов и минусов находилось в определённых границах, которые находятся из специальной таблицы.

Критические значения для критерия знаков (при доверительной вероятности 0,95)

Число

5

8

12

16

20

24

28

32

36

40

50

100

наблюдений

 

 

 

 

 

 

 

 

 

 

 

 

Двусторонние

0

1

3

4

6

7

9

10

12

14

18

40

границы

5

7

9

12

14

17

19

22

24

26

32

60

2. Произвести первичную статистическую обработку данных

2

(вариационный ряд, статистическое распределение частот, полигон частот)

3. Составить интервальный статистический ряд распределения частот.

Построить гистограмму частот.

4.Вычислить выборочную среднюю xВ .

5.Найти остальные числовые характеристики выборки: дисперсию,

моду, медиану, среднее квадратическое отклонение.

6.Определить возможную случайную ошибку выборки (среднюю квадратическую ошибку), т. е. установить, насколько среднее значение признака, вычисленное по выборочным данным, может отличаться от истинного среднего значения, которое было бы получено, если бы в распоряжении историка оказались данные о значении признака во всей генеральной совокупности.

7.Определить предельную ошибку выборки . Она находится с использованием специальных таблиц значений функции Лапласа лишь в том случае, если выборочные данные подчиняются нормальному закону распределения. Закон распределения данных выясняется по графику (кривой распределения) и специальным критериям.

Необходимым условием нормальности распределения данных является примерное совпадение выборочной средней, медианы и моды. Для построения же кривой распределения соединяют плавной линией середины верхних оснований прямоугольников на гистограмме. По получившемуся графику нормальность определяется визуально: он приблизительно должен совпадать с графиком нормально распределённой кривой.

8. Определить доверительный интервал — минимальную и максимальную границы, в пределах которых обязательно находится истинное среднее значение признака xГ в генеральной совокупности.

3

Анализ движения хлебных цен в России XVIII в.

При исследовании движения хлебных цен в России за 1708 г. в наличии оказались цены (в коп.) только по 36 уездам: 40, 43, 40, 79, 74, 40, 55, 42, 42, 50, 40, 43, 43, 35, 40, 30, 36, 50, 30, 29, 45, 40, 42, 40, 36, 50, 30, 24, 25, 40, 32, 30, 20, 30, 25, 32. Необходимо определить среднюю цену по Европейской России, исходя из имеющихся данных.

1. Оценка случайности сохранившихся данных.

Специальный источниковедческий анализ показал, что никакой преднамеренности в сборе сведений и сохранении их в архивах не было.

Следовательно, по условиям сбора и хранения данных требование случайности выполнено.

Проверим это ещё при помощи «критерия знаков»:

№ уезда

Цена

Знак

№ уезда

Цена

Знак

№ уезда

Цена

Знак

 

(коп.)

разности

 

(коп.)

разности

 

(коп.)

разности

1-й

40

 

13-й

43

 

25-й

36

-

2-й

43

+

14-й

35

-

26-й

50

+

3-й

40

-

15-й

40

+

27-й

30

-

4-й

79

+

16-й

30

-

28-й

24

-

5-й

74

-

17-

36

+

29-й

25

+

6-й

40

-

18-й

50

+

30-й

40

+

7-й

55

+

19-й

30

-

31-й

32

-

8-й

42

-

20-й

29

-

32-й

30

-

9-й

42

 

21-й

45

+

33-й

20

-

10-й

50

+

22-й

40

-

34-й

30

+

11-й

40

-

23-й

42

+

35-й

25

-

12-й

43

+

24-й

40

-

36-й

32

+

Получили: «+» - 15 штук, «–» - 18 штук. Количество «+» примерно равно количеству «–».

Дополнительно используем таблицу критических значений для

«критерия знаков». По ней находим, что для выборки в 36 единиц критические значения числа «плюсов» и «минусов» должны колебаться от 12

до 24, что наблюдается в нашем случае.

Т. о., выборку можно признать случайной. 2. Найдём объём выборки: n=36.

Составим вариационный ряд:

4

xi: 20, 24, 25, 25, 29, 30, 30, 30, 30, 30, 32, 32, 35, 36, 36, 40, 40, 40, 40, 40, 40,

40, 40, 42, 42, 42, 43, 43, 43, 45, 50, 50, 50, 55, 74, 79.

 

Выпишем статистическое распределение частот:

 

 

 

xi

20 24

25

29 30

32 35

36

40 42

43 45 50

55 74

79

 

ni

1 1 2 1 5 2 1 2 8 3 3 1 3 1 1 1

 

 

16

 

 

 

 

 

 

 

 

Проверка: ni

1 1 2 1 5 2 1 2 8 3 3 1 3 1 1 1 36 n

 

 

i 1

 

 

 

 

 

 

 

 

 

Построим полигон частот:

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

7

 

 

7

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

n

5

 

5

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

i

 

 

 

3

 

 

 

 

 

 

 

3

 

 

3

 

 

 

 

 

 

2

2

3

 

 

 

 

 

 

2

2

1

 

1

1

 

 

 

1

1

 

1

 

 

 

 

1

1

1

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

25

35

45

55

65

75

85

 

 

 

 

 

 

 

xi

 

 

 

 

 

 

3. Возьмём m=6.

 

 

 

 

 

 

Тогда x x16 x1 79 20 59 9 5 .

m

6

6 6

Длина интервала – дробное число. Это неудобно. Поэтому будем считать, что было ещё одно наблюдение xi=80 с частотой ni=0. Мы ничего не изменили, действительно, значение x=80 наблюдалось 0 раз.

Теперь будем иметь: x 80 20 10.

6

Будем группировать значения вариант по промежуткам: [20;30); [30;40); [40;50); [50;60); [60;70); [70;80].

Интервалы

[20;30)

[30;40)

[40;50)

[50;60)

[60;70)

[70;80]

Частоты ni

5

10

15

4

2

Построим гистограмму частот:

1,6

1,4

1,2

1

0,8

0,6

0,4

0,2

0

1,5

1

0,5

0,4

0,2

[20;30) [30;40) [40;50) [50;60) [60;80)

5

4. Найдём выборочное среднее xВ :

xВ 1 k xi ni

n i 1

 

 

1

16

 

1

 

 

 

 

 

xi ni

 

(20 1 24 1 25 2 29 1 30 5 32 2 35 1 36 2 40 8 42 3

xВ

 

36

 

36

i 1

 

 

 

 

43 3 45 1 50 3 55 1 74 1 79 1)

1

(20 24 50 29 150 64 35 72 320

36

 

 

 

 

 

 

 

 

126 129 45 150 55 74 79) 1422 39,5 36

5. Найдём выборочную дисперсию DВ

DВ M X2 M X 2

Составим таблицу статистического распределения квадратов значений xi. Частоты при этом не изменяются.

x

2

202

242

 

252

292

302

322

352

362

402

422

432

452

502

552

 

742

792

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni

 

1

1

 

 

2

 

1

5

2

1

2

8

3

3

1

3

1

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M X2

 

 

1

(400 1 576 1 625 2 841 1 900 5 1024 2 1225 1 1296 2

Xв2

36

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

1600 8 1764 3 1849 3 2025 1 2500 3 3025 1 5476 1 6241 1)

(400 576

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

36

 

 

 

1250 841 4500 2048 1225 2592 12800 5292 5547 2025 7500 3025

5476 6241) 61338 1703,83

36

М X 2 XВ 2 39,52 1560,25

DВ 1703,83 1560,25 143,58

Определим моду и медиану:

Mo=40, Me=40

Найдём среднее квадратическое отклонение:

В DВ 143,58 11,98

6.Установим, насколько средняя цена хлеба, вычисленная по выборочным данным, может отличаться от действительной истинной средней цены, которая получилась бы, если бы были известны данные о ценах во всех уездах.

2

S , где S2 – исправленная дисперсия. n

6

S2

 

 

n

D

 

 

 

 

 

 

n 1

В

 

S2

 

36

 

 

143,58

36

143,58 147,68

36 1

 

 

 

35

 

 

 

 

 

 

 

 

147,68

 

2,03 (коп.)

 

 

 

 

36

 

 

 

 

 

 

7.Проверим нормальность распределения выборки.

xВ Mo Me . Это является необходимым условием нормальности, но

недостаточным. Построим кривую распределения.

1,6

 

 

 

 

1,4

 

 

 

 

1,2

 

 

 

 

1

 

 

 

 

0,8

 

 

 

 

0,6

 

 

 

 

0,4

 

 

 

 

0,2

 

 

 

 

0

 

 

 

 

[20;30)

[30;40)

[40;50)

[50;60)

[60;80)

График и соотношение числовых характеристик выборки показывают,

что распределение близко к нормальному.

Найдём предельную ошибку выборки с заданной доверительной

вероятностью .

Пусть =0,95.

 

t , где

– средняя квадратическая ошибка,

 

 

 

0,95

 

t – аргумент функции Лапласа (t), при котором

t

 

0,475

 

 

 

 

2

2

 

 

Из таблицы t=1,96, из задания 6) =2,03.

Тогда 1,96 2,03 3,98

8. Найдём доверительный интервал:

xВ xГ xВ

39,5 3,98 xГ 39,5 3,98

35,52 xГ 43,48

Т. о., истинная средняя цена хлеба колебалась вокруг выборочной

7

средней, равной 39,5 коп., на 3,98 коп. в ту или другую сторону и находилась в пределах от 35,52 коп. до 43,47 коп. Вероятность вывода составляет 95%.

Можно увеличить вероятность вывода.

Например, при 0,99 будем иметь:

0,495 2

(t ) 0,495 t 2,575.

t 2,575 2,025 5,214.

xВ xГ xВ

39,5 5,21 xГ 39,5 5,21

34,29 xГ 44,71

Видно, что чем больше требуемая доверительная вероятность, тем больше доверительный интервал.

8