Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кол методы - ответы.docx
Скачиваний:
10
Добавлен:
17.11.2019
Размер:
293.52 Кб
Скачать

37. Какая выборка называется репрезентативной? Каким образом можно извлечь репрезентативную выборку?

Репрезентативность - это способность выборки представлять изучаемую совокупность. Чем точнее состав выборки представляет совокупность по изучаемым вопросам, тем выше ее репрезентативность.

Репрезентативная выборка (representative sample) - одно из ключевых понятий анализа данных. Репрезентативная выборка - это выборка из генеральной совокупности с распределением F(x), представляющая основные особенности генеральной совокупности. Например, если в городе проживает 100 000 человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной. Построенный на ее основе опрос общественного мнения, конечно, будет содержать смещение оценок и приводит к фальсификации результатов.

Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности.

Выборочная (эмпирическая) функция распределения дает при большом объеме выборки достаточно хорошее представление о функции распределения F(x) исходной генеральной совокупности.

Ведущий принцип, лежащий в основе такой процедуры, - это принцип рандомизации, случайности. Выборка называется случайной (иногда мы будем говорить простая случайная или чистая случайная выборка), если выполняется два условия. Во-первых, выборка должна быть построена таким образом, чтобы любой человек или объект в пределах совокупности имел равные возможности быть отобранным для анализа. Во-вторых, выборка должна быть сформирована так, чтобы любое сочетание из n объектов (где n - просто количество объектов, или случаев, в выборке) имело равные возможности быть отобранным для анализа.

При исследовании совокупностей, которые слишком велики, для того чтобы можно было осуществить настоящую лотерею, часто используются простые случайные выборки. Выписать имена нескольких сотен тысяч объектов, сложить их в барабан и выбрать несколько тысяч - это все же нелегкая работа. В таких случаях используется другой, однако столь же надежный способ. Каждому объекту в совокупности присваивается номер. Последовательность чисел в таких таблицах обычно задается компьютерной программой, называемой генератором случайных чисел, который, в сущности, помещает в барабан большое количество чисел, случайным образом вытаскивает их и выпечатывает в порядке получения. Иными словами, имеет место все тот же процесс, характерный для лотереи, однако компьютер, используя не имена, а числа, осуществляет универсальный выбор. Этим выбором можно пользоваться, просто присвоив каждому из наших объектов номер.

Таблица случайных чисел типа той, может использоваться несколькими разными способами, и в каждом случае необходимо принять три Решения. Во-первых, следует решить, сколько разрядов Мы будем использовать, во-вторых, необходимо разработать решающее правило для их использования; в-третьих нужно выбрать исходную точку и способ прохождения по таблице.

Как только это сделано, мы должны разработать правило, которое бы связывало числа в таблице с номерами наших объектов. Здесь существуют две возможности. Самый простой способ (хотя и не обязательно самый правильный) - использовать лишь те числа, которые попадают в число номеров, приписанных нашим объектам. Так, если мы имеем совокупность, состоящую из 250 объектов (и, таким образом, используем трехзначные числа), и решаем начать с левого верхнего угла таблицы и двигаться вниз по столбцам, мы включим в нашу выборку объекты с номерами 100, 084 и 128 и пропустим числа 375 и 990, не соответствующие нашим объектам. Этот процесс будет продолжаться до тех пор, пока не будет определено число объектов, нужных для нашей выборки.

Более трудоемкая, однако методически более правильная процедура основывается на положении, что для сохранения случайности, характерной для таблицы, должно быть использовано каждое число данной размерности (например, каждое трехзначное число). Следуя данной логике и вновь имея дело с совокупностью из 250 объектов, мы должны разбить область трехзначных чисел от 000 до 999 на 250 одинаковых промежутков. Поскольку таких чисел 1000, мы делим 1000 на 250 и находим, что каждая из частей содержит четыре числа. Таким образом, числа таблицы от 000 до 003 будут соответствовать объекту от 004 до 007 - объекту 2 и т.д. Теперь, чтобы установить, какой номер объекта соответствует числу таблицы, следует разделить трехзначное число из таблицы и округлить до ближайшего целого числа.

И наконец, мы должны выбрать в таблице исходную точку и способ прохождения. Исходной точкой может быть верхний левый угол (как в предыдущем примере), нижний правый угол, левый край второй строки или любое другое место. Этот выбор абсолютно произволен. Однако, работая с таблицей, мы должны действовать систематически. Мы могли бы взять три первых знака из каждой пятизначной последовательности, три средних знака, три последних знака или даже первый, второй и четвертый знаки. (Из первой пятизначной последовательности с помощью этих различных процедур получаются, соответственно, числа 100, 009, 097 и 109.) Мы могли бы применить эти процедуры в направлении справа налево, получив 790, 900, 001 и 791. Мы могли бы идти вдоль рядов, рассматривая поочередно каждую следующую цифру и игнорируя разбиение на пятерки (для первого ряда будут получены числа 100, 973, 253, 376 и 520). Мы могли бы иметь дело лишь с каждой третьей группой цифр (например, с 10097, 99019, 04805, 99970). Существует множество самых разнообразных возможностей, и каждая следующая ничуть не хуже предыдущей. Однако как только мы приняли решение о том, или ином способе работы, мы должны систематически следовать ему, чтобы в максимальной степени соблюдать случайность элементов в таблице.