- •Как вычисляются основные числовые характеристики по результатам выборки: «группа средних». Объяснить на примерах.
- •1.3 Средние величины: средняя, средневзвешенная, мода Мо, медиана Ме. Показатели вариации: дисперсия, среднее квадратическое отклонение, коэффициент вариации.
- •14. Приведите примеры зависимых и независимых событий
- •16. Дайте возможные определения вероятности. Приведите примеры их использования.
- •17. Что такое относительная частота события, как она связана с вероятностью?
- •18. Что такое случайная величина (св)? Какие виды св известны?
- •26. В каких случаях применяют формулу Байеса? (Показать на примерах)
- •27. В каких случаях применяют формулу Бернулли? (Показать на примерах)
- •§ 1. Испытания Бернулли.
- •§ 2. Наивероятнейшее число успехов.
- •Если число np-q - дробное, то существует одно наивероятнейшее число m*;
- •Если число np-q - целое, то существует два наивероятнейших числа
- •28. В каких случаях применяют формулу Пуассона? (Показать на примерах)
- •29. Что такое функция распределения св? Что такое плотность вероятности св? Приведите ее свойства.
- •30. Как рассчитывается вероятность попадания св в определенный интервал с помощью функции распределения, с помощью плотности вероятности?
- •36 Что такое дерево вероятностей? Сформулируйте правила построения и проверки корректности дерева вероятностей?
- •37. Какая выборка называется репрезентативной? Каким образом можно извлечь репрезентативную выборку?
- •38. Какой интервал мы называем доверительным?
- •39 Что называется уровнем доверительности (confidence level)?
- •40. Какой из двух доверительных интервалов больше: двусторонний 99% или двусторонний 95%? Объясните.
37. Какая выборка называется репрезентативной? Каким образом можно извлечь репрезентативную выборку?
Репрезентативность - это способность выборки представлять изучаемую совокупность. Чем точнее состав выборки представляет совокупность по изучаемым вопросам, тем выше ее репрезентативность.
Репрезентативная выборка (representative sample) - одно из ключевых понятий анализа данных. Репрезентативная выборка - это выборка из генеральной совокупности с распределением F(x), представляющая основные особенности генеральной совокупности. Например, если в городе проживает 100 000 человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной. Построенный на ее основе опрос общественного мнения, конечно, будет содержать смещение оценок и приводит к фальсификации результатов.
Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности.
Выборочная (эмпирическая)
функция распределения
дает
при большом объеме выборки достаточно
хорошее представление о функции
распределения F(x)
исходной генеральной совокупности.
Ведущий принцип, лежащий в основе такой процедуры, - это принцип рандомизации, случайности. Выборка называется случайной (иногда мы будем говорить простая случайная или чистая случайная выборка), если выполняется два условия. Во-первых, выборка должна быть построена таким образом, чтобы любой человек или объект в пределах совокупности имел равные возможности быть отобранным для анализа. Во-вторых, выборка должна быть сформирована так, чтобы любое сочетание из n объектов (где n - просто количество объектов, или случаев, в выборке) имело равные возможности быть отобранным для анализа.
При исследовании совокупностей, которые слишком велики, для того чтобы можно было осуществить настоящую лотерею, часто используются простые случайные выборки. Выписать имена нескольких сотен тысяч объектов, сложить их в барабан и выбрать несколько тысяч - это все же нелегкая работа. В таких случаях используется другой, однако столь же надежный способ. Каждому объекту в совокупности присваивается номер. Последовательность чисел в таких таблицах обычно задается компьютерной программой, называемой генератором случайных чисел, который, в сущности, помещает в барабан большое количество чисел, случайным образом вытаскивает их и выпечатывает в порядке получения. Иными словами, имеет место все тот же процесс, характерный для лотереи, однако компьютер, используя не имена, а числа, осуществляет универсальный выбор. Этим выбором можно пользоваться, просто присвоив каждому из наших объектов номер.
Таблица случайных чисел типа той, может использоваться несколькими разными способами, и в каждом случае необходимо принять три Решения. Во-первых, следует решить, сколько разрядов Мы будем использовать, во-вторых, необходимо разработать решающее правило для их использования; в-третьих нужно выбрать исходную точку и способ прохождения по таблице.
Как только это сделано, мы должны разработать правило, которое бы связывало числа в таблице с номерами наших объектов. Здесь существуют две возможности. Самый простой способ (хотя и не обязательно самый правильный) - использовать лишь те числа, которые попадают в число номеров, приписанных нашим объектам. Так, если мы имеем совокупность, состоящую из 250 объектов (и, таким образом, используем трехзначные числа), и решаем начать с левого верхнего угла таблицы и двигаться вниз по столбцам, мы включим в нашу выборку объекты с номерами 100, 084 и 128 и пропустим числа 375 и 990, не соответствующие нашим объектам. Этот процесс будет продолжаться до тех пор, пока не будет определено число объектов, нужных для нашей выборки.
Более трудоемкая, однако методически более правильная процедура основывается на положении, что для сохранения случайности, характерной для таблицы, должно быть использовано каждое число данной размерности (например, каждое трехзначное число). Следуя данной логике и вновь имея дело с совокупностью из 250 объектов, мы должны разбить область трехзначных чисел от 000 до 999 на 250 одинаковых промежутков. Поскольку таких чисел 1000, мы делим 1000 на 250 и находим, что каждая из частей содержит четыре числа. Таким образом, числа таблицы от 000 до 003 будут соответствовать объекту от 004 до 007 - объекту 2 и т.д. Теперь, чтобы установить, какой номер объекта соответствует числу таблицы, следует разделить трехзначное число из таблицы и округлить до ближайшего целого числа.
И наконец, мы должны выбрать в таблице исходную точку и способ прохождения. Исходной точкой может быть верхний левый угол (как в предыдущем примере), нижний правый угол, левый край второй строки или любое другое место. Этот выбор абсолютно произволен. Однако, работая с таблицей, мы должны действовать систематически. Мы могли бы взять три первых знака из каждой пятизначной последовательности, три средних знака, три последних знака или даже первый, второй и четвертый знаки. (Из первой пятизначной последовательности с помощью этих различных процедур получаются, соответственно, числа 100, 009, 097 и 109.) Мы могли бы применить эти процедуры в направлении справа налево, получив 790, 900, 001 и 791. Мы могли бы идти вдоль рядов, рассматривая поочередно каждую следующую цифру и игнорируя разбиение на пятерки (для первого ряда будут получены числа 100, 973, 253, 376 и 520). Мы могли бы иметь дело лишь с каждой третьей группой цифр (например, с 10097, 99019, 04805, 99970). Существует множество самых разнообразных возможностей, и каждая следующая ничуть не хуже предыдущей. Однако как только мы приняли решение о том, или ином способе работы, мы должны систематически следовать ему, чтобы в максимальной степени соблюдать случайность элементов в таблице.
