Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lecture12.doc
Скачиваний:
4
Добавлен:
26.11.2019
Размер:
1.42 Mб
Скачать

1.3 Емпірична функція розподілу, гістограма

Оскільки невідомий розподіл F можна описати, наприклад, його функцією розподілу F, побудуємо по вибірці «наближення» для цієї функції.

Визначення 1. Емпіричною функцією розподілу, побудовану по вибірці X= (Х,... ,Хп) обсягу п називається випадкова функція Fn* : R*  [0,1], при кожному y є R рівна

Нагадування: функція

називається індикатором події {Xi < у}. Це — випадкова величина, що має розподіл Бернулі з параметром р = P(Xi < у) = F(y) (чому?).

Якщо елементи вибірки Х1,..., Хп упорядкувати по зростанню (на кожному елементарному результаті), вийде новий набір випадкових величин, названий варіаційним рядом:

Тут Х(1) = min{X1,..., Хп}, Х(п) = max{X1,..., Хп}. Елемент X(k), k = 1,..., п, називається k-м членом варіаційного ряду чи k-ю порядковою статистикою.

Приклад 1. Вибірка, п = 15: X = (0; 2; 1; 2,6; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9; 2,6). Варіаційний ряд: (0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).

Емпірична функція розподілу має стрибки в точках вибірки, величина стрибка в точці Xi дорівнює т/п, де т — кількість елементів вибірки, що збігаються з Xi.

Рис. 1: Приклад 1 Можна зобразити емпіричну функцію розподілу так:

Іншою характеристикою розподілу є таблиця (для дискретних розподілів) чи щільність (для абсолютно неперервних). Емпіричним, чи вибірковим аналогом таблиці або щільності є так звана гістограма.

Гістограма будується по згрупованим даним. Передбачувану область значень випадкової величини ξ (чи область вибіркових даних) поділяють незалежно від вибірки на деяку кількість інтервалів (частіше — однакових, але не обов'язково). Нехай a1, ..., Аk — інтервали групи. Позначимо для j = 1,..., k через j число елементів вибірки, що потрапили в інтервал Aj:

На кожнім з інтервалів aj будують прямокутник, площа якого пропорційна j. Загальна площа всіх прямокутників повинна дорівнювати одиниці. Нехай lj — довжина інтервалу aj. Висота прямокутника над aj дорівнює

_

Отримана фігура називається гістограмою.

Приклад 2. Маємо варіаційний ряд (див. 1):

(0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).

Розіб'ємо відрізок [0,10] на 4 рівних відрізки. У відрізок А1 = [0; 2,5) потрапили 4 елементи вибірки, в А2 = [2,5; 5) — 6, у A3 = [5; 7,5) — 3, і у відрізок А4 = [7,5; 10] потрапили 2 елементи вибірки. Будуємо гістограму (ліворуч). Праворуч — теж гістограма для тієї ж вибірки, але при розбивці області на 5 рівних відрізків.

Рис. 2: Приклад 2

Зауваження 1. Як стверджується в курсі «Економетрія», найкращим числом інтервалів групи («формула Стерджесса») є

Тут lg п — десятковий логарифм, тому k = 1 + Iog2 101og10 n = 1 + log2 n, тобто при збільшенні вибірки в 2 рази число інтервалів групи збільшується на 1.

Помітимо, що чим більше інтервалів групи, тим краще. Але це «чим більше» має свої границі: якщо брати число інтервалів, скажемо, порядку п, то з ростом п гістограма, мабуть, не буде поточечно наближатися до щільності.

Справедливо наступне твердження: якщо щільність розподілу елементів вибірки є неперервною функцією, то при k(n) , так що k(n)/n 0, має місце поточечна збіжність по ймовірності гістограми до щільності (див. зауваження 1).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]