Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Компьютерные технологии статистической обработки данных.doc
Скачиваний:
4
Добавлен:
01.07.2025
Размер:
3.92 Mб
Скачать

1.3.Контрольные вопросы и задания

1.3.1.Вопросы

  1. Общая характеристика основных универсальных пакетов статистической обработки данных.

  2. Инструментальные программные средства, содержащие статистическую компоненту.

  3. Статистические экспертные системы.

  4. Ввод данных в пакете STATISTICA.

  5. Добавление, перемещение, копирование, удаление строк в пакете STATISTICA.

  6. Добавление, перемещение, копирование, удаление и переименование столбцов в пакете STATISTICA.

  7. Копирование в буфер памяти сегмента таблицы.

1.3.2. Задания

  1. Изучить и дать общую характеристику статистического пакета Statgraphics.

  2. Описать ввод и редактирование данных в пакете Statgraphics

  3. Изучить и дать общую характеристику статистической системы анализа NCSS.

  4. Описать ввод и редактирование данных в системе NCSS.

  5. Описать ввод и редактирование данных в пакете SPSS.

2. Начальная статистическая обработка данных

2.1. Понятие о генеральной совокупности и выборке

Изменение состояния различных объектов окружающей среды, технических, производственных и экономических систем происходит в результате воздействия различных контролируемых и неконтролируемых факторов. Под понятием данные будем понимать результаты наблюдений за параметрами состояния объекта (системы) или результаты экспериментов над ними.

Исследования различных объектов или систем осуществляется с помощью экспериментов или наблюдений. Рассмотрим типичные примеры проведения экспериментов для исследования свойств объектов (систем) и наблюдений за параметрами, характеризующими их состояние:

  1. производится ряд бросаний монеты, в результате выпадает “герб” или “решка”;

  2. бросается игральной кости, каждое бросание дает в результате одно из чисел 1,2,3, … 6;

  3. измеряется рост и вес представителя некоторой группы животных;

  4. берётся выборка из партии изготовленных транзисторов и для каждого измеряются коэффициент усиления и обратные токи;

  5. наблюдается цена какого-либо товара через определенный промежуток времени, например через неделю.

  6. производится эксперимент для установления влияния определенного фактора или совокупности факторов на параметры исследуемого объекта (системы).

  7. берутся выборки из хранилища данных информационной системы, отражающие продажи некоторого товара по размерностям время и регион.

Эксперименты по бросанию монеты или игральной кости можно выполнять бесчисленное число раз (абстрактно, конечно). Результаты измерения роста и веса представителя некоторой группы животных могут быть получены по живущим и жившим раннее индивидам, и количество индивидов довольно велико и определить его точное значение нереально. Для 4-го примера объем выборки и партии представляют собой вполне определенные значения. Тоже можно сказать относительно колебания цены. В 6-ом примере, даже если принять все меры, что бы контролировать условия, влияющие на эксперимент, результаты эксперимента могут меняться при его повторении. В последнем примере полная совокупность данных, отражающих продажи, постоянно изменяется и со временем и по регионам.

Данные, получаемые в приведенных выше примерах, а число таких примеров можно расширить, могут составлять конечную или бесконечную, постоянную или изменяющеюся совокупность. При исследовании свойств различных объектов, процессов, явлений определяются понятия генеральной совокупности и выборки из генеральной совокупности .

Генеральная совокупность – все мыслимые значения (измерения, наблюдения), описывающие поведение исследуемого объекта, процесса или явления.

Выборка из генеральной совокупности – ограниченный набор реально наблюдаемых выборочных из генеральной совокупности значений, описывающих исследуемый объект, процесс или явление. Количество этих значений называется объемом выборки.

Выводы о поведении объекта, процесса или явления делаются по выборке ограниченного объема и распространяются на всю генеральную совокупность.

Обозначим количество всех подлежащих обследованию объектов N . Допустим, что каждому i объекту соответствует значение xi. Согласно данному ранее определению совокупность всех возможных значений (теоретически домысливаемых), характеризующих N объектов называется генеральной совокупностью, а N – объемом генеральной совокупности. Генеральная совокупность может быть конечной или бесконечной, т.е. N может быть конечно или N  .

Пусть количество реально наблюдаемых объектов из N равно n. Тогда выборка из генеральной совокупности, nобъем выборки. Выборка из генеральной совокупности должна обладать следующими свойствами:

• каждый элемент xi выбран случайно; • все xi имеют одинаковую вероятность попасть в выборку; • n должно быть настолько велико, насколько это позволяет решать задачу с требуемым качеством (выборка должна быть репрезентативной, представительной).

В дальнейшем будем иметь дело с выборкой, обладающей перечислеными свойствами. Принято считать, что при n ≥ 60 выборка большая, или репрезентативная, а при n < 60 – малая. Такое деление выборки на большую и малую условно.

Понятие репрезентативная выборка не всегда можно связать с ее объемом n. Чаще это зависит от реально исследуемого объекта или явления, объема генеральной совокупности, трудоемкости и стоимости получения наблюдений или измерений для формирования выборки. Возможны ситуации, когда генеральная совокупность мала. Например, исследуется экспериментальная партия интегральных схем малого объема (генеральная совокупность определяется объемом N изговленной партии) или время наработки до отказа уникального оборудования, когда в эксплуатации находится заведомо малое количество его экземпляров (генеральная совокупность определяется количеством экземпляров N). Доступного для исследования оборудования (выборка объемом n) может быть еще меньше. Поэтому выборка объемом n, близким к объему генеральной совокупности N, может считаться репрезентативной и одновременно малой.

Пример. Осуществляется запуск 10 опытных партий интегральных схем (ИС) объемом по 30 пластин, на каждой из которых формируется по 1000 кристаллов. Исходные пластины были взяты случайным образом, что обеспечивает случайный разброс значений кристаллографических и электрофизических параметров по пластинам. Партии при обработке распределялись, также случайным образом, по рабочим и единицам однородного оборудования. Выборка n = 100 была образована кристаллами, взятыми по10 из каждой партии. Выборка репрезентативна.

Формы представления выборки из генеральной совокупности могут быть следующими.

1. Представление выборки из генеральной совокупности в негруппированном виде xi, i=1,n.

Такая форма связана с наличием сведений о каждом элементе выборки. Например, в таблице 2.1.1 приведены результаты измерений статического коэффициента передачи тока эммитера транзисторов средней мощности (объем выборки n=10).

Табл.2.1.1.

n

1

2

3

4

5

6

7

8

9

10

xi

0,975

0,967

0,967

0,969

0,972

0,965

0,972

0,985

0,963

0,968

2. Представление выборки в виде вариационного ряда (в упорядоченном виде)

х(1) ≤ х(2) ≤ … ≤ х(i) ≤ ... ≤ х(n) .

В этом случае х(i) – член вариационного ряда, или варианта Индекс (i) указывает на порядковый номер элемента в вариационном ряду. Форма представления выборки из генеральной совокупности в виде вариационного ряда не приводит к потере информации о каждом элементе выборки, но искажает информацию, устанавливая зависимость между соседними элементами выборки. Представление выборки предыдущего примера (табл.2.1.1) в виде вариационного ряда показано в табл.2.1.2.

Табл.2.1.2.

n

1

2

3

4

5

6

7

8

9

10

xi

0,960

0,965

0,967

0,968

0,970

0,975

0,975

0,976

0,977

0,981

3. Представление выборки в группированном виде. Такая форма представления выборки из генеральной совокупности связана с разбиением области задания случайной величины Х на L интервалов группирования. При этом известно только количество элементов выборки nj, , попавших в j интервал и последовательность границ интервалов разбиения. Для определения числа L интервалов искусственного группирования пользуются формулой Старджеса.

L = 1 + 3.322lg n . (2.1.1).

Иногда L может быть задано природой исследуемого явления или условиями проведения эксперимента. В некоторых случаях ширина каждого интервала может быть отличной от других (неравноточное группирование).

Рассмотрим последовательность процедуры представление выборки в группированном виде.

1. Формирование вариационного ряда. 2. Выделение минимального и максимального элементов выборки

хmin = х(1),

хmax = х(n).

3. Определение числа интервалов группирования осуществляется или из соображения точности и устанавливается эмпирическим путем в зависимости от объема выборки, либо по формуле Старджеса (1.1), либо определяется особенностями проведения эксперимента. Округление при нахождении L осуществляется до ближайшего целого числа.

4. Определение ширины интервалов гистограммы (при равноточном группировании)

Если при вычислении h необходимо округлить результат, следует помнить, что последний интервал группирования будет меньше ширины h при округлении в большую сторону и больше h - при округлении в меньшую сторону.

5. Формирование последовательности границ интервалов разбиения. Образуемый вариационный ряд границ интервалов группирования будет выглядеть как

х(1), х(1) + h, х(1) + 2h, … , х(1) + (L-1)h, х(n).

Иногда, для того чтобы x(1) и х(n) попали внутрь соответственно 1-го и L-го интервалов группирования, границы х(1) и х(n) корректируют следующим образом:

x'(1) = x(1) - h/2,

x'(n) = x(n) + h/2.

Следовательно, число интервалов разбиения увеличивается на 1

L′ = L + 1.

При этом последовательность границ интервалов разбиения будет представлена в виде

x(1), х(1) + h,

х(1) + 2h,

,… ,

х(1) + Lh, х(n).

6. Определение количества элементов выборки n j, попавших в каждый j интервал.

Группированная форма представления случайной величины не содержит информации о каждом элементе выборки. При этом часто в качестве значения случайной величины на интервале принимается его середина.

Пример. Результаты измерений обратных токов (в наноампрах) на тестовых диодных структурах в выборке объемом n=50 приведены в табл.2.1.3.

Табл.2.1.3.

15

19

6

18

21

16

20

17

15

10

16

20

7

19

22

17

21

19

16

11

19

10

8

18

20

8

18

16

20

12

16

21

21

9

19

19

14

18

19

19

12

20

20

8

13

10

18

17

22

18

Представим выборку в группированном виде.

  1. Формируем вариационный ряд

Табл.2.1.4.

6

7

8

8

8

9

10

10

10

11

12

12

13

14

15

15

16

16

16

16

16

17

17

17

18

18

18

18

18

18

19

19

19

19

19

19

19

19

20

20

20

20

20

20

21

21

21

21

22

22

2. Находим х(1) = 6, х(n) = 22.

3. Определяем число интервалов разбиения по формуле Сарджеса (2.1.1)

L = 1 + 3,322lg50 = 6.6 , L = 7.

4. Находим ширину интервала разбиения h

h = (22 - 6) / 7 = 2.2857.

Ограничимся двумя знаками после запятой и получим h = 2.28. Поскольку h округлено в сторону уменьшения, то последний интервал будет шире предыдущих.

5. Строим вариационный ряд границ интервалов группирования (без корректировки границ первого и последнего интервалов): [6 ; 8.28], [8.28 ; 10.56], [10.56 ; 12.84], [12.84 ; 15.12], [15.12 ; 17.4], [17.4 ; 19.68], [19.68 ; 22]. Та же процедура, но с корректировкой границ первого и последнего интервалов даст следующие результаты:

L′ = L + 1 = 7 + 1 = 8, x'(1) = x(1) - h/2 = 6 - 1.14 = 4.86, x'(n) = x(n) + h/2 = 22 + 1.14 = 23.14.

Получаем последовательность границ интервалов разбиения для L = 8: [4.86 ; 7.14], [7.14 ; 9.42], [9.42 ; 11.7], [11.7 ; 13.98], [13.98 ; 16.26], [16.26 ; 18.54], [18.54 ; 20.82], [20.82 ; 23.14]. Ширина последнего интервала в том и другом случае (L=7 и L=8) равна h = 2.32.

6. Находим количество элементов выборки n j, попавших в j интервал, (случай без корректировки границ интервалов).

j-ый инервал

1

2

3

4

5

6

7

n j

4

5

3

4

8

14

12

Находим nj, (случай корректировки границ интервалов разбиения).

j-ый инервал

1

2

3

4

5

6

7

8

n j

2

4

4

3

8

9

14

6

Любые характеристики случайной величины, полученные по выборке из генеральной совокупности, называются выборочными, или эмпирическими, характеристиками, а характеристики, полученные по генеральной совокупности, – теоретическими, или генеральными, характеристиками.