Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
analiz_dannykh_polny.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
626.69 Кб
Скачать

2)) Обработка и анализ нечисловых (категорийных) данных с помощью сводных таблиц

Категорийные данные представляют собой набор нечисловых значений, который показывает, к какой категории относится каждый из рассматриваемых объектов. Например, пол задается двумя категориями (мужской и женский), преподавательская должность имеет несколько категорий (ассистент, доцент, профессор), автомобильные марки характеризуются достаточно большим числом категорий (Нисан, Форд, Тойота и др.). Категорийные данные могут быть описаны с помощью частот (или процентов), определяющих число значений данных, попавших в каждую из категорий. Во многих случаях, если известно точное количество категорий, можно каждой категории поставить в соответствие число и затем обрабатывать полученные данные как количественные. Например, если имеется в точности две категории, то их можно обозначить цифрами 1 и 0. Категорийные данные разделяются на два типа: порядковые и номинальные.

Порядковые категорийные данные состоят из категорий, для которых существует порядок, имеющий содержательный смысл. Например, можно вести речь об объекте как о первом («лучшем»), втором («хорошем»), третьем («посредственном») и т.д. Порядковые данные можно ранжировать и использовать это ранжирование для анализа. Для порядковых данных в качестве статистических показателей широко используются медиана и мода.

Номинальные категорийные данные определяются категориями, которые нельзя содержательно упорядочить. Для таких категорий нет чисел, которые можно было бы поставить в соответствие с содержательным смыслом. Следовательно, с номинальными данными нельзя проводить вычисления, и нет основы для ранжирования. Все, что можно сделать – это подсчитать частоту (процент), попадающих в каждую из категорий наблюдений и использовать в качестве обобщающего показателя моду. Примерами номинальных данных являются наименования городов или главный продукт производственных предприятий (электроника, пластмасса, древесина).

Использование Сводной таблицы для одномерного набора данных

В случае одномерного набора категорийных данных (одной переменной) Сводная таблица Excel служит для подсчета частот всевозможных значений. Результат может отображаться либо в абсолютных числах, либо в процентах. Для создания Сводной таблицы в Excel используется Мастер сводных таблиц и диаграмм.

Часто, особенно при обработке анкетных сведений или данных различных социологических опросов, данные носят не числовой, а категориальный характер (т.е. тип данных – текстовый). При обработке такого рода информации и представлении её табличном виде, пригодном для анализа также полезно использовать инструменты сводных таблиц Excel. Для одновременного анализа двух категорийных переменных, образующих пару, строят таблицу сопряженности этих признаков

Числовые характеристики данных Среднее значение является наиболее важным специальным статистическим показателем, используемым для обобщения данных. Среднее значение дает представление о наиболее «типичном» или «центральном» значении в интервале изменения переменной. Часто опубликованные материалы, например отчеты предприятий, содержат средние значения различных переменных. Например, средняя заработная плата, средний объем выпуска, средний объем продаж – все эти термины часто встречаются в той или иной форме.

На практике часто применяются разные типы средних величин: среднеарифметические простые и взвешенные, среднегармонические, среднегеометрические, среднеквадратические. Выбор той или иной формы средней зависит от содержания усредняемого признака и конкретных данных, по которым ее приходится вычислять. Указанные средние величины могут быть вычислены, либо когда каждый вариант в данной совокупности встречается только один раз, при этом средняя называется простой, когда варианты повторяются различное число раз, при этом число повторений вариантов называется частотой или статистическим весом, а средняя, вычисленная с учетом весов, - средней взвешенной. Среднеарифметическая взвешенная применяется в ситуациях, когда в данных есть неравные по объёму группы наблюдений. Например, когда оценивается средний доход по общей совокупности на основе усреднения средних доходов по группам или географическим регионам, при этом следует обеспечить соответствующий вес каждой группы в общем среднем доходе.

Среднегармоническая применяется, когда известен числитель исходного соотношения средней, но неизвестен его знаменатель.

К центральным мерам распределения относятся также числовые характеристики - медиана и мода. Медиана соответствует середине распределения. Точный подсчет медианы зависит от количества в наборе данных. При нечетном количестве значений медианой является промежуточное значение, а при четном – полусумма двух центральных значений. Для расчета медианы в Excel используется функция «МЕДИАНА», причем не требуется выполнять предварительную сортировку данных, как при ручном счете. В отличии от простой средней арифметической, медиана не зависит от экстремальных значений. Ещё одной итоговой числовой характеристикой распределения является мода – это наиболее часто встречающееся значение распределения (наиболее вероятное). Мода используется при работе с дискретными или категорийными данными. Если два числа попадаются с одинаковой большой частотой, набор данных является бимодальным. Если больше чем два числа попадаются с одинаковой большой частотой, то каждое из этих чисел – мода, и набор данных мультимодален. В распределении частот мода может быть найдена в столбце частоты. Наблюдение с наибольшей частотой – мода.

Размах вариации- промежуток между наибольшим и наименьшим значениями распределения

Среднеквадратическое отклонение есть мера вариации, получаемая путем извлечения квадратного корня из средней суммы квадратов отклонений между каждым значением и арифметической средней. Большее значение среднеквадратического отклонения свидетельствует о большей вариации значений.

Стандартное квадратичное отклонение (СКО) показывает на сколько в среднем отклоняются конкретные значении признака от его среднего значения. Для оценки меры вариации и ее значимости пользуются также коэффициентом вариации (КВ) КВ дает относительную характеристику однородности явлений и процессов, они позволяют сравнивать степень вариации разных признаков.

Кроме мер положения и изменчивости в статистическом анализе применяются меры формы: асимметрия и эксцесс.

Асимметрия является мерой несимметричного распределения значений данных. Сравнение среднего, моды и медианы может дать информацию об асимметрии. Данные могут быть идентифицированы как имеющие положительную или отрицательную асимметрию.

3)) Генеральная совокупность и выборка. Виды выборок

Для сбора данных используют сведения включаемые в годовые и финансовые отчеты и внутренние информационные бюллетени.

Учет всех без исключения единиц в пределах данной совокупности образует множество всех рассматриваемых объектов –генеральную совокупность

Выборка - это часть генеральной совокупности, извлекаемая из неё для анализа. Вместе осуществления полной переписи, статистические процедуры выборочного исследования концентрируют внимание на сборе информации о малой репрезентативной группе, взятой из большой генеральной совокупности. Выборка, полученная в результате этих процедур, содержит информацию, которую можно использовать для оценки свойств всей генеральной совокупности. Процедура выбора начинается с определения основы, представляющей собой полное или частичное перечисление объектов, содержащихся в генеральной совокупности. Основой могут служить источники данных, например, списки населения, каталоги или карты. Затем из основы (множества данных) извлекаются выборки. Если основа является неадекватной, например, вследствие того, что лица или объекты, принадлежащие генеральной совокупности, выбраны неправильно, то выборки будут неточными и тенденциозными. Выбор разных основных совокупностей для получения данных может привести к противоположным результатам. Выборочное исследование занимает меньше времени, чем исследование всей генеральной совокупности. Выборки бывают детерминированные и вероятностные.

Детерминированная выборка состоит из элементов, включенных в нее без учета вероятности их появления, Т.е. респонденты по собственной инициативе участвуют в опросах. Типичным примером является нерепрезентативные выборки. Например, многие компании проводят опросы, предоставляя посетителям их Web-страниц возможность заполнить анкету и переслать ее через Интернет. Такие анкеты позволяют собрать большое количество информации за короткий промежуток времени, однако выборки состоят от ответов пользователей Интернет, которые принимают участие в опросе по собственной инициативе. Во многих случаях единственным видом доступных выборок являются не вполне случайные выборки. В этом случае крайне важным для получения осмысленных результатов становится мнение эксперта в предметной области опроса. Групповые выборки и порции данных представляют собой еще один пример детерминированных выборок.

Вероятностная выборка – состоит из элементов, вероятность появления которых известна заранее. Существует четыре вида вероятностных выборок: простая случайная, систематическая, стратифицированная и кластер.

Простая случайная выборка. В рамках простого случайного выбора символом n обычно обозначают объем выборки, а символом N – объем основы (генеральной совокупности). Каждый элемент основы нумеруется числами от 1 до N. Вероятность выбрать любой конкретный элемент основы при первом извлечении равны 1/ N.

Случайная выборка должна быть представительной, т.е. репрезентативна. Репрезентативная выборка – это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности. Существует два основных способа извлечения выборок: с возвращением и без него. Выбор с возвращением означает, что выбранный элемент возвращается в основу, причем вероятность его повторного извлечения остается постоянной.

Выбор без возвращения означает, что после извлечения элемент не возвращается в основу и, следовательно, не может быть выбран вновь.

При формировании систематической выборки N элементов, образующих основу, разбиваются на к групп, имеющих объем n. Иначе говоря, k=N/n.

Число k-округляется до ближайшего целого числа. Чтобы получить систематическую выборку, ее первый элемент нужно случайным образом выбрать из первых k элементов первой группы, взятой из основы. Остальные элементы образуются путем выбора каждого k-го элемента всей основы.

Для образования кластерной выборки основа, состоящая из N элементов, разбивается на несколько кластеров так, чтобы каждый кластер отражал свойства всей генеральной совокупности. Затем осуществляется простой случайный выбор кластеров, в которых изучаются все элементы.

Генеральная совокупность и выборка из нее

Основу статистического исследования составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины  , является выборкой, а гипотетически существующая (домысливаемая) —генеральной совокупностью. Генеральная совокупность может быть конечной (число наблюдений N = const) или бесконечной (N = ∞), а выборка из генеральной совокупности — это всегда результат ограниченного ряда  наблюдений. Число наблюдений  , образующих выборку, называется объемом выборки. Если объем выборки  достаточно велик (n → ∞) выборка считается большой, в противном случае она называется выборкой ограниченного объема. Выборка считается малой, если при измерении одномерной случайной величины   объем выборки не превышает 30 (n <= 30), а при измерении одновременно нескольких (k) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10). Выборка образует вариационный ряд, если ее члены являютсяпорядковыми статистиками, т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативностивыборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного наблюдения . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности, а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор, при котором   объектов случайно извлекаются из генеральной совокупности  объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема   подразделяется на подсовокупности или слои (страты) объема   так что  . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называютсястратифицированными (иначе, расслоенными, типическими, районированными);

4. методы серийного отбора используются для формирования серийных или гнездовых выборок. Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый ) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной.

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞)формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const).

Выборки бывают детерминированные и вероятностные.

Детерминированная выборка состоит из элементов, включенных в нее без учета вероятности их появления, Т.е. респонденты по собственной инициативе участвуют в опросах. Типичным примером является нерепрезентативные выборки. Например, многие компании проводят опросы, предоставляя посетителям их Web-страниц возможность заполнить анкету и переслать ее через Интернет. Такие анкеты позволяют собрать большое количество информации за короткий промежуток времени, однако выборки состоят от ответов пользователей Интернет, которые принимают участие в опросе по собственной инициативе. Во многих случаях единственным видом доступных выборок являются не вполне случайные выборки. В этом случае крайне важным для получения осмысленных результатов становится мнение эксперта в предметной области опроса. Групповые выборки и порции данных представляют собой еще один пример детерминированных выборок.

Вероятностная выборка – состоит из элементов, вероятность появления которых известна заранее. Существует четыре вида вероятностных выборок: простая случайная, систематическая, стратифицированная и кластер.

Простая случайная выборка. В рамках простого случайного выбора символом n обычно обозначают объем выборки, а символом N – объем основы (генеральной совокупности). Каждый элемент основы нумеруется числами от 1 до N. Вероятность выбрать любой конкретный элемент основы при первом извлечении равны 1/ N.

Случайная выборка должна быть представительной, т.е. репрезентативна. Репрезентативная выборка – это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности. Существует два основных способа извлечения выборок: с возвращением и без него. Выбор с возвращением означает, что выбранный элемент возвращается в основу, причем вероятность его повторного извлечения остается постоянной.

Выбор без возвращения означает, что после извлечения элемент не возвращается в основу и, следовательно, не может быть выбран вновь.

При формировании систематической выборки N элементов, образующих основу, разбиваются на к групп, имеющих объем n. Иначе говоря, k=N/n.

Число k-округляется до ближайшего целого числа. Чтобы получить систематическую выборку, ее первый элемент нужно случайным образом выбрать из первых k элементов первой группы, взятой из основы. Остальные элементы образуются путем выбора каждого k-го элемента всей основы.

Для образования кластерной выборки основа, состоящая из N элементов, разбивается на несколько кластеров так, чтобы каждый кластер отражал свойства всей генеральной совокупности. Затем осуществляется простой случайный выбор кластеров, в которых изучаются все элементы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]