Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика / Информатика шпоры к экзамену. II семестр.doc
Скачиваний:
29
Добавлен:
16.12.2013
Размер:
364.54 Кб
Скачать

43 Создание выражений для вычисления полей нет операторов like, not like, between, in

Создание вычисляемого поля осуществляется путем простого ввода выражения для вычисления в ячейку “Поле” пустого столбца бланка запроса. После выполнения запроса вычисляемое поле, основанное на этом выражении, выводит на экран результат вычислений, а не само выражение.

  • В пустой столбец бланка запроса введите выражение, состоящее из имен полей, записанных в квадратные скобки и какой-либо арифметической или другой операции.

  • После выполнения запроса в результирующей таблице появится новое поле “Выражение1”, используемое в качестве имени вычисления выражения.

  • В режиме конструктора запроса измените имя “Выражение1” на более значимое.

Для того, чтобы ввести сложные вычисления используйте окно ПОСТРОИТЕЛЬ ВЫРАЖЕНИЙ, которое вызывается нажатием кнопки ПОСТРОИТЬ панели инструментов или правой кнопки мыши в соответствующем столбце бланка запроса. Построитель выражений облегчает создание выражений, позволяя выбирать его составляющие элементы при помощи кнопок и списков.

44 Назначение и основные возможности пакета

45 создание матрицы данных

46 графический интерфейс, типы данных

47 работа в редакторе

48. Постороение частотных таблиц и сопряж.

Построение частотных таблиц.

В диалоговом окне процедуры Frequencies (Частоты) исследователь может:

  • нажав кнопку Statistics, задать вычисление максимального, минимального и среднего значения, моды, медианы, среднеквадратического отклонения для количественных переменных;

  • кнопкой Charts задать вид графиков – столбиковая или круговая диаграммы, гистограмма;

  • кнопкой Format задать порядок, в котором будут выводиться результаты

Frequencies – статистика по одной переменной.

Таблица:

  • percent – процент опрошенных; valid percent – процент ответивших; cumulative percent – суммарный накопленный процент (сумма valid).

Статистика (statistic) – вычисляется для непрерывных числовых переменных:

  • значения процентилей (percentile values):квартили (quartiles) – отображаются значения, соответствующие 25%, 50% и 75%;точки разделения на n равных групп (cut points for n equal groups) – отображаются значения, которые делят данные на равные группы, число групп – от двух до ста;процентили (percentile);

  • среднее значение распределения (central tendency):среднее (mean) – среднее арифметическое – сумма значений, деленная на число респондентов; эта мера может значительно смещаться при наличии небольшого числа слишком больших или слишком маленьких значений;медиана (median) – значение, выше и ниже которого находятся 50% случаев, 50% процентиль. Если число случаев четно, то вычисляется как среднее между двумя серединными значениями в отсортированном ряду. Эта мера среднего значения нечувствительна к крайним значениям;мода (mode) - наиболее часто встречающееся значение;

    • сумма (sum) – сумма всех присутствующих значений;

  • значения являются средними точками группировки (values are group midpoints) – значения процентилей вычисляются в предположении, что данные группированы, а значения – средние точки исходных групп;

  • рассеяние (dispersion):квадратическое отклонение (standard deviation) – мера рассеяния вокруг среднего, в нормальном распределении 68% в рамках 1SD и 95% - 2SD;дисперсия (variance) – мера рассеяния, сумма квадратов отклонения значений от среднего, деленная на число случаев минус 1;разница (difference) – разница между минимальным и максимальным значением;стандартная ошибка среднего (S.E. mean) – мера того, насколько значение среднего может варьироваться от выборки к выборке из одного распределения, может использоваться для грубого сравнения наблюдаемого значения среднего и гипотетического (две переменные различны, если соотношение S.E. меньше –2 или больше 2);

  • распределение (distribution):асимметрия (skewness) – мера асимметрии распределения, нормальное распределение симметрично и имеет значение асимметрии равное 0, распределение с существенной положительной асимметрией имеет длинный правый хвост, с отрицательной – левый хвост, если значение асимметрии больше 1, то это обычно указывает на распределение, которое сильно отличается от нормального;эксцесс (kurtosis) – мера степени сгруппированности значений вокруг среднего, у нормального распределения – 0, положительное значение – сильная концентрация, более длинные хвосты, меньше 0 – слабая концентрация, короткие хвосты.

Построение таблиц сопряженности

Каждая ячейка таблицы сопряженности содержит информацию о количестве объектов, попадающих в группу, определенную комбинацией двух значений. В применении к анализу опросных листов это означает, что исследователь может, например, получить информацию о количестве мужчин, имеющих информацию о товаре (количество человек, ответивших на вопрос о поле – "муж.", и на вопрос о известности товара – "известен").

Для вычисления таблиц сопряженности используются пункты меню:

StatisticsSummarizeCrosstabs

выбор переменных: Row - по строкам, Column - по столбцам

Помимо количества объектов, попадающих на комбинацию значений, в таблице можно вывести и процентные соотношения после выбора переменных :

Cells – Percentages – Total (по строкам и по столбцам)

Соотношения в таблицах сопряженности применимы только к выборке; для того, чтобы проверить, возможно ли распространить результаты на генеральную совокупность, необходимо использовать специальные критерии, в частности, вычислить критерий хи-квадрат Пирсона.

Величины остатков позволяют судить о том, насколько сильно фактические значения отличаются от ожидаемых, или какие значения более всего отклоняются от нулевой гипотезы (если она верна, остатки должны быть равны нулю). Таблицы сопряженности

Cross-tabulation.

Точность (exact):

  • асимптотика (asymptotic only) – уровень значимости основан на асимптотическом распределении тестовой статистики. Асимптотическое значение основано на предположении, что набор данных большой. Если он маленький или плохо распределенный, то индикатор значимости будет не очень хороший;

  • метод Монте-Карло (Monte Carlo) – случайная оценка точного уровня значимости, вычисленная с помощью многократных выборок из контрольного набора таблиц одинаковой размерности и с теми же метками строк и столбцов, что и у исходной таблицы. Метод Мотне-Карло позволяет оценить значимость без учета предпосылок, необходимых для асимптотического метода. Наиболее полезен для очень больших наборов данных, где нельзя посчитать значимость точно;

  • точный метод (exact) – вероятность наблюдаемого исхода или крайнего исхода вычисляется точно. Обычно уровень значимости <0.05 показывает, что существует некоторая связь между переменными.

Статистика (statistic):хи-квадрат (chi-square) – проверяется гипотеза, что столбцовая и строковая переменные независимы, при этом не определяется ни сила, ни направление связи. Статистика критерия Пирсона выглядит следующим образом:.