Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3_Подготовка данных.doc
Скачиваний:
24
Добавлен:
01.02.2015
Размер:
2.69 Mб
Скачать

3.5 Ввод данных в систему

Закодированные данные из анкеты и кодировочных таблиц непосредственно в компьютер через клавиатуру. Если данные собраны с использованием автоматизированных компьютерных систем, они могут быть внемены в компьютер в процессе их сбора. Данные можно вводить не только с клавиатуры, но и в процессе считывания меток или маркеров с бланков, оптического сканирования или компьютеризированного сенсорного анализа.

Используя метод ввода ответов с клавиатуры, полностью избежать ошибок трудно, поэтому необходимо проверять введенные массивы данных, по крайне мере частично. Для проверки правильности введенных данных может применяться метод ввода данных из закодированных анкет двумя операторами. Данные, введенные двумя операторами, сравниваются по записям. Любое расхождение между двумя комплектами преобразованных данных исследуется с тем, чтобы выявить и исправить ошибки. Если проверяются результаты ввода всего набора данных, время и затраты на преобразование данных удваиваются. Учитывая дополнительные временные и денежные затраты, а также то, что опытные операторы по вводу данных работают довольно точно и практически без ошибок, обычно достаточно сверить 20—25% данных.

Если используются автоматизированные системы считывания информации, правильность ввода данных проверяется по мере их поступления. При вводе неприемлемого варианта ответа компьютер выдает респонденту или интервьюеру соответствующее предупреждение. Если же ответ приемлем, интервьюер или респондент могут увидеть его на экране и проверить его правильность до передачи на дальнейшую обработку.

Выбор метода ввода данных зависит от способа проведения интервью и наличия необходимого оборудования.

Вторичные данные обычно импортируются из баз данных и электронных таблиц.

3.6 Отбор, сортировка, группировка

План анализа данных предусматривает работу со всеми собранными данными или с их частью. Во втором случае производится отбор данных. Отбор может быть случайным или осуществляться в соответствии с определенными условиями (например, только мужчины пенсионного возраста или только магазины, которые торгуют алкогольными напитками).

Если в процессе исследования наобходимо провести статистический анализ как по всей выборке, так и по отдельным ее частям, то данные, содержащиеся в выборке, должны быть предварительно сгруппированы.

3.7 Переопределение (преобразование) переменной

Анализ данных начинается с перевода «сырых» данных в осмысленную информацию и включает их введение в компьютер, проверку на предмет ошибок, кодирование, представление в матричной форме (табулирование). Следующим этапом является процедура переопределения переменной (variable respecification) и заключается в преобразовании данных для создания новых переменных либо изменения существующих. Цель переопределения состоит в создании переменных, максимально отвечающих основным задачам исследования.

3.7.1 Преобразование шкалы измерения

Преобразование шкалы (scale transformation) заключается в манипулировании значениями шкалы с тем, чтобы сравнивать ее с другими шкалами либо как-то иначе преобразовывать данные и делать их подходящими для анализа.

Часто для измерения разных переменных используются разные шкалы. Очевидно, бессмысленно сравнивать респондентов по показателям, зафиксированным с использованием разных шкал. Даже если для оценки всех переменных использовалась одна и та же шкала, разные респонденты нередко пользуются ею по-разному. Некоторые респонденты при ответах постоянно используют верхние градации рейтинговой шкалы, 1> то время как другие — нижнюю ее часть. Различия подобного типа можно откорректировать соответствующим преобразованием данных.

В большинстве случаев используется стандартная процедура преобразования шкал — известная как нормализация (нормировка, стандартизация) данных (standardization).

Показатели, используемые в статистических исследованиях, представлены в самых разнообразных шкалах измерений: номинальных, порядковых и метрических. Показатели, измеренные в метрических шкалах, имеют самые разнообразные единицы измерения, масштаб, точки отсчета и интервалы варьирования.

Эмпирические ряды измерений подчиняются самым разнообразным законам распределений, весьма далеким от теоретических нормального или равномерного. Графики зависимостей часто имеют вид стохастических флуктуаций, приближающихся к "белому шуму". Достаточно часто возникает проблема идентификации "выбросов", фильтрации аномальных и восстановления пропущенных значений.

В связи с этим, решающее значение для получения адекватных результатов многомерного статистического анализа является предварительное нормировка (стандартизация) исходных данных.

Нормировка – линейное преобразование всех значений признаков таким образом, чтобы значения признаков попадали в сопоставимые по величине интервалы:

=,

где: , – нормированное и исходное значения показателя, А и В – некоторые заранее назначенные числа, которые можно назвать характерными масштабами.

Эти числа могут быть определены, исходя из статистических характеристик распределения эмпирических выборок (нормирование по статистикам), либо заданы по некоторым априорным соображениям (нормирование по стандартам). В качестве "стандартов" могут выступать фоновые или критические значения показателя, ПДК, наилучшие и наихудшие "благоприятные" значения и прочие оценки.

В многомерной совокупности данных определяется несколько масштабов нормирования по статистикам, когда вариационный ряд каждого отобранного показателя преобразуется с использованием выборочных статистических характеристик.

Самым распространенным является преобразование:

=,

где: – среднее значение показателя, – выборочное среднеквадратическое значение показателя.

Если в качестве масштаба выбрано выборочное среднеквадратическое отклонение, то это является нормировкой на “единичную дисперсию”. В случае, когда выборка может считаться полученной из нормального распределения, в шаре с радиусом s находится около двух третей от числа всех значений данных.

Аналогично может быть произведена нормировка по максимальному разбросу . В этом случае нормированные значения вычисляются по формуле:

=,

Нормировка всех признаков на R приводит к тому, что все облако данных заключается в шар единичного радиуса.

Еще одной распространенной нормировкой является линейная нормировка по "минимаксу":

=,

Поскольку диапазоны значений для разных признаков очень сильно отличаются друг от друга, то разумно для каждого из признаков применять собственный масштаб. Эти нормировки не являются “изотропными”, то есть они сжимают облако данных в некоторых направлениях сильнее, в некоторых – меньше. Однако, несмотря на некоторое нарушение структуры данных (взаимных расстояний), такой подход считается общепринятым.

Возникает естественный вопрос: какая из нормировочных формул предпочтительнее. Например, нормировки по "минимаксу" или по максимальному разбросу оптимальны, когда значения переменной плотно и равномерно заполняют интервал, определенный эмпирическим размахом данных. Но подобный "прямолинейный" подход применим далеко не всегда. Так, если в данных имеются относительно редкие выбросы, намного превышающие типичный разброс, именно эти выбросы определят масштаб нормировки, а приведет к тому, что основная масса значений нормированной переменной сосредоточится вблизи нуля.