Лекция № 1

.pdf

Скачиваний:

Добавлен:

25.04.2015

Размер:

191.75 Кб

Скачать

☆

<<< < Предыдущая 12 / 22

компонент л;(2),.-->*

пропуски) или признак (строку, в которой обнаружены пропуски) слишком расточительно с точки зрения потери полезной информации. Поэтому возникает задача наилучшего в некотором смысле восстановления пропущенных (стертых) данных. Конкретизация критерия качества восстановления стертых данных производится в зависимости от характера последующей обработки исходных данных, т. е. в зависимости от окончательных целей исследования (см. § 11.4, а также [35J, [66], [95]).

Проверка однородности нескольких порций исходных данных. Объективные условия сбора исходных статистических данных, особенно в ситуациях пассивного эксперимента, могут быть такими, что общая (/?Х/г)- матрица наблюдений (см. (1.4)) получается составлением (рХпх)-, (рХп2)-,

..., (/?Х/2й)-матриц (частных) наблюдений (пх + +n2+.--+nk=ri) соответственно Xlf..., X h , где каждая из частных матриц Xj задает порцию исходных данных, относящихся к некоторой подсовокупности, состоящей из tij объектов. При этом процессы (моменты) обследования этих совокупностей могут быть разделены в пространстве (во времени).

Очевидно, перед тем как подвергать исходные данные основной статистической обработке (т. е. применять к ним те или иные методы прикладного статистического анализа, выбор которых обусловлен конечными целями исследования), исследователь должен ответить на вопрос: правомерно ли объединение имеющихся в его распоряжении порций (выборок) в один общий массив или же каждая из порций имеет свою специфику и, следовательно, и обрабатывать их надо по отдельности? В рамках математикостатистических моделей этот вопрос сводится к выяснению {q помощью соответствующих статистических критериев), можно ли считать порции данных Хи . . . , Хк различными выборками из одной и той же генеральной совокупности (см., например, [12]). Очевидно,

что если причиной дробления на порции массива была временная разделенность соответствующих порций, то речь идет о статистической проверке стационарности соответствующих многомерных временных рядов.

Проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных.

Применение многих статистических методов является правомерным лишь в ситуациях, когда справедливо допущение о статистической независимости обрабатываемого ряда наблюдений Хи Х2,...,ХЛ. Этот же вопрос возникает и применительно к рядам {Xf(^),...,X*(^)}. Поэтому, перед тем как подвергнуть имеющиеся результаты наблюдения основной статистической обработке, необходимо выяснить (с помощью соответствующих статистических критериев (см. § 11.3)), являются ли они статистически независимыми или их следует рассматривать как последовательности взаимозависимых величин.

Унификация типа переменных. Одна из сложностей автоматизированного анализа информации заключается в том, что среди

(р) анализируемого многомерного признака могут быть

показатели трех разных типов: количественные, качественные (порядковые, ординальные) и классификационные (номинальные). Их определение и сущность, а также основные формы записи их наблюдаемых значений приведены в § 5.3 и 10.2.

В связи с этим возникает вопрос унификации записи единичного наблюдения, снятого с объекта i. В соответствии с одним из вариантов решения этого вопроса i-e многомерное наблюдение в унифицированной записи представляется вектор-столбцом размерности т!+т2+...+Апр, где mk

— число градаций (интервалов группирования, уровней качества или однородных групп) признака причем компонентами этого вектор-столбца могут быть только нули или единицы. При таком подходе к достижению единообразия записи наблюдений многомерного признака смешанной природы мы вынуждены мириться, во-пер- вых, с элементами субъективизма в выборе способов разбиения диапазонов изменения анализируемых количественных признаков на интервалы группирования и, во-вто- рых, с определенной потерей информативности исходных данных, связанной с переходом от индивидуальных к группированным значениям поколичественным переменным.

В качестве альтернативного подхода к способу унификации записи исходных данных может быть использована идея, прямо противоположная той, на основании которой построен только что описанный прием. В частности, руководствуясь некоторыми дополнительными соображениями (и допущениями), исследователь пытается преобра зовать качественные и классификационные переменные в количественные, используя процесс так называемой «оцифровки», или шкалирования, неколичественных переменных, а также некоторые специальные модели (Терстоуна, Лазар-

сфельда и др.), см. § 10.2, а также [31], [57], [88], [134].

Экспериментальный анализ закона распределения исследуемой генеральной совокупности и вопрос ее подходящей параметризации. Эта часть предварительной статистической обработки исходного массива данных, представленных в виде (1.4), включает в себя вычисление основных числовых характеристик распределения: среднего значения, дисперсии, коэффициентов асимметрии и эксцесса, а в многомерном случае — и элементов выборочной ковариационной матрицы. Кроме того, исследователь проводит численный и графический анализ одномерных законов распределения рассматриваемых показателей, заключающийся в построении соответствующих полигонов частот, гистограмм, эмпирических функций распределения. Результаты этого экспериментального анализа, дополненные априорными сведениями о природе анализируемой генеральной совокупности, зачастую оказываются достаточными для формулировки одной или нескольких конкурирующих гипотез об общем (параметрическом) виде закона распределения вероятностей, задающего эту генеральную совокупность. Не следует пренебрегать такой возможностью, поскольку знание общего вида

вероятностного распределения в исследуемой генеральной совокупности позволяет сделать наилучший выбор метода статистического оценивания параметров этого распределения, а также метода последующей основной статистической обработки массива исходных данных (из набора конкурирующих методов). Как известно, выяснение непротиворечивости высказанной исследователем гипотезы об общем виде распределения анализируемых наблюдений с природой и спецификой имеющихся в распоряжении исследователя конкретных исходных данных осуществляется с помощью тех или иных статистических критериев согласия (см. § 10.3 и 11.1).

Этап 5: составление детального плана вычислительного анализа материала. Этап начинается с составления справки по собранному материалу и результатам предварительного анализа. Определяются основные группы, для которых будет проводиться дальнейший анализ. Пополняется и уточняется тезаурус содержательных понятий.

Четко описывается блок-схема анализа с указанием привлекаемых методов. Формулируется оптимизационный критерий, на основании которого выбирается один из альтернативных методов (или одно из альтернативных семейств методов) основной статистической обработки исходных данных (см. § 1.2).

Этап 6: вычислительная реализация основной части статистической обработки данных. Основная забота исследователя на этом этапе — эффективное управление вычислительным процессом путем формулировки задачи обработки и описания данных на входном языке пакета. Учитываются размерность задачи, алгоритмическая сложность вычислительного процесса, возможности используемой ЭВМ (длина слова, быстродействие, объем оперативной памяти, организация базы данных и т. п.) и, наконец, особенности данных (степень обусловленности используемых при реализации линейных процедур матриц, надежность априорных оценок параметров и т. п.).

Этап 7: подведение итогов исследования. Этап начинается с построения формального статистического отчета о проведенном исследовании. При интерпретации результатов применения статистических процедур (оценка параметров, проверка гипотез, отображения в пространство меньшей размерности, классификация и т. п.) учитывается как место этих процедур в блок-схеме анализа, так и соотношение объемов используемых выборок, размерности пространства наблюдений, числа и значений параметров. Теоретически эти вопросы, несмотря на их крайнюю актуальность, разработаны довольно мало. Как исключение можно назвать работы [27], [58], [59]. В тех случаях, когда при интерпретации результатов вычислений нельзя опереться на теоретические утверждения, может оказаться полезным использование имитационного статистического моделирования (см. § 3.3 и 6.3).

Затем результаты исследования, его основные выводы формулируются в содержательных терминах. Если исследование проводилось в рамках

математико-статистических методов и моделей, то его выводы формулируются в терминах оценок неизвестных параметров анализируемой системы или в виде^ответа на вопрос о справедливости проверяемой статистической гипотезы и сопровождаются гарантируемыми количественными оценками степени их достоверности. Если же исследование осуществлялось средствами анализа данных (т. е. в рамках второго подхода), то его выводы не претендуют на вероятностную интерпретацию.

Взаключение проверяется, в какой мере достигнуты намеченные на этапе 1 содержательные цели работы, и, если достигнуты не все из них, то объясняется, почему. Работа завершается содержательной формулировкой новых задач, вытекающих из проведенного исследования.

Внекоторых руководствах по общей теории статистики (см., например, [64]) этапы 5, 6 и 7 объединены в одном этапе, названном «Обработка и анализ».

Резюмируя описание общей логической схемы статистического анализа исходных данных, отметим, что основные приемы статистического моделирования и методы первичной статистической обработки являются главными в ходе реализации важнейших этапов 1, 4 и 7, а также по мере необходимости могут привлекаться при реализации этапов 3, 5 и 6.

<<< < Предыдущая 12 / 22

Соседние файлы в папке Лекции с прошлого семестра

#
25.04.2015191.75 Кб38Лекция № 1.pdf
#
25.04.2015201.41 Кб33Лекция № 10.pdf
#
25.04.2015165.05 Кб32Лекция № 11.pdf
#
25.04.2015166.82 Кб34Лекция № 5.pdf
#
25.04.2015168.36 Кб33Лекция № 6.pdf
#
25.04.2015197.36 Кб35Лекция № 7.pdf