Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
37
Добавлен:
25.04.2015
Размер:
191.75 Кб
Скачать

Прикладная статистика как самостоятельная научная дисциплина

Лекция № 1. Связь прикладной статистики с другими статистическими дисциплинами и основные этапы статистического исследования

Содержание.

1.Определение прикладной статистики.

2.Два варианта интерпретации исходных данных и два подхода к их статистической обработке.

3.Основные этапы статистической обработки исходных данных.

1. Определение прикладной статистики.

Нужно ли использовать этот термин или можно ограничиться более привычным понятием «математическая статистика»?

Как соотносится прикладная статистика с другими статистическими дисциплинами, такими, как «математическая статистика», «анализ данных», «экономическая статистика» и т. д.?

Для обоснования правомерности и целесообразности рассмотрения прикладной статистики как самостоятельной научной дисциплины следует упомянуть, как минимум, о двух моментах.

Во-первых, до сих пор развитие теории, методологии и практики статистической обработки анализируемых данных шло, по существу, в двух параллельных направлениях.

Одно из них представлено методами, предусматривающими возможность вероятностной интерпретации обрабатываемых данных и полученных в результате обработки статистических выводов.

Именно эти методы (и только они!) и составляют содержание подавляющего большинства монографий и руководств по математической статистике.

Другими словами, под методами математической статистики принято понимать лишь те методы статистической обработки исходных данных, разработка и использование которых апеллируют к вероятностной природе этих данных.

При этом развиваемый в рамках второго направления весьма широкий и актуальный класс методов статистической переработки исходной информации, а именно всей совокупности тех методов, которые априори

не опираются на вероятностную природу обрабатываемых данных (пред-

ставителями методов такого типа являются, например, разнообразные методы кластер-анализа, многомерного шкалирования, теории измерений

и др.), остается за общепринятыми рамками научной дисциплины

«математическая статистика».

Во-вторых, специалисты, занимающиеся разработкой и конкретными применениями методов статистической обработки исходной информации, не могут игнорировать ту внушительную дистанцию, которая разделяет момент успешного завершения разработки собственно математического метода и момент получения результата от использования этого метода в решении конкретной практической задачи. В процессе прохождения этой трудной дистанции математику-прикладнику приходится:

глубоко вникать в содержательную сущность задачи, адекватно «прилаживать» исходные модельные допущения (на которых строится любой математический метод) к выясненной сущности реальной задачи;

решать (в некоторых специальных случаях) весьма трудную задачу преобразования имеющейся исходной информации, представленной,

например, в виде физических сигналов, радиолокационных разверток, геологических срезов и т. п., к стандартной (унифицированной) форме обрабатываемых статистических данных;

разрабатывать практически реализуемые вычислительные алгоритмы и программное обеспечение с учетом специфики обрабатываемой статистической информации и возможностей имеющейся вычислительной техники;

организовать достаточно удобный и эффективный режим общения с электронно-вычислительной машиной (ЭВМ) в процессе решения задачи.

Понятийный аппарат, методы и результаты, позволяющие проходить эту дистанцию, вместе с этапом «прилаживания» и доработки необходимого математического инструментария и составляют главное содержание прикладной статистики.

Таким образом, мы приходим к определению прикладной статистики как

самостоятельной научной дисциплины, разрабатывающей и систематизирующей понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки (в том числе – с помощью ЭВМ) статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов.

Для определения той же самой системы понятий, приемов, математических методов и моделей некоторые специалисты используют

термин «анализ данных», понимаемый в расширительном толковании.

2. Два варианта интерпретации исходных данных и два подхода к их статистической обработке.

Рассмотрим два примера. Цель статистического анализа в первом примере – исследование возможностей массового производства по исходным данным, представляющим результаты контроля (по альтернативному признаку) ограниченного ряда изделий, случайно отобранных из продукции этого производства. Если было проконтролировано п изделий, то результаты контроля могут быть, в общем виде представлены в виде последовательности чисел

x1, х2,…, хп

(1.1)

где результат контроля i-го изделия xi полагается равным единице, если изделие оказалось дефектным, и нулю – в противном случае. Если производство отлажено и действует в стационарном режиме (т. е. его технологические возможности остаются на постоянном уровне), то ряд наблюдений (1.1) естественно интерпретировать как ограниченную выборку из соответствующей бесконечной совокупности, которую мы бы имели, если бы осуществляли сплошной контроль всех изделий, производимых на этом производстве. В этом случае саму выборку мы рассматриваем как составную часть, как представителя «стоящей за ней» бесконечной совокупности, т. е. всего массового производства, а ее основные статистические характеристики, например ее среднюю арифметическую, являющуюся, как легко видеть, долей брака дефектных изделий в ней, — как некое приближение к истинной доле брака, характеризующей все производство. В подобных ситуациях имеется принципиальная возможность, хотя бы мысленно реально представимая, многократного повторения нашего наблюдения (или эксперимента) в рамках одного и того же реального комплекса условий, включающего в себя «мешающее» влияние большого числа не поддающихся учету случайных факторов (которые и являются причиной стохастического, т. е. не предопределенного заранее, результата каждого отдельного наблюдения). Такие ситуации могут быть описаны в рамках той или иной вероятностной модели (см. § 1.2 и 1.3). Соответственно ряд наблюдений (1.1) интерпретируется как случайная выборка из некоторой генеральной совокупности, т. е. как экспериментальные (или наблюденные) значения анализируемой случайной величины, и для его статистической обработки применяются классические математико-статистические методы (методы статистического оценивания неизвестных параметров, методы проверки статистических гипотез и т. п., см. разд. III)

При подобной (вероятностной) интерпретации исходных статистических данных в поле зрения исследователя одновременно попадают две

совокупности объектов: реально наблюдаемая, статистически представленная рядом наблюдений типа (1.1) (т. е. выборка), и теоретически домысливаемая (так называемая генеральная совокупность). Основные свойства и характеристики выборки, называемые эмпирическими (или выборочными), могут быть проанализированы и вычислены по имеющимся статистическим данным (1.1). Основные свойства и характеристики генеральной совокупности, называемые теоретическими, не известны исследователю, но назначение математикостатистических методов как раз в том и состоит, чтобы с их помощью получить как можно более точное представление об этих теоретических свойствах и характеристиках по соответствующим свойствам и характеристикам выборок.

Для демонстрации второго возможного варианта интерпретации исходных статистических данных рассмотрим следующий пример (упрощенный вариант задачи, приведенной в [8, с. 2231). Была статистически обследована совокупность из 74 средних городов РСФСР (с численностью населения от 100 до 500 тыс. чел.). По каждому городу регистрировались значения 32 признаков х^\ х(2\ ..., х (32), характеризующих этот город по уровню образования его жителей, половозрастному и социальному составу, структуре занятости жителей города *. Таким образом, здесь исходные статистические данные могут быть представлены в виде последовательности 32-мерных векторов

(1.2)

где результат обследования /-го города является вектором

(1.3)

компоненты которого определяют числовые значения анализируемых признаков по данному городу. Цель статистического анализа исходных данных (1.2) — выявление числа и состава различных типов городов, где под типом понимается класс городов обследованной совокупности, однородных (сходных) по структуре уровня образования их жителей, половозрастному составу и характеру занятости.

Если допустить, что геометрическая близость двух точек — городов Xt и Xj вида (1.3) в соответствующем 32-мерном пространстве означает их однородность (сходство) по анализируемым признакам и является соответственно основанием для их отнесения к одному типу, то для решения поставленной выше задачи нам придется привлечь подходящие методы кластер-анализа (распознавания образов «без учителя») и снижения размерности. И хотя математический аппарат этих методов предусматривает необходимость счета таких статистических характеристик, как средние, дисперсии, ковариации и т. п., однако, в

данном случае они будут характеризовать природу и структуру только реально анализируемых данных, т. е. только статистически обследованную совокупность из 74 анализируемых городов. В отличие от предыдущего примера со статистическим анализом результатов контроля изделий, произведенных в режиме стационарно действующего массового производства, в данном примере мы столкнемся с серьезными методическими трудностями при:

интерпретации исходных статистических данных (1.2) в качестве выборки из некоторой (теоретически домысливаемой) генеральной совокупности;

использовании вероятностных моделей для построения и выбора наилучших методов статистической обработки;

вероятностной интерпретации выводов, основанных на статистическом анализе исходных данных.

В этом и заключается главное различие двух возможных подходов к статистическому анализу исходных данных. Однако и в том и в другом подходе выбор наилучшего из всех возможных методов обработки данных производится в соответствии с некоторым функционалом качества метода. Различие описываемых подходов проявляется здесь в способе обоснования выбора этого функционала качества метода, а также в интерпретации самого функционала и получаемых статистических выводов: в первом случае исследователь основывает свой выбор на допущениях о ве-

роятностной природе исходных данных и использует эти же допущения при вероятностной интерпретации своих выводов; во втором случае исследователь не располагает никакими априорными сведениями о вероятностной природе исходных данных и при обосновании выбора оптимизируемого критерия качества опирается на соображения содержательного (физического) плана — как именно и для чего получены обрабатываемые данные. Но после того, как выбор конкретного вида оптимизируемого критерия качества метода осуществлен, математические средства решения задачи статистической обработки данных оказываются общими для обоих подходов: и в том, и в другом случае исследователь использует методы решения экстремальных задач. Правда, на заключительном этапе — на этапе осмысления й интерпретации полученных статистических выводов — каждый из подходов снова имеет свою специфику.

Таким образом, общим для обоих описываемых подходов является наличие исходной статистической информации на «входе» задачи и необходимость наилучшей (в смысле оптимизации некоторого функционала качества метода) статистической обработки этой информации с целью получения научных или практических выводов «на выходе».

Итак, принимаясь за статистический анализ исходных данных, исследователь должен прежде всего определить, в рамках какой из двух описанных выше схем следует проводить этот анализ. Другими словами,

он должен сделать принципиальный выбор типа модели. И с этой точки зрения предостережения некоторых авторов (см. [10], [80]) по поводу вреда от чрезмерного (а порой бездумного) использования вероятностностатистических методов в качестве главного инструмента статистической обработки исходных данных нам представляются уместными и полезными. Однако нельзя отбивать всякую охоту пользоваться этими методами: именно такую цель, похоже, ставил перед собой автор [10] и именно к такому выводу (о прикладной никчемности и неэффективности вероятностно-статистических методов) пришли многие читатели работы [80], хотел того ее автор или нет.

В действительности же приходится исходить из следующей ситуации. Будем отправляться от момента, когда исследователь уже располагает исходными статистическими данными, характеризующими те или иные стороны интересующего его процесса или явления. Вопрос состоит в том, как наилучшим (в определенном смысле) образом

обработать эту информацию с целью получить из нее научные или практические выводы определенного характера об исследуемом явлении. Для того чтобы уточнить понятие «наилучшим образом», исследователь должен формализовать задачу, выбрать модель. Всякая модель является упрощенным (математическим) представлением изучаемой действительности (см. § 3.1). Очевидно, мера адекватности выбранной модели и изучаемой действительности является решающим фактором, определяющим эффективность и действенность используемых затем методов статистической обработки. Поскольку ни одна из жестко определенных моделей не может на практике идеально соответствовать изучаемой реальной действительности, то можно только приветствовать желание исследователя многократно обработать свои исходные данные, проводя каждую новую статистическую обработку в рамках несколько измененного варианта модели (см. развитие этого тезиса в § 1.2).

3. Основные этапы статистической обработки исходных данных.

Попытаемся теперь описать общую логическую схему статистического анализа исходных данных. Для пояснения роли и места основных приемов статистического моделирования и методов первичной статистической обработки исходных данных удобно разложить эту схему на основные этапы исследования. Подобное разложение носит, конечно, условный характер. В частности, оно не означает, что этапы осуществляются в строгой хронологической последовательности один за другим. Более того, многие из этапов (например, этапы 4, 5 и 6) находятся, в плане хронологическом, в соотношении итерационного взаимодействия: результаты реализации более поздних этапов могут содержать выводы о необходимости повторной «прогонки» (с учетом новой информации) предыдущих этапов.

Этап 1: исходный (предварительный) анализ исследуемой реальной системы. В результате этого анализа определяются: а) основные цели исследования на неформализованном, содержательном уровне; б) совокупность единиц, представляющая предмет статистического исследования; в) перечень (я*1), л;(2>,..., х{^) отобранных из представленного специалистами априорного набора показателей, характеризующих состояние (поведение) каждого из обследуемых объектов, который предполагается использовать в данном исследрвании; г) степень формализации соответствующих записей при сборе данных; д) общее время и трудозатраты, отведенные на планируемые работы, и коррелированные с

ними временная протяженность и объем необходимого статистического обследования; е) моменты, требующие предварительной проверки перед составлением детального плана исследования (например, не всегда априори ясна возможность идентификации единиц наблюдения, в медицинских исследованиях не всегда может быть получено согласие больного следовать определенным рекомендациям медперсонала и т. п.); ж) формализованная постановка задачи, по возможности включающая вероятностную модель изучаемого явления, и природа статистических выводов, к которым должен (или может) прийти исследователь в результате переработки массива исходных данных; з) формы, используемые для сбора первичной информации и для введения ее в ЭВМ.

По затратам сил наиболее квалифицированного персонала, участвующего в работе, трудоемкость первого этапа работы весьма значительна и бывает даже сравнима с суммарной трудоемкостью всех остальных этапов при условии, что обработка проводится с помощью подходящего пакета программ *. Поэтому максимального развития заслуживают методы машинного ассистирования в проведении этой части работы. Оно может заключаться в подсказке (с одновременной оценкой) форм документации для сбора первичной информации, методов построения контрольной или «псевдоконтрольной» групп при изучении какого-либо воздействия (что особенно актуально для медицинских приложений), подходящих моделей, в ведении тезауруса исследования и т. п.

Этап 2: составление детального плана сбора исходной статистической информации. При составлении этого плана необходимо, по возможности, учитывать полную схему дальнейшего статистического анализа, о чем часто забывают. Априорное представление о том, как и для чего данные будут анализироваться, может оказать существенное влияние на их сбор. При планировании особого внимания заслуживают случаи, когда: а) используется аппарат общей теории выборочных обследований (см., например, 143]), т. е. определяется, какой должна быть выборка — случайной,

пропорциональной, расслоенной и т. п.; б) производится расчет «разрешающей силы» исследования заданного объема и

продолжительности (см., например, [127], где оценивается сверху число возможных статистически значимых ассоциацйй между риск-факторами и частотой заболеваний, или [102], где предлагается простейшая модель для феноменологического описания действия лечебного фактора); в) хотя бы для части входных переменных эксперимент носит активный характер: переменные допускают фиксацию в каждом конкретном наблюдении на определенном уровне, и выбор плана обследования осуществляется с привлечением методов планирования (регрессионных) экспериментов (см., например, 1&Ц). В некоторых руководствах по общей теории статистики (см., например, [64, с. 274]) этот этап называют этапом «организационнометодической подготовки». Как уже сказано выше, вопросы разработки методологии определения априорной системы показателей, характеризующих исследуемый объект или процесс, вынесены за рамки описываемых здесь этапов и должны быть отнесены к области конкретносодержательной статистики( )/ (экономической, медицинской и т. п.).

Этап 3: сбор исходных статистических данных и их введение в ЭВМ.

Одновременно в ЭВМ вносятся полные и краткие (для автоматизированного воспроизводства в таблицах) определения используемых терминов. В пакете должны быть предусмотрены специальные меры, исключающие или резко уменьшающие возможность появления расчетов не с тем подмножеством данных или не для той подгруппы объектов.

Таким образом, независимо от того, производится ли исследователем выбор метода и плана статистического обследования или он уже располагал результатами так называемого пассивного эксперимента, к моменту определения( )/ основного инструментария статистического исследования исследователь в общем случае располагает в качестве массива исходных статистических данных временной последовательностью матриц наблюдений вида

/х<'> (<), х£>(0

х£>(0 \

х,(2> (0. 42) (0

х<2)

где х\ (t) — значение k-го признака, характеризующего состояние t-го объекта в момент времени t. Однако бывают случаи, когда tt случайны для каждого объекта. Так, например, может быть в медицинских исследованиях,

когда

/х\1) (*/)\

вектор, характеризующий то, как протекает /-е обострение у /-го больного, и за один и тот же промежуток времени [О, Т] у различных больных может быть разное число обострений. В этом случае матрицы (A^(^))^e[o,7,j будут иметь для разных больных (f. е. для разных /) разную размерность. Более того, в медицинских исследованиях отдельные координаты могут

быть записаны не с помощью цифр, а текстом. Подобные особенности в представлении исходных данных характерны и для социологических и, в меньшей степени, для экономических исследований.

В ряде ситуаций и в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок, возможны случаи, когда элементом первичного наблюдения является не состояние /-го объекта в момент /, а характеристи- ка Ри (0 попарной близости (отдаленности) двух объектов (или признаков) соответственно с номерами / и /, отнесенная к моменту времени t. В этом случае исследователь располагает в качестве массива исходных статистических данных временной последовательностью матриц размера пХп (если рассматриваются характеристики попарной близости объектов) или рХр (если рассматриваются характеристики попарной близости признаков) вида

т =

(<)=^

Pmi (0> Ртг (0» •••» ?тт(О (1.4')

Очевидно, что от формы записр (1.4) можно непосредственно перейти к (1.4') (при наличии заданной метрики в пространстве объектов и в пространстве признаков). Однозначный

обратный переход от (1.4') к (1.4) без дополнительных предположений и специальных методов (скажем, многомерного шкалирования, см. [122]), в общем, невозможен. Возможны и другие формы представления геометрической структуры исходных данных, однако мы не будем здесь на них останавливаться.

В целях упрощения обозначений в наших дальнейших рассуждениях, если специально не оговорено противное, мы будем рассматривать статический вариант схемы, т. е. ситуацию, в которой нас будет интересовать массив исходных данных (1.4) или (1.4'), отнесенный лишь к

одному какому-то фиксированному моменту времени /, обозначение которого будем опускать.

Этап 4: первичная статистическая обработка данных. В ходе первичной статистической обработки данных обычно решаются следующие задачи: а) отображение переменных, описанных текстом, в номинальную (с предписанным числом градаций) или ординальную (порядковую) шкалу; б) статистическое описание исходных совокупностей с определением пределов варьирования переменных; в) анализ резко выделяющихся наблюдений; г) восстановление пропущенных наблюдений; д) проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных; е) унификация типов переменных, когда с помощью различных приемов добиваются унифицированной записи всех переменных; ж) экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация сведений о природе изучаемых распределений (иногда этот этап называют

процессом составления сводки и группировки [64, с. 274—275]). Кроме того, этап 4 включает в себя вычислительную реализацию решения следующих вопросов: учет размерности и алгоритмической сложности задачи и одновременно возможностей используемой ЭВМ; формулировку задачи на входном языке пакета и т. п. (см. подробнее об этом в описании этапа 6).

Остановимся на некоторых из затронутых вопросов подробнее. Анализ резко выделяющихся наблюдений. Часто даже беглый предварительный просмотр (визуальный или автоматизированный)

исходных данных (1.4) или (1.4') может вызвать у исследователя сомнения в истинности (или правомерности) отдельных наблюдений, слишком резко выделяющихся на общем фоне. В этих случаях возникает вопрос: вправе ли мы объяснить обнаруженные резкие отклонения в исходных данных (аномальные выбросы) лишь обычными случайными колебаниями выборки (которые обусловлены природой анализируемой генеральной совокупности) или здесь дело в существенных искажениях стандартных условий сбора статистических данных, а возможно, и в прямых ошибках регистрации (записи)? В последних двух случаях «подозрительные» наблюдения, очевидно, следует исключить из дальнейшего рассмотрения.

Единственным абсолютно надежным способом решения вопроса об исключении резко выделяющихся результатов наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались. Однако во многих случаях проведение такого содержательного анализа объективно затруднительно или принципиально невозможно. Тогда необходимо обратиться к соответствующим формальным (статистическим) методам. Общая логическая схема этих методов следующая: отправляясь от исходных допущений о природе анализируемой совокупности данных, исследователь задается функцией

• И**., х*, .... X)

(1.5)

от всех имеющихся наблюдений X, характеризующей степень аномальности (меру удаленности от основной массы наблюдений) «подозрительных» наблюдений X*t, ..., X* 9 а затем подставляет в (1.5) реальные значения наблюдений и сравнивает величину с некоторым пороговым значением 'фо г\ если то подозрительные наблюдения или пол ностью исключаются из дальнейшего рассмотрения, или их вклад уменьшается с помощью весовой функций, убывающей по мере роста степени аномальности наблюдений.

С различными вариантами методов анализа резко выделяющихся наблюдений читатель познакомится в § 11.5 (см. также [6], [76]).

Восстановление пропущенных (стертых) наблюдений. В матрицах исходных статистических данных (1.4) или 1.4') по разным причинам (в том числе и в результате исключения резко

выделяющихся наблюдений) могут быть пропуски отдельных элементов или каких-то частей строк или столбцов. Исключать по этой причине из дальнейшего рассмотрения весь объект (столбец, в котором обнаружены

Соседние файлы в папке Лекции с прошлого семестра