Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
487999.doc
Скачиваний:
29
Добавлен:
18.09.2019
Размер:
1.7 Mб
Скачать

6.3. Анализ рядов распределений. Разработка мер связей

Построение рядов распределения, их графиков, расчет обоб­щающих показателей—характеристик центра распределения, по­казателей вариации, асимметрии и эксцесса утвердились в теории статистики как начальная стадия обработки статистических дан­ных.

В XX в. основное внимание на этапе первичной обработки дан­ных стало уделяться не средним величинам, а анализу распреде­лений. Р. А. Фишер писал: «...утверждением, что статистика изу­чает вариацию, подчеркивается существенное различие между целями современной статистики и задачами ее предшественницы, До недавнего времени многие видные исследователи в этой обла­сти не видели никакой иной задачи, кроме простого объединения и усреднения статистических данных. Вариация, взятая сама по себе, не была предметом изучения, и на нее смотрели разве толь­ко как на досадное обстоятельство, приводящее к снижению точности средней величины... С современной точки зрения изучение причин изменчивости любой переменной величины, начиная с уро­жайности пшеницы и кончая интеллектом человека, должно про­изводиться на основе измерения и анализа вариации, которая. и сама по себе имеет большое значение» (Фишер Р. А. Статистические методы для исследователей. М., 1958. С. 12—13).

Построение рядов распределения производится либо путем подбора числа групп, либо на основе формулы американского статистика Стерджесса: т= 1 + 3,322 lg п, где т — число групп, n — объем данных. Эта формула дает хорошие результаты, когда n достаточно велико, а распределение подчиняется нормальному закону.

Большое внимание к нормальному распределению привело к разработке целой группы показателей асимметрии и эксцесса. Основные из них были предложены представителями английской статистической школы.

При анализе распределения главной задачей является вырав­нивание ряда — испытание гипотезы о законе распределения, В XIX в. значение нормальной кривой переоценивалось. Нормаль­ное распределение рассматривалось как всеобщий закон массо­вых явлений (Кетле). Если распределение не подчинялось нор­мальному закону, то считалось, что какие-то отклоняющие фак­торы мешают проявиться его действию. Однако более поздние исследования показали, что многие переменные имеют распреде­ление, отличающееся от нормального. Борткевич исследовал «закон малых чисел»(распределение редких событий), выражае­мый распределением Пуассона (1837).

Важно не только точно описать характер распределения, но и показать соотношения между различными частями совокупности: степень равномерности составляющих се частей, степень концентрации. На задачу такого рода обратил снимание Макс Отто Лоренц (1876—1944), разработавший специальную графическую модель, известную под названием кривой Лоренца (1905). Эта модель возникла на примере анализа концентрации доходов, не­равномерности их распределения, по впоследствии приобрела обоб­щенное значение. Кривая Лоренца основана на соотношении куму­лятивных значений частостей и суммарных значений признака б относительном выражении.

Неоднородность школ зарубежной статистики особенно оче­видна в теории средних. Голому формализму англо-американской статистики противостоит итальянская школа, виднейшие предста­вители которой Родольфо Бенини {1862—-1956) и Коррадо Джини. Считая статистику отраслью логики, представителя этой школы расширяли область применения статистической индукции. Причем познавательные принципы логики и статистики они связывали с природой изучаемых явлений, следуя традициям Кегле, традициям социологической трактовки статистики. И Бенини, и Джини много уделяли внимания демографии, социологии, а поэтому и неколичественным признакам. Следуя Кетле, Джини делил все средние на реальные (или действительные) и счетные (или фиктивные). К реальным он относил те средние, которые, соответствуют одному из членов данного распределения, а к счетным те, значения которых не встречаются в исходных данных.

Фиктивные средние он подразделял в свою очередь на возможные и невозможные, в зависимости от того, могут или не могут значения этих средних быть вариантой рассматриваемого признака (например, средние фиктивные невозможные — это средние из дискретных значений в том случае, когда значение средней — не целое число). Джини распространил понятие средней величины на качественные варианты. Он полагал, что статистическая индук­ция непременно должна опираться на некоторую дедуктивную науку, позволяющую выдвигать гипотезы, подлежащие статисти­ческой проверке. Тем самым он ставил выбор формы средней в зависимость от сущности явлений.

В целом для зарубежной статистики характерен формальный подход к средним величинам. В определении средней обычно ука­зывается, что она заключена между максимальными и минималь­ными значениями признака. Подчеркивается, что средняя — это центр тяжести распределения; устойчивость средней ставится в зависимость от объема данных, по которым она определена. В 30-е и последующие годы средняя величина все чаще стала рассмат­риваться как социально-значимая характеристика, информатив­ность которой зависит от однородности данных. Однако зарубеж­ные статистики не ставят вопрос о связи между средними вели­чинами по разным признакам, не рассматривают системы средних.

В конце XIX в. теория корреляции сложилась в основных чер­тах, но только в XX в. были выявлены все ее аспекты, накоплен опыт ее применения, обеспечена математическая строгость теории. Для разработки теории корреляции и практики корреляционных исчислений много сделал К. Пирсон.

Коэффициент корреляции К. Пирсона основан на следующих предположениях: связь между переменными линейная, распреде­ления коррелируемых переменных формируются под влиянием большого числа независимых причин, т. е. подчиняются нормаль­ному закону, под влиянием некоторой причины возникает эффект совместного распределения, при отсутствии такой причины корре­ляции нет.

Пирсон разработал технику вычисления коэффициентов корре­ляции способом моментов (по корреляционной решетке). Он оп­ределил корреляционное отношение как меру связи при нелиней­ной регрессии и предложил критерий линейности.

Большое внимание Пирсон уделял развитию метода контингеции (анализу таблиц сопряженности). Им предложен коэффициент взаимной сопряженности для измерения связей между неколиче­ственными признаками, метод бисериальной корреляции для оп­ределения связи между качественными (неколичественными) и количественными признаками. Он предложил упрощенный с вычисления корреляции — способ рангов. Ему принадлежат формулы коэффициентов множественной и частной корреляции. Своим существованием теория корреляции обязана К. Пирсону. Однако для его работ характерен эмпиризм, узкий практицизм, отсуствие глубокого теоретического обоснования выявленных корреляций, неразработанность проблемы соотношения корреляции причинности.

Как отмечалось в § 6.1, при оценивании коэффициента корреляции возникли трудности из-за того, что его распределен не является нормальным.

К. Пирсон выявил источники «ложной» корреляции, т. е. установления корреляционной связи между переменными, не имеющими причинной связи друг с другом, являющейся следствием воздействия общей причины. Проявление ложной корреляции, которое привело к бессмысленным результатам, обнаружил Юл при измерении корреляции между рядами динамики.

Развитие частной корреляции и линейной регрессии для любо­го числа переменных во многом связано с именем Юла. От проблем связи между количественными переменными он перешел к проблемам измерения связей между неколичественными, в частности альтернативными признаками. Юл уделял большое внимание анализу связи между двумя альтернативными (или дихотомическими) признаками на основе четырехпольной таблицы сопряженности в результате чего им были предложены две меры связи: коэффициент ассоциации Q и коэффициент коллигиации y. В дальнейшем это направление исследований привлекло внимание многих ученых. Был разработан ряд теорий для анализа таблиц сопряженности, предложено множество мер связей, вычисляемых на этой основе как для дихотомических, так и для многовариантных признаков. Наибольшее распространение получили коэффициенты взаимной сопряженности К. Пирсона, А. А. Чупрова, Г. Крамера.

Широкое использование статистических методов в социологии, психологии, медицине привело к дальнейшей разработке мер связей между неколичественными переменными. Англичанином Морисом Кендаллом был получен коэффициент ранговой корреляции т, более строгий, нежели предложенный Спирмэном, Д. Гудменом и Е. Г. Краскалом (США) в 50—70-е годы созда­но целое семейство мер связей для неколичественных и неранжируемых переменных: парных, частных и множественных и най­дены их средние квадратические ошибки.

В 50—60-е годы зародился самый общий подход к построению мер связей, основанный на информационных статистиках К. Э. Шеннона. Он основан на том положении, что полная связь между переменными х и у существует, когда значение х устраняет всякую неопределенность того, какое значение примет у. Умень­шение неопределенности знания об у путем знания х всегда связано с получением некоторого количества информации. Измерение стати­стической связи между двумя переменными есть измерение сопря­женного разнообразия, т. е. измерение величины ограничения наблюдаемого разнообразия значений переменной у, включенной в систему (х, у), по сравнению с ее разнообразием в том случае, когда она рассматривается отдельно (Шеннон К. Э. Работы по теории информации и кибернетике. М., 1963).

Таким образом, зарубежные ученые постепенно развивали методы измерения связей в направлении все более точных и реалистических представлений о явлениях природы и общества, отражая самое общее, что присуще любым явлениям. Мно­гие статистические методы возникли вне социальных исследова­ний— в биологии, агротехнике и т. д. Они не учитывают такую специфику социально-экономических данных, как их быстрое и направленное развитие, а следовательно, асимметричность рас­пределений, ограниченный объем данных, невозможность актив­ного эксперимента. Все это требует особого внимания к проблеме интерпретации результатов, оценки их устойчивости в условиях, когда не могут быть выполнены предпосылки применения тех или иных методов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]