6.3. Анализ рядов распределений. Разработка мер связей

Построение рядов распределения, их графиков, расчет обобщающих показателей—характеристик центра распределения, показателей вариации, асимметрии и эксцесса утвердились в теории статистики как начальная стадия обработки статистических данных.

В XX в. основное внимание на этапе первичной обработки данных стало уделяться не средним величинам, а анализу распределений. Р. А. Фишер писал: «...утверждением, что статистика изучает вариацию, подчеркивается существенное различие между целями современной статистики и задачами ее предшественницы, До недавнего времени многие видные исследователи в этой области не видели никакой иной задачи, кроме простого объединения и усреднения статистических данных. Вариация, взятая сама по себе, не была предметом изучения, и на нее смотрели разве только как на досадное обстоятельство, приводящее к снижению точности средней величины... С современной точки зрения изучение причин изменчивости любой переменной величины, начиная с урожайности пшеницы и кончая интеллектом человека, должно производиться на основе измерения и анализа вариации, которая. и сама по себе имеет большое значение» (Фишер Р. А. Статистические методы для исследователей. М., 1958. С. 12—13).

Построение рядов распределения производится либо путем подбора числа групп, либо на основе формулы американского статистика Стерджесса: т= 1 + 3,322 lg п, где т — число групп, n — объем данных. Эта формула дает хорошие результаты, когда n достаточно велико, а распределение подчиняется нормальному закону.

Большое внимание к нормальному распределению привело к разработке целой группы показателей асимметрии и эксцесса. Основные из них были предложены представителями английской статистической школы.

При анализе распределения главной задачей является выравнивание ряда — испытание гипотезы о законе распределения, В XIX в. значение нормальной кривой переоценивалось. Нормальное распределение рассматривалось как всеобщий закон массовых явлений (Кетле). Если распределение не подчинялось нормальному закону, то считалось, что какие-то отклоняющие факторы мешают проявиться его действию. Однако более поздние исследования показали, что многие переменные имеют распределение, отличающееся от нормального. Борткевич исследовал «закон малых чисел»(распределение редких событий), выражаемый распределением Пуассона (1837).

Важно не только точно описать характер распределения, но и показать соотношения между различными частями совокупности: степень равномерности составляющих се частей, степень концентрации. На задачу такого рода обратил снимание Макс Отто Лоренц (1876—1944), разработавший специальную графическую модель, известную под названием кривой Лоренца (1905). Эта модель возникла на примере анализа концентрации доходов, неравномерности их распределения, по впоследствии приобрела обобщенное значение. Кривая Лоренца основана на соотношении кумулятивных значений частостей и суммарных значений признака б относительном выражении.

Неоднородность школ зарубежной статистики особенно очевидна в теории средних. Голому формализму англо-американской статистики противостоит итальянская школа, виднейшие представители которой Родольфо Бенини {1862—-1956) и Коррадо Джини. Считая статистику отраслью логики, представителя этой школы расширяли область применения статистической индукции. Причем познавательные принципы логики и статистики они связывали с природой изучаемых явлений, следуя традициям Кегле, традициям социологической трактовки статистики. И Бенини, и Джини много уделяли внимания демографии, социологии, а поэтому и неколичественным признакам. Следуя Кетле, Джини делил все средние на реальные (или действительные) и счетные (или фиктивные). К реальным он относил те средние, которые, соответствуют одному из членов данного распределения, а к счетным те, значения которых не встречаются в исходных данных.

Фиктивные средние он подразделял в свою очередь на возможные и невозможные, в зависимости от того, могут или не могут значения этих средних быть вариантой рассматриваемого признака (например, средние фиктивные невозможные — это средние из дискретных значений в том случае, когда значение средней — не целое число). Джини распространил понятие средней величины на качественные варианты. Он полагал, что статистическая индукция непременно должна опираться на некоторую дедуктивную науку, позволяющую выдвигать гипотезы, подлежащие статистической проверке. Тем самым он ставил выбор формы средней в зависимость от сущности явлений.

В целом для зарубежной статистики характерен формальный подход к средним величинам. В определении средней обычно указывается, что она заключена между максимальными и минимальными значениями признака. Подчеркивается, что средняя — это центр тяжести распределения; устойчивость средней ставится в зависимость от объема данных, по которым она определена. В 30-е и последующие годы средняя величина все чаще стала рассматриваться как социально-значимая характеристика, информативность которой зависит от однородности данных. Однако зарубежные статистики не ставят вопрос о связи между средними величинами по разным признакам, не рассматривают системы средних.

В конце XIX в. теория корреляции сложилась в основных чертах, но только в XX в. были выявлены все ее аспекты, накоплен опыт ее применения, обеспечена математическая строгость теории. Для разработки теории корреляции и практики корреляционных исчислений много сделал К. Пирсон.

Коэффициент корреляции К. Пирсона основан на следующих предположениях: связь между переменными линейная, распределения коррелируемых переменных формируются под влиянием большого числа независимых причин, т. е. подчиняются нормальному закону, под влиянием некоторой причины возникает эффект совместного распределения, при отсутствии такой причины корреляции нет.

Пирсон разработал технику вычисления коэффициентов корреляции способом моментов (по корреляционной решетке). Он определил корреляционное отношение как меру связи при нелинейной регрессии и предложил критерий линейности.

Большое внимание Пирсон уделял развитию метода контингеции (анализу таблиц сопряженности). Им предложен коэффициент взаимной сопряженности для измерения связей между неколичественными признаками, метод бисериальной корреляции для определения связи между качественными (неколичественными) и количественными признаками. Он предложил упрощенный с вычисления корреляции — способ рангов. Ему принадлежат формулы коэффициентов множественной и частной корреляции. Своим существованием теория корреляции обязана К. Пирсону. Однако для его работ характерен эмпиризм, узкий практицизм, отсуствие глубокого теоретического обоснования выявленных корреляций, неразработанность проблемы соотношения корреляции причинности.

Как отмечалось в § 6.1, при оценивании коэффициента корреляции возникли трудности из-за того, что его распределен не является нормальным.

К. Пирсон выявил источники «ложной» корреляции, т. е. установления корреляционной связи между переменными, не имеющими причинной связи друг с другом, являющейся следствием воздействия общей причины. Проявление ложной корреляции, которое привело к бессмысленным результатам, обнаружил Юл при измерении корреляции между рядами динамики.

Развитие частной корреляции и линейной регрессии для любого числа переменных во многом связано с именем Юла. От проблем связи между количественными переменными он перешел к проблемам измерения связей между неколичественными, в частности альтернативными признаками. Юл уделял большое внимание анализу связи между двумя альтернативными (или дихотомическими) признаками на основе четырехпольной таблицы сопряженности в результате чего им были предложены две меры связи: коэффициент ассоциации Q и коэффициент коллигиации y. В дальнейшем это направление исследований привлекло внимание многих ученых. Был разработан ряд теорий для анализа таблиц сопряженности, предложено множество мер связей, вычисляемых на этой основе как для дихотомических, так и для многовариантных признаков. Наибольшее распространение получили коэффициенты взаимной сопряженности К. Пирсона, А. А. Чупрова, Г. Крамера.

Широкое использование статистических методов в социологии, психологии, медицине привело к дальнейшей разработке мерсвязей между неколичественными переменными. Англичанином Морисом Кендаллом был получен коэффициент ранговой корреляции т, более строгий, нежели предложенный Спирмэном, Д. Гудменом и Е. Г. Краскалом (США) в 50—70-е годы создано целое семейство мер связей для неколичественных и неранжируемых переменных: парных, частных и множественных и найдены их средние квадратические ошибки.

В 50—60-е годы зародился самый общий подход к построению мер связей, основанный на информационных статистиках К. Э. Шеннона. Он основан на том положении, что полная связь между переменными х и у существует, когда значение х устраняет всякую неопределенность того, какое значение примет у. Уменьшение неопределенности знания об у путем знания х всегда связано с получением некоторого количества информации. Измерение статистической связи между двумя переменными есть измерение сопряженного разнообразия, т. е. измерение величины ограничения наблюдаемого разнообразия значений переменной у, включенной в систему (х, у), по сравнению с ее разнообразием в том случае, когда она рассматривается отдельно (Шеннон К. Э. Работы по теории информации и кибернетике. М., 1963).

Таким образом, зарубежные ученые постепенно развивали методы измерения связей в направлении все более точных и реалистических представлений о явлениях природы и общества, отражая самое общее, что присуще любым явлениям. Многие статистические методы возникли вне социальных исследований— в биологии, агротехнике и т. д. Они не учитывают такую специфику социально-экономических данных, как их быстрое и направленное развитие, а следовательно, асимметричность распределений, ограниченный объем данных, невозможность активного эксперимента. Все это требует особого внимания к проблеме интерпретации результатов, оценки их устойчивости в условиях, когда не могут быть выполнены предпосылки применения тех или иных методов.

<<< < Предыдущая 28 29 30 31 32 33 34 35 36 37 38 3940 / 5840 41 42 43 44 45 46 47 48 49 50 51 52 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.03.2025572.59 Кб146-74_2.docx
#
02.08.2019164.05 Кб647-60.docx
#
01.04.2025200.19 Кб14706.doc
#
01.04.201529.81 Кб648-54.docx
#
22.09.2019255.67 Кб34849_1.docx
#
18.09.20191.7 Mб57487999.doc
#
01.05.2025170.5 Кб049 вопрос конституция 93 года.doc
#
19.09.2019126.98 Кб249-54.doc
#
24.04.2019491.01 Кб4497506_F85C4_2_blok_otvetov_k_gosam_po_specialn....doc
#
01.03.2025201.04 Кб24sgimu4.docx
#
01.09.2019418.3 Кб14_DKB_malenkie.doc