
- •Московский университет государственного управления
- •Вопросы для подготовки к экзамену
- •Предмет, метод и задачи статистики
- •1. Статистики экономического потенциала общества
- •2. Статистики результатов экономической деятельности
- •3. Статистики уровня жизни населения
- •Организация государственной статистики в рф
- •Этапы статического исследования
- •Статистическое наблюдение: основные формы и виды
- •Программно-методологические вопросы статистического наблюдения
- •Организационные вопросы статистического наблюдения
- •Статистическая сводка, назначение, сущность
- •Виды статистических сводок
- •Статистическая группировка, назначение, сущность
- •Виды группировок
- •Абсолютные статистические величины: понятие, виды
- •Относительные статистические величины: понятие и виды
- •4.2. Виды и взаимосвязи относительных величин
- •Средние величины: понятие, формы
- •Виды средних
- •Средняя арифметическая величина: простая и взвешенная Средняя арифметическая
- •Средняя арифметическая простая
- •Средняя арифметическая взвешенная
- •Средняя арифметическая для интервального ряда
- •Основные свойства средней арифметической Средняя арифметическая обладает целым рядом свойств, которые более полно раскрывают ее сущность и упрощают расчет:
- •Из другого места:
- •Степенные средние
- •Степенные средние величины
- •Структурные средние: мода и медиана
- •Статические ряды распределения: назначение, виды
- •Правила построения рядов распределения
- •Полигон
- •6.1. Распределение домохозяйств по размеру
- •Гистограмма
- •Кумулята
- •6.4. Кривая концентрации
- •Понятие вариации в статистике
- •Показатели вариации: абсолютные и относительные
- •Правило сложения дисперсий
- •Коэффициент детерминации
- •Чушь из википедии:
- •Индексы: понятие и виды
- •Индивидуальные индексы цен, физического объема, товарооборота Индивидуальные индексы
- •Агрегатные индексы цен, физического объема, товарооборота, их взаимосвязь
- •На всякий случай: Общие индексы
- •Основные формулы исчисления сводных или общих индексов
- •Среднеарифметический и среднегармонический индексы цен и физического объема продукции
- •Индексы постоянного состава, переменного состава и структурных сдвигов, их взаимосвязь
- •2. Общий индекс валовой продукции:
- •3. Общий индекс численности поголовья:
- •Выборочное наблюдение, виды выборки (повторная. Бесповторная)
- •На всякий случай:
- •Генеральная совокупность и выборка из нее
- •Основные способы организации выборки
- •Основные характеристики параметров генеральной и выборочной совокупности
- •Средняя и предельная ошибки выборки. Ошибки выборки
- •Вариант ответа юли румянцевой:
- •Расчет доверительного интервала выборки Распространение выборочных результатов на генеральную совокупность
- •Расчет необходимой численности выборки, обеспечивающей заданную точность наблюдения Необходимый объем выборки
- •Ещё вариант:
- •Ряды динамики: понятие, назначение
- •Виды рядов динамики: моментные, интервальные
- •Приведение рядов динамики к сопоставимому виду Приведение рядов динамики к одинаковому основанию
- •Далее см. Рисунок ниже:
- •Аналитические и средние показатели рядов динамики
- •Методы сглаживания рядов динамики: укрупнение интервалов
- •Методы сглаживания рядов динамики: скользящей средней
- •Методы сглаживания рядов динамики: аналитическое выравнивание
- •Виды взаимосвязей между явлениями Общее представление о корреляционно-регрессивном анализе
- •Функциональная связь, ее характеристика
- •Корреляционная связь, ее характеристика
- •На всякий случай:
- •Показатели тесноты связи
- •Далее не знаю, ничего в интернете больше нет. Вот что нашла:
- •Размах вариации (r)
- •Среднее линейное и квадратическое отклонение
- •Дисперсия
- •Относительные показатели вариации
- •Линейный коэффициент корреляции
- •Ещё вариант:
- •3. Линейная корреляция.
- •Корреляционный анализ, его цель и назначение Корреляционный анализ. Линейный коэффициент корреляции, коэффициент корреляции рангов. Коэффициент связи качественных признаков
- •Регрессионный анализ, его цель и назначение
- •Ещё вариант:
- •Данные, необходимые для расчета и графического изображения шкалы регрессии
- •Расчет параметров линейной парной регрессии
- •Частные коэффициенты корреляции
- •Множественный коэффициент корреляции
- •Цели и задачи социально-экономической статистики
- •Система национальных счетов: назначение
- •Основные понятия и классификации снс
- •Основные счета снс, принципы их построения
- •Из другой книги (чуть короче, а так – абсолютно то же самое):
- •Основные макроэкономические показатели снс
- •5. Чистый национальный продукт (чнп).
- •Другой вариант:
- •Валовой внутренний продукт – центральный показатель снс
- •Из реферата:
- •Методы расчета ввп
- •Категория «национальное богатство»
- •Система показателей статистики национального богатства
- •Задачи статистики национального богатства Задачи статистики национального богатства Статистика национального богатства призвана решать следующие задачи:
- •Другая книга:
- •Состав экономических и финансовых активов.
- •Состав национального богатства
- •Состав национального богатства в соответствии с Методологическими положениями по статистике рф
- •Статистика национального богатства, баланс активов и пассивов Задачи статистики национального богатства
- •Система показателей статистики национального богатства
- •Нефинансовые произведенные активы, их сущность и состав
- •Нефинансовые непроизведенные активы, их сущность и состав
- •Задачи статистики основных фондов
- •Ещё вариант:
- •Статистические группировки основных фондов
- •Понятие «основные фонды» и виды стоимости основных фондов
- •Показатели состояния основных фондов
- •Задача (практический пример)
- •Баланс основных фондов
- •Показатели эффективности использования основных фондов
- •Показатели движения основных фондов
- •На всякий случай: Анализ состояния и использования основных фондов
- •Задачи статистики материальных оборотных активов Оборотные средства предприятия
- •Состав материальных оборотных активов
- •Показатели оборачиваемости оборотных фондов Показатели наличия и использования оборотных фондов
- •Практические задачи:
- •Задачи статистики научно-технического прогресса
- •На всякий случай информация по нтп:
- •Задачи статистики кредитной деятельности
- •Задачи статистики банковской и биржевой деятельности
- •Тема 17. Статистические показатели денежного обращения и кредита. Статистика банковской и биржевой деятельности
- •Основные показатели сферы банковской деятельности
- •Статистическая информация о деятельности коммерческих банков
- •!!! Далее не уверена, что это – то, надо смотреть и выбирать!!!
- •Основные показатели статистики рынка ценных бумаг
- •По размещению:
- •По погашению и купонным выплатам:
- •По структуре облигационного долга на дату – долю отдельных ценных бумаг в общем объеме обращения по номиналу;
- •Понятие «ценные бумаги», их экономическая функция
- •Статистический анализ рынка ценных бумаг
- •Выбирайте нужное!
- •Инфляция и задачи ее статистического изучения
- •Показатели инфляции в статистике
- •Задачи статистики цен, цель статистического анализа цен
- •Понятие «средняя цена» и ее определение методами статистики
- •Основные этапы статистического анализа цен производителей, сводных показателей цен на промышленную продукцию
- •Сводные индексы потребительских цен (формула Ласпейреса)
- •Статистика рынка труда, занятости, безработицы
- •Статистика трудовых ресурсов: экономически активное население и экономически неактивное население
- •Статистика численности работников
- •Коэффициент оборота по приему:
- •Коэффициент оборота по выбытию:
- •Коэффициент текучести:
- •Вариант юли румянцевой:
- •Статистика затрат на рабочую силу и формы оплаты труда работников.
- •Вариант юли румянцевой:
- •Фонды рабочего времени и показатели их использования.
- •Статистика себестоимости
- •Статистика населения
- •Показатели естественного движения населения
- •Показатели механического движения населения
- •Расчет перспективной численности населения. Расчет перспективной численности населения
- •Методы прогнозирования численности населения
- •Особенности прогнозирования численности населения
- •На всякий случай:
- •Система показателей уровня жизни населения.
- •Индекс развития человеческого потенциала Индекс развития человеческого потенциала
- •Цели и задачи статистики финансов
- •Статистика государственных финансов
- •Бюджетная классификация – основа системы статистических показателей государственных финансов
- •Статистика денежного обращения
- •Статистика денежных агрегатов
- •Вариант таши каминской:
- •Макроэкономические показатели статистики денежного обращения
- •Статистика финансов предприятий
- •Информационная база статистического анализа финансового состояния предприятия
- •Система статистических показателей оценки финансового состояния предприятий
- •Статистические показатели платежеспособности и финансовой устойчивости предприятий
- •Показатели эффективности деятельности предприятий
Регрессионный анализ, его цель и назначение
Регрессионный анализ – метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей. Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление. Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи. Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д. Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ. Математические модели строятся и используются для трех обобщенных целей: * для объяснения; * для предсказания; * для управления. Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели. Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Постановка задачи регрессионного анализа формулируется следующим образом. Имеется совокупность результатов наблюдений. В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y = f (x2, x3, …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные. Допущения: - количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей; - обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов; - матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования. Функция f (x2, x3, …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин «регрессия» (regression (лат.) – отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода. Решение задачи регрессионного анализа целесообразно разбить на несколько этапов: - предварительная обработка данных; - выбор вида уравнений регрессии; - вычисление коэффициентов уравнения регрессии; - проверка адекватности построенной функции результатам наблюдений. Предварительная обработка включает стандартизацию матрицы данных, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров. Выбор вида уравнения регрессии Задача определения функциональной зависимости, наилучшим образом описывающей данные, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде: y = f (x1, x2, …, xm) + e где f - заранее не известная функция, подлежащая определению; e - ошибка аппроксимации данных. Указанное уравнение принято называть выборочным уравнением регрессии. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя. Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель. В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения. Функция f должна подбираться так, чтобы ошибка e в некотором смысле была минимальна. В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения значений функции. Частным случаем, широко применяемым на практике, является полином первой степени или уравнение линейной регрессии. Для выбора вида функциональной зависимости можно рекомендовать следующий подход: - в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений; - по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах; - после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений; - если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую. Вычисление коэффициентов уравнения регрессии Систему уравнений на основе имеющихся данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации данных. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии – метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов. В основе МНК лежат следующие положения: - значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов; - математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной; - выборочная оценка дисперсии ошибки должна быть минимальна. Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения. Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии и повторить расчеты по оценке параметров. При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них. Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов - изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся данных, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции. Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл. Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии. Для проведения регрессионного анализа необходимо следующее: • Выбор одного блока, из которого берется координатный интервал, чьи данные (переменная значения) дают зависимую переменную регрессии. Например, в качестве переменной Y из блока заболеваемости берется обращаемость в координатном интервале "пневмония" координаты "диагноз". • Выбор одного или нескольких блоков, из которых аналогично берутся факторы в качестве независимых переменных регрессии. Например, данные в координатном интервале "концентрация SO2" берутся в качестве X1, а в координатном интервале "скорость ветра" - в качестве X2. При этом необходимо, чтобы блок, дающий зависимую переменную, и все блоки, дающие независимые переменные, имели какие-либо общие координаты (обычно пространство и время), которые служат переменными развертки и дают точки, по которым проводится регрессионная кривая или поверхность. • Выбор типа и "степени" функций от независимых переменных, которые включаются в регрессию. Например, при выборе полиномиальных функций с максимальной степенью 2 и при двух независимых переменных X1 и X2 регрессия ищется в виде Y = a + bX1 + cX2 + dX12 + eX22 + fX1X2 (a - f -регрессионные коэффициенты). • Задание координатных интервалов переменных сравнения, внутри которых регрессионная функция не должна значимо изменяться. Так, в вышеописанном случае можно потребовать, чтобы регрессионная функция вообще не зависела от половозрастной группы, или была одной для всех мужчин и другой - для всех женщин, или своей в каждой половозрастной группе. Эта информация используется для регуляризации регрессии гребневым или энтропийным методом. • Регрессия проводится последовательно с увеличением числа независимых переменных и степени регрессионной функции. При этом общесистемным оптимизатором находится минимум среднеквадратичного отклонения точек данных от регрессионной кривой. Для регрессионной кривой вычисляются характеристики неопределенности - показатели тесноты регрессии: кривые доверительного интервала и коэффициент детерминации. Последний может вычисляться сразу для всех комбинаций "зависимая переменная - независимая переменная" и представляться в виде цветокодированной таблицы. Такое представление близко к цветокодированию коэффициента корреляции. Разница между ними связана с возможностью выбора типа и степени регрессионной функции при регрессионном анализе. Аналогично построению таблицы условных корреляций, в регрессионном анализе может строиться таблица "условных" коэффициентов детерминации. При этом в регрессию для каждой пары факторов дополнительно включается еще несколько факторов, выбранных пользователем. Например, строятся регрессии данных обращаемости по каждому диагнозу на концентрацию каждого загрязнителя, и при этом в регрессию дополнительно включается в качестве независимой переменной скорость ветра. Сравнение таких таблиц с аналогичными "безусловными" позволяет определить, в какие регрессии нужно дополнительно включить факторы, выбранные пользователем в качестве условных. Как и для коэффициентов корреляции, для коэффициентов детерминации можно строить дерево вкладов координатных интервалов переменных развертки. Оно позволяет скорректировать выборку для достижения более тесной регрессии. Кроме того, выбрав координатный интервал в дереве, можно построить отдельные регрессионные функции во всех его подынтервалах и по результатам расслоить выборку на части с более устойчивой регрессией. В частности, можно построить "иерархическую регрессию", при которой коэффициенты регрессии внутри каждого координатного интервала рассчитываются как поправки к коэффициентам регрессии координатного интервала, следующего вверх по иерархии. При использовании такой регрессии в качестве эмпирической модели, разные коэффициенты выступают как варианты модели. Как и корреляция, регрессия рассчитывается для фиксированных координатных интервалов каждой переменной сравнения. Как указано выше, проверяется устойчивость регрессии к смене координатного интервала на том же уровне иерархии. Строится также дерево вкладов подынтервалов для выбранных пользователем переменной сравнения и координатного интервала. Возможно также построение иерархической регрессии по дереву выбранной переменной сравнения. При этом, в отличие от иерархической регрессии по дереву переменной значения, разные регрессии в дереве выступают не как варианты, а применяются соответственно значениям переменных сравнения, подаваемым на вход модели. Возможно также построение отдельной регрессии для каждого диапазона значений независимой или зависимой переменной. В первом случае получаются сплайны с числом узлов, задаваемым пользователем. Во втором случае различные регрессии образуют пакет вариантов, так что выбор подходящего диапазона при использовании такой регрессии в качестве эмпирической модели осуществляется в рамках общей идеологии выбора оптимального варианта. Для визуализации многофакторной регрессии пользователь выбирает тот фактор, который представляется как абсцисса регрессионной кривой, и фиксирует значения прочих независимых факторов. На коэффициенты регрессии это не влияет.