
Лекция 15. Исследование зависимостей Статистические методы выявления взаимосвязей
Огромное море данных окружает нас: часть из них ложные, многие имеют второстепенный характер и лишь некоторые существенны для понимания окружающего мира и наших действий в нем.
В различных задачах управления часто возникает необходимость обобщить полученную в процессе исследования информацию с целью построения аналитических зависимостей, пригодных для использования в имитационных и прогнозных моделях.
Статистика — это наука, которая позволяет увидеть закономерности в хаосе случайных данных, выделить в них устойчивые связи и определить наши действия с тем, чтобы увеличить долю правильно принятых решений.
Как все математические науки, статистика родилась из потребностей практики: подобно тому как древние египтяне после разливов Нила вынуждены были заново измерять свои участки и для этого разработали начала геометрии, так и мы, окруженные хаотическими данными, вынуждены анализировать их. Конечно, мы стремимся интуитивно сузить пределы случайного, максимально сократить рамки неопределенности, но сделать полностью это редко когда удается. По-видимому, случайность входит как важный элемент в мироздание.
Применяя статистические методы, мы стремимся найти закономерности в случайных данных и воспользоваться найденными закономерностями.
Все процессы и явления, окружающие нас, в той или иной степени взаимосвязаны друг с другом. Так, например, уровень производительности труда работников предприятия будет зависеть от совершенства применяемого оборудования, степени совершенства технологии, организации производства труда и управления и других самых различных факторов.
При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменения других признаков.
Определение 15.1. Признаками-факторами принято называть независимые признаки, на которые можно оказать какое-либо воздействие, управлять ими. Обычно такие признаки рассматриваются в конкретной задаче как независимые, или влияющие переменные хх, х2, х3, хп.
Определение 15.2. Признаки, которые являются результатом влияния этих факторов, называют результативными.
Например, при изучении зависимости между производительностью труда рабочих и энерговооруженностью их труда уровень производительности труда является результативным признаком, а энерговооруженность труда рабочих — факторным признаком, которым мы можем управлять. Например, можно повысить энерговооруженность и воздействовать тем самым на производительность труда, если такая связь существует.
С помощью статистических методов изучения зависимостей можно установить, как проявляется теоретически возможная связь в данных конкретных условиях. Статистика не только отвечает на вопрос о реальном существовании намеченной теоретическим анализом связи, но дает количественную характеристику этой зависимости. Зная характер зависимости одного явления от других, можно объяснить причины и размер изменений в явлении, а также планировать необходимые мероприятия для дальнейшего его изменения.
Простейшей формой зависимости между переменными является линейная зависимость, и проверка наличия такой зависимости, оценивание ее параметров являются одним из важнейших направлений приложения математической статистики.
Вопросы о линейной связи двух переменных могут быть поставлены следующим образом:
Связаны ли между собой линейно переменные Хи Y?
Какова формула связи переменных X и У?
В первом случае переменные X и Y выступают как равноправные, здесь нет независимой и зависимой переменных. Во втором случае речь может идти о нахождении зависимости одной переменной от другой, например, об оценивании формулы ŷ(х)=а0+ахх (где а0 и а1 — неизвестные коэффициенты такой зависимости). В этом случае переменная X является независимой (объясняющей), а переменная Y — зависимой (объясняемой). Вопрос о нахождении формулы зависимости можно ставить после положительного ответа на вопрос о существовании такой зависимости, но эти два вопроса можно решать и одновременно.
Для ответа на поставленные вопросы существуют специальные статистические методы и, соответственно, показатели, значения которых определенным образом (и с определенной вероятностью) свидетельствуют о наличии или отсутствии линейной связи между переменными. В первом случае это коэффициент корреляции величин X и Y, во втором случае — коэффициенты линейной регрессии а0 и a1 их стандартные ошибки и t-статистики, по значениям которых проверяется гипотеза об отсутствии связи величин Хи Y.