Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Варава ОПМ.doc
Скачиваний:
17
Добавлен:
09.11.2019
Размер:
2.76 Mб
Скачать

8.4. Основні аналітичні технології у підтримці прийняття рішень

Передумови кореляційно-регресійного аналізу

Економічні дані майже завжди представлені у вигляді таблиць. Числові дані, що містяться в таблицях, зазвичай мають між собою явні (відомі) або неявні (приховані) зв'язки.

Явно зв'язані показники, які отримані методами прямого рахунку, тобто обчислені за заздалегідь відомими формулами. Наприклад, відсотки виконання плану, рівні, питомі ваги, відхилення в сумі, відхилення у відсотках, темпи зростання, темпи приросту, індекси і так далі

Зв'язки ж другого типа заздалегідь невідомі. Проте люди повинні уміти пояснювати і передбачати (прогнозувати) складні явища для того, щоб управляти ними. Тому фахівці за допомогою спостережень прагнуть виявити приховані залежності і виразити їх у вигляді формул, тобто математично змоделювати явища або процеси. Одну з таких можливостей надає кореляційно-регресійний аналіз.

Звернемо увагу на те, що фахівці будують і використовують математичні моделі для трьох узагальнених цілей:

  • для пояснення;

  • для передбачення;

  • для управління.

Надання економічних і інших даних в електронних таблицях в наші дні стало простим і природним. Оснащення ж електронних таблиць засобами кореляційно-регресійного аналізу сприяє тому, що з групи складних, глибоко наукових і тому рідко використовуваних, майже екзотичних методів, кореляційно-регресійний аналіз перетворюється для фахівця в повсякденний, ефективний і оперативний аналітичний інструмент. Проте, через його складність, освоєння його вимагає значно великих знань і зусиль, чим освоєння простих електронних таблиць.

Користуючись методами кореляційно-регресійного аналізу, аналітики вимірюють тісноту зв'язків показників за допомогою коефіцієнта кореляції. При цьому виявляються зв'язки, різні по силі (сильні, слабкі, помірні і ін.) і різні за напрямом (прямі, зворотні). Якщо зв'язки виявляться істотними, то доцільно буде знайти їх математичне вираження у вигляді регресійної моделі і оцінити статистичну значущість моделі. У економіці значиме рівняння використовується, як правило, для прогнозування явища, що вивчається, або показника.

Тому регресійний аналіз називають основним методом сучасної математичної статистики для виявлення неявних і завуальованих зв'язків між даними спостережень. Електронні ж таблиці роблять такий аналіз легко доступним. З безлічі видів цього аналізу ми розглянемо ті, які використовуються найчастіше як універсальні інструменти пізнання дійсності. При цьому передбачається, що студент знайомий з теоретичними основами кореляційно-регресійного аналізу з попередніх учбових дисциплін. Проте, на всяк випадок дещо нагадаємо.

Кореляційно-регресійний аналіз зв'язків між змінними показує, як один набір змінних (X) може впливати на інший набір (У). Ось декілька прикладів.

Приклад 1. Маркетологи, що вивчають шляхи просування товарів і втрати в дорозі, хочуть перевірити припущення про те, що число консервних банок, зіпсованих при перевезенні у вагонах, залежить від швидкості вагону при поштовхах. Це могло б дати інформацію перепроектування упаковки і розфасовки товарів, зміни способу доставки, визначення природного спаду. Зібрані дані про швидкість 13 вагонів (незалежна змінна X) і кількість зіпсованих банок в кожному з них (залежна змінна В). Якщо при обробці цих даних виявиться сильний зв'язок між X і В, то необхідно буде побудувати його математичну модель для прогнозування втрат при перевезеннях і нормування спаду.

Приклад 2. Хіромантія стверджує, що довжина "лінії життя" на лівій долоні людини пов'язана з тривалістю його життя. Медична наука за допомогою прямого наукового експерименту хоче перевірити, чи є це істиною. Методом прямого спостереження зібрані дані про дійсний вік 50 померлих і про довжину їх "лінії життя", аби за допомогою кореляційно-регресійного аналізу виміряти силу зв'язків і пролити наукове світло на затвердження хіромантії.

Приклад 3. Відмічено, що об'єм продажів залежить від площі торгівельного підприємства. На основі зібраних даних необхідно знайти надійне (статистично значиме) рівняння цієї залежності, аби за відомою площею універмагу (X) можна було планувати об'єм продажів у ньому (У). У останньому випадку важливо також мати дані про тип підприємства, оскільки цей зв'язок може бути неоднаковим для великих і малих підприємств.

Таким чином, регресійні обчислення і підбір кращих рівнянь - це коштовний, універсальний дослідницький інструмент в найрізноманітніших галузях ділової і наукової діяльності (маркетинг, торгівля, медицина і т.ін.). Маючи такий інструмент на своєму комп'ютері і засвоївши технологію використання цього інструменту, ви зможете застосовувати його в міру необхідності, отримуючи знання про приховані зв'язки, покращуючи аналітичну підтримку прийняття рішень і підвищуючи їх обґрунтованість.

У маркетингу широко застосовуються як однофакторні, так і множинні регресійні моделі. Кореляційно-регресійний аналіз вважається одним з головних методів в маркетингу, разом з оптимізаційними розрахунками, а також математичним і графічним моделюванням трендів (тенденцій).

Етапи кореляційно-регресійного аналізу

На рис. 8.1 приведена технологічна схема послідовності етапів кореляційно-регресійного аналізу в умовах вживання Excel.

Нульовий етап - це збір даних. Як в будівництві нульовий цикл забезпечує фундамент майбутньої будівлі, так в кореляційно-регресійному аналізі вирішальну роль грає якість даних. Збір даних створює фундамент прогнозам. Тому є ряд вимог і правил, яких слід дотримуватись при зборі даних.

Рис. 8.1. Етапи кореляційно-регресійного аналізу

Дані мають бути спостережуваними, тобто отриманими в результаті виміру, а не розрахунку. Спостереження слід спланувати.

Скільки необхідно даних для здобуття кращого рівняння? На думку одних статистиків даних необхідно в 4-6 разів більше, ніж число чинників, вплив яких хочуть виразити математично, на думку інших - в 7-8 разів більше числа чинників. Є і інші думки у бік збільшення кількості даних: "число спостережень повинно бути не менше чим в 5 - 6, а краще - не менше чим в 10 разів більше числа чинників, тоді закон великих чисел, діючи в повну силу, забезпечує ефективне погашення випадкових відхилень від закономірного характеру зв'язку ознак" [24].

Чим більше неоднакових (що не повторюються) даних, і чим вони однорідні, тим краще вийде рівняння, якщо зв'язки істотні. Підозрілі дані можуть бути викликані помилками спостережень і експериментів. Наприклад, дані про розміри заробітку робітників заводу виражені тризначними числами, але виявлене одне п'ятизначне і одне однозначне числа - для спрощення аналізу до початку рішення такі дані рекомендується відкидати (виключати з масиву).

Після підготовки даних починається їх обробка.

Перший етап - кореляційний аналіз. Його мета - визначити характер зв'язку (пряма, зворотна) і силу зв'язку (зв'язок відсутній, зв'язок слабкий, помірний, помітний, сильний, вельми сильний, повний зв'язок). Кореляційний аналіз створює інформацію про характер і міру вираженості зв'язку (коефіцієнт кореляції), який використовується для відбору істотних чинників, а також для планування ефективної послідовності розрахунку параметрів регресійних рівнянь. При одному чиннику обчислюють коефіцієнт кореляції, а за наявності декількох чинників будують кореляційну матрицю, з якої з'ясовують два види зв'язків: (1) зв'язки залежної змінної з незалежними, (2) зв'язки між самими незалежними.

Розгляд матриці дозволяє, по-перше, виявити чинники, що дійсно впливають на досліджувану залежну змінну, і збудувати (ранжувати) їх за убуванням зв'язку; по-друге, мінімізувати число чинників в моделі, виключивши частину чинників, які сильно або функціонально пов'язані з іншими чинниками (йдеться про зв'язки незалежних змінних між собою).

Відомо, що найбільш надійними на практиці бувають одно- і двохфакторні моделі.

Якщо буде виявлено, що два чинники мають сильний або повний зв'язок між собою, то в регресійне рівняння досить буде включити один з них. Чому?

Приклад з економічної практики: у одне регресійне рівняння не можна одночасно включати змінні "Кількість працівників" і "Продуктивність праці" як незалежні (оскільки показник продуктивності праці отримують діленням вироблення працівників на їх кількість) - тут має місце повний зв'язок. Аналогічно будуть зв'язані також показники прибутку і витрат, оскільки прибуток обчислюють відніманням витрат з доходів. Виключення однієї з кожної пари названих змінних підвищить значущість рівняння в цілому; при цьому виключати слід показник, отриманий не спостереженням (виміром або рахунком), а обчисленням. Грамотні фахівці, що добре знають зв'язки показників, проблеми такого роду усувають ще на етапі збору і підготовки даних. Якщо ж дані зібрані безладно, без попереднього плану, модель виявляється обмеженою і практично мало надійною.

Другий етап - розрахунок параметрів і побудова регресійних моделей. Тут прагнуть відшукати найбільш точну міру виявленого зв'язку, для того, щоб можна було прогнозувати, передбачати значення залежної величини, якщо будуть відомі значення незалежних величин

Цей захід узагальнено виражають математичною моделлю лінійної множинної регресійної залежності:

Y=a0+b1X1+b2X2+…+bnXn.

ЕОМ обчислює параметри моделі: вільний член a0 (константа, або пересічення) і коефіцієнти (коефіцієнти регресії). Величину b називають відгуком, а - чинниками або предикторами.

Здійснення другого етапу сильно залежить від висновків, які отримані при аналізі кореляційної матриці. Можна значно прискорити проведення регресійного аналізу і понизити витрати на дослідження, якщо прийняти правильну стратегію пошуку найкращого рівняння. Для цього необхідно знати основні і найбільш ефективні методи пошуку найкращого рівняння (розглядаються далі окремим пунктом).

Після здобуття кожного варіанту рівняння обов'язковою процедурою є оцінка його статистичної значущості, оскільки головна мета - отримати рівняння найвищої значущості, тому другий етап кореляційно-регресійного аналізу нерозривно пов'язаний з третім. Проте у зв'язку з тим, що розрахунки виконує ЕОМ, а рішення на основі оцінки значущості рівняння приймає дослідник (прийняти або відкинути рівняння), умовно можна виділити третій етап цієї людино-машинної технології як інтелектуальний немашинний етап, для якого майже всі дані за оцінкою значущості рівняння готує ЕОМ.

На третьому етапі з'ясовують статистичну значущість, тобто придатність постульованої моделі для використання її в цілях передбачення значень відгуку. При цьому програма вже розрахувала по моделі теоретичні значення для раніше спостережних значень залежної величини і обчислила відхилення теоретичних значень від спостережуваних значень. На основі цього програма побудувала також ряд графіків, в т.ч. графік підбірки (він ілюструє, наскільки добре підібрана лінія регресії до спостережних даних) і графік залишків. Дослідник повинен розглянути ці графіки. У залишках не повинно спостерігатися закономірності, тобто кореляції з якими-небудь значеннями (якщо вона є, то, в модель не включений якийсь чинник, що закономірно діє, але не відомий, прихований, про який немає даних). Для оцінки якості отриманої моделі програма обчислила також цілий ряд коефіцієнтів, які зобов'язаний розглянути дослідник, порівнюючи їх з відомими статистичними критеріями і оцінюючи модель з точки зору здорового глузду.

На цьому етапі виключно важливу роль відіграють коефіцієнт детермінації R2 і F-критерій значущості регресії.

R Squared (R2) - коефіцієнт детермінації - це квадрат множинного коефіцієнта кореляції між спостережуваним значенням Y і його теоретичним значенням, обчисленим на основі моделі з певним набором чинників. Коефіцієнт детермінації вимірює дійсність моделі. Він може приймати значення від 0 до 1. Ця величина особливо корисна для порівняння ряду різних моделей і вибору найкращої моделі.

R2 є частка варіації прогнозної (теоретичної) величини Y відносно спостережних значень Y, пояснена за рахунок включених в модель чинників. Дуже добре, якщо R2 > = 80%. Інша частка теоретичних значень Y залежить від інших, чинників, що не брали участь в моделі. Завдання дослідника - знаходити чинники, збільшуючі R2, і давати пояснення варіацій прогнозу, аби отримати ідеальне рівняння. Проте, коефіцієнт R2 саме більше може досягти величини 1 (або 100%), коли всі значення чинників різні. А якщо в даних є досліди, що повторюються, то величина R2 не може досягти 1, яка б добра не була модель. Тому дублікати даних слід видаляти з вихідної таблиці до початку розрахунку регресії. Деякі програмні пакети автоматично видаляють дублікат, залишаючи лише унікальні дані. Повторення однакових даних знижує надійність оцінок моделі. R2 = 1 лише при повній згоді експериментальних (спостережних) і теоретичних (розрахункових) даних, тобто коли теоретичні значення точно збігаються із спостережуваними. Проте це вважається вельми маловірогідним випадком.

Засобами регресійного аналізу, в т.ч. EXCEL, обчислюється F-критерій значущості регресії для рівняння в цілому. Це розраховане за даними спостереження значення Fp (F розрахунковий, спостережний) слід порівнювати з відповідним критичним значенням FK (F критичний, табличний). FK дослідник вибирає з публікуємих статистичних таблиць на заданому рівні вірогідності (на тому, на якому обчислювалися параметри моделі, наприклад, 95%).

Якщо спостережне значення Fp виявиться менше критичного значення FK, то рівняння не можна вважати значимим. У іншій термінології про це ж може бути сказано: не знехтувана нуль-гіпотеза відносно значущості всіх коефіцієнтів регресії в постульованій моделі, тобто коефіцієнти практично дорівнюють нулю.

На четвертому етапі кореляційно-регресійного дослідження, якщо отримана модель статистично значима, її застосовують для прогнозування (передбачення), управління або пояснення.

Якщо ж виявлена незначущість, то модель відкидають, передбачаючи, що достеменною виявиться якась інша форма зв'язку, який треба пошукати. Наприклад, з самого початку роботи (як би за умовчанням) будувалася і перевірялася лінійна регресійна модель. Незначущість її служить підставою для того, щоб відкинути лише лінійну форму моделі. Можливо, що більш відповідною буде нелінійна форма моделі.

Основні методи пошуку найкращого рівняння

Ми розглядаємо тут лише ті з методів пошуку найкращого регресійного рівняння, які визнані найкращими в умовах вживання ЕОМ в разі множинного регресійного аналізу. Якщо чинників декілька, може бути отримано декілька різних рівнянь. Завдання дослідника - відшукати найкраще рівняння. Процедури пошуку найкращої моделі вельми всілякі, пов'язані з великою кількістю обчислень і сильно залежать від числа чинників, вплив яких на відгук хочуть досліджувати. Будь-який метод виглядає як проведення серії порівнянь для вибору корисних чинників.

Існує декілька способів і алгоритмів вибору найкращого рівняння регресії:

  1. Метод всіх можливих регресій.

  2. Метод вибору «найкращої підмножини» предикторов.

  3. Метод виключення.

  4. Кроковий регресійний метод.

  5. Гребнева (ридж) регресія.

Існує ще багато інших способів вибору найкращого рівняння регресії.

Звичайно, жоден з методів не може компенсувати здоровий глузд і життєвий досвід. Проте метод виключення і кроковий метод визнаються найбільш ефективними при використанні ЕОМ. Пояснимо їх.

Метод виключення досліджує не всі, а лише найкращі регресійні рівняння, в чому і полягає його економічність. На першому етапі розраховується рівняння, що включає всі незалежні змінні. Потім, розглядаючи кореляційну матрицю, знаходять в ній незалежну змінну, що має найслабкіший (за модулем) зв'язок із залежним, (тобто з найменшим за модулем значенням коефіцієнта кореляції), і виключають її з рівняння. Заново перераховують рівняння з меншим числом незалежних змінних. Якщо в порівнянні з попереднім розрахунком значущість рівняння в цілому (Fp) і коефіцієнт детермінації (R2) підвищилися, то виключення зроблене правильно. Далі відшукують в кореляційній матриці наступну незалежну змінну з найменшим значенням коефіцієнта кореляції і поступають аналогічним чином. Виключення незалежних змінних (по одній) і перерахунки рівнянь продовжують до тих пір, поки не виявлять зниження значущості рівняння і частки поясненої варіації (R2) в порівнянні з останнім попереднім розрахунком. Це служить сигналом недоцільності останнього виключення.

Кроковий метод - це спроба прийти до тих же результатів, діючи в протилежному напрямі, починаючи з однофакторної моделі. При цьому, як і в попередньому методі, обов'язково орієнтуються на дані кореляційної матриці. Тобто при кроковому методі на першому кроці розрахунку в рівняння включають не все, а лише один чинник з найбільшим по модулю значенням коефіцієнта кореляції між незалежною і залежною змінною. На кожному наступному кроці з тих, що залишилися не включеними в рівняння незалежних змінних в попередню модель додають лише одну незалежну змінну, найбільш пов'язану із залежною, і заново перераховують всі параметри регресії. Після перерахунку порівнюють отримані оцінки нового рівняння з оцінками попереднього кроку. Так продовжують до тих пір, поки не отримають найкраще рівняння з найбільшими розрахунковими значеннями F і R2.

Додавання або виключення чинників поодинці в кожному з названих методів дозволяють відмітити і виділити роль кожного окремого чинника в регресійній моделі. Якщо цей принцип не дотримується, тобто чинники виключаються (при методі виключення) або додаються (при кроковому методі) по два або більше, то найкращу модель відшукати все-таки можна, але тоді важко зрозуміти, який же саме чинник найістотніше змінює (покращує або погіршує) статистичну значущість рівняння. А це винятково поважно в маркетингових і фінансових моделях, які відшукують саме для того, щоб управляти залежним показником, через вплив найістотнішого або найістотніших чинників, тобто цілеспрямовано змінюючи значення чинника для здобуття бажаного відгуку.

Зверніть увагу на те, що в описаних вище правилах виконання регресійних обчислень дослідник повинен діяти, заздалегідь вибравши конкретний метод. Не дивлячись на комп'ютерну підтримку обчислень кореляційної матриці, а також параметрів регресійного рівняння, на долю дослідника припадає значна частина інтелектуальної праці - він направляє кожен наступний крок розрахунків, прагнучи при цьому знайти якісну модель при найменших витратах часу. Знаючи алгоритм, властивий вибраному методу, дослідник повинен якось (уручну або за допомогою допоміжних електронних таблиць) наочно організувати найважливіші розрахункові дані, необхідні для прийняття рішення (про включення або виключення чинника). Ця обставина грає важливу роль при порівнянні різних програмних інструментів кореляційно-регресійного аналізу.

Вважається, що чим більше інтелектуальних функцій передано програмі, тим вона краща. Деякі програми можуть будувати повний математичний вид рівняння на кожному кроці. Інші програми, після вказівки даних і методу, автоматично виконують весь каскад необхідних кроків (включення або виключення предикторов), і видають звіти про виконані обчислення, реєструючи номери кроків, результати кожного кроку, обґрунтовуючи включення або виключення

За підтримки засобами Excel множинного регресійного аналізу можна відстежувати черговість дослідницьких кроків, записуючи для кожного кроку: номер кроку, набір незалежних змінних, вигляд рівняння, головні оцінні дані: коефіцієнти Фішера (F розрахунковий і F критичний) і детермінації R2.

Приведемо одну з можливих форм допоміжної таблиці (табл. 8.1). Для простої регресії, тобто при одній незалежній змінній, така таблиця практично не потрібна. Зону граф 5-7 можна розширити, збільшуючи кількість критеріїв перевірки значущості чинників (наприклад, за рахунок t-критерія). Якщо загальний F-критерій дає можливість оцінювати значущість рівняння в цілому, то t-критерій (t-статистика) дозволяє оцінити індивідуальний вклад окремого параметра в значущість рівняння.

Таблиця 8.1

Результати множинного регресійного дослідження методом (шаговим, виключення)

кроку

Кількість

чинників

Беруть участь незалежні змінні

Вид

отриманої

моделі

Fр

FK

R2

Виводи: про роль включеного або виключеного чинника про значущість моделі, про вибір кращої моделі

1

2

3

4

5

6

7

8

Про використання t-статистики. Уміння використовувати t-статистику служить додатковим резервом для підвищення ефективності пошуку найкращого рівняння і контролю припущень про виключення незалежної змінної з рівняння. У деяких регресійних програмах, що базуються на методі виключення, може використовуватися не t-критерій, а частинний F-критерій. t-критерій – це корінь квадратний з величини частинного F-критерія (F=t2). Таким чином, звівши в квадрат t-критерій, можна отримати серію частинних значень F для окремих параметрів рівняння і перевірити рішення про виключення даремної змінної, прийняте іншим способом.

Для коректного використання t-статистики необхідно мати при собі публіковану статистичну таблицю значень t-критерію Стьюдента. Критичне значення t вибирається з цієї таблиці і порівнюється з розрахунковим.

t-статистика розроблена для малих вибірок, тобто вибірок, що складаються з порівняно невеликого числа спостережень - одного-двох десятків. Розподіл Стьюдента не дуже значно відрізняється від нормального. Ця відмінність тим менше, чим більше n, і при n>30 практично швидко зникає.

Метод виключення починається з якнайповнішого рівняння, що включає всі змінні, і полягає в послідовному зменшенні числа змінних до тих пір, поки не приймається рішення про використання рівняння з членами, що залишилися. Кроковий метод є спробою прийти до тих же результатів, діючи у зворотному напрямі, тобто включаючи змінні по черзі в рівняння до тих пір, поки рівняння не стане задовільним. Порядок включення визначається за допомогою частинного коефіцієнта кореляції як міри важливості змінних, ще не включених в рівняння. Метод найбільш економічний при обробці даних на ЕОМ. Проте кроковий метод може легко стати тягарем для професійного статистика. Використання цього методу для автоматичного вибору найкращого рівняння за допомогою ЕОМ буде дуже скрутним. Краще всього працювати з якимсь одним методом і опанувати його специфічні особливості."