- •Наука як система знань
- •Форми розвитку наукового знання
- •1.3. Парадигми соціально-економічних досліджень
- •1.4. Теорії в наукових дослідженнях
- •2.1. Дизайн наукового дослідження
- •2.2. Вимірювання конструктів
- •Статистичні властивості рейтингових шкал
- •Бінарна шкала для оцінки політичної активності
- •Шкала семантичного диференціалу для оцінки ставлення до національної системи охорони здоров’я
- •Шкала Гуттмана з п’яти показників для оцінки ставлення до іммігрантів
- •Матриця впорядкованихрейтингів для шкали Гуттмана
- •2.3. Надійність і валідність шкал
- •Парний кореляційний аналіз для оцінки конвергентної і дискримінантноївалідності
- •Пошуковий факторний аналіз для конвергентної та дискримінантноївалідності
- •2.4. Формування вибірок
- •2.5. Анкетне дослідження
- •2.6. Експериментальне дослідження
- •2.7. Кейс-дослідження
- •2.8. Інтерпретативне дослідження
- •3.1. Якісний аналіз
- •3.2. Кількісний аналіз: описова статистика
- •Приклад крос-таблиці
- •3.3. Кількісний аналіз: пояснювальна статистика
Парний кореляційний аналіз для оцінки конвергентної і дискримінантноївалідності
Альтернативний і більш поширений статистичний метод оцінки конвергентної і дискримінантної валідності – пошуковий факторний аналіз. Це метод редукції даних, що складаються з певного набору показників, до меншого числа факторів за допомогою кореляційної матриці з використанням статистичної методики, що називається аналізом головних компонентів. Ці фактори повинні ідеально відповідати теоретичному конструкту, який вони мають вимірювати. Загальна норма для виділення факторів полягає в тому, що кожний фактор повинен мати власне значення, що перевищує 1. Виділені фактори можуть потім перевертатися за допомогою різних технік ротації, залежно від того, чи очікується відносна кореляційна незалежність чи,навпаки, залежність відповідних конструктів. Це дозволяє генерувати факторні ваги, які можуть використовуватися, щоб поєднати окремі показники кожного конструкту в єдиний показник. Для адекватної конвергентної валідності очікується, що окремі показники одного й того ж конструкту повинні продемонструвати факторні навантаження від 0,60і вище (навантаження одного фактора), тоді як для дискримінантної валідності ці показники повинні мати значення факторних навантажень 0,30 і менше за всіма іншими факторами (міжфакторні навантаження), як показано в матриці обернених факторів (табл. 7.2). Більш складною методикою для оцінки конвергентної та дискримінантної валідності єMTMM (multi-trait-multi-method) підхід. Він вимагає виміру кожного конструкту (характеристики) з використанням двох і більше різних методів (наприклад, анкетування й особисті спостереження або анкетування двохрізних груп респондентів – клієнтів і менеджерів для оцінки якості товару. Це складний і тому менш поширений підхід, який не буде розглядатися детально в цій книзі.
Таблиця 7.2.
Пошуковий факторний аналіз для конвергентної та дискримінантноївалідності
Валідність, пов’язана з вибором критеріїв, може також оцінюватися на основі того, чи добре даний показник пов'язаний із поточними або майбутніми критеріями. Відповідно, розрізняють конкурентну і передбачувальну валідність. Передбачувальна валідність – це ступінь того, наскільки успішно показник прогнозує майбутній результат, який очікується отриматина теоретичному рівні. Наприклад, чи можуть бали респондента за анкетою оцінки інтелектуальних здібностей правильно спрогнозувати академічну успішність? Вимірювання такої валідності вимагає створення номологічної мережі, яка відображає теоретичний зв'язок між конструктами. Конкурентна валідність досліджує, наскільки добре певний показник пов'язаний із іншим відомим критерієм, що існує одночасно. Наприклад, оцінки учня з алгебри будуть корелювати з його оцінками з геометрії? Ці оцінки повинні бути пов’язані конкурентно, оскільки вони відносяться до однієї дисципліни – математики. На відміну від конвергентної і дискримінантної валідності, конкурентна і передбачувальна валідність часто ігноруються в емпіричних дослідженняхсоціальних наук.
Теорія вимірювання
Після того, як ми ознайомилися з різними видами надійності та валідності, спробуємо узагальнити наше розуміння цих понятьза допомогою класичної теорії тестів, яка також називається теорією істинних балів. Це психометрична теорія, яка досліджує, як працює певний показник, що він вимірює, а що ні. Теорія постулює, що кожне спостереження має істинне значення (Т), яке можна точно зафіксувати, якщо не було допущено помилок при вимірюванні. Однак присутність помилки вимірювання (Е) призводить до відхилення значення, що спостерігалося в дослідженні (Х), від істинного значення (Т):
Х = Т + Е.
Дисперсії значень, що спостерігалися в дослідженні, та дисперсії істинних значень пов’язані аналогічним рівнянням:
var(X) = var(T) + var(E).
Мета психометричного аналізу полягає в оцінці та мінімізації варіації помилки var(E), щоб значення Х стало хорошою оцінкою істинного показника Т.
Помилки вимірювання можуть бути двох типів: випадкові та систематичні. Випадкова помилка – це помилка, що відноситься до набору невідомих та неконтрольованих зовнішніх факторів, що випадково впливають на деякі спостереження. Наприклад, протягом періоду дослідження деякі респонденти мають гарний настрій і тому вище оцінюють задоволеність від праці, ніж ті, що мають поганий настрій. Звичайно, неможливо контролювати всі змінні, що можуть вплинути на досліджуваний показник. Аналогічно, на організаційному рівні, якщо вимірюється ефективність діяльності компанії, зміни в бізнес-середовищі можуть вплинути на діяльність деяких компаній більшою мірою, ніж інших. Отже, випадкова помилка при вимірюванні вважається «шумом» і зазвичай ігнорується.
Систематична помилка – це помилка, що постійно виникає через фактори систематичного впливу на всі спостереження конструкту у всій досліджуваній вибірці. Якщо фінансова криза негативно впливає на всі фінансові установи, тоді можна очікувати зменшення ефективності діяльності досліджуваних фінансових установ і вважати фінансову кризу фактором, що вносить систематичну помилку в діяльність компаній цього сегменту ринку. На відміну від випадкової помилки, яка в досліджуваній вибірці може бути позитивною, негативною чи дорівнювати нулю, систематичні помилки у вибірці мають тенденцію бути або позитивними, або негативними. Отже, систематична помилка іноді розглядається як погрішність вимірювання й може коригуватися.
Оскільки величина показника, що спостерігалася в дослідженні,може включати як випадкові, так і систематичні помилки, рівняння для істинного значення величини показника прийме вигляд:
X = T + Er + Es ,
де Er та Es представляють випадкову й систематичну помилки відповідно. Статистичний вплив цих помилок полягає в тому, що випадкова помилка додає варіативності (тобто збільшує стандартне відхилення) розподілу значень вибірки, однак не впливає на його центральну тенденцію (тобто не змінює середню),тоді як систематична помилка впливає на центральну тенденцію, а не на варіативність, як показано на рис. 7.3.
Рис. 7.3. Ефекти випадкової та систематичної помилок
Що означають випадкові та систематичні помилки для проведення процедури вимірювання? При збільшенні варіативності спостережень випадкова помилка зменшує надійність вимірювань. Систематична помилка, навпаки, зміщує центральну тенденцію й зменшує валідність вимірювання. Валідність викликає набагато більш серйозні проблеми при вимірюванні, ніж надійність, оскільки невалідне вимірювання, можливо, оцінює інший конструкт, ніж той, який збирався оцінювати дослідник, отже, через проблему валідності виникають сумніви в результатах статистичного аналізу.
Надійність є відношенням, або фракцією, яка показує, як співвідносяться істинне значення й те значення,що спостерігалося в дослідженні. Отже, надійність може бути виражена як:
var(T) / var(X) = var(T) / [ var(T) + var(E) ].
Якщо var(T) = var(X), тоді істинне значення має ту ж саму варіативність, як і те значення, що спостерігалось у дослідженні, і надійність дорівнює 1.
Інтегрований підхід до вимірювання валідності
Вичерпна та адекватна оцінка валідності повинна включати як теоретичний, так й емпіричний підходи. Як показано на рис. 7.4, це складний багатокроковий процес, який має враховувати різні типинадійності та валідності тих шкал, що будуть застосовуватися в дослідженні.
Рис. 7.4. Інтегрований підхід до валідизації вимірювання
Інтегрований підхід починається в теоретичній області. Перший крок – це концептуалізація конструктів, що підлягають дослідженню. Мається на увазі визначення кожного конструкту та ідентифікація його складових доменів і/чи напрямів. Далі, базуючись на концептуалізації досліджуваних конструктів, для кожного з них обираються (чи створюються) показники, або індикатори, як представлено в описі процедури розроблення шкал у розділі 5. При виборі індикаторів також може бути корисним огляд літератури. Усі показники формулюються в однаковому стилі і з використанням простої та зрозумілої лексики.Після цього група експертів (дослідників-науковців, що мають досвід у розробленні методів дослідження і/чи представники ключових респондентів) може бути залучена для дослідження кожного індикатора і виконання Q-сортування. У цьому аналізі кожному експерту дається список усіх конструктів із їх концептуальними визначеннями та набір карток із назвами індикаторів кожного конструкта (один індикатор на картку). Експертів просять незалежно читати кожну картку, перевіряти ясність, зрозумілість та семантичне значення показника і сортувати їх за конструктами, до яких за змістом вони мають належати, ураховуючи визначення конструктів. Оцінюється надійність, пов’язана з експертами, щоб визначити ступінь узгодженості думок експертів щодо класифікації показників за конструктами. Сумнівні показники, які постійно пропускалися багатьма експертами, можуть бути переглянуті, переформульовані, або відкинуті. Найкращі показники (скажімо 10-15) для кожного конструкту обираються для подальшого аналізу. Кожний показник знову оцінюється експертами щодо очевидної та змістовної валідності. Якщо на цьому етапі не вдається отримати адекватний набір показників, можливе розроблення нових показників, виходячи зконцептуального визначення конструкту, що розробляється. Може знадобитися два чи три раунди Q-сортування, перш ніж експерти дійдуть згоди стосовно набору показників, що найкраще представляють досліджуваний конструкт.
Далі валідизація переходить в емпіричну область. Створюється дослідницький апарат, що включає всі «очищені» показники конструкту й розповсюджується в пілотній репрезентативній групі респондентів. Дані, що збираються, заносяться в таблицю й проходять кореляційний аналіз або пошуковий факторний аналіз із використанням таких програмних продуктів як SAS чи SPSS для оцінки конвергентної і дискримінантної валідності. Показники, що не відповідають очікуваним нормам факторного навантаження (навантаження одного фактора вище за 0,60, навантаження між факторами менше за 0,30) на цій стадії вибраковуються. Шкали, що залишаються, оцінюються на надійність, використовуючи міру внутрішньої узгодженості, таку як альфа-коефіцієнт Кронбаха. На цій стадії також має бути перевірена вимірність шкал, залежно від того, чи досліджувані конструкти були концептуалізовані як одновимірні чи багатовимірні. Потім оцінюється здатність кожного конструкту до прогнозування в межах теоретично встановленої номологічної мережі конструкту з використанням регресійного аналізу чи моделювання структурним рівнянням. Якщо показники конструкту задовольняють більшості або всім вимогам надійності та валідності, що були описані в цьому розділі, це буде означати, що операціоналізовані показники є достатньо адекватними й точними.
Інтегрований підхід до оцінки валідності, що тут обговорювався, вимагає від дослідника як зусиль, так і часу. Однак необхідно пройти цей складний багатоетапний процес, щоб ті шкали вимірювання, що будуть застосовуватися в дослідженні, відповідали очікуваним нормам наукових досліджень. Узагалі валідизація шкал і вимірювання залишаються одним із найбільш важливих етапів емпіричного дослідження.
