
Цифри й статистичні дані
У деяких журналістів склалося враження, що математична грамотність – такий собі вірус, який, потрапивши в організм, може пошкодити літературні вміння, що призведе до незворотних втрат у лексиці й чутливості. Це безглуздя й небезпечне безглуздя, адже так багато історій сьогодні базуються на статистиці. Журналістів бомбардують різноманітними дослідженнями й опитуваннями громадської думки; фахівці зі зв’язків з громадськістю, підприємці, лобісти й політики – всі цитують разючі, на перший погляд, цифри. Не те, щоб математична неписьменність була критерієм літературної здатності, але для сучасного журналіста вона є фатальною вадою. Без уміння читати дані ви справді безсилі як журналіст. Джерела інформації постійно хитрують з цифрами. Без елементарного вміння розпізнати облудні дані, вам доведеться ковтати все, що розповідає джерело, і довірливо відтворювати це. Що в результаті? Ваші читачі дезінформовані й дезорієнтовані, а ви виглядаєте – і не тільки виглядаєте – дурнем.
На щастя, цьому можна дати раду – треба озброїтись достатніми знаннями, щоб розумітися па повсякденній статистиці. Не варто боятись, будьте певні, що математика в подальших викладках на рівні розуміння дванадцятирічної дитини. Якщо ж ви й досі налякані, тоді, можливо, варто пошукати іншу роботу, адже подобається вам це чи ні, зі статистикою в тій чи іншій формі доведеться мати справу кожний робочий день.
Аналізування даних
Статистичні дані, як і будь-яке інше джерело, треба ставити під сумнів. Це означає, ставити запитання до самих даних, до тих, хто їх поширює і до будь-яких висновків, зроблених на їх підставі.
Наскільки вірогідними є дані?
Дивовижно, як часто ні. 1999 року до мене потрапила історія, в якій стверджувалось, що 50% позик жінкам банки надають на косметичну хірургію, У розкішних районах Лос-Анджелеса (Каліфорнія) це могло бути й правдою. У Лондоні ж – ні. Після перевірки з'ясувалось, що насправді половина позик, наданих жінкам на оздоровлення, призначались на другорядні операції. Це звучало значно вірогідніше — і значно менш сенсаційно. Історія загинула. Крім того, є такий тип історій, для викриття яких потрібна певна кмітливість. Одна газета в США надрукувала статтю, в якій розповідалось, що 50% мешканців Ітапума в Бразилії вживають транквілізатори. Це могло бути правдою, та внаслідок простих розрахунків доходиш іншого висновку. У місті, напевне, є діти й підлітки. У Бразилії в маленьких містечках діти до 18 років становлять щонайменше половину населення. Тож виходить, що кожен дорослий — усі інші мешканці міста, навіть 90-річні — оживають заспокійливі пігулки? Неймовірно. Невдовзі газета виправилась, насправді цс були 16% віддорослого населення.
Якщо головні показники щонайменше виглядають вірогідно, наступне питання таке:
З якого джерела ці дані?
Що це – університет, приватна компанія, соціологічна організація чи якесь лобі? Чи є в них відповідна кваліфікація для збирання чи оцінювання таких даних? А може, дослідженням якогось шанованого джерела скористалася третя сторона? В останньому випадку зверніться до авторів дослідження, запитайте їхню думку про спосіб використання їхніх даних І попросіть прокоментувати зроблені на їх підставі висновки. З цього може вийти історія, краща за початкову версію.
Навіщо вони оприлюднюють ці дані?
Чому вони оприлюднюють ці дані саме зараз?
Невже всі показники — круглі числа?
Це завжди правдивий показник чогось не надто наукового. Треба взяти собі за правило, доки не доведена його чесність, з підозрою ставитись до будь-якого джерела, яке стверджує, що «50% думають те» чи «60% роблять се».
Чи можна довіряти графікам?
Графіки мають вертикальний і горизонтальний виміри, які можна налаштувати, щоб падати їм бажаний вигляд. Незначне збільшення можна представити як велике, і навпаки. Стовпчикові діаграми й графіки теж можуть бути оманливими. Старий фокус – представлення прибутку у вигляді мішка з грошима. Вдвічі більший прибуток – мішок удвічі вищий, обман у тому, що він відповідно займає вчетверо більшу площу і у вісім разів більший об'єм.
Досі вам були потрібні тільки трохи здорового глузду й здорова журналістська недовірливість. До цього моменту їх вистачало. Та для належного підготування будь-якої історії з залученням статистичних даних знадобляться елементарні математичні розрахунки. Без них вам замилять очі. Наприклад, фірма в розпалі суперечки про оплату праці говорить вам, що середня зарплатня в компанії становить 2500 грн. Ви пишете це – і вас пошили в дурні. Адже те, що вони вам дали – середньоарифметична величина, розрахована додаванням усіх їхніх зарплат, включно з чотирма директорами-власниками, які отримують понад 10000 грн. Якби компанія надала вам чесний показник, медіанну зарплатню, це було б 1500 грн. Та якщо ви не знаєте навіть про існування медіани, не кажучи вже проте, що це таке, як ви можете убезпечити себе від такої халепи? Тож нижче наведений путівник журналіста з користування й зловживання найпоширенішими статистичними показниками.
Середні величини
Є три різновиди середніх показників.
Середньоарифметичне число
Саме його більшість людей розуміють під «середнім». Ви додаєте всі величини, ділите на їхню кількість і маєте середнє число. Слабкість нього показника в тому, що він приховує не менше, ніж виявляє. Середньоарифметичне не говорить нічого про ті величини, з яких воно розраховане. Воно не покаже, як у наведеному вище випадку з зарплатнею, що кілька великих (або низьких) показників цілковито викривляють результат і дають, таким чином, оманливий «середній» показник. На жаль, цей оманний різновид середніх показників найпоширеніший. «На жаль» тому, що пишучи про «середнього батька» чи «середнього студента», ви насправді розумієте не якогось міфічного «середньоарифметичного» батька чи студента, а того, що посередині. Це приводить нас до медіани.
Медіана
У наборі величин це та, що посередині. Тож у ряду від 9000 грн до 23000-х, де більшість зарплат зосередилась ближче до меншого показника, медіана може дорівнювати 14500 грн. Вона дає правильніше уявлення про зарплатню більшості працівників, ніж середньоарифметична, спотворена високою зарплатнею жменьки директорів. Плутанина щодо двох найпоширеніших середніх показників походить, можливо, від людей, для яких типовий набір величин – це ряд від 1 до 20. У цьому ряду середньоарифметичне дорівнює десяти і медіана також. Це тому, що величини розподілим рівномірно й приріст щораз однаковий.
Мода
Це найпоширеніша величина в ряду.
Розподіл
Розмах коливання величин часто буває не менш показовим, ніж медіана, тож нам часто треба знати і його перш, ніж починати робити висновки зданих. Наприклад, середньоарифметична температура в обох регіонах може дорівнювати 61 F (за Фаренгейтом, це приблизно 16°С), що створює враження, нібито в цих регіонах подібний клімат. Це не так. Середньоарифметична температура може бути однаковою, та розмах коливання в першому регіоні становить 45 градусів, а в другому – 130 – їхній клімат дуже відрізняється.
Розмах коливань називається розподілом. Більшість соціальних даних мають нормальний розподіл, коли значення наближені до середньоарифметичного з кількома крайніми з обох кінців ряду. Наприклад, статистичні дані щодо середньої (арифметичної) тривалості сну людей віком від 21-го до 40 років будуть розподілені нормально. Мало людей, які регулярно сплять вночі п'ять і менше годин, і не більше таких, яким потрібно понад дев'ять годин сну. Більшість значень коливатимуться довкола позначки 7,5 – 8 годин зі стрімким зменшенням в обох напрямках. Графічне зображення такого розподілу матиме вигляд дзвону, звідки статистичний термін «дзвоноподібна крива» на означення нормального розподілу. З іншого боку, середньоарифметичний чистий прибуток людей від 21-го до 40 років надзвичайно коливатиметься – від утримуваних державним коштом до мільйонерів. У цьому випадку розподіл буде значно ширшим.
Стандартне відхилення
Показує, наскільки тісно значення скупчилися довкола середньоарифметичного. Величини, які недалеко відстоять одна від одної, дадуть маленьке стандартне відхилення. Коли значення дуже відрізняються – стандартне відхилення велике. Можливо, вам порадять не забивати цим свою бідну гуманітарну голівоньку, та стандартне відхилення може бути показовим. Візьмемо історію про порівняльний аналіз складання іспитів у двох, школах. Діснеївська вища школа має кращий середньоарифметичний бал, ніж Академія МГМ (студії «Метро-Голдвін-Мейер»). Самий цей факт не означає, що учні з Діснеївської школи розумніші чи викладання там краще. Тож, якщо дати такі голі цифри, це може дезорієнтувати читачів. А стандартне відхилення надасть важливу додаткову інформацію, контекст і підкаже потрібні запитання. Більше стандартне відхилення в одній зі шкіл говорить про те, що там значно ширший розмах коливань серед тих, хто склав іспити, ніж в іншій школі. Запитайте, чому. Можливо, це тому, що Академія МГМ бере різних студентів, а Діснеївська школа приймає тільки найкращих. А, може, через те, що в Диснеївській школі зосереджуються на навчанні найкращих учнів, а в МГМ витрачають багато часу на найгірших, тож знижують загальний бал.
Стандартне відхилення може допомогти також зробити висновок щодо заявлених зв'язків. Наприклад, якщо дослідження, що встановлює зв'язок між параметрами ніг і комуністичними переконаннями, має велике стандартне відхилення, зв'язок може існувати в деяких випадках, але найчастіше його нема. Іншими словами, це збіг.
Відсотки
Дивовижно, як часто репортери, бавлячись у статті лише двома-трьома цифрами, примудряються помилитись у розрахунках відсотків. Для тих, хто прогулював у школі у роки математики, ось, як це робиться: відніміть старий показник від нового, поділіть результат на старий показник і помножте частку на 100.
Така проста річ, а створює стільки проблем. Наприклад, не можна писати про зменшення чогось більше, ніж на 100%, бо це математично неможливо. Ніщо не може скоротитися більше, як на 100%, адже в такому разі воно просто зникло. Якщо не вірите, поверніться до способу розрахунку відсотків у першому абзаці й спробуйте домогтися результату, більшого за 100. Коли щось зменшилось до чверті від попереднього показника, скорочення становить не 400%, а 75%.
Жінки нижче оцінюють свої розумові здібності, ніж чоловіки. Це виявило дослідження, проведене Единбурзьким університетом у Шотландії.
Як повідомила газета „Дейлі Мейл”, 502 жінок і 265 чоловіків попросили оцінити коефіцієнт інтелекту свій власний, свого батька і своєї матері. За нормальний показник було взято IQ в 100 %. Жінки в середньому оцінили свої розумові здібності на 120 %, а чоловіки – на 127 %.
Трапляються ще такі пастки з відсотками:
Вихідні цифри
Йдеться про старий показник, з яким порівнюється новий. Завжди цікавтесь вихідною величиною. Крім хіба що хворобливо чесних, усі джерела виберуть такий вихідний показник, який порівняно з новим підтвердить їхню позицію, Завжди замислюйтесь над тим, чому для порівняння вибрали саме цю вихідну величину.
Не помиліться з основою для розрахунку
Коли щось зменшилось на 40%, а потім зросло на 20%, у багатьох журналістів створюється враження, що половину попереднього скорочення відновлено. Це не так. Якщо початкову основу вважати за 100 і вона скоротилась на 40, тоді нове ціле — 60 і 20% його збільшення — це 12. Тож нове ціле становить 72, а це менше, ніж 80, які ви мали б, якби половина початкового скорочення відновилась.
Остерігайтесь порівнянь без вихідних даних
Політики й рекламники полюбляють кидатися заявами, які справляють враження на не надто допитливих. «Зараз ми вкладаємо в будівництво шкіл на 25% більше». На 25% більше за що? За попередній уряд? Ніж торік? Ніж іде на оборону? Без вихідного показника такі порівняння ні до чого, і називають їх радше для того, щоб щось приховати, а не показати. Остерігайтесь джерел, які проголошують відсотки, не називаючи з чим порівнюють.
Відсотки не можна сумувати
Взагалі-то можна, якщо ви не переймаєтесь точністю. Наприклад, якщо вартість робочої сили в якійсь галузі промисловості збільшилась на 4%, ціна страховки на 20%, а сировина подорожчала на 2%, загальне подорожчання не дорівнює 26% (4+20+2). Поміркувавши трохи, ви зрозумієте, що ціна страховки становить лише незначну частину вартості робочої сили й сировини. Треба додати всі складові ціни, дістати нове ціле, а тоді розрахувати зростання порівняно На душу населення
зі старою ціною.
При порівнянні двох громад, двох міст чи двох країн відсоткові показники змін настільки ж інформативні, як і оманливі. Для порівнювання таких речей, як соціальні зрушення, вам потрібно знати населення обох міст, щоб ви могли розрахувати показник на душу населення.
Візьмемо приклад з блискучої книги Дарела Гафа «Як брехати за допомогою статистики» (Darrell Huff, How to Lie With Statistics). Скажімо, ви пишете статтю про зґвалтування вдвох містах. В обох — Амісті й Бемісті — по 50 зґвалтувань на рік. Це робить їх схожими, доки ви не поцікавитесь, як справи розвивались останнім часом. Тоді ви дізнаєтесь, що п'ять років тому в Амісті було 42 зґвалтування-на-рік, а в Бемісті — 29. Тож в Амісті зростання дорівнює 19%, а в Бемісті – 72%. Запальний журналіст вже плануватиме за цими даними статтю про катастрофічне зростання зґвалтувань у Бемісті, яка ставитиме запитання про те, що відбувається в місті, та про заходи, які вживаються. Та у великих містах завжди більше злочинів, ніж у маленьких. Треба мати показник на душу населення. Розрахуйте його, розділивши кількість злочинів на населення, та, щоб не оперувати задрібними числами з багатьма знаками після коми, помножте частку на 100000, діставши показник на 100000 людей. Відтак справи виглядають трохи по-іншому. П'ять років тому в Амісті було 550000 мешканців і 7,64 зґвалтування па рік на 100000. У Бемісті мешканців було 450000, а показник зґвалтувань дорівнював 6,44 на 100000. Нині в Амісті 600000 населення і 8,33 зґвалтування на 100000, а в Бемісті, яке швидко розширювалося, 800000 і 6, 25 зґвалтувань на 100000, Тож насправді в Бемісті показник злочинності скоротився майже на три відсотки, водночас в Амісті — збільшився на дев'ять відсотків. Тепер у вас є матеріал для інформативнішої, збалансованої та менш істеричної статті.
Для будь-якого порівняння треба мати показник на одиницю – на душу населення, на родину чи на милю шляху. Наприклад, безпеку подорожей можна оцінити за кількістю аварій чи смертей на пасажира/милю. Збільшення кількості загиблих у повітрі 1998 року порівняно з 1952 роком може навіяти думку, що сучасні літаки небезпечніші. Та показники на милю шляху швидко виправлять цю помилку. І пам'ятайте про те, що порівнюють подібні речі. Рівень смертності в британській армії нижчий, ніж у глухому селі в Нижньому Підлінґтоні. Не дивно, адже в першому випадку йдеться про групу здорових молодих людей, а в другому — про здебільшого старих і бідних.