Якуб Маріан: «Звичка виривати з контексту часто спричиняє суперечки

Світ
16 Серпня 2019, 12:05

Якуб розповів Тижню про публікації, які викликають найбільший резонанс, про небезпеку даних, вирваних із контексту, і про те, чому після кількох років роботи на вільних хлібах усе ж влаштувався на півставки дата-аналітиком у банк.

 

Українськомовна аудиторія знає вас завдяки вашим мапам, що зіставляють статистику різних європейських країн (наприклад, про рівень життя чи про книгодрукування). Розкажіть, як виникла ідея їх створювати.

 

— Направду ідея з’явилася випадково. Я взагалі нічого такого не планував. Перші мапи, за які взявся, були про мови в Європі. Одна з них показувала відсоток людей, які говорять англійською в різних країнах. Вона була, відверто кажучи, досить убога, із потворним шрифтом і низькою роздільною здатністю. Я створив її заради експерименту й поділився нею. Людям вона чомусь сподобалася. Після цього я став створювати мапи високої роздільної здатності. Дизайн тла, який використовую, — це шаблон fotolia, на нього я купив права. Решту додаю сам. Вибір тем для публікацій не обов’язково залежить від актуальних новин. Зазвичай зосереджуюся на тому, що в мене самого викликає інтерес.

 

Скільки людей у різних країнах ЄС говорять англійською? (Покращена версія мапи)

 

 

Звідки ви берете дані та як їх аналізуєте?

— Мої основні ресурси — це переважно Євростат, ООН, Світовий банк, ОЕСР. Дещо знаходжу на Вікіпедії. Я також проводжу власні дослідження, комбіную дані з різних джерел. Завжди перевіряю, наскільки вони надійні. Якщо джерела надто сумнівні або ж інформації взагалі немає у вільному доступі, залишаю позначку N/A (not available). Найбільше мені бракує інформації про балканські країни. Непросто з Косово, бо частина держав визнає незалежність цієї території, а частина ні.

Спершу я аналізував дані в Excel. Тепер за допомогою власних інструментів, розроблених у Python. У мене є своя база даних. І що більше там накопичується інформації по кожній країні, то простіше мені потім проводити обрахунки. Наприклад, чисельність населення кожної країни з 1960-х по 2017-й уже є в системі, тому окремі показники підтягуються автоматично. Інколи інформація недоступна англійською. Коли готував мапу про проституцію у Європі, мені довелося самотужки перечитати багато законів різними мовами, що було нелегко, але тепер маємо цілісну картину:

 

У яких країнах легалізована проституція? Хто та як притягується до відповідальності там, де вона заборонена?

 

Яка з мап спричинила найбільше дискусій?

— Найконтроверсійнішою була мапа про середній IQ в Європі. Чимало кого вона обурила. Я посилався на наукове дослідження, яке брало за основу результати стандартизованих тестів коефіцієнта інтелекту й тестів для оцінки успішності студентів (на кшталт PICA та TIMSS), але наголошував, що IQ не щось уроджене. Є багато факторів, які впливають на цей показник. Освіта — один із головних. Якщо в людей менший доступ до освіти, відповідно їхній рівень інтелекту буде нижчим. Це не означає, що вони менш здібні. IQ показує, наскільки розвинене в людини абстрактне мислення. Цілком можливо, що багато тих, хто має нижчий IQ, володіє куди кращим практичним мисленням, ніж деякі особи з вищим IQ. До того ж це не абсолютний показник, він демонструє результати людини порівняно з рештою населення.

 

Середній IQ у європейських країнах 

Я завжди згадую в статтях про особливості та недоліки методології, якою послуговуються дослідники, щоб люди критично оцінювали інформацію. Але проблема в тім, що інколи вони не читають моїх приміток, сканують зображення й одразу ж починають скаржитися, надсилати свої зауваження. Звичка виривати з контексту часто спричиняє суперечки. Я відповідаю вже майже на автопілоті: «Будь ласка, зверніть увагу на перший абзац тексту, що супроводжує мапу…». А вони: «Ой, вибач, не бачив».

 

Читайте також: Депресія: Чому хвороба викликає сором?

 

Але все-таки дані не завжди репрезентативні. Наприклад, досить типова проблема зі статистикою — усереднення.

— Так, про це теж намагаюся згадувати в дописах. У великих країнах зазвичай окремі регіони помітно відрізняються одне від одного. Якщо порівняти, скажімо, Баварію з Гамбургом у Німеччині, то це ж два різні світи. Через усереднення не видно того різноманіття. Водночас ви завжди знайдете регіони в цій країні, які значною мірою такі, як на мапах.

 

У невеликих країнах досить легко встановити рекорд, якщо брати показник на особу. Наприклад, кількість нобелівських лауреатів.

— Так, це правда, але, до речі, за кількістю нобелівських лауреатів першість має Люксембург.

 

Кількість нобелівських лауреатів, які народилися в країнах Європи

 

 

ІНФОГРАФІКА
Найпоширеніше прізвище в Україні — Мельник, у Чехії (як і в Польщі) — Новак

 

Що ви дізналися про Україну в процесі роботи з даними? 

— Дізнався, наскільки мова є болючою темою. Мені неприємно про це казати, але зі статистики чітко видно, що Україна досить бідна порівняно з іншими європейськими країнами. Держава мало витрачає на власне озброєння. Знову ж таки, вочевидь, їй бракує на те грошей. Але дехто може трактувати це й інакше: як варіант — що українці миролюбні.

 

Українська еміграція в європейських країнах

 

 

Що вам стало відомо про Чехію?

— Коли живеш у країні, то загалом бачиш, що в ній та як. Статистика радше підтверджує мої спостереження. Одного разу я створив мапу споживання пива на особу населення, передчуваючи, що Чеська Республіка серед лідерів. Коли виявилося, що вона на першому місці (у середньому чехи випивають понад удвічі більше пива, ніж українці), для мене це аж ніяк не стало сюрпризом. 

 

Кількість літрів спожитого пива на особу населення

 

Від вас давно нічого не чути. Остання мапа була опублікована аж у травні. Що трапилося?

— У лютому я влаштувався на півставки дата-аналітиком у Česká spořitelna — найбільший чеський банк. Це дуже хороша можливість для мене спробувати щось інше, опанувати нові технології. Усе ж таки блогу я присвятив більше ніж сім років. Час знову вчитися. 

 

Але ви як-не-як розкрутили свій блог і монетизували його без жодної реклами. Як вам це вдалося?

— Через продаж своїх посібників для вдосконалення англійської мови. Коли я навчався в Німеччині за міжнародною програмою для студентів із різних куточків світу, то став помічати чимало закономірностей у їхніх помилках залежно від того, звідки вони. Я робив такі собі польові нотатки й на основі них писав книжки про вимову, про неправильні дієслова, про розширення словникового запасу. Опублікував їх самостійно за допомогою ресурсу, який має назву Create Space (сьогодні він об’єднався з Kindle Direct Publishing). Мені дехто закидав, мовляв, чому пишу про те, як правильно говорити та писати англійською, тоді як сам не є її носієм. Але я вважаю це своєю перевагою, адже дивлюся на цю мову з позиції того, хто її вивчає. Надто багато людей, які завантажують мої книжки, — зі США та Великої Британії, — є саме non-native speakers, які хочуть опанувати англійську та готові інвестувати в це гроші. Отже, останні кілька років я продавав свої книжки й мав досить гідний заробіток. 

 

Читайте також: Die Welt. Ми залайкаємо себе до смерті

 

Вистачало грошей на те, щоб себе утримувати?

— То не були суперприбутки, але вижити на ті кошти я точно міг. Проте приблизно рік тому відбулися зміни в алгоритмах Google та Facebook. Мої дописи у Facebook стало бачити в кілька разів менше людей, ніж раніше. Google теж дещо змінив, і якщо багато де мій сайт був на першому місці в результатах пошуку, то тепер він змістився на другі, треті позиції. А це дуже впливає на відвідуваність. Раніше щомісяця мої ресурси мали аудиторію близько мільйона осіб, нині вона майже вдвічі менша. І прибутки мої впали приблизно на стільки само. Постійно працюючи в режимі фрилансу, я сам собі був босом. Це надзвичайно цінний досвід. Тепер робота в колективі є шансом здобути нові навички.

 

Маєте свої правила продуктивності?

— Ділюся тим, що мені цікаво, коли відчуваю в цьому потребу, і радий, що є люди, які не залишаються байдужими. Якось, як альтернативу десятковій системі числення, я опублікував у своєму блозі власну шістдесяткову  (такою користувалися вавилонці, але їхні символи були занадто громіздкими). Чому 60? Бо 60 кратні 2, 3, 4, 5, 6, 12, 10, 12, 15, 20, 30 і, звичайно, 60. Що більше дільників має основа системи, то зручніше ділити та множити. Насправді ми маємо цю шістдесяткову базу в багатьох сферах, хоч і записуємо показники за допомогою десяткової: у хвилині 60 с, у годині 60 хв, 360 градусів для вимірювання кутів тощо. Отже, розробив я цю нову шістдесяткову систему суто для розваги, без жодних претензій. Люди почали її обговорювати, і якось до мене звернувся письменник, попросивши дозволу використати ці напрацювання у своїй sci-fi книжці як мову позаземної цивілізації. Ніколи достеменно не знаєш, кому та як прислужиться зроблене тобою. Тому треба просто брати й робити.