Економіка

  ▪   Віталій Рибак

На «ти» з терабайтами

Як метод аналізу великих даних змінює соціальну реальність
Матеріал друкованого видання
№ 14 (438)
від 7 квітня, 2016

Уявіть, що ви міністр охорони здоров’я, який бажає детально дослідити завантаженість та ефективність лікарень. Або ж власник величезної мережі магазинів побутової техніки, який хоче знати більше про попит на різні види товарів у країні. Чи, може, ви в команді стартапу, що намагається оцінити реакцію потенційних покупців на продукт, який випускає? Раніше довелося б покладатися виключно на звіти підлеглих та соціологічні дослідження. Проте перші потрібно довго опра­­цьовувати, а другі все ж краще працюють у менших масштабах. А якщо масив ще й постійно оновлюється і його обсяги зростають… Що робити?

Четверта промислова революція забезпечила появу нового інструмента — методу аналізу великих даних. Принцип полягає в тому, щоб одночасно працювати з великим масивом даних, як структурованих, так і хаотичних, який повсякчас змінюється та доповнюється залежно від зовнішніх факторів. Скажімо, якщо транспортний департамент міста відстежує ситуацію з трафіком на дорогах, постійно треба робити поправку на аварію чи дорожні роботи, диференціювати години пік та вихідні.

Сама ідея обробки великого масиву даних не нова: перші спроби робилися вже після Другої світової війни. Вони були логічним наслідком появи електронних обчислювальних машин. До речі, перша така ЕОМ, створена на континентальній Європі, з’явилася в Києві у 1951-му під керівництвом академіка Сергія Лебедєва. Але спочатку вона була надто дорогою та громіздкою, щоб мати бодай якийсь шанс на масове застосування. До 1980-х років аналіз великого масиву даних був прерогативою науково-дослідних інститутів та організацій на кшталт NASA. Окрім того, вони все ж були статичними, тому таким чином можна досліджувати дані, приміром, природничих наук, що є більш сталими. У решті ж випадків даних було просто забагато й надходили вони надто швидко, аби якісно їх зібрати та обробити.

Читайте також: Рух за течією. Потенціал нових пріортетних галузей

Отже, раніше дослідники стикалися одразу з кількома суттєвими проблемами. Спершу дані треба було коректно зібрати з джерел, географічно віддалених одне від одного. Потім швидко обробити їх і десь надійно зберігати, щоб захистити від несанкціонованого доступу й за потреби швидко самим діставати до них доступ. І головне — проаналізувати та зробити висновки.

Технологічний прогрес, що характеризує Четверту промислову революцію, дав інструменти для вирішення всіх цих завдань. Тепер людство має портативні та швидкі комп’ютери, які, за законом Мура, подвоюють свою потужність кожні 18 місяців. Розроблені для них програми можуть швидко та надійно впоратися з уже наявними даними й потоком нових. Виробництво поступово переходить на кіберфізичні системи, які є міксом фізичних технологій та комп’ютерного коду й здатні створювати чіткі дані про свою діяльність.

Нові технології дали змогу стежити за кожним із нас тисячею способів: через камери спостереження на вулицях, смартфони в кишенях, дописи в соціальних мережах чи пошукові запити в Google

Зрештою, людство тепер має інтернет, який остаточно забезпечив існування методу аналізу великих масивів даних. Він дає змогу швидко передавати дані з різних джерел в один масив. А також відкриває двосторонній глобальний доступ. Скажімо, виробники дізнаються думку мільйонів споживачів, а ті, своєю чергою, мають тисячі пропозицій на вибір.

Великі дані змінюють принцип багатьох соціальних взаємодій у громадській сфері. Наприклад, Адміністрація соціального забезпечення США (SSA), що відповідає за регуляцію пенсійних планів і видачу соціальної допомоги, активно використовує великі дані. Тепер Адміністрація може значно швидше й ефективніше перевіряти медичні дані та діагнози, що допомагає чітко визначати шахрайські запити. А Міністерство національної безпеки США отримує неабияку вигоду від функціональної сумісності та інтеграції даних із різних органів безпеки: поліції, ФБР, АНБ тощо.

Технологічний прогрес, який уможливив аналіз великих даних, також поступово змінює природу влади. Саме через нього виникли найбільші дебати в західному світі: наскільки далеко влада може йти у стеженні за громадянами. Раніше державні органи безпеки могли стежити тільки за підозрілими особами, ймовірними злочинцями, важливими для держави особами. Можливо, ще за мігрантами з нестабільних країн. Те саме стосувалося й розвідки.

Читайте також: НЕП без угару

Проте нові технології дали змогу стежити за кожним із нас тисячею способів: через камери спостереження на вулицях, смартфони в кишенях, дописи в соціальних мережах чи пошукові запити в Google. Якщо раніше прослуховувалися конкретні телефонні лінії, то тепер алгоритм дає змогу аналізувати всі розмови взагалі, виокремлюючи важливі на основі визначених ключових слів. Деякий час, поки суспільство не надто замислювалося над новою реальністю, влада спокійно використовувала таку можливість. Злив даних, який ініціював колишній працівник ЦРУ та АНБ Едвард Сновден, показав усі масштаби шпіонажу урядів за приватним життям і комунікаціями громадян із багатьох країн та змусив світове суспільство переоцінити пріоритети в парадигмі свобода — безпека.

Але великі дані працюють і в зворотному напрямку. Дані Сновдена — це тисячі файлів, які годі було б обробити без застосування методу аналізу великих даних. Що вже й казати про сенсацію 3 квітня — «панамські папери». Найбільший злив в історії журналістики — 11,5 млн файлів сумарним обсягом 2,6 терабайта, над яким протягом року працювала комісія з 400 журналістів зі всього світу. Без сучасних методів групування та індексування аналіз цих матеріалів тривав би набагато довше.

Крім того, великі дані дають змогу медіа, недержавним організаціям та аналітичним центрам відстежувати ефективність діяльності влади та робити прогнози щодо майбутніх напрямів розвитку соціальних програм. Наприклад, нещодавно видання VoxUkraine опублікувало матеріал, у якому прогнозувався склад нової коаліції у Верховній Раді на базі взаємодії депутатів із різних фракцій під час усіх важливих голосувань парламенту VIII скликання.

Читайте також: Олексій Скрипник: «Усі українські ІТ-компанії розуміють, що аутсорсинг – це не панацея»

Деякі міжнародні організації можуть працювати майже виключно завдяки використанню великих даних. Вони є незамінними під час дослідження міграції, саме тому Управління Верхов­ного комісара ООН у справах біженців та Міжнародна організація з міграції покладаються на цей метод під час дослідження міграційних потоків та забезпечення якомога кращих умов для біженців, зокрема й працюючи з внутрішньо переміщеними особами в Україні.

Не забуваймо й про комерційне застосування. Великі дані створили кілька нових галузей, серед яких моніторинг і менеджмент web-сторінок і соціальних мереж. Тут дуже вагомий внесок зробила компанія Google, яка розробила не тільки надпопулярний пошуковик, а й чудовий інструмент для моніторингу відвідуваності сайтів GoogleAnalytics. Крім того, популяризувала контекстну рекламу в інтернеті, видача якої підлаштовується під кожного окремого користувача.
Простір для застосування методу аналізу великих даних безмежний: світ насправді поки що лише стоїть біля його початків. Що більше Четверта промислова революція набиратиме сили, об’єднуючи світ у єдину соціально-економічну систему, то ширші та репрезентативніші масиви даних отримуватимуть дослідники.