Закритий штучний інтелект. Чому OpenAI відмовляється від відкритого підходу до ChatGPT

Компанія OpenAI, розробник відомого чатботу ChatGPT, нещодавно представила свою останню мовну модель GPT-4. Попри очікування технологічної спільноти, компанія майже нічого не розповіла про принципи роботи своєї новинки, використовувані нею дата-сети (набори даних, на яких вчиться мовна модель) та іншу технічну інформацію. Це рішення спричинило певну критику дій OpenAI. Проте на тлі загострення дискусій щодо безконтрольного використання штучного інтелекту й побоювань, як ним користатимуться у повсякденному житті, рішення – логічне. Воно є проявом технологічної стриманості – явища, яке виникає, коли технології випереджують і готовність суспільства до сприйняття та використання, і появу законів, здатних регулювати інновації.

OpenAI відмовилась від відкритості

Публічний анонс GPT-4 не лише не супроводжувався технічними деталями роботи проекту. На додачу до цього в OpenAI пояснили, що компанія більше не підтримує принцип відкритого коду, а це набагато серйозніша концептуальна зміна. Незважаючи на те, що анонс нової мовної AІ-моделі наступного покоління GPT-4 пройшов порівняно нещодавно і можливості системи все ще оцінюють, багато експертів, пов’язаних з компанією, вже встигли розкритикувати роботу генеративної моделі.

Компанія поділилась великою кількістю порівняльних і тестових результатів для GPT-4, але по суті не надала жодної інформації про дані, які вона використала для навчання системи. Так само не оприлюднили конкретні методи для створення нової моделі.

Читайте також: Коротка історія штучного інтелекту

У спільноті штучного інтелекту є приклади критики такого рішення. Їх можна узагальнити тезами про підрив духу компанії як дослідницької організації та створення бар’єру для повторення роботи іншими. Деякі навіть зазначили, що це також ускладнює розробку засобів захисту від загроз, створених системами штучного інтелекту, подібними до GPT-4.

Експерти звернули увагу на 98-сторінковий документ з описом моделі, в якому «вони не розголошують *нічого* про вміст свого навчального набору», – зазначив Бен Шмідт, віце-президент з інформаційного дизайну в Nomic AI.

Безпека й обережність

Коментуючи своє рішення, один зі співзасновників OpenAI Ілля Суцкевер пояснив, що насправді є дві причини для нього. Перша полягає у великій конкуренції, а друга – у необхідності дотримуватися безпеки.

«Ці моделі дуже потужні і стають дедалі потужнішими. У якийсь момент цими моделями буде досить легко, якщо захотіти, завдати великої шкоди. І оскільки така ймовірність стає щоразу вищою, стає зрозуміло, чому ми не хочемо їх розголошувати», – пояснив Суцкевер .

Такий підхід дійсно суперечить базовим принципам компанії, серед яких одним із основних була відкритість.

Пояснюючи зміну парадигми, Суцкевер каже: «Ми помилялися. Якщо ви вірите, як і ми, що в якийсь момент штучний інтелект – або навіть загальний штучний інтелект (AGI – General AI) – стане надзвичайно, неймовірно потужним, тоді просто немає сенсу відкривати код. Це погана ідея… Я цілком сподіваюся, що через кілька років усім стане абсолютно очевидно, що штучний інтелект з відкритим кодом існувати не може». Загальним штучним інтелектом ще називають універсальний штучний інтелект, а його основна здатність – розуміти будь-яку задачу, з якою справляються люди та вирішувати її так само ефективно.

Іншими словами, загальний штучний інтелект – це те, що ми бачимо у фантастичних фільмах, де штучний інтелект може бути таким же розумним, як людина.

Чиї дані

Не можна виключати, що причиною відмови від оприлюднення деталей про GPT-4 є юридична відповідальність, а саме – інформація про те, на яких саме даних навчалась модель і чи були серед них персональні дані чи матеріали, захищені авторськими правами.

Дата-сет або набір даних, на основі якого навчаються мовні моделі штучного інтелекту – дуже важлива їх характеристика і вона часто визначає можливості інструментів, що працюють із використанням таких моделей. До прикладу, GPT-3,5 навчалася на даних до 2021 року. Відповідно, випущена на початку року версія ChatGPT не може оперувати найсвіжішими новинами та подіями, а працює лише із інформацією, яка стала відома до 2021 року включно.

Читайте також: Штучний інтелект: заявки на лідерство

Поки мовні моделі ще не зустрічалися із позовами через дотримання авторських прав, а ось інші AI-інструменти – генератори зображень зі штучним інтелектом, які також навчаються на онлайн-контенті (DALL*E 2, Midjournal) – уже стали фігурантами позову з боку незалежних митців та фотобанку Getty Images саме через порушення авторських прав.

Коли у інтерв’ю Іллю Суцкевера спитали, чи може OpenAI підтвердити, що дата-сет та навчальні дані не містять піратського матеріалу, він прямо не відповів.

Небезпечна чорна скринька

Ніколи раніше новий потужний штучний інтелект так швидко не переходив від лабораторних до споживчих продуктів. І саме в цьому полягає небезпека. Попри всю силу й потужність GPT-4, він залишається недосконалим і здатен генерувати фейковий контент, як інші мовні моделі. З одного боку, у OpenAI стверджують, що тестування на безпеку GPT-4 було достатнім для використання продукту в сторонніх програмах. Але в OpenAI готові до сюрпризів.

«Безпека – це не бінарна річ; це процес», – каже Суцкевер. – Усе ускладнюється кожного разу, коли ви досягаєте рівня нових можливостей. Багато з цих можливостей зараз досить добре зрозумілі, але я впевнений, що деякі все ще будуть дивувати».

Водночас у OpenAI не приховують, що здатність GPT-4 генерувати дуже переконливі фейки викликають у них побоювання стосовно майбутніх наслідків технології. У звіті OpenAI йдеться про те, що GPT-4 генерує фейки «більш переконливо, ніж попередні версії моделі».

У звіті йдеться, що надмірна залежність від інформації, яку генерує чат-бот, може бути проблематичною. Крім непомічених помилок і неадекватного нагляду, «у міру того, як користувачі стають більш комфортними з системою, залежність від моделі може перешкоджати розвитку нових навичок або навіть призвести до втрати важливих навичок».

Читайте також: Вийти з бульбашки. Як у світі пропонують регулювати BigTech та алгоритми

Одним із прикладів створення проблем, стала здатність ChatGPT обдурити претендента на роботу. Боту треба було отримати доступ до даних, захищених кодом captcha (для перевірки, чи є користувач живою особою). Раніше машини не могли пройти цю перевірку. Але робот найняв людину на сайті вакансій TaskRabbit, щоб та пройшла код captcha замість нього. На уточнююче запитання кандидата, чи рекрутер не робот, бот збрехав. Сам факт прохання він пояснив сліпотою.

Іншим прикладом проблемної поведінки чатботу стали тести з Alignment Research Center, в яких розробка OpenAI продемонструвала здатність чат-бота запускати фішингову атаку. Також уже були зафіксовані спроби кіберзлочинців використовувати чат-бот для написання шкідливого коду та організації кібератак.

Усі ці ризики, які ставатимуть ще більшими за умови масового використання моделей штучного інтелекту, призвели до того, що у OpenAI прийняли рішення обмежити доступ до коду та дата-сету.

Інші ризики

Поруч із суто технічними ризиками, масове застосування штучного інтелекту несе інші, які є небезпечними для прав пересічної людини.

Великі об’єми даних, доступні про кожного користувача інтернету, дають змогу створити досконалі маніпуляційні повідомлення. Адже на основі цієї інформації та й на базі запитів, які людина дає чатботу, можна отримати дані про те, що гарантовано вплине на користувача, викличе його захоплення чи роздратування. Це дає також можливість створити персоналізовані шахрайські схеми. Іще одна проблема – дискримінація, тобто виділення певних груп людей на основі даних про них. Найпростіший приклад, використання штучного інтелекту у рекрутингу, де алгоритм буде сортувати кандидатів, до прикладу, по віку.

Читайте також: Приховані війни за дані

Саме тому все більше компаній стали обмежувати використання чатботів зі штучним інтелектом з комерційною метою – такі рішення приймаються, зважаючи на загальні ризики цієї технології й на небезпеки стосовно закритих даних.

Ще у 2016 році у дослідник штучного інтелекту Нік Бостром порівнював експерименти людства зі штучним інтелектом із ситуацією, коли діти граються з бомбою. На його переконання, ми поки не розуміємо всіх наслідків, які принесе масове використання AI-інструментів. Вчений переконаний, що найбільш імовірною буде модель, коли ШІ не знищить людство за допомогою якоїсь зброї, а просто маніпулюватиме ним, розуміючи, як працює мозок людини і як можна маніпулювати людською думкою. Цим маніпулятором може стати й приватна компанія, яка вчасно зрозуміє всі переваги використання штучного інтелекту та навчиться з ними працювати. Саме тому закрита модель, до якої прийшла компанія OpenAI – це безпечніший сценарій розвитку штучного інтелекту в нинішніх умовах.

OpenAI відмовилась від відкритості

Безпека й обережність

Чиї дані

Небезпечна чорна скринька

Інші ризики

читати ще