Оголошення Міністерства цифрової трансформації про створення власного українського аналогу ChatGPT є амбітною метою та дороговартісним проєктом. Проте сучасний розвиток ШІ вимагає таких рішень та є кроком у напрямку зміцнення власного цифрового суверенітету.
Чи потрібна Україні власна велика мовна модель за умови, що сучасний ШІ-ринок пропонує велике різноманіття продуктів на різний смак? Рішення українського Мінцифри може розцінюватися як нецільова витрата коштів держави у війні. З іншого боку, рано чи пізно ШІ-рішення стануть обов’язковими до використання в різних сферах, зокрема в офіційних установах та державних структурах. Саме тому такі розробки мусять функціонувати відповідно до національного законодавства, етичних стандартів, а у випадку України — ще й ефективно протистояти ворожій пропаганді та маніпулятивним наративам, що активно поширюються в інформаційному просторі. Власна мовна модель допоможе уникнути вбудованих упереджень, притаманних іноземним системам, і гарантуватиме, що штучний інтелект не лише коректно обробляє українську мову, а й не відтворює шкідливих наративів, вигідних державі-агресору. Окрім того, своя національна ШІ-розробка є інвестицією в майбутні ШІ-стартапи, створені в Україні.
Навіщо українізувати ChatGPT
У середині червня Міністерство цифрової трансформації України та компанія «Київстар» повідомили про спільну розробку національної великої мовної моделі (LLM — large language model) — першого україномовного ШІ-інструмента такого масштабу. Велика мовна модель — це комп’ютерна програма, навчена на великій кількості текстів, завдяки чому може сприймати запити користувачів та відповідати на них. До прикладу, компанія OpenAI створила велику мовну модель GPT, компанія Google назвала свою Gemini. Сервіси типу ChatGPT — це інструмент доступу до LLM: за допомогою ChatGPT користувачі звертаються до мовної моделі, яка їх обробляє та відповідає на них, відображаючи відповідь у вікні ШІ-бота.
Головна особливість українського аналогу GPT полягає в тому, що він враховуватиме український контекст. Розробники обіцяють, що це буде проєкт із відкритим кодом, завдяки чому українська мовна модель ляже в основу створення власної цифрової екосистеми, адже її зможуть використовувати як державні інституції, так і приватні структури. Модель, яка обробляє й зберігає дані в Україні, водночас знижує ризики витоку та втручання з-за кордону. А це особливо в критичних секторах: оборона, медицина, державне управління. Захистити свою технологічну незалежність завдяки інвестиціям у власні ШІ-розробки намагається не лише Україна — аналогічний європейський проєкт GenAI4EU підтримки ШІ-стартапів, ще минулого року започаткований у ЄС, також передбачає створення великих мовних моделей для усіх 24 офіційних мов країн ЄС.
Як змусити ШІ правильно відповісти на запитання «Чий Крим»
У компанії «Київстар» підкреслюють, що модель спеціально тренуватиметься на відкритих українських даних — датасетах «Малюк», NER‑UK, UA‑GEC та низці інших — та наголошують, що в датасети не буде включено персональні чи чутливі дані. Михайло Федоров, пояснюючи особливості української LLM, каже, що вона розумітиме не лише українську мову, але й культурний контекст, історичні реалії та специфіку українського суспільства. Це особливо важливо для національної безпеки країни та є гарантією уникнення упереджень, які можуть виникати у закордонних LLM через хиби датасетів, на яких вони навчаються.
Розвиток штучного інтелекту вже призвів до його використання у діяльності пропагандистів та поширенні їхніх фейків і наративів. Особливо успішними в цьому виявилися росіяни з їхніми операціями Doppelganger та мережею Pravda. Обидва проєкти буквально «отруювали» великі мовні моделі задля поширення пропаганди. Навчання великих мовних моделей на датасетах із «потрібними» наративами стало реальною загрозою інформаційної війни, в якій безсилі фактчекінг чи медіаграмотність. Тому використання закордонних LLM може бути небезпечним у країні. Саме тому створення моделі, стійної до пропаганди та ворожих наративів, є питанням виживання в сучасному ШІ-світі. Окрім того, за словами Михайла Федорова, українська LLM створюватиметься із дотриманням вимог законодавства, зокрема права інтелектуальної власності.
Від державних сервісів до стартап-екосистеми
Національна велика мовна модель стане основою для серйозних змін у наданні державних послуг. Ймовірно, з часом цей продукт буде інтегровано в портал «Дія» та інші цифрові сервіси, тим паче що, за словами заступниці міністра цифрової трансформації з питань європейської інтеграції України Валерії Іонан, в Україні вже тестуються інструменти штучного інтелекту в різних сервісах — від національної освітньої платформи «Мрія» до оборонних проєктів та роботи з правовими актами. Власна LLM допоможе розширити сферу застосування ШІ в офіційних та державних структурах.
Додаткові можливості з’являться і для бізнесу, адже стартапи зможуть використовувати готову мовну модель для створення інноваційних продуктів, не витрачаючи мільйони доларів на розробку власних рішень. Завдяки національній розробці бізнеси зможуть інтегрувати українську LLM у свої продукти — від функцій підтримки клієнтів до спрощення різноманітних бізнес-процесів. Окрім того, наявність української LLM автоматично створює національний ринок AI‑рішень: чат‑ботів, аналітичних сервісів, освітніх платформ, legal‑tech тощо. Це сприятиме залученню інвестицій і стартапів на внутрішній та міжнародний ринки.
Олександр Краковецький, керівник компанії DevRain, CTO у ДонорUA й автор книги «ChatGPT, DALL·E, Midjourney: Як генеративний штучний інтелект змінює світ» переконаний, що сьогодні розробка власної національної великої мовної моделі є питанням національної безпеки. Для реалізації озвученої Мінцифри задачі основним необхідним ресурсом є український корпус даних. Хоча обчислювальна потужність і сервери також необхідні для виконання цього завдання, їх легше отримати через партнерів, таких як Microsoft, Google та AWS, або навіть через місцеві центри обробки даних. Головним викликом є створення самого набору даних. Що ж до використання проєкту, то, на думку експерта, українська мовна модель може бути використана в юриспруденції, для створення офіційних документів та для перекладу. Існує значна проблема з перекладом юридичних і нормативних документів з англійської на українську, і така модель могла б забезпечити точні переклади. Окрім того, в Україні, де існує дефіцит робочої сили, ШІ може автоматизувати завдання, дозволяючи людям зосередитися на складнішій роботі.
Питання захисту та безпеки
Антон Тарасюк, директор з експертизи компанії Mantis Analytics, у коментарі для «Українського тижня» високо оцінює амбітну ціль щодо розробки національної LLM та підкреслює: «У світі, де мовні моделі формують сприйняття і протоколи взаємодії, створення власної моделі — питання виживання. Вже сьогодні великі лінгвістичні моделі визначають погляди, поведінку, емоції людей — включно зі ставленням до національної пам’яті, держави, співгромадян. Перегони за суверенітет у сфері ШІ давно розпочалися. Це рішення — важлива заява про те, що ми не плануємо стояти осторонь, тому його можна лише вітати.
Стратегічно озвучений підхід видається правильним: поєднання державної інфраструктури з логікою воєнного часу, інтеграція “Дії”, освіти, оборони в єдиному семантичному полі. Проте мені як людині, що звикла дивитися на проблеми під безпековим кутом зору (Mantis Analytics займається створенням програмного забезпечення для управління когнітивними і фізичними ризиками), не вистачає інформації про захист. Зокрема, від ворожого впливу.
Сьогодні великі лінгвістичні моделі — це передова когнітивної боротьби. Росія вже проводила експерименти з “вихованням” ШІ-моделей. У такому контексті навчання моделі на відкритих даних може нести ризики. Проте я переконаний, що спеціалісти, які займаються її створенням, знають про них, і в недалекому майбутньому ми можемо розраховувати на прозоріший опис підходів до забезпечення безпеки моделі. Ще один, глибший момент, полягає в тому, що національна LLM-модель розглядається як платформа, що дозволить державним інститутам і приватним компаніям створювати ШІ-сервіси, здатні спілкуватися з громадянами розмовною українською.
Сьогодні чатбот-інтерфейси (ChatGPT) грають із нами злий жарт. Через їхню позірну простоту ми забуваємо, що йдеться не просто про діалогове віконце — це інтерфейс, який поєднує громадян і державну систему і, в перспективі, оборонну галузь. Відповіді такої моделі виконують функцію інтерпретації реальності від імені держави, тобто є одним із вузлів національного сенсотворення — набагато впливовішим, ніж будь-яка пропаганда. Додайте сюди розвідувальну цінність даних про те, як громадяни — з різних прошарків, вікових страт, цивільного чи військового статусу — взаємодіють з державою. Захист такого активу має бути пріоритетом — на рівні захисту державних серверів, електромереж чи систем ППО. І особливо якщо ми введемо в це рівняння середнє і довгострокове майбутнє. Інтерфейс між державним управлінням і людським мовленням дедалі більше опосередковується кодом. Спочатку модель обслуговує державу, але з часом замінює її частину. Це майбутнє, яке не піддається регуляції. Оскільки цього вектора не змінити, готуватися до нього треба заздалегідь».
Інвестиція в технологічне майбутнє
Створення власної великої мовної моделі — це інвестиція в майбутнє, яка з часом вочевидь окупиться багаторазово. Проєкт зможе не лише використовуватися у бізнесі, але й стати елементом навчального процесу та наукової діяльності. Наукові дослідження отримають потужний інструмент для аналізу великих обсягів даних, бізнес зможе автоматизувати складні процеси та створювати інноваційні продукти з мінімальними витратами. Автоматизація рутинних процесів, інтелектуальний аналіз документів, персоналізовані консультації для громадян — все це підвищить ефективність державних послуг.
Головне, аби за гучними гаслами та амбітними планами були враховані всі ризики та вивчені уроки попередніх не дуже успішних елементів цифровізації в Україні.