Колектив англійських, грецьких, бельгійських і американських дослідників нещодавно представив у журналі Nature нову генеративну нейронну мережу для контекстуалізації стародавніх текстів із назвою Еней (Aeneas).
Історія людства зародилася в писемності. Написи — одні з найдавніших форм писемності і дають безпосереднє уявлення про мислення, мову й історію стародавніх цивілізацій. Історики фіксують ці уявлення, виявляючи паралелі — написи зі спільними формулюваннями, функціями або культурним контекстом — щоб забезпечити контекстуалізацію текстів у ширших історичних рамках і виконувати такі ключові завдання, як реставрація та географічна або хронологічна атрибуція. Однак сучасні цифрові методи обмежуються буквальними збігами та вузькими історичними рамками. Для покращення роботи зі стародавніми текстами і був створений штучний інтелект Aeneas, який виявляє текстові та контекстуальні паралелі, використовує візуальні дані, обробляє відновлення текстів довільної довжини та вдосконалює стан справ у ключових завданнях.
Лінгвісти разом з істориками проаналізували результати Aeneas на прикладі римського напису Res Gestae Divi Augusti і вважають паралелі, виявлені цим ШІ, корисними відправними точками для досліджень у 90% випадків, що підвищує їхню впевненість у ключових завданнях на 44%. Завдання з відновлення та географічної атрибуції дали чудові результати, коли історики працювали в парі з Aeneas, перевершивши як людей, так і штучний інтелект окремо. Так само цей ШІ чудово справився з датуванням, досягши відстані у 13 років від діапазонів реальної інформації. Завдяки цьому ШІ інтеграція точних і гуманітарних наук може створити трансформаційні інструменти, які допоможуть історикам та поглиблять наше розуміння минулого.
В останні роки вивчення давніх мов дедалі більше виграє від систем машинного навчання, які просунули у вирішенні низки завдань від оцифрування до дешифрування, з кількома проривами в галузі епіграфів. У цьому ракурсі проблема контекстуалізації написів — це якраз проблема машинного навчання. Крім того, новий ШІ має дві ключові додаткові функції. По-перше, тоді як сучасна епіграфічна практика включає фізичні характеристики — форму, іконографію та матеріал — поряд зі змістом тексту, підходи штучного інтелекту залишаються значною мірою текстоорієнтованими. Інтеграція мультимодальних моделей, що поєднують текстові та візуальні дані, є важливою для повного розміщення написів у їхньому ширшому епіграфічному ландшафті. По-друге, тоді як сучасні методи машинного навчання успішно відновлюють прогалини, довжина яких відома, проблема відновлення довільної довжини — відновлення прогалин там, де довжина відсутнього тексту невизначена — ще не була вирішена для давніх мов Надаючи пріоритет контекстуалізації, інтегруючи мультимодальність та передові методи відновлення тексту, дослідники демонструють, як ШІ Aeneas може трансформувати вивчення написів, покращуючи наше розуміння писемних культур римського світу. Адже саме цей штучний інтелект уперше в практиці генеративних нейронних мереж інтегрує як зображення, так і транскрибований текст як вхідні дані та є першою моделлю для породження розшифрованих стародавніх текстів довільної довжини, щоб охопити ширший спектр інформації щодо матеріального виміру написів.