Науковці Львівської політехніки долучилися до створення української великої мовної моделі Lapa LLM

Центр комунікацій Львівської політехніки
Фото із презентації

У переддень Дня української мови та писемності представили Lapa LLM – найефективнішу українську велику мовну модель, створену спеціально для глибокого міркування та узгодженої з національними цінностями.

Цей проєкт – результат багатомісячної роботи українських дослідників у галузі штучного інтелекту, серед яких важливу роль відіграла команда Львівської політехніки. Разом із фахівцями з Українського католицького університету (UCU), AGH University of Krakow та КПІ ім. Ігоря Сікорського, науковці Львівської політехніки зробили вагомий внесок у створення першої суверенної великої мовної моделі для української мови.

Світ вступає в епоху штучного інтелекту. Ті, хто володіє мовними моделями, володіють знанням, інформацією і впливом. Саме тому для України критично важливо мати власну національну LLM – і Lapa LLM є яскравим прикладом того, що українська наука готова творити майбутнє.

  • Жодна глобальна модель не розуміє українську так, як ми самі. Lapa LLM навчається на українських текстах, зберігає мовні відтінки, контекст, історію та фразеологію – формуючи фундамент нашої мовно-технологічної незалежності.
  • Розробка LLM в Україні – це становлення власної школи штучного інтелекту. Команди з провідних університетів, зокрема Львівської політехніки, формують спільноту дослідників, інженерів і новаторів, що зміцнюють науковий потенціал держави.
  • Lapa LLM стане базою для українських державних сервісів, освітніх і наукових платформ, медійних систем та безпекових технологій – сфер, де використання іноземних моделей є обмеженим або небажаним.
  • Наявність власної LLM підносить Україну до рівня держав, що володіють повним циклом створення AI-технологій, зміцнюючи наш цифровий суверенітет і позицію на світовій арені.

За словами розробників, Lapa LLM відрізняється тим, що при її створенні повністю переписали токенізатор під українську. 80 тисяч із 250 тисяч токенів було замінено, завдяки чому обробка україномовного тексту стала ефективнішою. Тепер для тих самих завдань потрібно у півтора раза менше токенів, а отже — менше обчислень. За швидкістю роботи з українською вона обходить оригінальну Gemma та більшість закритих моделей аналогічного класу, кажуть в УКУ.

У тестах на бенчмарках Lapa LLM показала такі результати.

  1. Переклад: модель досягла 33 BLEU на FLORES для напряму англійська → українська та показала високий результат у зворотному напрямі.
  2. Обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів та описів зображень.
  3. Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність у відповіді на запитання — рівень, придатний для систем типу RAG.
  4. Виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів та упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.

Розробники зазначають, що Lapa LLM можна використовувати для:

  • створення корпоративних асистентів і чатботів українською;
  • машинного перекладу між українською та англійською;
  • побудови RAG-рішень для внутрішніх документів;
  • роботи з конфіденційними текстами без передавання їх на зовнішні сервери.

Реліз Lapa LLM – це лише початок великого шляху. Попереду ще багато спільної роботи, щоб реалізувати весь потенціал цієї моделі.

Особливо приємно відзначити, що серед учасників проєкту – представники Львівської політехніки, які зробили значний внесок у дослідження, інженерну частину та технічну реалізацію.

Дякуємо всім партнерам за підтримку та фінансування.

Особлива подяка нашому стратегічному партнеру – компанії ELEKS Inside за грант, присвячений пам’яті Олексія Скрипника – світлої памʼяті випускника Львівської політехніки, далекоглядного підприємця, багаторічного партнера університету, який активно допомагав формувати новітні освітні програми та інженерну культуру майбутнього.

Ілюстрація до матеріалу Інфографіка