INSAIT пуска нови AI модели, задавайки стандарт за отворени национални езикови модели

СОФИЯ, БЪЛГАРИЯ—19 ноември 2024 г. —ИНСАИТ (Институт по компютърни науки, изкуствен интелект и технологии) обявява пускането на три авангардни модела с изкуствен интелект – модел с 2,6 милиарда, 9 милиарда и 27 милиарда параметъра, насочени към български език. Тези модели демонстрират безпрецедентна производителност на български език, изпреварвайки много по-големи като Qwen-72B и Llama3-70B, както и модели с подобен размер, като същевременно запазват стабилни езикови възможности за английски език. Моделът 2.6B на INSAIT значително превъзхожда отворените модели с подобен размер на български език. И трите модела са свободно достъпни и могат да се използват за даване на възможност на бизнеса и държавните институции да създават асистенти, базирани на изкуствен интелект.

Интересното е, че отвъд бенчмарковете, моделът 27B на INSAIT значително превъзхожда GPT-4o-mini (безплатната версия на GPT-4) и се конкурира с GPT-4o (платената версия на GPT-4) по отношение на производителността на българския чат, според самия GPT-4o, който е бил използван като съдия в хиляди реални разговори от около 100 различни теми. Резултатите са подобни в сравнение с моделите Haiku и Sonnet (големи) на Anthropic.

Моделите на INSAIT са изградени върху семейството модели Gemma 2 на Google, с различни допълнителни подобрения, включително непрекъснато предварително обучение върху около 100 милиарда токена на български език, както и новаторска схема за фина настройка на инструкции и сливане на модели, базирана на нови изследвания, публикувани в EMNLP’24, водеща конференция по обработка на естествен език. Тази нова схема за разклоняване и сливане гарантира, че моделите подобряват целево умение, като например разбиране и генериране на български език, като същевременно се избягва катастрофално забравяне на вече придобити умения в базовите модели. Методът е широко приложим и неговата полезност е демонстрирана извън българския език.

„Резултатът, показан от INSAIT, е значителен, защото демонстрира, че една страна може да разработи свои собствени, най-съвременни модели на изкуствен интелект, като разчита на отворени модели, усъвършенствани изследвания в областта на изкуствения интелект и специални техники за събиране и обучение на данни“, каза проф. Мартин Вечев, редовен професор в ETH Zurich и научен директор на INSAIT. „Въпреки че нашите модели са насочени към българския език, методите, които разработихме, са общи и могат да бъдат приложени към други езици или за общо придобиване на нови умения.“

Надграждайки своя модел с 27 милиарда параметъра, на 23 ноември INSAIT ще стартира първата публична национална чат система. Системата надхвърля единичен модел и включва допълнителни подобрения, включително подсистеми за подравняване, извличане и други компоненти. Това е първият път в световен мащаб, в който правителствена институция стартира система от такъв мащаб.