

Институтът по компютърни науки, изкуствен интелект и технологии (INSAIT) е изследователска организация от световна класа в София, България. От основаването си през 2022 г. INSAIT привлича водещи академици и изследователи от цял свят, които се стремят да развият възможностите в технологиите. В стремежа си да разшири достъпността на LLM (магистър по право) в България, INSAIT създаде BgGPT , български модел за голям език (LLM), който разбира разговорни и базирани на инструкции задачи на български и английски език.
След експериментиране с други модели за фондацията на BgGPT, екипът на BgGPT реши, че семейството отворени модели Gemma на Google е най-подходящо за задачата, благодарение на сравнително по-добрата си производителност на български и английски език и компактния си размер. Използвайки превъзходните езикови възможности на Gemma, INSAIT успя да създаде далеч по-ефективен и ефективен двуезичен модел.
Предизвикателството
INSAIT наблюдава липса на силни модели за обработка на естествен език (NLP) на български език, тъй като голяма част от световните програми за обучение по естествен език (LLM) са фокусирани върху английски или източни езици като китайски. Недостигът на модели означава и липса на разговорни агенти с изкуствен интелект, които да разбират дълбоко българския език и културните нюанси, като същевременно запазват разумни оперативни разходи. INSAIT знаеше, че ако иска да установи присъствие за България и Източна Европа в света на изкуствения интелект, ще трябва да създаде свой собствен LLM с мощна и точна производителност.

Решението
Изследователи от INSAIT създадоха BgGPT, за да покрият широк спектър от нужди на български говорещи разработчици и потребители. Моделът се предлага с размери на параметрите 27B, 9B и 2B. И двата варианта, 27B и 9B, превъзхождат по-големите модели като Qwen 2.5 72B на Alibaba и Llama 3.1 70B на Meta на български език. В същото време, 2B версията превъзхожда други модели с малки езици, като Phi 3.5 на Microsoft и Qwen 2.5 3B на Alibaba. И трите модела поддържат конкурентна производителност на английски език, благодарение на впечатляващите езикови възможности на Gemma 2.
„Джема ни помага да постигнем най-съвременни резултати в българското НЛП, като предоставя стабилна и мащабируема основа за фина настройка.“
— Антон Александров, докторант в INSAIT
BgGPT беше предварително обучен върху около 85 милиарда български токени и 15 милиарда на английски. Един от по-уникалните елементи от разработката на BgGPT беше използването на собствената стратегия на INSAIT за непрекъснато предварително обучение „Разклонение и сливане“, която позволява на модела да учи нова информация, като например български, без да замества или губи стара информация, подобно на дълбокото разбиране на математиката и английския език от страна на Джема. Това явление се нарича „катастрофално забравяне“ и остава повтарящо се предизвикателство в разработването на LLM.

Въздействието
BgGPT вече захранва платформата за публичен чат на BgGPTt.ai, използвайки и двата си варианта 27B и 2B. Моделите 2B обработват специфични задачи като преформулиране на потребителски заявки и класификация, докато моделът 27B обработва елементите на разговора. От пускането си през март 2024 г. BgGPT.ai е отговорил на милиони потребителски въпроси. Пускането на BgGPT прави INSAIT и първата организация в Централна и Източна Европа, която стартира глобално конкурентна публично разработена LLM, утвърждавайки организацията като лидер в региона.
INSAIT също така сподели с разработчиците своята стратегия за непрекъснато предварително обучение „Разклонение и сливане“, която има потенциала бързо да ускори растежа на моделите с изкуствен интелект. Компанията също така сподели целия си процес на обучение. Възможността за непрекъснато разширяване на базата знания на LLM, без загуба на предходни данни, е от значение за подобряване на ефективността на обучението и за по-интелигентни LLM.

Какво следва
Въвеждането на BgGPT продължава да расте. Пилотни програми са стартирали в български държавни агенции като Националната агенция за приходите (НАП), тествайки ефективността на LLM в специализирани сценарии. INSAIT също така изрази интерес към разширяване на обхвата на BgGPT в други области като образование, публична администрация и бизнес автоматизация.
Страстните разработчици, изследователи и академици в INSAIT са ангажирани с развитието на технологиите за изкуствен интелект в Източна Европа и чужбина. В бъдеще INSAIT планира да подобри BgGPT с потенциално включване на извикване на функции и по-нататъшно фино настройване с по-големи базови модели, както и модели за обучение за други страни.