

Изследователи от INSAIT, в сътрудничество с международни партньори, представиха GaussianVLM – първият модел Vision-Language, способен да разбира напълно потапящи 3D сцени, реконструирани от обикновени видеоклипове от смартфони, без нужда от специализиран хардуер.
GaussianVLM използва Gaussian splats, компактно и фотореалистично 3D представяне, което позволява на модела да интерпретира сложни пространствени среди и да отговаря на отворени въпроси на естествен език за тях. Тази възможност открива нови възможности в области като роботика, разширена реалност и взаимодействие човек-компютър. Например, робот, оборудван с GaussianVLM, би могъл да се ориентира в стая и да отговаря на въпроси като „Какво има на масата?“ или „Има ли достатъчно места за гостите?“
В допълнение към своята нова архитектура, GaussianVLM демонстрира значителен напредък в ефективността: той намалява данните, необходими за представяне на сцена, от 40 000 токена само до 132, поддържайки по-бърза и по-мащабна обработка.
Изследването получи широко внимание, класирайки се сред Топ 10 на най-четените статии в Scholar Inbox през първата седмица след публикуването му.
Автори: Анна-Мария Халачева, д-р Ян-Нико Заех, д-р Си Уанг, д-р Данда Пани Паудел и проф. Люк Ван Гоол.
Повече информация: https://insait-institute.github.io/gaussianvlm.github.io/
Статия: https://arxiv.org/abs/2507.00886