Компютърно зрение и роботика
Базови модели за роботика

Вграденият изкуствен интелект позволява на нашите AI алгоритми да взаимодействат със своите потребители и да работят в предизвикателна среда, която тества тяхната ефективност в реалния свят.
INSAIT изгражда роботизирани базови модели със силен акцент върху тяхното визуално разбиране. Ние изследваме предизвикателства като генерализация извън домейна на базовите модели, дълбока интеграция на 3D представяния и учене от симулация. Нашите скорошни разработки включват ReVLA, който определя най-съвременното ниво на генерализация в отворени роботизирани базови модели.
Преподаватели и ментори, участващи в тази изследователска област:
- Проф. Люк ван Гуул (INSAIT, България)
- Д-р Данда Паудел (INSAIT, България)
- Д-р Ян-Нико Цех (INSAIT, България)
3D зрение

Реконструкцията, разбирането и генерирането на 3D форми е основна област в INSAIT. Ние се фокусираме върху Gaussian splatting и NERF реконструкция, позволяващи приложения във вградения AI, разбирането на сцени и визията в градски мащаб.
INSAIT публикува голям набор от данни от над 65’000 висококачествени Gaussian splats, за да даде възможност за обучение на базови модели с 3D данни. Нашата приложна работа изследва интерактивни 3D представяния, 3D генериране, базирано на LLM, и учене на политики от 3D.
Преподаватели и ментори, участващи в тази изследователска област:
- Проф. Люк ван Гуул (INSAIT, България)
- Д-р Данда Паудел (INSAIT, България)
- Д-р Ян-Нико Цех (INSAIT, България)
- Д-р Азад Чхаткули (INSAIT, България)
Трансферно обучение

Генерализирането на модели за дълбоко обучение към downstream задачи е от съществено значение за напредъка на AI приложенията.
INSAIT се занимава с предизвикателства като ограничени маркирани данни, промени в домейна и нови речници. Нашите скорошни разработки включват CD-ViTO, който предлага нов бенчмарк за cross-domain few-shot object detection (CD-FSOD) и изгражда нов SOTA метод чрез подобряване на open-set детектори. Ние също така полагаме усилия за open-vocabulary object detection за земни изображения, т.е. локализиране на всичко на земята (LAE).
Преподаватели и ментори, участващи в тази изследователска област:
- Проф. Люк ван Гуул (INSAIT, България)
- Д-р Данда Паудел (INSAIT, България)
- Д-р Азад Чхаткули (INSAIT, България)
- Д-р Юкиан Фу (INSAIT, България)
Мултимодално обучение

INSAIT активно проучва методи за мултимодално обучение, фокусирайки се върху мултисензорно сливане, обучение с множество задачи и мултимодални приложения.
Предложихме all-in-one унифициран RGB-X Tracker за Video Object Tracking, здрав метод за мултисензорно сливане за Panoptic Segmentation, модел за Text-to-Image Generation, а също и Multimodal Museum Dataset, съдържащ 200K+ двойки изображение-таблица, които имат за цел да популяризират приложенията на музейни експонати. Ние също така проучваме мултимодални методи за егоцентрични видеоклипове.
Преподаватели и ментори, участващи в тази изследователска област:
- Проф. Люк ван Гуул (INSAIT, България)
- Д-р Данда Паудел (INSAIT, България)
- Д-р Юкиан Фу (INSAIT, България)