Компютърно зрение и роботика

Базови модели за роботика

Вграденият изкуствен интелект позволява на нашите AI алгоритми да взаимодействат със своите потребители и да работят в предизвикателна среда, която тества тяхната ефективност в реалния свят.

INSAIT изгражда роботизирани базови модели със силен акцент върху тяхното визуално разбиране. Ние изследваме предизвикателства като генерализация извън домейна на базовите модели, дълбока интеграция на 3D представяния и учене от симулация. Нашите скорошни разработки включват ReVLA, който определя най-съвременното ниво на генерализация в отворени роботизирани базови модели.

Преподаватели и ментори, участващи в тази изследователска област:

3D зрение

Реконструкцията, разбирането и генерирането на 3D форми е основна област в INSAIT. Ние се фокусираме върху Gaussian splatting и NERF реконструкция, позволяващи приложения във вградения AI, разбирането на сцени и визията в градски мащаб.

INSAIT публикува голям набор от данни от над 65’000 висококачествени Gaussian splats, за да даде възможност за обучение на базови модели с 3D данни. Нашата приложна работа изследва интерактивни 3D представяния, 3D генериране, базирано на LLM, и учене на политики от 3D.

Преподаватели и ментори, участващи в тази изследователска област:

Трансферно обучение

Генерализирането на модели за дълбоко обучение към downstream задачи е от съществено значение за напредъка на AI приложенията.

INSAIT се занимава с предизвикателства като ограничени маркирани данни, промени в домейна и нови речници. Нашите скорошни разработки включват CD-ViTO, който предлага нов бенчмарк за cross-domain few-shot object detection (CD-FSOD) и изгражда нов SOTA метод чрез подобряване на open-set детектори. Ние също така полагаме усилия за open-vocabulary object detection за земни изображения, т.е. локализиране на всичко на земята (LAE).

Преподаватели и ментори, участващи в тази изследователска област:

Мултимодално обучение

INSAIT активно проучва методи за мултимодално обучение, фокусирайки се върху мултисензорно сливане, обучение с множество задачи и мултимодални приложения.

Предложихме all-in-one унифициран RGB-X Tracker за Video Object Tracking, здрав метод за мултисензорно сливане за Panoptic Segmentation, модел за Text-to-Image Generation, а също и Multimodal Museum Dataset, съдържащ 200K+ двойки изображение-таблица, които имат за цел да популяризират приложенията на музейни експонати. Ние също така проучваме мултимодални методи за егоцентрични видеоклипове.

Преподаватели и ментори, участващи в тази изследователска област: