Сигурен и надежден ИИ
Устойчивост на атаки
Въпреки че ИИ постигна забележителен напредък в решаването на много проблеми от реалния свят, моделите на ИИ остават уязвими към така наречените враждебни примери – модификации на валидни входни данни на модела, които могат да накарат моделите на ИИ да произвеждат грешни или неочаквани резултати. Съществуването на враждебни примери в най-съвременните модели на ИИ поражда сериозни опасения относно тяхната надеждност в приложения от реалния свят, предотвратявайки потенциалното им използване в домейни с високи залози и чувствителни към сигурността.
В INSAIT работим както върху разкриването на нови уязвимости в най-съвременните модели на ИИ, така и върху повишаването на тяхната устойчивост на подобни атаки. Нашата работа включва надграждане на техники като трениране с враждебни примери, където моделите на ИИ се обучават с помощта на враждебни примери, за да се подобри тяхната устойчивост, сертифициране на невронни мрежи, което може да се използва за проверка на устойчивостта на моделите и осигуряване на граници на максимално възможното смущение, което може да бъде приложено към вход, без да накара модела да се държи неправилно, както и рандомизирано изглаждане, което разчита на статистически методи за ограничаване на вероятността от грешки в модела.
Изследователи, участващи в тази област:
Поверителност
Забележителният напредък в ИИ в различни области до голяма степен може да се отдаде на бързото увеличаване на наличността на данни за обучение. Въпреки това, в много други области, където ИИ притежава значителен потенциал, чувствителният характер на необходимите данни често обезкуражава страните да ги споделят поради опасения за поверителността, като по този начин възпрепятства напредъка на ИИ. Следователно, разработването на методи за даване възможност за обучение на ИИ, като същевременно се запазва поверителността на данните на отделните лица, представлява изключително обещаваща и критична изследователска посока.
В INSAIT се стремим да разработим нови методи за обучение на модели по начини, запазващи поверителността, както и да тестваме защитата на поверителността, осигурена от съществуващите методи. Това обхваща работа по разработване на нови протоколи и тестване на поверителността на съществуващите протоколи във Federated Learning, както и работа по диференциална поверителност и стимулиране на споделянето на данни в приложения на ИИ.
Изследователи, участващи в тази област:
Безпристрастност
Съвременните модели на ИИ разчитат на големи количества данни от реалния свят, често извлечени от интернет, за да бъдат обучени. Въпреки че това им позволи да придобият безпрецедентни знания в голям брой области, то също така принуждава моделите на ИИ да наследят имплицитно пристрастията, присъстващи в техните данни за обучение. На практика това доведе до модели на ИИ, които увековечават съществуващите социални неравенства, особено по отношение на чувствителни атрибути като раса, пол и социално-икономически статус. Това доведе до сериозни последици, когато тези модели бяха внедрени, като например дискриминационно третиране на хора в ключови области като здравеопазване, правоприлагане и финанси.
Изследванията на безпристрастността имат за цел да облекчат подобни рискове, като първо количествено определят и след това изрично намалят пристрастията, присъстващи в решенията на модела на ИИ. В INSAIT работим както върху идентифицирането на нови източници на пристрастия и усилване на пристрастията, така и върху подходи за обучение на по-малко пристрастни модели чрез филтриране и генериране на синтетични данни за обучение, както и изрично обучение за премахване на пристрастията с помощта на техники за подравняване и сертифициране на невронни мрежи.
Изследователи, участващи в тази област:
Проверка на факти
Бързият напредък на големите езикови модели (LLM) революционизира начина, по който взаимодействаме с технологиите, позволявайки на машините да генерират подобен на човешки текст и да разговарят с потребителите по по-естествен и интуитивен начин. Въпреки това, тъй като LLM стават все по-разпространени, опасенията относно точността и надеждността на информацията, която предоставят, нараснаха. Проверката на факти на LLM се превърна в решаващ аспект за осигуряване на надеждността на тези модели, тъй като те могат да увековечат дезинформацията и да разпространяват невярна или подвеждаща информация, ако не бъдат правилно валидирани поради така наречения проблем с халюцинациите. Чрез проверка на факти на LLM можем да насърчим прозрачността, отчетността и отговорното развитие на ИИ, като в крайна сметка помогнем за изграждането на доверие в тези мощни технологии.
В INSAIT разработваме технология, която да даде възможност за откриване и предотвратяване на генерирането на дезинформация в LLM. Това включва анализ на решенията на моделите по време на процеса на генериране, за да се идентифицират части от генерирания текст, които потенциално съдържат грешна информация, сравняване на генерираната информация с източници със знаещ авторитет, като например учебници, провеждане на мащабни оценки на съществуващите модели за фактическа точност, както и проучване на начини за разширяване на генерирането на съществуващи модели с фактическа информация по надежден начин.
Изследователи, участващи в тази област:
Воден знак
Нарастващите възможности, както и неотдавнашната популярност и достъпност на моделите на ИИ, породиха опасения относно потенциалната им злоупотреба за генериране на мащабен текст и изображения, изглеждащи като човешки, за злонамерени цели, като например кампании за дезинформация или създаване на измамни академични статии. За да смекчат тези рискове, изследователите проучват концепцията за воден знак, която включва вграждане на скрит подпис или идентификатор в изходите на модела. Този воден знак може да се използва за проследяване на произхода на генерирания текст или изображения и за откриване на потенциална злоупотреба, като например плагиатство или дезинформация. Надеждните методи за воден знак са от решаващо значение за безопасното и отговорно внедряване на модели на ИИ.
В INSAIT работим върху различни аспекти на генерирането на водни знаци, като например оценка и увеличаване на устойчивостта на водните знаци към атаки, които имат за цел да ги премахнат от генерирания изход чрез прилагане на често срещани смущения като префразиране на текст и компресиране на изображения, както и тяхната незабележимост, което изисква моделите на ИИ да запазят високата си полезност и естествено изглеждащите и звучащи изходи в присъствието на водни знаци.
Изследователи, участващи в тази област: