Китайський технологічний гігант ByteDance, власник TikTok, планує запустити велику мовну модель (LLM) під назвою LEGO.
У дослідженні, опублікованому у сховищі електронних препринтів ArXiv, вчені описали модель, здатну вловлювати дрібні деталі з різних модальностей у тексті, відео, аудіо та зображеннях.
Конструкція LEGO включає різні кодери та адаптери для різних типів інформації, таких як відео, зображення та аудіо. Кожен тип інформації проходить через власний кодер і адаптер.
Дослідники стверджують, що навчена ними модель демонструє точну ідентифікацію та локалізацію конкретних регіонів на зображеннях чи моментах у відео.
«Завдяки навчанню на різних мультимодальних та деталізованих наборах даних LEGO досягає кращого сприйняття мультимодальних вхідних даних та демонструє покращену продуктивність у завданнях, що потребують глибокого розуміння. … У майбутній роботі ми прагнемо розширити LEGO, щоб включити додаткові модальності введення та виведення, досліджуючи складніші методи», — йдеться у висновках дослідників.
0 комментариев
Добавить комментарий