OpenAI запустила оновлену ШІ-модель GPT-4o: працює з аудіо, відео та текстами в реальному часі

15 мая, 10:17
4230
0

OpenAI представила нову мовну модель GPT-4o, оновлення GPT-4, що лежить в основі її головного продукту ChatGPT. У своєму блозі компанія повідомила, що можливості GPT-4o будуть впроваджуватися поетапно, але вже сьогодні нова флагманська модель може працювати з аудіо, відео та текстом у реальному часі.

Можливості моделі:

Літера «о» в назві означає omni (всебічний), що вказує на мультимодальність GPT-4o. Це означає, що вона може генерувати контент або розуміти команди голосом, текстом або зображеннями.
GPT-4o може реагувати на аудіозапит лише за 232 мілісекунди (в середньому 320 мілісекунд), що відповідає часу реакції людини під час розмови.
Модель спілкується голосом, подібно до людини, змінюючи інтонації.
GPT-4o запам’ятовує бесіди з користувачем.
Модель відповідає продуктивності GPT-4 Turbo для англійського тексту та коду.
Значно покращено роботу з текстом іншими мовами (загалом підтримується 50, зокрема й українська).
Модель може генерувати 3D-об’єкти.
GPT-4o значно краще сприймає та аналізує зображення, зокрема графіки, діаграми та скриншоти, порівняно з уже наявними моделями.
Вона буде безкоштовною для всіх користувачів, а платні користувачі й надалі матимуть уп’ятеро більші обсяги обробки.
Розробники, які захочуть поекспериментувати з GPT-4o, матимуть доступ до API, який вдвічі швидший і вдвічі дешевший.

Повний список можливостей моделі можна знайти у блозі OpenAI. Під час демонстрації GPT-4o співробітники OpenAI спілкувалися з нею голосом, продемонструвавши її вміння розуміти тон і напрямок бесіди, а також те, як природно вона розмовляє і навіть жартує.

До запуску GPT-4o з’являлися повідомлення про те, що OpenAI планує анонсувати абсолютно нову та покращену модель GPT-5 або пошукову систему на базі ШІ, яка стане конкурентом Google і Perplexity.

Звісно, OpenAI спеціально пов’язала цей запуск до початку щорічної конференції Google для розробників I/O, де, як очікується, команда Gemini представить різні продукти штучного інтелекту.