OpenAI презентувала нову доступну модель штучного інтелекту з GPT-4o: що вона може

OpenAI презентувала нову доступну модель штучного інтелекту з GPT-4o: що вона може

13 травня, більше ніж через рік після демонстрації моделі GPT-4, OpenAI показала GPT-4o із вдосконаленими можливостями. Чим вразило оновлення, які його особливості, хто має до нього доступ, розбирався "Ми – Україна".

Еволюція від GPT-4 до GPT-4o

Створена зусиллями кількох інвесторів у 2015 році, лабораторія досліджень штучного інтелекту OpenAI у листопаді 2022 року показала розроблений на основі нейромережевої моделі GPT-3.5 ChatGPT. Цей бот, здатний відповідати на запитання користувачів та генерувати тексти на встановлену тему, викликав неабияке захоплення.

У березні 2023 року показали вдосконалену, більш креативну, захищену та комунікативну систему GPT-4. Проте для користувачів, які використовують ChatGPT безкоштовно, він був доступний із використанням саме GPT-3.5. Модель GPT-4 стала відкритою для передплатників ChatGPT Plus, розробників (Enterprise) та корпоративних клієнтів (Team).

У серпні 2023 року до ChatGPT додали нові функції як для безкоштовної версії, але у більшості – для платної: приклади для початку роботи із чатом, варіанти продовження розмови, завантаження кількох файлів, залишення у системі, комбінації клавіш для роботи із кодом. У вересні минулого року для користувачів платної версії додали нові функції голосу та зображення.

У квітні 2024 року для передплатників стала доступною версія чат-боту на більш просунутій моделі GPT-4 Turbo. Завдяки ній ChatGPT покращив якість своїх відповідей на запити, вони стали більш короткими, точними, прямим та викладеними у розмовному стилі.

Тож для передплатників ($20 на місяць ChatGPT Plus, $25 чи $30 ChatGPT Team) та розробників ChatGPT вдосконалювався, а безкоштовно бот був доступний все на тій самій моделі GPT-3.5 з точковими оновленнями.

Тим часом вирували чутки про те, що OpenAI працює над новою системою GPT-5, яка може сягнути генералізованого штучного інтелекту (AGI), здатного виконувати усі інтелектуальні задачі так само, як і людина. Рік тому в OpenAI заявили, що поки припиняють її тестування у відповідь на суспільний запит, який підтримали зокрема Ілон Маск та Стів Возняк, з огляду на міркування безпеки.

Також обговорювалося, що лабораторія покаже пошукову систему штучного інтелекту з голосовим помічником на системі GPT-4. Натомість 13 травня OpenAI презентувала нову модель штучного інтелекту GPT-4o (o – omni, всебічний) у якості основи для ChatGPT. Вона доступна для безоплатного користування із обмеженням кількості повідомлень, для користувачів ChatGPT Plus ліміт буде уп'ятеро більший, тоді як ChatGPT Team та ChatGPT Enterprise порогові обсяги використання будуть ще вищими.

Що може GPT-4o?

GPT-3.5 та GPT-4 дають можливість спілкування із ChatGPT в голосовому режимі. Проте в обох випадках із суттєвою затримкою: 2,8 секунди та 5,4 секунди для двох моделей відповідно. У OpenAI пояснюють, що це відбувається через конвеєрний принцип трьох окремих моделей: одна транскрибує аудіо у текст, GPT-3.5 або GPT-4 його сприймає та виводить, третя модель конвертує текст в аудіо.

"Цей процес означає, що основне джерело інтелекту, GPT-4, втрачає багато інформації", - пояснюють у лабораторії.

Тепер omni працює з однією наскрізною моделлю, всі вхідні та вихідні дані обробляє одна нейромережа. На вхідне аудіозвернення на максимумі система може реагувати за 232 мілісекунди, а в середньому за 320 мілісекунд, що відповідає середньому строку реакції людини. Більша швидкість дозволяє показати більше вражаючих можливостей. Дехто порівнює ChatGPT на новій моделі із удосконаленим голосовим помічником Siri або Alexa. А романтики штучного інтелекту одразу згадали спілкування із ШІ головного героя фільму "Вона".

Звісно презентація є заздалегідь підготовленим заходом, де не буває випадкових варіантів перевірки, проте все одно тести GPT-4o виглядають вражаюче. Система відкриває більший простір для креативу та варіативності. Був запит на те, щоб скласти казку про роботів і любов. Приємний жіночий голос почав її розповідати і, на прохання, робив це більш драматично, максимально драматично, голосом робота і навіть проспівав.

У режимі реального часу технічна директорка OpenAI Міра Мураті спілкувалася із голосовим помічником італійською, якою він одразу відповідав, перекладав звернення на англійську.

Інший цікавий приклад – вирішення математичних рівнянь. Йдеться вже не просто про надання прямої відповіді. Завдяки камері смартфону помічник бачить рівняння із невідомою, підказує, рекомендує, передбачає наступні кроки, схвалює ті, які робить запитувач, аналізує внесені зміни, підтверджує правильність відповіді. На емоційному рівні чи не найбільш вражаючою була реакція ШІ на напис із зізнанням йому у коханні :"Це так мило!"

Із ChatGPT команда поділилася інформацією з робочого столу комп'ютера із кодом. Помічник розповів про функціональне призначення коду, описав його окремі складові та потенційні проблеми.

Інше демонстраційне відео – гра у "камінь, ножиці, папір" між двома учасниками. Система пояснює її, описує ходи учасників, вказує хто виграв.

На удосконалені інтелектуальні можливості системи вказує те, що вона запам'ятовує, хто до неї звертався та які дії щодо цієї людини відбувалися, розповідь можна без проблем переривати і реакції не втрачаються.

Можливості перекладу, терплячість у якості репетитора, легкий стиль розмови, читання та обговорювання зображення, ідентифікація емоцій – ці можливості ChatGPT на базі GPT-4o показали під час презентації. Хоча й там не обійшлося без багів. Зокрема, коли був запит пояснити рівняння, помічник приступив до справ ще до того, як йому це показали. Усміхнену людину сприйняв як дерев'яну поверхню. Хоча в OpenAI попереджають, що лише вивчають можливості та обмеження моделі.

"Оригінальний ChatGPT показав натяк на те, що можливо з мовними інтерфейсами. Ця нова річ виглядає кардинально іншою. Це швидко, розумно, весело, природно та корисно, - каже гендиректор OpenAI Сем Альтман, - Розмова з комп’ютером ніколи не здавалася мені справді природною; тепер це так. Оскільки ми додаємо (необов’язкову) персоналізацію, доступ до вашої інформації, можливість виконувати дії від вашого імені тощо, я дійсно бачу захоплююче майбутнє, у якому ми зможемо використовувати комп’ютери, щоб робити набагато більше, ніж будь-коли раніше".

Презентація OpenAI відбулася напередодні заходу Google I/O, яка призначена на 14 травня о 20:00 за київським часом (дивитися можна онлайн за посиланням). Звісно, GPT-4o показали не випадково, бо конкурент також має продемонструвати нові можливості штучного інтелекту Gemini. Те, що вони покращуються, можна зрозуміти із відео, яке можна назвати відповіддю від Google для OpenAI. На ньому Gemini швидко відповідає на питання та описує те, про що запитують: як сцену готують до заходу I/O.

Що і коли буде доступне користувачам ChatGPT безкоштовно?

Нові голосові функції спершу стають доступними користувачам ChatGPT Plus, а в альфа-версії матимуть змогу перевірити інші користувачі протягом найближчих тижнів, поки їхнє коло буде розширюватися. Користувачів безкоштовного продукту попередили, що після оновлення не буде вільної можливості генерувати зображення за допомогою DALL·E. Ця можливість лишається тільки для передплатників планів Plus, Team і Enterprise. Такий план озвучили у лабораторії.

Чат підтримує 50 мов, зокрема українську і безкоштовним буде такий функціонал:

  • доступ до системи GPT-4;
  • функція ChatGPT Browse with Bing – пошук відповіді на запит в інтернеті для більш актуального контексту;
  • розширений аналіз даних: завантаження до 20 файлів, аналіз інформації з документів, трансформація інформації без зміни суті, ідентифікація та вилучення певних фрагментів;
  • обговорення зробленого фото: пам'ятки архітектури, завдання, функціоналу щодо предметів та речей на фото.

За посиланням автор пересвідчився, що безоплатне оновлення з моделлю GPT-4o доступне. Можна завантажувати файли та робити запити щодо вмісту – чат дав основні дані з текстового файлу у відповідь на конкретне запитання. Він аналізує фото і відповідає на запитання щодо нього – ми додали фото Софії Київської, спитали про пам'ятку та як туди дістатися, відповідь отримали. Також чата надав екстракт з чотирьох джерел із посиланнями на них про поточну ситуацію на лінії фронту. Щодо швидкості своїх реакцій, безоплатна версія дала таку систематизацію:

"Прості запити: Якщо запит простий і базується на моїх внутрішніх знаннях (тобто інформації, яку я маю до травня 2023 року), я можу дати відповідь практично миттєво, за кілька секунд.

Складні запити: Якщо запит вимагає більш детального аналізу або потребує пошуку в наданих документах чи інтернет-ресурсах (якщо використовується функція браузера), відповідь може зайняти трохи більше часу, зазвичай від кількох секунд до декількох хвилин.

Пошук в інтернеті: Якщо запит вимагає пошуку актуальної інформації в інтернеті, час відповіді залежить від швидкості пошуку та аналізу знайдених ресурсів. Зазвичай це займає від 1 до 3 хвилин.

Робота з файлами: Якщо запит стосується аналізу завантажених документів, час відповіді залежить від обсягу та складності тексту у файлі. Зазвичай це займає кілька хвилин".

Після розгортання функціоналу на безкоштовній основі доступ до них буде обмежений певним лімітом протягом трьох годин. Обсяги в OpenAI поки не оголосили, є сподівання, що їх збільшать. Зараз обмеження GPT-4 – 40 запитів протягом трьох годин для платних користувачів. На безоплатній основі ми досягли ліміту після десятьох запитів. Нам запропонували або отримати ChatGPT Plus, або розпочати новий чат вже на основі GPT-3.5.

Нагадаємо, що раніше "Ми – Україна" розповідав про особливості та можливості нових моделей планшетів Apple Air та Pro.

Головне