OpenAI представила новую модель нейросети GPT-4o: что она умеет и как пользоваться нейросетью в России?

Компания OpenAI представила «более человечную» версию нейросети, которая научилась воспринимать визуальные данные. ИИ-помощник упростит нашу жизнь в десятки раз — рассказываем как.
OpenAI представила новую модель нейросети GPT-4o: что она умеет и как пользоваться нейросетью в России?
Freepik
13-го мая компания OpenAI показала свою новую модель GPT-4 Omni на презентации Spring Update. Это самая мощная версия ИИ-разработчика, которая доступна бесплатно всем желающим.
Содержание статьи

Что такое GPT-4o?

Новая модель под названием GPT-4o («o» расшифровывается как «omni») может интерпретировать инструкции пользователя, передаваемые с помощью текста, звука и изображения, а также отвечать во всех трех режимах. «Это шаг к гораздо более естественному взаимодействию человека и компьютера», — так утверждают создатели нейросети.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ранее OpenAI уже предлагала версию ChatGPT, которая могла принимать голосовые команды и отвечать голосом. Но оно состояло из трех различных технологий искусственного интеллекта: одна преобразовывала голос в текст, другая генерировала ответ, а третья преобразовывала его в синтетический голос. Новая же версия основана на единой технологии искусственного интеллекта.

Что нового в GPT-4 Omni?

GPT-4 Omni превосходит базовую модель GPT-4 в каждом аспекте, особенно в программировании.

  1. Мультимодальность. Модель принимает на входе и генерирует на выходе любые комбинации текста, аудио и изображений.
  2. Новая модель позволяет генерировать шрифты.
  3. Понимает более 50 языков и мгновенно переводит с них.
  4. Поддерживает 3d-рендеринг (создание фотореалистичного 2D-изображения с помощью 3D-моделей).
  5. GPT4o может создавать звуковые эффекты, а не только речь.
  6. Эффективная и стабильная работа в преобразовании изображений в зависимости от контекста.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Freepik

GPT-4 Omni обладает уникальной способностью распознавать эмоциональный окрас и интонации в голосе. В чат-бот был добавлен Voice Mode для полноценного голосового взаимодействия. Эта модель может вести с пользователем диалог, обрабатывать информацию в реальном времени, она умеет шутить и даже улавливать эмоции собеседника. Когда вы обращаетесь к ней с вопросами, она делает паузы, чтобы ответить максимально подходящим образом.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

На презентации показали, как ChatGPT переводит разговор с английского на итальянский и наоборот. Обновленный голос нейросети может имитировать более широкий спектр человеческих эмоций и позволяет пользователю прерывать ее речь.

GPT-4 Omni также способна анализировать эмоции по изображениям с камеры. Эта модель настолько реалистична, что отличить ее от реального человека становится практически невозможно. Например, на презентации нейросеть определила эмоции руководителя OpenAI на основе видеочата, где он улыбался, а также даже флиртовала с сотрудником OpenAI Барретом Зофом. После того, как нейросеть решила математическую задачу, Зоф попросил бота прочитать написанное от руки сообщение: «Мне нравится ChatGPT». Бот правильно прочитал сообщение и на комплимент ответил: «Это мило». Когда мужчина сказал, что ценит помощь ИИ, и попытался продолжить презентацию, ChatGPT прервала его и без всяких подсказок сказала: «Вау. На тебе отличный наряд».

Как можно использовать GPT-4 Omni?

  • Создание изображений с запоминанием персонажа. Теперь собственный комикс — это просто!
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
openai.com
openai.com
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
  • Помощь в подготовке к собеседованию на работу — ИИ оценит ваш внешний вид и поможет подготовиться к вопросам

Сотрудник OpenAI обратился к GPT-4o с вопросом о том, подходит ли его внешний вид для предстоящего собеседования. Нейросеть порекомендовала ему привести в порядок волосы. Когда он надел шляпу, GPT-4o отметила, что это придает ему непрофессиональный вид, и посоветовала снять ее.

Нажми и смотри
  • Генерация колыбельных песен для вашего ребенка
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Сотрудница OpenAI запросила у нейросети создание песни о Сан-Франциско и исполнение ее несколькими голосами одновременно. GPT-4o представила песню в а капелла — генерация инструментальной музыки пока не входит в ее возможности.

Нажми и смотри
  • Репетитор по математике
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

GPT-4o не решает задачи за школьника, а именно помогает ему научиться справляться с ними самостоятельно.

Нажми и смотри
  • Проведение рабочих созвонов в Zoom
Нажми и смотри
  • Изучение других языков с помощью описания предметов
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Например, в видеоролике демонстрировались GPT-4o фрукты, ручки и плюшевая игрушка, и нейросеть верно переводила их на другой язык.

Нажми и смотри
  • Перевод с двух языков в режиме реального времени
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В деморолике было показано общение с помощью GPT-4o между девушкой, говорящей на итальянском, и англоговорящим парнем. Когда нейросеть слышала итальянскую речь, она мгновенно переводила ее на английский, и наоборот.

Нажми и смотри
  • Помощник может быть полноценным гидом для незрячих, подробно описывая им окружающий мир
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Технология встроена в мобильное приложение Be My Eyes, которое помогает людям с проблемами со зрением. На презентации было продемонстрировано, как искусственный интеллект помог человеку поймать такси, сообщив ему, когда оно приблизилось, а также горит ли у него индикатор доступности.

Нажми и смотри
  • Две GPT-4o могут вести диалог друг с другом — в одном видео две нейросети даже спели дуэтом
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как получить доступ к нейросети?

В настоящее время нейросеть предоставляет лишь функции обработки текста и визуальных данных. Когда будет доступна поддержка аудио и видео, пока информации нет.

Нейросетью уже могут пользоваться некоторые подписчики платной ChatGPT. В течение нескольких недель GPT-4o станет доступна для всех.

Пользователи бесплатной версии ChatGPT в скором времени также получат доступ к GPT-4o, но с ограничением по числу сообщений. Уже сейчас вы можете воспользоваться текстовыми возможностями GPT-4o на сайте Chatbot Arena. Однако количество запросов ограничено.

Freepik

Какие еще изменения для пользователей ChatGPT?

Пользователи бесплатной ChatGPT получат доступ к некоторым возможностям нейросети, которые ранее стоили денег, включая просмотр веб-страниц, расширенный анализ данных и GPT Store (версия App Store от OpenAI). У подписчиков увеличится лимит сообщений в пять раз.

«Мы бизнес и найдем за что взимать плату, и это поможет нам предоставлять бесплатные, выдающиеся услуги в области искусственного интеллекта (надеюсь) миллиардам людей», — написал генеральный директор Сэм Альтман в своем личном блоге после презентации.

Также ChatGPT впервые получил собственное приложение. Для macOS вышло десктопное приложение. Оно позволяет открывать ChatGPT в компактном окне рядом с другими программами и задавать вопросы о содержимом экрана. ChatGPT отвечает, основываясь на визуальной информации. В настоящее время приложение работает на операционной системе macOS, а выпуск версии для Windows ожидается до конца этого года.