OpenAI представила новую модель нейросети GPT-4o: что она умеет и как пользоваться нейросетью в России?
Что такое GPT-4o?
Новая модель под названием GPT-4o («o» расшифровывается как «omni») может интерпретировать инструкции пользователя, передаваемые с помощью текста, звука и изображения, а также отвечать во всех трех режимах. «Это шаг к гораздо более естественному взаимодействию человека и компьютера», — так утверждают создатели нейросети.
Ранее OpenAI уже предлагала версию ChatGPT, которая могла принимать голосовые команды и отвечать голосом. Но оно состояло из трех различных технологий искусственного интеллекта: одна преобразовывала голос в текст, другая генерировала ответ, а третья преобразовывала его в синтетический голос. Новая же версия основана на единой технологии искусственного интеллекта.
Что нового в GPT-4 Omni?
GPT-4 Omni превосходит базовую модель GPT-4 в каждом аспекте, особенно в программировании.
- Мультимодальность. Модель принимает на входе и генерирует на выходе любые комбинации текста, аудио и изображений.
- Новая модель позволяет генерировать шрифты.
- Понимает более 50 языков и мгновенно переводит с них.
- Поддерживает 3d-рендеринг (создание фотореалистичного 2D-изображения с помощью 3D-моделей).
- GPT4o может создавать звуковые эффекты, а не только речь.
- Эффективная и стабильная работа в преобразовании изображений в зависимости от контекста.
GPT-4 Omni обладает уникальной способностью распознавать эмоциональный окрас и интонации в голосе. В чат-бот был добавлен Voice Mode для полноценного голосового взаимодействия. Эта модель может вести с пользователем диалог, обрабатывать информацию в реальном времени, она умеет шутить и даже улавливать эмоции собеседника. Когда вы обращаетесь к ней с вопросами, она делает паузы, чтобы ответить максимально подходящим образом.
На презентации показали, как ChatGPT переводит разговор с английского на итальянский и наоборот. Обновленный голос нейросети может имитировать более широкий спектр человеческих эмоций и позволяет пользователю прерывать ее речь.
GPT-4 Omni также способна анализировать эмоции по изображениям с камеры. Эта модель настолько реалистична, что отличить ее от реального человека становится практически невозможно. Например, на презентации нейросеть определила эмоции руководителя OpenAI на основе видеочата, где он улыбался, а также даже флиртовала с сотрудником OpenAI Барретом Зофом. После того, как нейросеть решила математическую задачу, Зоф попросил бота прочитать написанное от руки сообщение: «Мне нравится ChatGPT». Бот правильно прочитал сообщение и на комплимент ответил: «Это мило». Когда мужчина сказал, что ценит помощь ИИ, и попытался продолжить презентацию, ChatGPT прервала его и без всяких подсказок сказала: «Вау. На тебе отличный наряд».
Как можно использовать GPT-4 Omni?
- Создание изображений с запоминанием персонажа. Теперь собственный комикс — это просто!
- Помощь в подготовке к собеседованию на работу — ИИ оценит ваш внешний вид и поможет подготовиться к вопросам
Сотрудник OpenAI обратился к GPT-4o с вопросом о том, подходит ли его внешний вид для предстоящего собеседования. Нейросеть порекомендовала ему привести в порядок волосы. Когда он надел шляпу, GPT-4o отметила, что это придает ему непрофессиональный вид, и посоветовала снять ее.
- Генерация колыбельных песен для вашего ребенка
Сотрудница OpenAI запросила у нейросети создание песни о Сан-Франциско и исполнение ее несколькими голосами одновременно. GPT-4o представила песню в а капелла — генерация инструментальной музыки пока не входит в ее возможности.
- Репетитор по математике
GPT-4o не решает задачи за школьника, а именно помогает ему научиться справляться с ними самостоятельно.
- Проведение рабочих созвонов в Zoom
- Изучение других языков с помощью описания предметов
Например, в видеоролике демонстрировались GPT-4o фрукты, ручки и плюшевая игрушка, и нейросеть верно переводила их на другой язык.
- Перевод с двух языков в режиме реального времени
В деморолике было показано общение с помощью GPT-4o между девушкой, говорящей на итальянском, и англоговорящим парнем. Когда нейросеть слышала итальянскую речь, она мгновенно переводила ее на английский, и наоборот.
- Помощник может быть полноценным гидом для незрячих, подробно описывая им окружающий мир
Технология встроена в мобильное приложение Be My Eyes, которое помогает людям с проблемами со зрением. На презентации было продемонстрировано, как искусственный интеллект помог человеку поймать такси, сообщив ему, когда оно приблизилось, а также горит ли у него индикатор доступности.
- Две GPT-4o могут вести диалог друг с другом — в одном видео две нейросети даже спели дуэтом
Как получить доступ к нейросети?
В настоящее время нейросеть предоставляет лишь функции обработки текста и визуальных данных. Когда будет доступна поддержка аудио и видео, пока информации нет.
Нейросетью уже могут пользоваться некоторые подписчики платной ChatGPT. В течение нескольких недель GPT-4o станет доступна для всех.
Пользователи бесплатной версии ChatGPT в скором времени также получат доступ к GPT-4o, но с ограничением по числу сообщений. Уже сейчас вы можете воспользоваться текстовыми возможностями GPT-4o на сайте Chatbot Arena. Однако количество запросов ограничено.
Какие еще изменения для пользователей ChatGPT?
Пользователи бесплатной ChatGPT получат доступ к некоторым возможностям нейросети, которые ранее стоили денег, включая просмотр веб-страниц, расширенный анализ данных и GPT Store (версия App Store от OpenAI). У подписчиков увеличится лимит сообщений в пять раз.
«Мы бизнес и найдем за что взимать плату, и это поможет нам предоставлять бесплатные, выдающиеся услуги в области искусственного интеллекта (надеюсь) миллиардам людей», — написал генеральный директор Сэм Альтман в своем личном блоге после презентации.
Также ChatGPT впервые получил собственное приложение. Для macOS вышло десктопное приложение. Оно позволяет открывать ChatGPT в компактном окне рядом с другими программами и задавать вопросы о содержимом экрана. ChatGPT отвечает, основываясь на визуальной информации. В настоящее время приложение работает на операционной системе macOS, а выпуск версии для Windows ожидается до конца этого года.
Microsoft сделала цифрового ребенка: ее новая нейросеть учится на детских книжках
Айтишник научил нейросеть по фото вычислять девушек, которые не против секса на первом свидании