Google бросает вызов GPT-4o с впечатляющей демонстрацией прототипа голоса и видео Gemini

🎉 🎮 Привет! Тебе что, совсем нечем заняться? Идеально! Присоединяйся к нашему телеграм-каналу Roblox, где мы веселимся больше, чем в бочке с виртуальными обезьянками. Приходи за кубиками, оставайся, чтобы подшутить. Ты не пожалеешь об этом... наверное. Увидимся в чате! 🕹️ 🚀 👇

Roblox Telegram


Google бросает вызов GPT-4o с впечатляющей демонстрацией прототипа голоса и видео Gemini

Как опытный аналитик, я внимательно следил за развитием моделей искусственного интеллекта и их применением в различных отраслях. Вчерашний запуск новой мультимодальной модели GPT-4o от OpenAI стал захватывающим событием, особенно в связи с мероприятием Google I/O 2024, которое состоится сегодня. Демонстрации, демонстрирующие человеческие возможности голоса и зрения ChatGPT GPT-4o, были, несомненно, впечатляющими.


Я наблюдал вчерашнее захватывающее развитие событий, когда OpenAI представила свою последнюю мультимодальную модель GPT-4. Идеальное расположение перед мероприятием Google I/O 2024, которое состоится сегодня.

Как аналитик, я внимательно слежу за достижениями в области моделей искусственного интеллекта, и должен признать, что GPT-40 произвел на меня большое впечатление, основываясь на увиденных мной демонстрациях. Его более человеческие возможности голоса и зрения ChatGPT выделяют его среди других. Однако я был не менее заинтригован недавним представлением в твиттере прототипа нового чат-бота Gemini от Google. Эта модель также может похвастаться впечатляющими человеческими способностями к разговору и зрительными способностями, напоминающими GPT-40.

В недавнем твите Google человек держит свой телефон в направлении этапа ввода-вывода, разговаривая с искусственным интеллектом по имени Близнецы. Отвечая на вопрос об изображении, снятом камерой, Близнецы отмечают: «Похоже, что люди готовятся к важному событию, возможно, конференции или выступлению. Есть ли какая-то конкретная деталь, которая вас заинтересовала?»

See more

Как исследователь, изучающий конференцию Google I/O, я могу объяснить, что эти большие буквы означают «Google I/O», когда на них ссылаются на сцене во время мероприятия. Однако стоит отметить, что распознать событие ввода-вывода исключительно на основе одного вопроса не всегда может быть простым, в зависимости от контекста и доступной информации.

Gemini выразили желание открыть для себя новые разработки в области искусственного интеллекта и их потенциальное применение для улучшения повседневного опыта, когда их спросили, какая тема больше всего заинтересует их на Google I/O.

Превосходит ли последний прототип Google Gemini свою предыдущую версию по производительности? Определенно. Новый прототип может похвастаться более естественным и человеческим тоном речи, дополненным соответствующими интонациями для акцентирования внимания. Кроме того, он демонстрирует расширенные возможности идентификации и адаптации к различным настройкам представления ввода и вывода.

Но лучше ли он нового чат-бота OpenAI GPT-4o? Это животрепещущий вопрос.

Чем GPT-4o отличается от нового прототипа Gemini от Google?

Недавно представленный Google Gemini, который еще не получил официального релиза, возможно, не смог четко определить, какая версия превосходит другую, основываясь на обмене разговорами в Твиттере. Однако стоит отметить, что между этими двумя демонстрациями существуют заметные различия.

Чат-боты OpenAI GPT-4 и Gemini от Google обладают впечатляющими возможностями. Они могут общаться естественным и человеческим способом, а также способны обрабатывать и отвечать на вопросы, связанные с визуальной информацией.

Как фанат, я бы сказал это так: в живом демо OpenAI голос Gemini показался мне более человеческим. В то время как у GPT-4o были случаи, когда его энтузиазм казался чрезмерно преувеличенным или его речь слегка заикалась, Gemini звучала более плавно и естественно. Однако, как и любому другому собеседнику, Близнецам все еще нужна некоторая доработка – например, использование «Я» вместо «Я», чтобы разговоры выглядели более непринужденными и интересными.

Как исследователь, изучающий продвинутые модели искусственного интеллекта, я могу сказать, что одним из существенных различий между взаимодействием с таким чат-ботом и другими моделями является возможность прерывать его реакцию в режиме реального времени. Модель GPT-40, разработанная OpenAI, была разработана с учетом этой функции, позволяющей пользователям задавать еще один вопрос без необходимости сначала выдерживать длинный ответ.

В твите Google человек задал еще один вопрос после того, как прототип Gemini закончил говорить. Хотя неясно, мог ли человек вмешаться во время речи Близнецов, поскольку значок «прослушивания голосового ввода» не появился, кажется интригующим, что эта функция не была продемонстрирована.

Как аналитик, я размышляю над способностью GPT-4 суммировать события ввода-вывода Google на основе одного вопроса. Первоначально он определил, что камера снимает сцену с какой-то настройкой, но обнаружил упоминание о «вводе-выводе» только тогда, когда его конкретно спросили о буквах на сцене.

Основываясь на моих наблюдениях за живой демонстрацией GPT-4o, мне показалось, что чат-бот OpenAI задал бы вопрос о настройке события Google I/O 2024 всего одним запросом. Имейте в виду, это чисто предположение. Тем не менее, судя по тому, что я видел до сих пор, GPT-4o кажется более полным, чем последнее предложение Google, Gemini.

С моей нынешней точки зрения, GPT-40, похоже, устанавливает высокую планку для чат-ботов после того, как я впервые столкнулся с ним во время ввода-вывода Google. Однако моя точка зрения может измениться после того, как я стану свидетелем новых демонстраций Близнецов.

Смотрите также

2024-05-14 21:45