OpenAI 公布新语言模型 GPT-4o:能陪你唱歌、聊天、还能读懂情绪和气氛

OpenAI 在北京时间5/14凌晨1点的发表会上,公布了最新的生成式AI模型GPT-4o,能实时针对音频、图像和文字进行推理,简单来说,GPT-4o可以通过镜头,知道你现在正在干嘛,还可以判断剪刀石头布谁赢谁输,或是又平手这样,平均只需320毫秒就能做出回应,和人类对话的反应时间已经非常接近(这回话的速度甚至可能比我还快)

OpenAI 公布新语言模型 GPT-4o:能陪你唱歌、聊天、还能读懂情绪和气氛

GPT-4o 可以做到哪些事

GPT-4o 的 o 代表 omni,实际看了 OpenAI demo 的视频,不得不说 GPT-4o 真的很全能,不但情绪听起来超有起伏,而且听起来一点都不敷衍,问它:「你觉得我今天穿得适合去面试吗?」 或是「看得出来现在我正在做啥吗?」 ,GPT-4o 都答得出来,还会给一些蛮有建设性的意见,还可以从呼吸声判断你是不是刚运动完、听声音就知道你的情绪如何


比 Siri 更有感情?

就连把狗狗抱到镜头前,GPT-4o 都可以看出它正在快乐地玩球中,如果从旁边经过,没有看到手机屏幕的话,真的会以为 demo 的人正在与他朋友视频聊天,而不是在和 AI 对谈(看完所有 demo 视频的我 was like: 😦 )


OpenAI技术长Muri Murati指出,GPT-4o主要是通过语音、文字、图像来进行推理,能够在232毫秒的时间内,响应你所输入的语音数据,且平均只需花320毫秒。 它实现了GPT-4 Turbo等级的旗舰效能,也接受了图形和文字组合的训练,能够分析照片和文字,来完成从照片中撷取重点的认为,同时GPT-4o也新增了语音功能,有语音功能、还能实时回应是一回事,但听起来像是个会思考、又有情绪的人又是另一回事,而随着GPT-4o的视觉能力也被提升,不但能做到基本的算数,还能判断软件代码,另外, GPT-4o 在 50 种主要语言的表现也提升了,只能说 GPT-4o 实在是有点强大


ChatGPT 的桌面版也将登场

GPT-4o 预计在几周之后,对所有用户开放,有付费的用户,将会比免费用户拥有更多的使用次数和信息容量。 而除了展示强大的 GPT-4o,OpenAI 也在活动中,宣布将推出 ChatGPT 的桌面版,到时会先支持 macOS,目标是要将 ChatGPT 整合进电脑系统中,到处都在 AI,是说如果在六月的 WWDC 看到 ChatGPT 出现在 iOS 18 里面,我好像也不会很意外叻

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论