OpenAI 公布新语言模型 GPT-4o：能陪你唱歌、聊天、还能读懂情绪和气氛

OpenAI 在北京时间5/14凌晨1点的发表会上，公布了最新的生成式AI模型GPT-4o，能实时针对音频、图像和文字进行推理，简单来说，GPT-4o可以通过镜头，知道你现在正在干嘛，还可以判断剪刀石头布谁赢谁输，或是又平手这样，平均只需320毫秒就能做出回应，和人类对话的反应时间已经非常接近（这回话的速度甚至可能比我还快）

GPT-4o 可以做到哪些事

GPT-4o 的 o 代表 omni，实际看了 OpenAI demo 的视频，不得不说 GPT-4o 真的很全能，不但情绪听起来超有起伏，而且听起来一点都不敷衍，问它：「你觉得我今天穿得适合去面试吗？」或是「看得出来现在我正在做啥吗？」，GPT-4o 都答得出来，还会给一些蛮有建设性的意见，还可以从呼吸声判断你是不是刚运动完、听声音就知道你的情绪如何

比 Siri 更有感情？

就连把狗狗抱到镜头前，GPT-4o 都可以看出它正在快乐地玩球中，如果从旁边经过，没有看到手机屏幕的话，真的会以为 demo 的人正在与他朋友视频聊天，而不是在和 AI 对谈（看完所有 demo 视频的我 was like： ? ）

OpenAI技术长Muri Murati指出，GPT-4o主要是通过语音、文字、图像来进行推理，能够在232毫秒的时间内，响应你所输入的语音数据，且平均只需花320毫秒。它实现了GPT-4 Turbo等级的旗舰效能，也接受了图形和文字组合的训练，能够分析照片和文字，来完成从照片中撷取重点的认为，同时GPT-4o也新增了语音功能，有语音功能、还能实时回应是一回事，但听起来像是个会思考、又有情绪的人又是另一回事，而随着GPT-4o的视觉能力也被提升，不但能做到基本的算数，还能判断软件代码，另外， GPT-4o 在 50 种主要语言的表现也提升了，只能说 GPT-4o 实在是有点强大

ChatGPT 的桌面版也将登场

GPT-4o 预计在几周之后，对所有用户开放，有付费的用户，将会比免费用户拥有更多的使用次数和信息容量。而除了展示强大的 GPT-4o，OpenAI 也在活动中，宣布将推出 ChatGPT 的桌面版，到时会先支持 macOS，目标是要将 ChatGPT 整合进电脑系统中，到处都在 AI，是说如果在六月的 WWDC 看到 ChatGPT 出现在 iOS 18 里面，我好像也不会很意外叻

OpenAI 公布新语言模型 GPT-4o：能陪你唱歌、聊天、还能读懂情绪和气氛

GPT-4o 可以做到哪些事

比 Siri 更有感情？

ChatGPT 的桌面版也将登场

相关推荐

发表回复