谷歌 I/O 2024 带来了像是 Ask Photo 、搜索引擎正式导入生成式 AI 、画圈搜索帮助学习等新功能,除了这些新功能之外,谷歌 还推出名为「Project Astra」的新项目,Project Astra 构建一个真正实用且可以帮助日常生活的未来 AI 助理。
「Project Astra」一个真正实用且可以帮助日常生活的未来 AI 助理
谷歌 发布了它们对 AI 助手未来愿景「Project Astra」的视频,视频中用户与 谷歌 的多模态基础模型 Gemini 支持的 AI 人工智能代理原型互动。 可以看到 Project Astra 跟一般聊天机器人的视觉场景识别不同, Project Astra 可以让用户在屏幕上画上记号,Gemini 可以根据记号来回答问题。 譬如视频中在屏幕上对喇叭画上箭头并询问「喇叭的这个部分叫什么?」 ,Gemini 回答被画记号的喇叭部分叫做 “ Tweeter 高音单体 ”,Tweeter 是喇叭负责产生高频率声音的部分。
Project Astra 也可以帮助用户想有创意的头韵 (alliteration) ,Gemini 帮色铅笔想出「Creative crayons color cheerfully」的头韵词,Gemini 想出来之后还表示它们 (色铅笔们) 确实能创造出色彩丰富的作品。 看来 Gemini 对自己想出来的句子很有自信呢。
Project Astra 还能通过视觉识别功能看懂计算机中的程序代码作用是什么:
Project Astra 能识别出用户目前所在的位置并告知用户所处地区以什么闻名:
除此之外 Project Astra 还有丰富的联想能力,看到两只猫和一个画着问号的箱子,它可以联想到薛定谔的猫。 还能为老虎娃娃跟狗狗取了「Golden Stripes」的二重奏乐队名称。


看完之后大家会不会觉得 谷歌 发布的 AI 助手未来愿景「Project Astra」的功能跟 OpenAI 前天发布会上公布的视觉场景辨识功能很像呢? Project Astra、OpenAI 的视觉辨识功能和 Meta 雷朋智能眼镜一样都是让 AI 开始能够看到东西,一样可以通过看到的东西回答问题。
