新闻  |   论坛  |   博客  |   在线研讨会
OpenAI GPT-4o和谷歌Astra谁更强?前者音频更逼真,后者视觉更先进
深科技 | 2024-05-16 20:47:26    阅读:698   发布文章

本周,谷歌和 OpenAI 都宣布,他们已经构建了“超级”人工智能助手。这些工具可以实时与你交谈,并允许你随时打断它们,还能通过实时视频分析你的周围环境,并即时翻译对话。


当地时间 5 月 13 日,OpenAI 首次展示了其最新旗舰模型 GPT-4o。


在现场演示中,它能阅读睡前故事并帮助解决数学问题,所用的声音听起来就像电影《她》(Her)里华金·菲尼克斯(Joaquin Phoenix)的人工智能女友。


显然,OpenAI 的 CEO 山姆·奥特曼(Sam Altman)一直惦记着电影中的这一点。


当地时间 5 月 14 日,谷歌宣布了一系列新的人工智能工具,包括一款名为 Gemini Live 的对话助手,它能做的事情和 GPT-4o 相似。


谷歌还透露,它正在构建一种“无所不能”的人工智能代理,目前正在开发中,但要到 2024 年晚些时候才会发布。


很快,你将能够自己探索这些工具,看看是否会像开发者所希望的那样,在日常生活中使用这些工具,或者它们是不是更像那些早晚会失去吸引力的小把戏。


以下是你应该了解的关于如何访问这些新工具、使用它们的目的以及相关费用的信息。


图片

OpenAI 的 GPT-4o


它的功能:该模型可以实时与你交谈,响应延迟约 320 毫秒,OpenAI 表示这与人类的自然对话不相上下。


你可以让该模型解释你用手机摄像头拍摄的任何东西,它可以帮助你完成写代码或翻译文本等任务。它还可以汇总信息,生成图像、字体和 3D 渲染。


如何访问:OpenAI 表示,它将开始在网页和 GPT 应用程序中推出 GPT-4o 的文本和视觉功能,但日期尚未公布。该公司表示,将在未来几周内增加语音功能,但也尚未确定具体日期。


开发人员现在可以通过官方 API 使用文本和视觉功能,但语音模式最初只对“一小部分”开发人员开放。


费用:使用 GPT-4o 将是免费的,但 OpenAI 将设置使用上限,用户可以通过订阅来增加上限。


对于那些加入 OpenAI 订阅计划(每月 20 美元起)的人,GPT-4o 的消息容量将增加五倍。


图片

谷歌的 Gemini Live


什么是 Gemini Live?这是谷歌直接与 GPT-4o 竞争的产品,你可以与之实时对话。谷歌表示,在 2024 年晚些时候,你还可以使用该工具通过视频进行交流。


该公司承诺,它将成为一个有用的对话助手,用于准备面试或练习演讲。


如何访问:Gemini Live 将在未来几个月加入谷歌的高级人工智能计划 Gemini Advanced。


费用:Gemini Advanced 提供两个月的免费试用期,此后每月费用为 20 美元。


那么 Astra 项目是什么?Astra 是一个构建无所不能的人工智能代理的项目。谷歌在 I/O 大会上演示了该项目,但要到 2024 年晚些时候才会发布。


谷歌 DeepMind 研究副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)告诉《麻省理工科技评论》,人们将能够通过智能手机和台式电脑使用 Astra,但该公司也在探索其他选择,例如将其嵌入智能眼镜或其他设备。


图片

(来源:STEPHANIE ARNETT/MITTR | GOOGLE, OPENAI)‍


图片

哪个更好?


就目前来看,我们还无法体验这些模型的完整版本,所以很难判断哪个更好。谷歌通过一段精心制作的视频展示了 Astra 项目,而 OpenAI 选择通过看似更真实的现场演示展示了 GPT-4o。


但在这两种情况下,模型都被要求做开发者可能已经练习了很多次的事情。真正的考验将在它们首次面向数百万有独特需求的用户时到来。


也就是说,如果你将 OpenAI 发布的视频与谷歌的视频进行比较,这两个领先的工具看起来非常相似,至少在易用性方面是如此。


整体上看,GPT-4o 似乎在音频方面略微领先,展示了逼真的声音、对话,甚至是唱歌。而 Astra 则展示了更先进的视觉能力,比如能够“记住”你把眼镜忘在哪里了。


OpenAI 可能会更快地推出新功能,这意味着它的产品一开始会比谷歌的产品得到更多的使用,而谷歌要到 2024 年晚些时候才能完全推出其产品。


现在判断哪个模型产生“幻觉”或虚假信息的频率较低,哪个模型能产生更有用的回应还为时过早。


图片

它们安全吗?


OpenAI 和谷歌都表示,它们的模型经过了很好的测试。OpenAI 表示,GPT-4o 由 70 多位错误信息和社会心理学等领域的专家进行了评估。


谷歌表示,Gemini“拥有迄今为止谷歌人工智能模型中最全面的安全评估,包括偏见和毒性。”


但这些公司正在构建一个未来,让人工智能模型搜索、审查和评估真实世界的信息,为我们提供问题的答案。与相对简单的聊天机器人相比,更明智的做法是对它们告诉你的信息保持怀疑。


支持:Ren
运营/排版:何晨龙



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客