谷歌和OpenAI即将推出GenAI新模型

2024年05月23日 16:02
AI时代

OpenAI和谷歌上周发布了各自GenAI（生成式人工智能）模型的重大更新，包括OpenAI发布的GPT-4o，它在流行的大型语言模型（LLM）中添加了音频交互；谷歌发布了Gemini 1.5 Flash和Astra项目。

早些时候，互联网上充斥着猜测，称OpenAI即将推出一项新的搜索服务，将与谷歌竞争。OpenAI首席执行官Sam Altman否认了这些传言，但他表示，新产品发布会将是“神奇的”。

目前还不清楚GPT-4o是否具有更强大魔力，但从各方面来看，它确实代表了对世界上最流行的大型语言模型(LLM) GPT-4的坚实改进。GPT-4o(“o”代表“omni”全方位)的关键功能是用户能够与LLM进行语音交互，进行自然对话，就像苹果Siri和亚马逊Alexa这样的数字助理服务一样。

根据OpenAI 5月13日的博客文章，新模型可以在230毫秒内对音频输入做出反应，平均为320毫秒。该公司表示，这“类似于人类在对话中的反应时间”。它也比OpenAI之前支持的“语音模式”快得多，后者提供2.8到5.4秒的延迟(实际上无法使用)。

GPT-4o是一个跨文本、视觉和音频端到端训练的新模型，使其成为第一个结合所有这些模式的OpenAI模型。该公司表示，在理解和生成英文文本和代码生成方面，它的性能与GPT-4 Turbo相当，“同时速度更快，API价格便宜50%。”

与此同时，从其年度开发者大会谷歌I/O上也有一些GenAI新闻分享。新闻主要围绕该公司旗舰的多模态生成人工智能模型Gemini展开。

首先是Gemini 1.5 Flash，这是该公司今年早些时候推出的Gemini 1.5 Pro的轻量级版本。Gemini 1.5 Pro拥有100万个Token上下文窗口，这是目前业内最大的上下文窗口。然而，考虑到如此强大的模型所带来的延迟和成本问题，谷歌不得不回到战略规划上，在那里他们提出了Gemini 1.5 Flash。

谷歌DeepMind首席执行官Demis Hassabi在一篇博客文章中写道，它还“通过数据和算法的进步，增强了代码生成、逻辑推理和规划、多回合对话以及音频和图像理解能力。”

谷歌还宣布推出Astra项目，这是一项创造“通用人工智能代理”的新努力。Astra代表“先进的能看能说的响应代理”，它的目标是创造出像人类一样理解和响应周围复杂世界的代理，同时还能记住所听到的内容并理解上下文——简而言之，让人工代理更像人类。

Hassabi表示:“虽然我们在开发能够理解多模式信息的人工智能系统方面取得了令人难以置信的进展，但将响应时间降低到对话级别是一项艰巨的工程挑战。”“在过去的几年里，我们一直在努力改进我们的模型感知、推理和交谈的方式，以使互动的速度和质量感觉更自然。”