根据Gartner公司的数据,到2027年,40%的生成式人工智能(GenAI)解决方案将是多模态的(文本、图像、音频和视频),而2023年这一比例为1%。这种从单一模型到多模态模型的转变增强了人类与人工智能的互动,并为GenAI产品的差异化提供了机会。
在美国黄金海岸举行的Gartner IT研讨会/展会上,Gartner杰出副总裁分析师Erick Brethenoux表示:“随着GenAI市场向基于多种模态的本地训练模型发展,这有助于捕捉不同数据流之间的关系,并有可能将GenAI的优势扩展到所有数据类型和应用程序中。它还允许人工智能支持人类执行更多任务,而不管环境如何。”
多模态GenAI是Gartner在2024年生成式人工智能技术成熟度周期中确定的两种技术之一,早期采用有可能带来显著的竞争优势和上市时间效益。与开源大型语言模型(LLM)一起,这两种技术在未来五年内对组织具有很高的影响潜力。
Gartner预计,在GenAI创新中,有两种技术被认为具有最大的潜力——特定领域的GenAI模型和自主代理。
Gartner杰出副总裁分析师Arun Chandrasekaran表示:“由于技术和供应商的生态系统混乱且快速发展,企业将继续难以驾驭GenAI生态系统。“随着行业整合的开始,GenAI正处于幻灭的低谷。一旦炒作平息,真正的好处就会显现出来,未来几年能力的进步可能会很快。”
多模态GenAI将对企业应用程序产生变革性的影响,因为它可以添加新的特性和功能。其影响并不局限于特定的行业或用例,可以应用于人工智能与人类之间的任何接触点。今天,许多多模态模型仅限于两种或三种模态,在未来几年内将增加,能够包括更多模态。
Brethenoux说:“在现实世界中,人们通过声音、视觉和感知等不同方式的组合来接触和理解信息。”“多模态GenAI很重要,因为数据通常是多模态的。当单一模态模型被组合或整合以支持多模态GenAI应用程序时,通常会导致延迟和不准确的结果,从而导致较低质量的体验。”
其他热门趋势还包括:
开源LLM
开源LLM是深度学习基础模型,通过实现商业访问的民主化,并允许开发人员针对特定任务和用例优化模型,可以加速GenAI实现的企业价值。此外,它们还提供了访问企业、学术界和其他研究角色中的开发人员社区的途径,这些开发人员社区正朝着改进模型并使其更有价值的共同目标努力。
Chandrasekaran说:“开源LLM通过定制、更好地控制隐私和安全、模型透明度、利用协作开发的能力以及减少供应商锁定的潜力,提高了创新潜力。”“最终,它们为企业提供了更小的模型,更容易培训,成本更低,并支持业务应用程序和核心业务流程。”
特定领域GenAI模型
特定领域的GenAI模型针对特定行业、业务功能或任务的需求进行了优化。它们可以改进企业内的用例一致性,同时提供改进的准确性、安全性和隐私性,以及更好的上下文化答案。与通用模型相比,这减少了对高级提示工程的需求,并且可以通过有针对性的训练降低幻觉风险。
Chandrasekaran说:“特定领域的模型可以为特定行业的任务提供更先进的起点,从而更快地实现价值,提高性能并增强人工智能项目的安全性。”“这将鼓励更广泛地采用GenAI,因为组织将能够将它们应用到通用模型性能不够的用例中。”
自治代理
自主代理是在没有人为干预的情况下实现定义目标的组合系统。他们使用各种人工智能技术来识别环境中的模式,做出决策,调用一系列动作并生成输出。这些智能体有可能从它们的环境中学习,并随着时间的推移而改进,使它们能够处理复杂的任务。
Brethenoux说:“自主代理代表了人工智能能力的重大转变。“他们的独立运营和决策能力使他们能够改善业务运营,增强客户体验并实现新产品和服务。这可能会节省成本,赋予竞争优势。它还带来了组织劳动力从交付到监督的转变。”