Gartner预测，到2027年40%生成式人工智能解决方案将是多模态的

2024年09月12日 12:24
AI时代

根据Gartner公司的数据，到2027年，40%的生成式人工智能(GenAI)解决方案将是多模态的(文本、图像、音频和视频)，而2023年这一比例为1%。这种从单一模型到多模态模型的转变增强了人类与人工智能的互动，并为GenAI产品的差异化提供了机会。

在美国黄金海岸举行的Gartner IT研讨会/展会上，Gartner杰出副总裁分析师Erick Brethenoux表示:“随着GenAI市场向基于多种模态的本地训练模型发展，这有助于捕捉不同数据流之间的关系，并有可能将GenAI的优势扩展到所有数据类型和应用程序中。它还允许人工智能支持人类执行更多任务，而不管环境如何。”

多模态GenAI是Gartner在2024年生成式人工智能技术成熟度周期中确定的两种技术之一，早期采用有可能带来显著的竞争优势和上市时间效益。与开源大型语言模型(LLM)一起，这两种技术在未来五年内对组织具有很高的影响潜力。

Gartner预计，在GenAI创新中，有两种技术被认为具有最大的潜力——特定领域的GenAI模型和自主代理。

Gartner杰出副总裁分析师Arun Chandrasekaran表示:“由于技术和供应商的生态系统混乱且快速发展，企业将继续难以驾驭GenAI生态系统。“随着行业整合的开始，GenAI正处于幻灭的低谷。一旦炒作平息，真正的好处就会显现出来，未来几年能力的进步可能会很快。”

多模态GenAI将对企业应用程序产生变革性的影响，因为它可以添加新的特性和功能。其影响并不局限于特定的行业或用例，可以应用于人工智能与人类之间的任何接触点。今天，许多多模态模型仅限于两种或三种模态，在未来几年内将增加，能够包括更多模态。

Brethenoux说:“在现实世界中，人们通过声音、视觉和感知等不同方式的组合来接触和理解信息。”“多模态GenAI很重要，因为数据通常是多模态的。当单一模态模型被组合或整合以支持多模态GenAI应用程序时，通常会导致延迟和不准确的结果，从而导致较低质量的体验。”

其他热门趋势还包括：

开源LLM

开源LLM是深度学习基础模型，通过实现商业访问的民主化，并允许开发人员针对特定任务和用例优化模型，可以加速GenAI实现的企业价值。此外，它们还提供了访问企业、学术界和其他研究角色中的开发人员社区的途径，这些开发人员社区正朝着改进模型并使其更有价值的共同目标努力。

Chandrasekaran说:“开源LLM通过定制、更好地控制隐私和安全、模型透明度、利用协作开发的能力以及减少供应商锁定的潜力，提高了创新潜力。”“最终，它们为企业提供了更小的模型，更容易培训，成本更低，并支持业务应用程序和核心业务流程。”

特定领域GenAI模型

特定领域的GenAI模型针对特定行业、业务功能或任务的需求进行了优化。它们可以改进企业内的用例一致性，同时提供改进的准确性、安全性和隐私性，以及更好的上下文化答案。与通用模型相比，这减少了对高级提示工程的需求，并且可以通过有针对性的训练降低幻觉风险。

Chandrasekaran说:“特定领域的模型可以为特定行业的任务提供更先进的起点，从而更快地实现价值，提高性能并增强人工智能项目的安全性。”“这将鼓励更广泛地采用GenAI，因为组织将能够将它们应用到通用模型性能不够的用例中。”

自治代理

自主代理是在没有人为干预的情况下实现定义目标的组合系统。他们使用各种人工智能技术来识别环境中的模式，做出决策，调用一系列动作并生成输出。这些智能体有可能从它们的环境中学习，并随着时间的推移而改进，使它们能够处理复杂的任务。

Brethenoux说:“自主代理代表了人工智能能力的重大转变。“他们的独立运营和决策能力使他们能够改善业务运营，增强客户体验并实现新产品和服务。这可能会节省成本，赋予竞争优势。它还带来了组织劳动力从交付到监督的转变。”