2024年人工智能发展迅猛,从年初的视频生成模型Sora、B200芯片的发布,到具备推理能力的GPT-o1和Gemini Flash thinking,从自动驾驶FSD v12到v13的进化,到Ray-BanMeta AI眼镜的畅销,从诺奖对AI的肯定到scaling law的质疑。2024年AI有哪些前沿进展?2025年又有哪些值得关注?本篇呈现我们的观察。
大语言模型的推理能力进化很快
2024年9月,OpenAI公司发布了GPT-o1模型。o1模型被认为具备真正的通用推理能力,其在化学、物理和生物学等专业知识方面的准确率达到了78.3%。这表明LLM在特定领域已经能够超越人类专家,展现出强大的推理能力。
GPT-o1模型在多项基准测试中表现出色,尤其是在处理复杂任务和多模态信息整合方面。它通过推理时计算(inference-time compute)实现了逻辑推理能力的提升,这意味着模型在给出回应前会进行更多的计算和“思考”。

12月,谷歌推出了Gemini 2.0 Flash Thinking,这一模型以透明推理能力著称,能够清晰展示其推理过程,这与传统AI模型直接输出结果的方式形成对比。这种透明推理的能力为用户提供了直观的AI思维路径展示,是AI技术的一个重要创新。

OpenAI计划在2025年发布o3模型,这将进一步推动逻辑推理的进化。o3模型预计将在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面超越o1,展现出更先进、近似人类的推理能力。
视频生成技术进展迅速
2024年AI视频领域的进展迅速,主要头部玩家有Sora、可灵AI、Runway和Pika等。这些进展为视频内容创作带来了新的思路和工具。
2月,OpenAI发布了Sora模型,并在12月正式开放公众使用。Sora能够根据文本指令生成逼真或想象中的场景视频,显示出模拟物理世界的潜力。Sora的登场不仅展示了AI技术在创造虚拟角色方面的巨大潜力,还加速了相关技术的研发和应用。
Runway推出的Gen-3模型标志着AI视频生成技术的重大进步。Gen-3旨在提升平台上所有图像和文本到视频的工具,包括Motion Brush等功能。Runway Gen-3 Alpha的推出,为视频制作树立了新标准,能够以惊人的速度和准确性将文本和图像转化为视频。
而Pika 2.0的发布标志着人工智能在视频创作领域的又一重大进展。Pika 2.0相比于前一版本在多个方面进行了显著的升级,重新定义了用户在内容创作时的体验与可能性。
国内,快手旗下的可灵AI在短时间内从追赶者一跃成为全球AI视频生成领域的领跑者。可灵AI最新的1.6版本展现了令人瞩目的技术进步,特别是在物理规律真实感方面有显著提升。可灵AI的技术创新主要体现在其高效的数据处理能力和强大的生成算法上,能够在短时间内生成高质量的视频内容。

另外值得关注的是李飞飞创立的World Labs,其推出空间智能模型,通过一张图片生成一个完整的3D世界,这项技术意味着视频游戏、电影、VR等领域的数字内容创作将发生革命性的变化。这个模型不仅突破了传统的2D限制,还能够估算3D几何图形,填充场景中未见的部分,并创建新的视角和交互体验。

AI Agent智能体概念开始普及
AI智能体(Agent)在各个大模型中越来越流行,它们被开发用于构建智能体平台,以实现更高级的自动化和决策支持。尽管智能体在执行特定任务方面表现出色,但在达到真正的决策智能方面仍有一定的距离。以下是一些垂直领域模型的应用案例:
居然设计家(Homestyler)AI Agent设计智能体:居然设计家利用大模型和AI技术,推出了AI设计助手,旨在提升家装设计行业的效率和个性化水平。
金融领域的AI Agent:在金融领域,AI Agent如Unit21的虚拟助手,提供24/7客户支持,帮助客户理解功能、问题排查和风险管理工作流优化。
医疗领域的AI Agent:飞利浦等公司使用AI进行远程患者监测,改善护理服务质量,同时AI Agent还能帮助医疗保健提供者分析患者数据,预测疾病暴发或治疗结果。
教育领域的AI Agent:例如Jagoda,提供在线辅导服务,支持超过30个学科的辅导,并提供个性化学习体验。
Palantir是一家知名的数据分析公司,以其在垂直领域模型应用中的专业性和技术深度而闻名。利用AI大模型的方式主要体现在其人工智能平台(AIP)上,AIP提供了一个平台和工作流构建器,旨在创建、部署和管理AI应用程序。AIP不是集成简单的聊天,而是让开发人员能够将应用程序中的AI转化为代理和自动化。

端到端方案应用范围扩展到语音/视觉/行为
2024年,端到端AI方案在多个领域展现了其强大的影响力和应用潜力。这种方案不仅体现在大模型对文本和视频数据的训练上,还扩展到了语音、视觉、行为等多个维度。
语音对话:GPT-4o的语音对话能力是一个显著的例子。GPT-4o在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。这使得交互延迟下降到了300毫秒,达到了人类正常交互的一个水平,并且也可以进行情感表达了。

视觉领域:在自动驾驶领域,端到端意味着只需要一个模型,就能把摄像头、毫米波雷达、激光雷达等传感器收集到的感知信息,转换成车辆方向盘的转动角度、加速踏板的踩踏深度以及制动的力度等具体操作指令,让汽车实现自动行驶。

行为规划:人形机器人通过视觉、触觉等多种传感器获取环境信息, 多模态融合感知技术可以将不同模态的数据直接输入到深度神经网络中,通过联合学习实现多模态信息的无缝融合,获得更全面、准确的环境表征。多模态感知数据经过预处理后,被输入到具身大模型中进行理解和推理,进而使得机器人能够更加智能地执行复杂任务。

AlphaFold蛋白质预测:端到端训练的AlphaFold3,不仅能够预测蛋白质的三维结构,还能对蛋白质-核酸、蛋白质-小分子等生物复合物的三维结构进行精准预测。这一突破在生物医药领域具有革命性意义,极大地推动了科学研究的进展。
医药开发:AI在医药开发中的应用越来越广泛,从药物发现到临床试验,AI技术正在深刻改变着医药行业的每一个环节。AI技术能够快速识别药物靶点,设计、合成化合物,并预测药物代谢性质和理化性质,大大缩短药物研发时间、降低研发成本。
AI芯片仍应求ASIC成为新焦点然供不
人工智能芯片(AI芯片)作为AI技术的核心硬件,旨在提升AI模型、智能体的训练效率以及在消费电子和汽车电子等领域的应用。2024年全球AI芯片行业市场规模预计将达到902亿美元,显示出AI芯片市场的快速增长趋势。
英伟达的GB200是其新一代AI服务器GPU,备受市场关注。英伟达GB200系列GPU正式进入市场的时间是在2024年11月,Dell宣布世界上第一批GB200出货,这比预期的12月初提前。GB200包含两个B200 Blackwell GPU和一个基于Arm的Grace CPU,推理大语言模型性能比H100提升30倍,成本和能耗降至25分之一。
科技巨头对AI芯片的需求持续增长。例如,字节跳动的文本模型和视频模型推理算力需求巨大,预计其增量AI芯片市场规模近3000亿元人民币。这表明科技巨头在AI硬件上的投入巨大,以满足其在AI领域的快速发展需求。
ASIC(专用集成电路)芯片因其在特定任务上的高效能和低能耗特性,成为AI领域的新焦点。预计ASIC芯片将迎来爆发式增长,尤其是在AI推理场景下,算力的海量需求推动着这一市场的蓬勃发展。博通的市值近期(2024.12)突破了1万亿美元大关,成为全球第12家、美国第9家市值达到1万亿美元的公司。博通的AI业务同比增长220%,显示了其在AI硬件领域的强劲增长。
苹果正在与博通合作开发名为Baltra的AI服务器芯片,这是苹果专为人工智能任务设计的首款产品,预计将于2026年投入量产。Baltra芯片将采用台积电先进的N3P制造工艺,体现了苹果在硬件开发中始终致力于部署最新技术的承诺。

另外,自动驾驶领域对AI芯片的需求日益增长。英伟达(NVIDIA)的Orin芯片特别强化了AI推理性能,能够执行复杂的神经网络模型,提升自动驾驶汽车的感知、决策和规划能力。Orin芯片采用7纳米生产工艺,集成了170亿个晶体管,运算能力达到254TOPS。
地平线机器人(Horizon Robotics)是中国的人工智能计算平台公司,专注于边缘人工智能芯片的研发。征程系列芯片包括征程2、征程3、征程5和征程6,它们分别适用于不同的自动驾驶场景,从高级辅助驾驶(ADAS)到高等级自动驾驶。
另外我们观察到,模型中台是AI基础设施中一个快速崛起的细分市场,它在AI大模型的训练、推理和应用过程中发挥着至关重要的作用。作为连接大模型开发与实际应用的关键桥梁,模型中台的目标是通过集成工具和高效调度资源,使AI应用的开发和部署过程更加智能化和自动化。

AI硬件如AI手机 /AI-PC / AI眼镜开始起量
在2024年,人工智能硬件领域的发展呈现出了多元化和专业化的趋势,其中AI手机、AI-PC、AI眼镜以及AI陪伴玩偶等产品类别均取得了显著的进展。
AI手机领域见证了出货量的增长和功能的增强。全球新一代AI手机的出货量预计将达到1.7亿部,占智能手机整体出货量的15%。AI手机的发展经历了从应用AI化到系统AI化,再到“AI即系统”的三个阶段。例如,三星Galaxy S24系列和华为通过自研的意图框架与盘古大模型结合,提升了AI手机的智能体验。苹果也在改进Siri和消息应用程序间的交互,使Siri更有效地自动生成文本并回答复杂问题。

AI-PC市场在2024年有望实现爆发式增长,尽管尚未出现占据显著市场份额的“爆款”产品。在技术进步方面,兼容“Copilot+ PC”功能的机型将作为AI PC发布,例如搭载高通Snapdragon X的华硕AI PC。英特尔启动的“AI PC加速计划”旨在通过提供工程软件和资源,于2025年前为超过1亿台PC实现人工智能特性。
AI眼镜技术在2024年也取得了重要进展。2024年,Meta与Ray-Ban合作推出的AI眼镜「Ray-Ban Meta」全球出货量突破200万台。华灿光电的AI眼镜项目已进入研发试样及方案验证阶段,这标志着MicroLED技术在智能眼镜领域的应用迈出了重要一步。小度科技发布的小度AI眼镜作为全球首款搭载中文大模型的原生AI眼镜,预示着AI眼镜市场的巨大潜力。LOHO X闪极首款联名AI智能眼镜——「拍拍镜」A1的发布,展示了AI眼镜在消费级市场的应用。

AI陪伴玩偶市场在2024年也呈现出了显著的增长。全球AI玩具市场规模预计将突破300亿美元,年均增长率高达20%,预计2030年全球AI玩具市场规模或达351.1亿美元。AI玩具正在朝改进语音交互、开发智能体互动、增加视觉功能等方向迭代,提供了更加贴心、精准的陪伴服务。
作为AI具身化的人形机器人初步可行
在2024年,人形机器人领域的发展取得了显著的成就,特别是在技术、性能和实用性方面。
特斯拉的Optimus:特斯拉的人形机器人Optimus在技术层面取得了重要进展。最新的进展显示,Optimus能够在复杂地形上自主行走,无需远程操控即可克服崎岖地形,这得益于其先进的神经网络控制。此外,Optimus在外观设计、行走、抓取、握持等执行任务的能力上取得了显著进步,展现出更高的灵活度和稳定性。特斯拉预计,Optimus将在2025年开始小批量生产,并在2026年开始对外销售。

Figure机器人:Figure AI公司在人形机器人领域也取得了显著进展。Figure 02机器人在生产线上的性能得到了显著提升,速度提高了400%,成功率提升了七倍。Figure 02的成功交付客户,并投入仓库与工厂实际运营中,标志着Figure AI在全球范围内成为少数实现商业化应用并盈利的机器人企业之一。
波士顿动力:波士顿动力公司的Atlas人形机器人在运动控制方面取得了新突破。最新的视频展示了Atlas扮演的圣诞老人完成了后空翻,整套动作行云流水、干净利落,显示了其超强的动态“跑酷”能力。
宇树科技:宇树科技推出的G1人形机器人在性能和成本控制上展现了卓越优势。G1的售价为9.9万元起,相较于其他同行高达数十万元的定价,降低了人形机器人的入门门槛。G1人形机器人进行了量产设计升级,能够进行单脚跳、360°旋转跳等动作,支持拧瓶盖等精准操作。12月23日下午,宇树科技发布了旗下行业级机器狗B2-W(B2机器狗的进阶版)的炫技视频。
优必选:优必选的Walker S1人形机器人已进入比亚迪工厂执行搬运任务实训,实现了全球首次人形机器人与无人物流车、无人叉车、工业移动机器人和智能制造管理系统的协同作业。Walker S1在具身智能应用等方面也迎来了新进展,通过接入文心大模型,获得了高级的多模态感知与运动控制能力。
