• 优直播团队
  • 2024年5月1
  • 1.2M+ 观看
  • 06 条评论

过去几年,智能驾驶行业竞争的焦点发生了显著变化。

最初,竞争集中在硬件层面,例如是否配备激光雷达、安装多少摄像头以及算力达到多少 TOPS。随后进入大模型时代,竞争转向端到端、VLA(视觉-语言-动作)以及 World Model(世界模型)等技术路线。

如今,越来越多的公司认识到,拥有更大的模型已不足以形成代际优势,真正决定技术上限的是模型、数据、算力和芯片之间能否构建一个持续优化的闭环。

这也是为什么越来越多的汽车制造商开始着力于自主研发。

特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo和自研芯片的全部环节。在国内,小鹏、蔚来和理想等品牌也在不断向更基础的技术层面深入。

在其今年发布的 L8 和 L9 车型上,理想汽车已采用自主研发的马赫 M100 芯片。该芯片采用了数据流架构,被理想汽车视为人工智能领域的一个重要技术方向。基于马赫 M100,理想汽车也运行了其自主研发的马赫 VLA 模型。

然而,对于整个行业而言,更值得关注的问题并非“是否进行自主研发”,而是这些投入究竟能解决哪些具体问题。

带着这个疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了对话。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自主研发芯片、数据体系以及 AI 基础设施背后的设计理念。以下为部分访谈摘要,经过编辑整理:

问:到第四季度,为了达到特斯拉 FSD V14 的效果,理想汽车还需要在哪些方面努力?

詹锟: 我认为在追赶 FSD 方面,存在两个层面的挑战。

首先是基础体验,具体体现在安全感、效率和舒适度是否能达到 FSD 的同等水平。FSD 在安全感、效率和舒适度方面表现出色,这是其核心优势。即使不处理极端复杂的路况,也能在这些基础体验上达到相似水平。

其次是能力层面,这同样是一个巨大的挑战。例如,特斯拉在礼让特殊车辆、在极窄空间内的精准感知能力,以及识别交警指挥等方面的表现非常突出。

在能力层面,存在架构升级的机会。为什么这些能力只有特斯拉拥有?这可能与以往的范式限制有关,也可能与架构和数据方面的原因有关。我们在这些方面进行了大量探索。

问:我理解马赫 VLA 是一套技术体系,而非单一模型。例如,Mind-Edge 是用于智能座舱的端侧模型。那么,目前的智能驾驶模型中是否还包含“L”(Language,语言)的组成部分?

詹锟: 当前自动驾驶的架构普遍趋向于将 VLA(视觉-语言-行为模型)与 World Model(世界模型)进行整合。

从长远来看,所有技术路线都将朝着这个方向发展。无论是 VLA 还是 World Model,其内部的 Prompt(提示)都需要使用语言。因此,语言部分是必然存在的,关键在于如何应用语言。

我认为,对于机器智能而言,Vision Based(基于视觉)是更合理的方式,它能更好地理解空间、感知三维空间并服务于环境。语言固然有用,在理解环境、交通、指令以及进行复杂决策思考时都具有价值。

长远来看,基于 Vision 和 Language 的原生基础模型,很可能是未来的发展趋势。

谢炎: 如果要实现 L3、L4 级别自动驾驶,并解决更广泛的泛化问题,模型需要具备类人的思考能力。此时,语言的重要性将日益凸显,这也是未来需要巨大算力的原因。

如果模型仅具备 Vision 和 Action(视觉和动作)能力,即使拥有大量数据,在遇到分布之外的情况时也会不知所措。就像动物即使学会了所有常见情况,面对从未见过的情境也可能完全无法应对,不知道该如何做出正确的选择。

我们认为,随着向 L3、L4 级别自动驾驶的迈进,所要解决的问题越来越接近 90%、95%、98% 之后的那些,即那些从未见过的问题,这需要模型具备类人的思考能力。而获得类人推理和思考能力的关键来源是语言模型。例如,需要理解交警的手势,判断其意图是让你通行还是停止,这并非仅仅通过收集或生成数据就能解决的问题。

问:随着理想汽车车队规模的扩大,从理想汽车内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值的数据的?

詹锟: 首先,数据的数量必须足够庞大,本质上是为了收集更多的 Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署优秀的 neural trigger(神经网络触发器),以区分场景的难易程度,并将关键数据回传。这也是特斯拉目前强大的原因之一。

其次,数据的质量至关重要,主要体现在行为质量上。当前,业界逐渐趋向于端到端的范式,无论是 VLA(视觉-语言-行为模型)、World Model(世界模型)还是 Vision-Action(视觉-动作模型),都离不开对 Action(行为)的理解。因此,行为质量至关重要,行为的纯净度和一致性非常关键。

至于数据规模增大后边际效应是否衰减,首先,只要模型能力不断提升,只要我们追求满分,其增长曲线必然是“对数曲线”,即增长速度逐渐放缓,而非线性增长,这是所有 AI 公司都会面临的情况。虽然越往后,数据收敛的速度确实会变慢,但我们也希望通过规模化来加速这一过程。

问:马赫 M100 芯片可以应用于不同的 AI 场景。五年后,或者再往后两代产品,理想汽车车内的算力中心是否有可能全部采用自主研发的马赫芯片?

谢炎: 尽管业界存在“舱驾一体”的说法,但我们认为舱驾一体的核心在于 AI 算力部分,其他部分的整合并非那么关键。因为座舱系统和 AI 智能驾驶系统可以完全独立运行,但 AI 算力可以集中处理,从而大大提高效率。

我们的路线图最终目标是实现车内统一的 AI 计算中心,所有 AI 任务都可以在这个中心进行计算。这类似于在笔记本上运行 OpenClaw,AI 计算并非在笔记本本地进行,而是在 Token Provider Server(Token 供应服务器)上完成,车内情况也类似,拥有一个 Token Server(Token 服务器)。

这个 Token Server 的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不被其他任务干扰,这是通过软硬件协同设计才能实现的。

问:是否因为 M100 采用了数据流架构的 AI 推理芯片,所以相对于其他厂商的自动驾驶芯片,其对带宽的需求较低,但对片上存储的需求更高?

谢炎: 我们对带宽的要求确实相对较低,但这并非直接导致设计 SRAM 容量(而非显存)的原因。当前 HBM(高带宽内存)非常流行,许多人认为带宽越高越好。然而,计算、带宽、SRAM 等都需要晶体管来实现,最终的设计是基于成本、综合性能等多方面权衡的结果。

不同的架构设计,仅凭一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是这项运动的综合表现。

问:为什么目前的大算力芯片方案,例如英伟达、小鹏以及理想汽车自研的芯片,都没有实现芯片级的舱驾融合,反而高通在低算力芯片上实现了这一点?这是为什么?

谢炎: 从本质上讲,座舱和驾驶是两个独立的系统。特别是对于迈向 L3、L4 级别的高端智能驾驶,需要一个更高确定性的系统,其内存和计算资源是专用的,这时融合的意义就大大减小了。因为资源无法实现实时切换,而实时切换会降低确定性。如果系统趋向于越来越专用的方向,融合的价值就不大了——即使将两个芯片集成在一起,资源仍然是独立的,并不能带来成本的降低,甚至可能影响效率。

目前市面上的舱驾融合系统,其功能仍然是分开的。如果无法实现不同任务的即时切换,将两个芯片集成在一个芯片上,虽然晶体管数量可能不变,但仅能节省一次封装成本。对于中低端芯片而言,这部分成本可以节省,但节省的幅度也有限。

我的观点是,随着智能驾驶越来越高端化,舱驾融合的意义可能并不大。如果能将这些芯片设计得更紧凑,在一个电路板上实现小型化集成方案,这是可行的,不一定非要集成在一块芯片上,也可以是多块芯片集成在同一块板上。

问:自研芯片需要具备哪些条件,例如销量、营收和研发投入。当前自动驾驶迭代速度很快,芯片需要持续迭代,需要具备哪些条件?

谢炎: 芯片的初期投入确实不菲,可能每年需要数亿元。

第一个条件是达到一定的营收规模。对于车企而言,年营收达到 1000 亿元以上,研发投入至少占 10%,即每年有几十亿到上百亿的投入,足以支撑芯片的研发。第二个条件是,所研发的芯片所解决的问题,能够切实增强产品的能力。

许多人认为芯片需要巨大的出货量才能实现成本摊薄。实际上,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如丽维斯(Livis)使用了两颗马赫 M100,总面积约 800 平方毫米。而一款高端手机芯片的面积约为 100 平方毫米,因此一辆车的智能驾驶芯片面积相当于 8 部高端手机芯片的总和。

这样计算下来,几十万辆车的需求量所消耗的晶圆面积非常庞大,足以实现成本的摊薄。因此,成本不能仅以单颗芯片的数量来衡量。

问:动态数据流编译器究竟难在哪里?攻克它花了多长时间?

谢炎: 在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器的工作。在芯片流片前,已经完成了许多模型的运行测试。

数据流是一种完全不同的架构,它需要解决的问题与超级计算机或大规模计算机集群要解决的问题非常相似——当规模扩展到几十万台计算机、上百万个核心时,它们之间的通信和协作,无法由一个中央管理员来统一调度。传统的冯·诺依曼架构调度方式在这种规模下是不可行的,这是一个超大规模并行调度的问题。

优直播官网为您提供全球热门足球赛事高清直播,不错过任何精彩瞬间。我们致力于为用户带来便捷全面的观赛体验,让您随时随地畅享体育盛宴。

优直播平台以其简洁易用的界面设计,为您带来流畅便捷的观赛体验。无论您身处何地,都能轻松访问,享受全球热门足球赛事的高清直播。

优直播APP为您提供全天候在线直播服务,更有专业客服团队为您解答疑问。下载优直播APP,即刻开启您的精彩观赛之旅,不错过任何精彩瞬间。