马斯克“掀桌子”,AI大模型+自动驾驶会诞生什么?

能用最简单的方法,做最复杂的事,才是真正的技术壁垒。

特斯拉的全自动驾驶FSD(Full-SelfDriving)V12新版本,很好诠释了这一点。仅需8个摄像头,无需用上激光雷达、毫米波雷达、超声波摄像头等等其他零部件,就实现了老司机一般的驾驶能力。

马斯克甚至颠覆了自己,V12新版本比V11有极大变化,很多V11中采取的技术也被一并抛弃(即便这些技术可能是领先的)。一个对V12最简单的理解是:V11之前都需要告诉FSD遇到红灯需要停,但V12不再需要,而是依靠V12自己学习,自己“悟”出来。

于是,原本由人工编写的30万行代码,如今骤减到3000行,取而代之的是类似大语言模型的训练芯片矩阵(由上万颗英伟达H100级芯片组成),全靠AI神经网络训练解决。可以说V11还是手工作坊式的生产方式,V12已经开启了“工业革命”。

01V12新版本背后,最重要的颠覆性变化是什么?

V12最大的变化,在于部署了“端到端”的AI大模型。这里面有两大关键点,一个是端到端,一个是AI大模型。

“端到端”是指,一端指输入端,一端指输出端,输入数据的包括摄像头的感知数据、车身的数据等等,中间通过Transformer架构的AI大模型推演之后,最终直接输出到电门、刹车、方向盘。

而通过Transformer架构的AI大模型,是在2022年底,特斯拉Autopilot部门的一位工程师向马斯克提出的建议,要借鉴ChatGPT,让神经网络通过学习人类驾驶员的训练素材,来实现路径规划。

马斯克听后大喜,拍板就这么干。由此开始,FSD的规划部分,就直接放弃了原来普遍采用的Rule-base(通过人为定义的规则)方案,全面转向神经网络。

在这里我们简短解释一下什么是Rule-base方案:Rule-base就是人为规定的规则式驱动。原来自动驾驶分为几个步骤,分别是感知、规划、控制,先有摄像头、激光雷达、毫米波雷达等等传感器获取信息,然后基于感知结果和人为设定的规则,由自动驾驶软件代码来实现决策。

所以这里面很重要的是,一是怎么获取到足够多维和准确的信息,所以大家都往车上装各种摄像头、雷达;二是决策中,由人为设定的规则需要覆盖所有情况。这些代码的逻辑基本是,如果遇到某种特定情况,算法就会查询代码中预先编写好的应对方案,比如遇到红灯需要停车、直行车道不能转弯等等。

但是日常出现的驾驶情况太多了,并且还会有不常见的边角情况(cornercase)出现,它们往往非常危险,因为在算法库里,可能没有编好这种情况下的应对方案。此外,在100种不同的驾驶场景中,你可能需要100种不同的踩刹车和加速的方法,才能达到平滑的驾驶效果,否则就很容易晕车。显然,要想让系统在所有情况下都像人类驾驶那样流畅,这是人类工程师哪怕日以继夜地编写代码,也难以实现的。

特斯拉在以往的方法下,已经是市场领先。特斯拉在感知层面,采用了一个叫做九头蛇(HydraNet)的系统来进行物体识别。HydraNet首先通过八个摄像头的图像输入,进入到后端的一个基干网络(backbone),每一个任务都由一个专门的头(Head)来负责,比如进行物体检测、红绿灯识别、车道预测等等,特斯拉一共设计了50个Head,对各种任务的分类很细。

而在规划部分,特斯拉采用的是类似谷歌AlphaGo下围棋的方法(蒙特卡洛树搜索,加神经网络辅助),快速穷尽所有可能性,并计算出其中胜率最高的一条路径。围棋要遵守棋规,FSD要遵守交通规则,这其中就是大量人为定义的规则。简单来说,就是根据预设规则,在所有可能的驾驶轨迹中,计算出一个不会和任何物体碰撞并且不违反交规的最优解。

V12出来掀了桌子,把之前很多技术都丢进了垃圾桶。V12不再需要通过代码写好“遇到红灯需要停下”,而是通过让AI观看大量人类驾驶员的驾驶视频,让AI自己找出成千上万条规律,遇到红绿灯、减速、刹车这是AI自己学会的,是自己“悟”出来的。正是因为这样的一个转变,原来负责这一块的30万行C++代码,如今变成了3000行。这也是为什么V12版本中,FSD的驾驶表现非常拟人化。

从更底层的角度来说,V12“看”的是像素点。V12不需要先识别画面中的东西是什么、再到决策部门根据这个感知结果做判断,而看的是画面中的最小单位像素点,V12把画面上像素点的位置、组成的形状以及运行的规律,直接输入到神经网络中,通过数以亿计的真实视频来学习经验,把现在输入的像素点,与之前学习时遇到的像素位置进行对比,而这些学习的视频,就是真实人类司机的驾驶反应。然后直接输出一个结果,就是执行所需要的刹车、电门、方向盘。

以往视觉方案中的劣势,比如异形障碍物识别失败的问题,现在几乎不存在了,只要能拍到这个物体,让它出现在画面里,它就会成为画面中的一堆像素点,V12只需要这些像素点就够了,所以V12所代表的AI方案被称为“纯视觉的最终解决方案”。

当然,那如果训练所用的视频数据本身是鲁莽驾驶,那是不是训练出来的AI驾驶员就会非常危险?答案确实是,特斯拉的解决办法是开辟汽车保险业务。

比如在美国,特斯拉通过北美的保险业务,延伸出了一套驾驶员行为评分系统,它会对人类驾驶员的驾驶行为严格打分。特斯拉用于训练FSD的数据,全部来自于90分以上的驾驶员,可以说是对数据的要求极为苛刻。

当然,V12跟ChatGPT这样的大模型很像,都是一个“黑盒模型”,它们需要通过足够多的数据训练,才能涌现出一些惊人的能力,并且设计它的工程师也不知道,为什么会涌现出这些能力。

这也是为何FSD需要超过60亿英里的验证里程,只有推理得够多,才能知道如何对模型进行微调和优化,在自动驾驶领域重现大语言模型中Scalinglaw的情况,实现指数级的能力增长。如马斯克所言:当你有100万个视频片段,勉强够用;200万个,稍好一些;300万个,就会感觉哇塞;1000万个,将变得难以置信。

02纯视觉方案,有哪些优劣势?

目前自动驾驶领域,主要分为纯视觉和激光雷达两个方案。如今纯视觉通过结合AI,实现了端到端,有了突飞猛进的变化。在激光雷达方案里,还是依靠Rule-base的方法,通过激光雷达、毫米波雷达、超声波摄像头这些复杂的组合方案,现阶段其实也有不错的表现。那么纯视觉+AI和Rule-base+激光雷达相比,有何优劣?

一言以蔽之,纯视觉(+AI大模型)的劣势是起步慢,但成长性更强。原来的Rule-base在初期能力增长快,但后期空间严重不足,两者存在一个交点。

Rule-base也可以通过不断修改来进行迭代。一旦发现问题之后,就可以找到对应的代码,一般都是if-else语句,if在什么情况下发生,否则else怎么样,这是规则式的核心逻辑。这时候只要修改某个if-else语句的参数量,或者解出错误的行数,把问题修复就解决了。这里面不需要喂大量的数据,直接把修复代码放在车上重新部署即可。

在到达两者的交点之前,意味着Rule-base算法优于大模型。这是大模型的特点导致的,当数据量不够的时候,相比于规则式算法稳定性不够。这也是Rule-base的核心优势,它的解释性比较强,规则非常明确,当把代码部署到车上之后,会具备最基本的能力表现,能让车实现基本的ACC、LCC辅助驾驶功能。但大模型不行,在没有经过足够的数据训练之前,产品是非常弱的。

但在两者的交点之后,纯视觉的端到端模式,则更像是面向未来的终极方案。由于AI大模型具有通识能力,它能够理解以前没有看到过的东西。

比如说,某一次从前面的车上掉下来了一个塑料袋,另一次则掉出来了一个啤酒箱,但是在我们的训练数据集里,从来没有出现过这两种情况。作为人类司机,我们知道塑料袋是软的,不需要规避,但啤酒箱是硬的,需要规避。如果没有大模型,自动驾驶系统就相当于一直生活在车上,它只能解决曾经在这个车上看到的场景。但是真正的人类驾驶员肯定不只生活在车上,他还生活在整个世界里,而大模型有通识能力,它能识别出塑料袋和啤酒箱的区别,它更接近人类,能应对各种场景,更何况它还有8颗摄像头。

此外,从硬件角度来说,纯视觉的端到端模式完胜,因为只需要8颗摄像头,未来最多是不断升级像素,这能极大降低整车成本。而且基本无需担心硬件迭代,所带来的技术断层问题。

如果展望未来,从用户体验角度来说,大模型更能和座舱联动。未来的自动驾驶AI,可能就会和真正有一位司机在开车一样,你可以跟它聊天:比如“刚刚路过的湖叫什么?”,或者给它下达命令,比如“现在靠边停车”或者“我们不太舒服你开稳一点”等等,这是迈向L4级自动驾驶的重要一步,也是提升自动驾驶体验很关键的一点。

当然,虽然说V12的端到端确实是颠覆性的进步,但我们离真正的完全自动驾驶还有一条明确红线,就是——责任在人类驾驶员还是在汽车系统身上,无论从技术、安全还是产品责任的角度来看,这都是一条最重要的分界线。目前,虽然有这么多进步,但我们还处于L2以下,我们可能需要足够多的安全数据,来证明自动驾驶的事故率小于人类,才有可能真正跨越这条红线。

References:

4.西南证券:从特斯拉FSD看人工智能

5.WSJ:ElonMuskPushestoIncreaseUseof‘FullSelf-Driving’SoftwareasTeslaSalesCool

THE END
1.雷克萨斯跑车图片的最佳拍摄角度有哪些?拍摄车内时,重点展现大面积的软质包裹、红黑的时尚配色、阻尼适中的按键、包裹性好的座椅以及精细的做工和考究的用料。 对于雷克萨斯 LF-C2 这类概念车,可多角度拍摄其大胆创新的编织状蜂窝前格栅,以展示其在不同光线下的变幻效果和领先工艺。 总之,拍摄雷克萨斯跑车要根据车型特点和想要突出的重点来选择角度,这样才https://www.pcauto.com.cn/ask/990547.html
2.探究百万车主的不同驾驶情绪表现:挖掘驾驶过程中丰富多彩的心态思域有人可能纳闷,为啥开30万的车主,反而是心乱如麻。这一点恐怕不假,30万的车不上不下,说是豪车车主吧,也是,说不是吧也不是。开着宝马3可能偶尔觉得天下我有,但是看到宝马5看到保时捷的时候,还是心乱如麻。但是这类人,有很大的潜力,因为Macan、卡宴、揽胜车主大部分都是由这部分群体“进化”而来。 https://www.163.com/dy/article/JLJ2II74055693HR.html
3.中国最贵的车第一名更多答案国产最贵的车前十名盘点, 中国最贵的车第一名 不是红旗 问起最贵汽车,相信很多人首先都是想到是劳斯莱斯、宾利、布加迪等豪华品牌,不可否认的是这些品牌的确是世界排名的豪车,那么今天就梳理最贵的国产汽车有哪些。第一名:阿尔特卡尔曼(1200万元)在2016年北京国际车展上,一台造型十分夸张的国产SUV轰动https://m.yoojia.com/wenda/1014815.html
4.智东西早报:华为发布Mate105400元起售;戴姆勒将大规模重组分拆据媒体报道,豪车租赁平台CarHopper完成150万美元种子轮融资,将用于扩张新市场。CarHopper最初为豪车车主打造了一个P2P平台,用于租赁豪车,车型包括入门级的雷克萨斯、梅赛德斯、宝马,以及豪华级的法拉利和劳斯莱斯等,同时提供起保险、客户服务和汽车维修等服务。 https://zhidx.com/p/96090.html
5.2万字一文带你看懂车载激光雷达技术市场发展前景激光雷达两万字日前ARCFOX极狐和小鹏先后发布新车预告,宣布将推出搭载激光雷达车型:ARCFOX极狐阿尔法S 华为HI版和小鹏P5。两个车型都宣布自己是激光雷达第一车,我们来看看阿尔法S 华为HI版都有哪些亮点。 首先我们来看看这个车型的智能化配置: 华为HI版车型最大的亮点在于激光雷达智能驾驶系统方案,新车可实现L4级别的自动驾驶功能。硬件https://blog.csdn.net/m0_58838529/article/details/135598643
6.滴滴出行:从视觉层到战略层,17种出行服务方式的拆解分析2014年8月19日,滴滴推出继打车之后的第二款产品滴滴专车。2018年6月29日,更名为“历程专车”。2021年5月27日,更名为“滴滴专车”,保留历程视觉元素。 滴滴专车一开始的定位就是面向中高端群体,主攻中高端商务车服务市场,与传统出租车有着本质区别,两者相辅相成,为用户提供了更加多样化的出行方式。滴滴专车信息平台http://m.qichelingyu.com/h-nd-251065.html
7.第一汽车网——一个只争第一的汽车网新款库里南亮相?二手车商要有压力了 第一汽车网2024-05-18 在豪车领域,劳斯莱斯库里南(图片|配置|询价)无疑是一颗璀璨的明星。作为世界上最贵的量产SUV,它不仅是身份的象征,更是对极致奢华的追求。自其问世以来,库里南便以“顶级”的品质和独特的魅力吸引着全球的目光。如今,时隔六年,库里南再次迎来中期改款,https://www.fanqiche.com/
8.37730台65.16亿元!第二十四届成都国际汽车展览会闭幕与此同时,豪车馆内首次引入的杜卡迪、KTM、印第安、庞巴迪等全球知名摩托车品牌更是成为本次成都国际车展一大亮点,为广大摩托车爱好者带来肾上激动昂扬的感官盛宴。 万众瞩目的豪车带给观众最震撼的视觉感受和驾驶体验,也是市民最集中的地方之一。谈及为何如此“青睐”成都?众多汽车品牌老总在接受采访时都不约而同地http://www.scpublic.cn/news/getNewsDatail?id=533628
9.第二届中国智驾大赛杭州站,极越纯视觉再次拿了城市复杂路段的智驾豪车聚焦 2024-06-02 河池市 关注 1/1 第二届中国智驾大赛杭州站,极越纯视觉再次拿了城市复杂路段的智驾第一名,守擂成功! 用团队的话说 - 小视频没赢过,直播比赛没输过!还需要继续努力!汽车杂谈社区 举报热门评论我嘚一个笑笑 最好是几大智驾品牌,找同一个城市对比,然后这个城市不能是每一家车企的总部https://baa.m.yiche.com/qichezatan/thread-49720623.html