一个幽灵,一个名为FSD的幽灵在中国游荡。
没错,马斯克豪赌自动驾驶,和特斯拉FSD即将入华的消息不断刷屏,这成为汽车行业讨论度最高的话题之一。
在之前的深度文章《“第一性原理”正在杀死特斯拉》中,笔者认为特斯拉FSD永远都达不到L4级别的自动驾驶,此言一出引发了巨大争议,本文收获了上百条留言。经过与读者的切磋讨论,和对相关概念进行深入学习后,笔者还是坚持原有的观点:别太高估FSD了,无人驾驶永远都不可能达到。
这里先简单科普一下自动驾驶等级。
零级,代表完全没有自动化,就是人开车。
一级,是指计算机在某些时候、某种程度上可以给人提供一些辅助性的帮助。这个级别已经实现了,像自动刹车、车道保持、停靠辅助系统现在已经大面积应用了。
二级,是有的时候汽车可以自己开,但是要求人一直盯着。特斯拉和国内许多厂商已经做到了这个级别。这就是高速NOA和城市NOA,在空旷的高速公路,或者特定路段,人可以暂时让车自己开一会儿。但总有很多人违反规定,不盯着车,干脆放手不管了,结果出了事都是驾驶员的责任,而不是厂商的。
三级,是说人可以不盯着了,就让车自己开。但是如果车向你发出信号,你要随时接管驾驶。
四级,是指在某些环境和条件下,实现自动驾驶,人去睡觉都没问题。
五级,是完全的自动驾驶,不论什么天气和路况人都不用管车。
特斯拉FSD的原理是什么?
2017年,谷歌的八位科学家发布了一个名为Transformer的人工智能深度学习模型。
这一大模型具有革命性意义,全球科技巨头,纷纷推出了自家基于Transformer的大模型,如Google的BERT,微软的Turing-NLG,英伟达的Megatron、国内华为的盘古、阿里的M6、百度的文心一言等大模型都是基于Transformer来构建。
不同于传统的人工智能模型,Transformer具有以下典型特征:
首先,只要参数足够多,训练达到一定的积累,你就可以做一些事情。比如AlphaGo下围棋可以战胜人类顶级选手。
其次,只要模型大到一定程度,就会涌现出一些让人意想不到的神奇功能。比如AlphaZero不按人类套路下围棋。
最后,因为开悟和涌现,AI现在已经获得了包括推理、类比、少样本学习等等思考能力。
而在自动驾驶领域,特斯拉也基于此发布了纯视觉自动驾驶FSD。从原理上讲,基于Transformer的FSD可以模拟人类的驾驶行为,根据喂养的数据进行深度学习,一旦学习成功,FSD就是一个老司机。
那么特斯拉是如何利用Transformer进行训练的呢?
要知道,想要自动驾驶水平高,就要经历各种可能的情况,尤其是那些老司机一辈子都难遇到几次的特殊情况,比如路面积雪的夜里,接近路口时是黄灯,对向车开着大灯晃你,这时突然有人横穿马路,这种情况下,驾驶员做怎么样的动作才安全。这需要在相同场景下反复训练。
但是这种情况可遇不可求,那怎么办?
特斯拉的做法是利用自动生成路上驾驶的视频。同样一个路口,它可以训练各种方向转弯,各种可能发生的情况……这些自动生成的视频已经是最近两年特斯拉提升自动驾驶水平90%的驾驶经验来源了。
换句话说,特斯拉开始大规模利用人工智能,早就不依赖于真实路面的训练经验来提升自动驾驶了。
而且更夸张的是,在最新发布的FSD V12版本里,工程师把之前30多万行定义驾驶规则的代码删除了,要怎么开车,已经不强烈依赖于“红灯停绿灯行”这类可以用程序表述的指令了。FSD V12版本的驾驶策略几乎都是通过驾驶视频习得的,而且这些视频绝大多数都是自动生成的。
总结来说,基于Transformer的FSD可以模拟人类的驾驶行为,进行深度学习,所以许多激进的观点认为,只要数据量足够大,喂养的时间足够长,FSD将来就能淘汰人类驾驶员,彻底实现无人驾驶。
Transformer的底牌与命门
为什么笔者反对如此激进的观点,理由主要有两个:
第一个理由,FSD作为基于Transformer的大模型的技术方案,是在模拟人脑,作为神经网络,它在本质上不可能超越人脑。
前面我们简单讲了基于Transformer的FSD能开悟,能涌现等神奇的功能。但是要看透FSD的边界,我们依旧要进一步理解:Transformer跟人脑到底如何对比?它有什么限制?有没有它不擅长的东西?
在这里,我们必须提及一位人工智能大牛——史蒂芬·沃尔夫勒姆。
史蒂芬·沃尔夫勒姆是何许人也?他研究开发神经网络已经四十多年了,他早在1983年就自己编程研究过神经网络,OpenAI CEO山姆·奥特曼曾说:“史蒂芬·沃尔夫勒姆是他见过的最牛的人工智能专家。”
史蒂芬·沃尔夫勒姆用一个小例子,指出了Transformer的底牌与命门。
他用ChatGPT做了个最简单的计算题:1231×434523+323×34636 等于多少?
ChatGPT给出的结果是546106021。但如果你用计算器算,那么答案是546085241。
这到底是怎么回事?答案很简单,ChatGPT是Transformer基于人类大脑开发的语言模型,它是用人的语言训练出来的,它的思维很像人的大脑——人脑本身不太擅长算这种数学题的,这样的计算题,普通人都要用计算器。
为什么会这样?沃尔夫勒姆认为核心逻辑是下面这张图。
大圈代表的是一切计算,科学家认为,自然界中所有现象都理解成计算,因为底层都是物理定律,其中绝大多数计算过于复杂,超出了人脑的理解范畴,以至于我们连方程都写不全,不管是用大脑还是用计算机都不能处理,但我们知道那也是计算。
其中的两个小圈,一个是神经计算,简单来说,神经计算善于发现事物的规律,但是对数学问题的处理能力有限。人类的大脑和包括ChatGPT与FSD在内的所有AI,都属于神经计算。
实际上,人工智能模拟的神经计算的底层逻辑还是数学,从原理上来讲,就是大模型模拟人脑,将构成大脑的神经元抽象为数学模型,这就是神经网络的根本出发点。
另一个是形式逻辑,其实就是数学,特点是精确推理,无论有多复杂,只要有方程有算法,就能算出来。
可见,两个小圈远远不能覆盖整个大圈,人类科学技术进步的历史,就是扩大两个小圈的历史。
沃尔夫勒姆有一个深刻的洞见,那就是虽然基于Transformer的大模型比人脑知道的更多,反应更快,但是作为神经网络,它在本质上不可能超越人脑。
他进一步解释说,ChatGPT模拟了人脑的语言系统,这只能说明人脑的语言系统并不厉害。没错,ChatGPT证明了,语言系统是个简单系统,模仿人类写一篇大家读得下去的文章,不是一个难事。
但是如果需要一篇真正意义上的好文章,ChatGPT就写不出来了,这需要调动作者自己的原创思想或者清奇的角度,ChatGPT最多成为一个强大的辅助工具。
沃尔夫勒姆让我们认识到了Transformer的根本局限性:神经网络的计算范围是有边界的,人工智能再强大,也不可能跳出神经计算和形式逻辑去和客观世界接触。
没错,人类社会中的任何事情,科学研究也好,写出有灵魂的作品也好,开车也好,终究还是要需要人直接和客观世界接触,需要调用外部工具和外部信息。
从这个意义上讲,人工智能不可能取代人,而是一件强大的工具。
第二个理由,人工智能永远需要人工干预。
了解完Transformer的边界之后,从原理上讲,今天几乎所有的人工智能产品都是复读,先要有各种知识和信息,ChatGPT和FSD才能工作。你给ChatGPT提供高质量的数据,它就会产生一个高质量的语言模型,然后给出高质量的答案,写出高质量的文章。
相反,你用垃圾数据训练它,它就只能输出垃圾。
我们还是以ChatGPT举例,熟悉大模型的人都知道,ChatGPT背后是有人工干预的,例如ChatGPT平台上那些带有仇恨的言论已经被删除了。
但是,ChatGPT是一个本身有一万亿参数的大模型,人类只能通过输出结果进行修改,换句话说,这个巨大的语言模型就像是一个黑盒子,你无法搞清楚里面那些模型参数的含义。
所以,行业内有一句玩笑话:有多少人工,就有多少智能。
FSD也是如此,哪些驾驶数据是合格的驾驶数据?输出后的结果,哪些能用,哪些不能用?都需要大量的人工进行调整,更为致命的是,这个世界上任何老司机都不可能保证自己不发生意外。所以,从理论上来说,100%完美的驾驶数据是不存在的。
没错,FSD作为一个模拟人类开车的技术方案,永远都做不到100%的准确度,因为人做不到,对驾驶来说,即便99.9999%的判断准确率也不够,因为一旦判断错误就可能是一条人命。任何政府要推动这样激进的立法,阻力很大。
更进一步说,算法再强大,也不可能穷尽所有意外,真实的路面上会有各种意外。
早先,谷歌在训练自动驾驶技术时,遇到过各种各样奇怪的情况。这些东西是无法用数学模型预测的。即便是老司机,注意力不集中,也可能发生意外。
比如有几个小孩在高速公路上在玩青蛙。
又比如一个残疾人坐着电动轮椅,在路中间追逐一只鸭子。鸭子绕圈跑,她也绕着圈追。那你说像这种情况你能一下子就准确预测这些人的行动路线吗?
此外,特斯拉的纯视觉方案采用的是二维的摄像头技术,而不是三维的激光雷达,这就意味着如果在下雪或者下雨,摄像头就可能对周围物体有重大误判。
所以,再强大的自动驾驶,永远都需要人在一旁待命,需要随时接管。
如今,在FSD的开发过程中,特斯拉积累了超过90亿英里使用里程,这是全球最大的自动驾驶数据来源;为了利用这些数据,特斯拉不断扩充其超算集群,到处挖顶级AI工程师,自研算法、芯片和大算力GPU。即便如此,至少目前还是没能让大模型解决这些问题。
这其实就是FSD的一条硬边界,举例来说,你如果有一台制冷机,可以将温度降低。如果你有一个超大功率的制冷机,温度降低得会快得多,但是用再多、再大的制冷机也不可能将温度降到绝对零度以下,因为那是物理学的一条边界。
尾声
基于这样的原理解读,我们至少能得出以下三个结论:
第一,根据技术原理和法律法规,特斯拉FSD最多成为L3级别的自动驾驶,但它将是一个超级强大的辅助人类进行驾驶的工具,它的意义是最大限度地辅助人类驾驶。
第二,特斯拉粉丝不要失望,客观来说,FSD代表着目前最前沿的人工智能驾驶方案,中国厂商在这条赛道上仍旧处于跟随的状态,以特斯拉的技术实力、品牌效应和营销能力,FSD一旦入华,大概率会成为中国智能驾驶行业的一条新鲶鱼,会加速中国自动驾驶产业和人工智能产业的发展,对汽车产业来说,这将大大利好小鹏、问界等主打智能驾驶的车企。
第三,受限于技术条件,早些年产业界畅想的类似于苹果、安卓那样的汽车生态,几乎不可能实现。
这里稍微解释一下,早些年,产业界认为,当L4级别的自动驾驶实现后,智能座舱才有更多商业化空间——比如智能交通出行服务商。在2020年,理想汽车的李想就在一次公开演讲中透露了两种可行的商业模式:第一种是卖车送司机,自动驾驶当服务来收。第二种是卖司机送车,车当服务费来收。
感兴趣的读者可参考《我们在为问界呐喊“遥遥领先”时,特斯拉却正蜕变为一个全新的物种》
所以,汽车生态的尽头就是FSD付费订阅,这其实大大压缩了想象空间,这可能将推动特斯拉以及其它汽车企业的估值回归传统汽车业,而不是互联网科技产业。