登陆注册
743764

特斯拉AI DAY深层解读,马斯克坚持纯视觉绝不动摇

财经自媒体2021-08-22 08:49:030

原标题:特斯拉(TSLA.US)AI DAY深层解读,马斯克坚持纯视觉绝不动摇

来源:德安车研

“打造像人脑一样基于视觉的神经网络系统”,这是2021年特斯拉(TSLA.US)AI Day的核心主题,本质上是马斯克坚持纯视觉路线的延续和说明。汽车人参考结合AI Day的内容,从硬件和软件两个层面进行深入分析。

车端感知硬件做减法

从2014年的HW1.0开始,特斯拉自动驾驶不用激光雷达已是路人皆知,芯片设计从外购逐步走向自研,车越卖越多,神经网络越来越成熟,车端“12个摄像头+1个前向雷达”这套感知硬件整体框架一直没有变化。

{image=1}

2021年5月发布的“Tesla Vision”,取消了毫米波雷达,特斯拉最终走向了纯视觉。

其使用的德国大陆第四代中距前向雷达,作为一款入门产品,无论从FoV还是角分辨率,性能上都称不上最佳,而且更缺乏高度信息。

{image=2}

这就带来了一个问题,或者说现有毫米波雷达的通病,对大量静态目标,包括很低的路灯、隧道顶等产生反射,特别是金属圆盘,反射信号会被进一步放大,就会产生大量的虚假杂点。

因此需要在算法上需要进行过滤,但过滤多了就会“漏检撞车”(可联想到蔚来汽车近期的事故),而过滤少了就会有“幽灵刹车”(特斯拉车主抱怨)。

更重要的是,摄像头每秒传输的比特量是毫米波雷达的100倍,当两者数据进行融合时,置信度不高,会产生跳跃和抖动的问题。

摄像头就如同人的视觉,而毫米波雷达更像是人的嗅觉,在对前方物体进行分类识别时,两者发生冲突,视觉才是主导。

云端Dojo超算力,足以媲美人脑

现有特斯拉车端FSD芯片算力主要依靠两块SoC芯片,算力为144TOPS,并不高,但是,基于帧检测的摄像头需要依赖高算力,其核心诉求是高带宽和低延迟。

{image=3}

高带宽意味着数据交换的通道多,低延迟表示数据交换速度快,而特斯拉云端的中央计算平台“Dojo”就是为此而生。

Dojo由5760个英伟达A100GPU组成,其总算力达到1.8EFLOPS,带宽达到了1.6TB/s,存储空间为12PB,足以与人脑相媲美。

{image=4}

其核心是能将多个GPU通过台积电首次量产的InFO-SoW扇上晶圆直出封装技术,封装在一个基板上,成为一个D1芯片组。

由于芯片间的距离极短,因此D1芯片组就是一个低延迟的数据交换结构,以D1芯片组为单元,构建了整个Dojo的硬件体系,用于支撑更大更复杂神经网络的AI训练,实现对数据的高效处理。

{image=5}

越来越成熟的全栈AI神经网络

在软件层面,特斯拉整个神经网络架构如下图所示:

{image=6}

最底层的是数据、GPU集群以及Dojo计算集群,进行数据采集、标注和训练,生成模型;上一层是基于PyTorch开源框架(Facebook)的深度神经网络,主要负责对模型进行分布式训练;再用损失函数对模型进行评估;在评估层之上,是云端推理和车端FSD芯片推理,在这一层意味着模型已经部署到了车端;在车端通过影子模式将模型与人类驾驶行为进行比对,检测是否存在异常。

在这个架构底层,需要数以百万计的,经过清晰标注的(速度、加速度、深度),且包含大量边缘案列的数据进行喂养。

{image=7}

在数据标注层面,特斯拉一直致力于自动打标签,通过Dojo在传统摄像头2D图像基础上,实现立体空间+时间戳的四维标注。

此外,为了应对长尾问题(Conner Case),特斯拉开发了221个Trigger,主要目的是为了获得边缘化的场景。

截止到今2021年6月底,特斯拉一共积累了7轮影子模式迭代流程,包括了100万个由摄像头拍摄的36 帧/s、10秒时长的高度差异化场景,共计60亿个包含精确的深度和加速度的物体标注,总计1.5PB的数据量。

下图为一辆特斯拉眼中的数据世界Mind of Car:

{image=8}

汽车人参考小结

马斯克坚持纯视觉路线的底层逻辑,本质上是特斯拉的技术壁垒。

在硬件层面,车端感知层开始做减法,云端超计算Dojo,对数据自动标注;而在软件层面,实现从数据、模型、训练、推理、迭代的全栈AI神经网络架构。

回到开头的第一句话,打造像人脑一样基于视觉的神经网络系统,既是2021年特斯拉AI Day的核心主题,又体现了马斯克第一性原理的处世哲学。

责任编辑:刘玄逸

0000
评论列表
共(0)条
热点
关注
推荐