为何特斯拉不使用高精地图
我们可以看到国内外的自动驾驶厂商(尤其是国内的图商)都在布局高精地图,而特斯拉表示并不感冒,完全摒弃掉激光雷达、毫米波雷达等非摄像头传感器,仅采用摄像头进行感知,在自动驾驶领域独树一帜。
这引起了我和领导的讨论,我回去梳理了一下,把思考记录在这里。
一、高精地图可以做什么
高精地图可以看成一个道路环境的模型,记录了道路的三维特征、行车辅助信息(如车道线等)和丰富的语意信息(如交通灯的类型等),通过成为高精定位底图、提供规划素材、强化感知的能力,提高了自动驾驶效果的“上限”。
1)提高定位精度(感知系统的参照物)
通过对比车载定位模块和感知模块的识别结果,确认自己的当前的位置。
2)提供超视距的道路信息,规划素材(提高决策距离上限,解放算力,驾驶体验更平滑)
- 视觉/感知系统探测距离有限,尤其是车速快时,留给车载电脑的反应时间短。
- 云端可以基于高精地图对动线规划进行预处理,节省车载电脑的算力。
- 即使本地算力足够,短时间内及时纠偏,也会牺牲乘坐体验(看见要停再停车,和提前知道要停车提前减速,体验差异)。
- 视觉范围有限,结合超视距信息,减少局部最优决策。
3)帮助无人车识别车辆、行人位置及障碍物、路牌(给感知质量兜底,让决策更合理)
- 视觉方案会因为光线明暗、物体颜色等产生误识别,雷达受雾雨(空气中的颗粒)影响产生噪声,高精地图没有,但是传感器发现了,大概率是活动的物体。
- 与感知“看到的”路牌标线做对比校验,减少误识别。
可以看到,高精地图主要是为感知、决策模块提供“增益”,提高系统的安全、舒适性。
就像一场考试,不押题的这方,不依赖高精地图、甚至仅使用纯视觉的方案的无人车也许只能答60分,或者拼命学习拿到80分。请了家教拿到考纲的这边,借助高精地图,通过其他方式绕过视觉的死点、难点,拿到90分。
二、不想用OR不能用?
特斯拉选择了这条比较激进的路线,完全摒弃掉激光雷达、毫米波雷达等非摄像头传感器,仅采用摄像头进行感知,在自动驾驶领域独树一帜。
从“第一性原理”的角度来说,即使没有高精地图,高度成熟的感知“视觉”,无人车可以像人类驾驶一样仅用“眼睛”去做出驾驶决策。
我倾向于认为,特斯拉不是“不想”使用高精地图,而是“不能”使用高精地图(也不划算)。
1)面向全球市场的特斯拉,高精地图的制作和维护成本高,效果还不好
高精地图的制作大体上包括采集 → 数据处理 → 人工验证 → 发布等一系列数据制作流程。
① 采集范围大:采集需要带着设备的车在路面上跑,铺满目标市场的主要道路。
② 数据处理和人工验证:均需要根据不同地区的情况,制定工艺,需要模型甚至需要人工标注。
③ 数据更新效果无法保证:
- 地图不是绘制完了就一劳永逸,在大量无人车投放市场后,可以回传用户车传感器途径道路的最新的数据,保证地图鲜度。
- 地图后续人工/自动更新的维护和迭代,也会产生大量成本。
2)国内是大体量、统一的市场,制图边际成本低,更新频率有保证
我们可以看到国内的厂商都会选择高精地图的自动驾驶方案。
① 制图边际成本低:全国的主要干道规格统一“一个标志牌、一种标线,全国通用”。
② 国内的车流密度也保证了足够的路网覆盖,在达到一定渗透率,不同车厂的传感器信号都汇总给图商/自动驾驶运营商,可以做到高频度的道路刷新。
③ 地图产业涉及到国家机密,精地图的行业准入门槛很高
- 目前国内拥有“导航电子地图制作甲级测绘资质”的企业较少。但是也正因为政治壁垒的因素,限制了国外竞争者的加入,这也让国内企业具有一定的优势。
- 为了避免相关问题,特斯拉用作仿真训练的“短时路网”会被保存在国内的服务器上。
3)相较国外,国内的道路环境更复杂,对安全的要求更高
- 国外地广人稀,道路环境相对简单;
- 国内道路车流人流密集,有中国特色的交通参与者(如电瓶车、行人)。
也许你会说,同样是面向全球市场Uber、Waymo、Mobileye、英伟达,都会选用高精地图,市场也许不是主要原因。
是的,Uber的出租车模式意味着车辆调度的自控,只需要满足有大量用户的、主要路线的诉求,Waymo的高精地图基础由谷歌地图发展而来,Mobileye、英伟达为大量的车厂提供软硬件(也许意味着有大量的数据回收)。
而特斯拉作为独立厂商,除了马斯克奉为圭臬的“第一性原理”外,也许彼此之间都不愿意分享自动驾驶的“灵魂”(自动驾驶能力和用户数据),也许他已经选择了足以弥补高精地图缺失的技术方案。
三、特斯拉的纯视觉方案:MIND OF CAR
如果特斯拉有且仅有摄像头,那么他的视觉方案必须是业界水平最高的。
特斯拉思路是:开车的是人,道路是为人类设计的,如果拥有和人类一样的感知和处理信息的能力,机器可以无缝过渡到自动驾驶,经济&高级。
在特斯拉2021年的AIDAY上,马斯克分享了纯视觉自动驾驶方案和能力:
1)硬件:8个360°,120w像素摄像头,在效果上需要能替代替代激光雷达、毫米波雷达和声呐。
2)感知:1000人的标注团队,150w辆在路特斯拉,保证了为视觉算法训练的大量的数据集合。
① 同大多数的自动驾驶的感知方案一样,特斯拉的视觉方案在做以下几件事:图像校准 → 物体识别 → 深度感知 → 创建四维向量空间。
② 只是,特斯拉选择通过视觉模拟雷达,准确率基本接近真实雷达。
- 通过有雷达的路测车在路上跑,获取真值。经过大量训练,算法可以得到视觉和模拟雷达的换算关系,摆脱用户车对雷达的依赖。
- 通过视觉同样可以通过对陌生道路建模,进行感知和预测(基于大量道路数据的视觉算法学习,获得超视距的预测信息),生成短时高精地图。
3)规划与控制
- 特斯拉在规划架上和业界基本没有什么太大的区别,基本上都是先求解出可行空间,然后利用优化的方法在可行空间内优化求解,输出最终轨迹。
- 特斯拉的轨迹动线规划,可以简单理解为基于搜索的方法生成大量的轨迹,综合评价安全、舒适、效率选择最优动线,在技术能力上的优化可以让他们减少搜索次数,提高效率。
- 它也实现了通过视觉跟踪,以及衍生的预测能力,可以学习不同物体的性质,区分人/动物/车,以及预测其未来的走向,做出决策和避让。
4)计算能力
云端Dojo超算力:现有特斯拉车端FSD芯片算力主要依靠两块SoC芯片,算力为144TOPS,并不高,但是,基于帧检测的摄像头需要依赖高算力,其核心诉求是高带宽和低延迟。
5)仿真能力
- 这块是特斯拉能实现视觉算法高效迭代关键,通过视觉生成实时高精地图,制作虚拟仿真地图,还原现实环境的基础上,创造有更多边界场景的虚拟环境,在虚拟世界完成打怪升级(神经网络渲染)。
- 每辆在路的特斯拉回传的地图数据,都可以成为仿真地图的原本,可以看到,其对静态、动态环境的构建效果逼真,并且可以通过AI能力进行模型再创造和组合。这提供了大量的边界场景,减少了标注的工作量。
- 在路上跑的车辆越多,收集到的数据越多,仿真场景库的数据也会指数倍增。
四、At last
不可否认特斯拉有很强的技术能力,在算法能力上有着行业顶尖的水平。但特斯拉的方案是国内厂商选择的高精地图+多传感器的技术路径的子集,如果视觉方案发展得足够成熟,国内厂商也可以随时“向左转”。
运输工具不一定要造“腿”、也可以造轮子,同理,机器人不一定长得像“人”。纯视觉方案不一定最高效的方法。即使自动驾驶最后走向了“像人一样驾驶”,在自动驾驶发展初期、“学走路”的过程中,短期内借助高精地图和其他传感器作为“辅助走路的支具”,快速实现自动驾驶的安全普及,也无伤大雅。
参考资料:
- 《第一本无人驾驶技术书》作者:刘少山
- 《自动驾驶仿真蓝皮书》
- 自动驾驶基础知识系列-高精地图@少隆 https://>ata.alibaba-inc.com/articles/192451?spm=ata.23639746.0.0.3c0c4ddfCx53C1
- 行业前沿:自动驾驶之“高精地图”篇 – PLUGANDPLAY的文章 – 知乎 https://>zhuanlan.zhihu.com/p/486988101
- 高精地图,公认的自动驾驶标配,但特斯拉并不care – https://>baijiahao.baidu.com/s?id=1685063016792310360&wfr=spider&for=pc
- 自动驾驶之高精度地图(八)国内外高精度地图发展现状 – 阿宝说车的文章 – 知乎 https://>zhuanlan.zhihu.com/p/369259860
- 超长延迟的特斯拉AI Day解析:讲明白FSD车端感知 – EatElephant的文章 – 知乎 https://>zhuanlan.zhihu.com/p/458076977
- 特斯拉AI Day决策规划技术解析 – 自动驾驶拖拉机的文章 – 知乎 https://>zhuanlan.zhihu.com/p/402442178
- 如何赋予机器思维?解密特斯拉人工智能自动驾驶下集!超乎你的想象https://www.>bilibili.com/video/BV1uU4y1u7JY/?spm_id_from=autoNext
撰文:阿白
出处:见配图水印