首页 > 基础设施软件2.0-上|盖世大学堂舱驾、行泊一体系列知识讲解

基础设施软件2.0-上|盖世大学堂舱驾、行泊一体系列知识讲解

自动驾驶技术中的感知模型是实现车辆智能识别和理解周围环境的关键,涉及动态、静态和通用障碍物模型的开发,以及端到端方法的探索。尽管端到端方法尚不成熟,但强调了基础设施、数据生成和模型迭代对提升感知技术的重要性。数据标注在提高模型性能中扮演重要角色,针对..

自动驾驶技术中的感知模型是实现车辆智能识别和理解周围环境的关键,涉及动态、静态和通用障碍物模型的开发,以及端到端方法的探索。尽管端到端方法尚不成熟,但强调了基础设施、数据生成和模型迭代对提升感知技术的重要性。数据标注在提高模型性能中扮演重要角色,针对不同感知任务的数据尤为重要。

一、自动驾驶感知技术发展脉络

在自动驾驶领域,感知技术经历了从基于规则到以模型为中心,再到以数据为中心的发展历程。早期,自动驾驶方案主要依赖规则,感知部分仅输出前视动静态结果,通过大量规则转换到微控空间。此时,深度学习和数据的作用相对较小,感知模式多为2D图像标注,完成一个任务标注几十万张数据就能取得较好效果。

随着技术发展,到L2+阶段,感知能力进一步增强,以学习数据和模型为主,规则方法减少,高速NOA或城区NOA等以模型为中心的范式逐渐兴起,模型设计变得更为重要。如今,自动驾驶进入以数据为中心的阶段,规则方法进一步被弱化,模型虽仍重要,但大量工作聚焦于数据工程,包括高效标注数据和收集困难场景数据,这已成为制约感知和自动驾驶方案提升的关键因素。

二、自动驾驶传感器基础(一)传感器布局与类型

从L2到L2+阶段,自动驾驶车辆的传感器布局发生显著变化。L2阶段的ADAS通常配备单目前视摄像头和前置毫米波雷达,足以支持车道居中控制(LCC)、自适应巡航(ACC)和车道保持辅助(LKA)等功能。而L2+阶段,为实现高速NOA和城区NOA,车辆需增加环视摄像头、周视摄像头,前视摄像头数量也可能增多。

以特斯拉为例,其车辆传感器布局包括多个摄像头和毫米波雷达。侧向安装有摄像头,前方配备三个前视摄像头,后方有后视摄像头,同时还有超声波传感器和毫米波雷达。不过,特斯拉曾一度去掉毫米波雷达,宣称纯视觉性能超越毫米波雷达,但也有说法认为是硬件供应链问题导致;近期又有消息称毫米波雷达重新被加回。

(二)常用传感器特性

自动驾驶常用传感器包括摄像头、激光雷达、毫米波雷达、超声波雷达、GPS和IMU(惯性测量单元)。

摄像头:成本较低且感知技术成熟,最远可探测800米,部分已达8兆像素。其优势是能提供丰富的语义细节,如颜色、纹理、亮度等,便于物体类别识别;劣势是深度感知能力弱,测距测速性能不如激光雷达和毫米波雷达,对环境因素敏感,在光照变化和夜晚环境下成像质量下降。

激光雷达:分为机械式和固态两种。机械式激光雷达精度高、性能好,但难以量产;固态激光雷达在量产车中应用广泛,视场角(FOV)一般在120度左右。激光雷达测距精度高、不受光照影响,可通过辐射度识别路面元素;然而,其成本高昂,缺少纹理信息,无法识别物体颜色,且受雨雪天气影响大。

毫米波雷达:探测距离远,对动态物体感知能力强,具有全天候工作能力,能穿透烟尘、雨雾;但存在噪点多、对静态物体感知能力差、分辨率低、无法获取物体高度信息等问题。尽管4D毫米波雷达已出现,但目前尚未成熟,量产应用较少。

超声波雷达:探测距离小于10米,常用于近距离避障,如自动泊车辅助时识别障碍物。

GPS和IMU:GPS提供全局定位信息,车辆常采用RTK(实时动态差分定位)技术实现厘米级定位,在高速和空旷场景下效果良好,但在城市峡谷等卫星信号易被遮挡的区域,定位精度会下降。IMU是惯性传感器,频率高,可提供实时位置信息,但误差会随时间累积。因此,GPS和IMU常配合使用,相互补充,构成惯导定位系统。

(三)传感器数据处理关键环节

1.时间同步:时间同步是确保自动驾驶系统正常运行的关键,主要有统一时钟源、硬件同步和软同步三种方式。

统一时钟源:为数据添加时间戳,使各传感器数据在同一时钟体系下。常见方式有PPS+NMEA(利用GPS的授时方式,通过RTK发送PPS信号和包含时间信息的NMEA报文,预控单元据此调整时间)和PTP(精确时间协议,依赖授时服务器本地晶振保持系统时间稳定,但对设备和网络要求较高,且不同晶振会影响授时精度)。

硬件同步:用于解决不同传感器频率差异导致的时间戳不同步问题。例如,机械式激光雷达扫描一圈约100毫秒,而图像曝光频率一般为30赫兹,通过硬件触发信号可控制图像在激光雷达扫描到特定位置时曝光,实现数据同步。固态激光雷达扫描时间短、畸变较小,更便于与图像时间对齐。

软同步:当硬件同步无法完全解决频率差异时,采用软同步算法。包括时间直接配准法(适用于帧率具有整数倍数关系的传感器,但误差较大)、时间最小二乘拟合法(通过拟合曲线得到同一时刻数据)和内插外推法(适用于帧率无倍数关系或不稳定的情况) 。

2.传感器标定:包括外参标定和内参标定,旨在解决传感器数据的空间对齐问题。

外参标定:常用方法有离线标定和在线标定。离线标定采用高精度标定板和转台,精度高,但依赖设备,只能定期线下进行,无法实时修正车辆使用中传感器外参的偏差。在线标定利用环境中的自然特征(如灯牌杆、车道线),通过跟踪算法完成特征匹配,可在车辆运行时动态修正传感器位姿,但外参估计受环境约束,稳定性稍差。

内参标定:相机和IMU的内参标定方法较为成熟,通常在出厂时完成。目前,联合标定存在误差传递问题,尚未完全解决,如何使多个传感器在统一优化函数下达到较好的一致性仍是研究难点 。

三、4D标注技术解析(一)4D标注与2D标注差异

2D标注基于2D图像,标注结果在图像像素空间,操作简单,通过工具在图像上绘制即可。4D标注输入为多维图像,标注空间为3D空间,需先进行3D重建才能标注,且要对动态物体在3D空间随时间变化进行标注,即3D加上时间维度,因此称为4D标注。在自动驾驶中,由于感知输入和输出都具有时序性,4D标注至关重要。

(二)4D标注整体方案

4D标注方案先通过视觉或激光雷达对采集数据进行4D重建,包括静态和动态重建。重建后进行人工标注和质检,质检通过将标注结果与原图对比实现。标注数据用于模型训练,同时累积的数据在云端训练大模型,辅助后续标注。

随着数据积累和模型能力提升,标注流程逐渐从人工标注为主转变为模型预刷(利用大模型辅助标注)为主,最后通过多传感器交叉验证质检并发布数据版本。目前,动态标注和静态OK8C标注已实现自动化,仅在老旧城区等车道线磨损严重的静态场景下,仍需人工标注兜底。

(三)多模态标注方案

采用机械式激光雷达采集数据时,一段包含所有传感器(激光雷达、多维摄像头、IMU、GPS、轮速底盘等)数据的视频称为一个clip。多个clip所在的地理围栏区域为一个site ,site可包含多个clip。

静态重建时,每个clip可生成局部激光雷达点云,利用地理先验信息和激光雷达特征聚合形成完整局部点云地图用于标注。动态物体因与时序相关无法聚合,通过激光雷达离线大模型提取动态物体,这既用于动态标注,也辅助静态重建。提取动态物体后,通过跟踪算法获取物体轨迹,进而计算速度、加速度等信息,完成场景的4D重建,生成各类任务真值,涵盖车道线感知、2D检测、3D检测、planning等任务,为自动驾驶模型训练提供数据支持。

来源:盖世汽车