融合离线高精拓扑及道路要素数据与实时众包数据,构建基于机器学习的驾驶经验挖掘平台和基于数据的闭环,提升 Robotaxi 在复杂场景的通行效率和用户驾乘体验:
- 数据挖掘:基于 PySpark 开发分布式机器学习管道,实现基于TB 级原始数据的模型训练和自动化后处理,用于红绿灯周期、无保护左转、错时放行等复杂场景识别。
- 在线服务:采用 Flask 框架搭建轻量级 Web 服务实现机器学习模型在线部署和推理,基于 Flink 事件窗口和 Redis 处理每分钟 10 万级实时数据流,完成数据解包、特征提取、准确率计算和结果缓存,保障推理服务的实时高准确率。
- 数据闭环:基于Apache Hudi构建实时数据湖架构,实现众包数据实时入湖和增量训练数据集生成,开发自动化 ET 流水线支持机器学习模型迭代优化,相比传统 HDFS提升 30%查询效率,并有效降低存储成本。
- 项目成果:红绿灯周期挖掘在运营区域召回率提升至 50%,准确率提升至 98%,均优于百度地图;挖掘平台已接入萝卜快跑绿波通行场景,有效将红灯等待时间占比降低 20%。