职位描述
工作职责
1. 负责基于强化学习(如Online/Offline RL、Model-based RL)的自动驾驶行为决策与运动规划算法研发,重点解决结构化道路(高速、城市快速路)及非结构化场景(自动泊车)中的动态交互与博弈问题;
2. 针对复杂动态场景(密集车流、无保护路口、人车混流),设计基于数据驱动的决策规划算法,通过大规模分布式训练系统提升策略的智能性、安全性及泛化能力;
3. 构建与迭代仿真环境(如CARLA、NVIDIA Isaac)与世界模型,推动强化学习策略的仿真训练与实车迁移(Sim2real),形成“真实数据→仿真训练→实车验证”的闭环优化;
4. 参与全栈自动驾驶决策控制系统的开发,对接感知、预测、端到端模块,实现基于强化学习的决策规划算法在车载平台上的部署、性能优化与实车路测;
5. 跟踪强化学习在自动驾驶领域的前沿进展(如大模型与RL结合、逆强化学习、多智能体博弈),进行技术预研与算法创新,推动研究成果在量产项目中的应用与落地。
任职资格
1. 计算机科学、自动化、机器学习、机器人学等相关专业本科及以上学历;
2. 具备扎实的强化学习理论基础,熟悉主流RL算法(PPO、SAC、TD3、IQL等),并至少在一项自动驾驶或机器人项目中具有RL算法落地经验;
3. 熟练掌握Python/C ,熟悉PyTorch等深度学习框架,具备大规模强化学习分布式训练(如Ray、Kubernetes)或仿真平台开发经验者优先;
4. 熟悉自动驾驶决策规划常见方法(如MDP/POMDP、搜索与优化算法),并能够将强化学习与传统规划方法(如MPC、Lattice)结合解决实际问题;
5. 具备良好的数学基础,熟悉优化理论、概率论、车辆动力学建模,能够支撑RL算法中的奖励函数设计、策略优化与安全约束处理。
加分项:
1. 在NeurIPS、ICLR、ICML、ICRA、CoRL等会议或期刊发表过强化学习相关论文;
2. 具备自动驾驶量产项目(如NOA、LCC)或L4级项目(Robotaxi、Robobus)中RL算法集成与调试经验;
3. 熟悉仿生学习、逆强化学习、世界模型等技术,具备数据合成、评测基准构建或RL训练基础设施开发经验;
4. 熟悉ROS、Apollo等自动驾驶框架,或具备CARLA、Isaac Gym等仿真工具链的使用和开发能力。