职位描述
工作职责:
1、参与智算容器相关产品研发,包括大规模GPU、NPU的调度、AI任务管理、断点续训等核心能力研发;
2、参与移动云智算中心建设,包括大模型训练在容器基础设施层的监控、调优等。
任职资格:
1、本科及以上学历,3年及以上相关工作经验;
2、熟悉Kubernetes并有实际的开发、应用经验;
3、熟悉主流深度学习框架TensorFlow、PyTorch等,有大模型训练和推理优化经验者优先;
4、熟悉大规模容器集群构建,有大规模智算容器集群建设经验者优先;
5、有责任心,乐于沟通。