职位描述
负责大模型的架构设计与创新,结合最新的研究成果和业务需求,打造高效、灵活、可扩展的模型架构。
主导算法的优化与改进,运用先进的优化技术,提升模型的训练效率、准确性和泛化能力。
参与大规模数据集的处理与管理,确保数据的质量、多样性和安全性,为模型训练提供坚实的数据基础。
负责模型的训练、评估与调优,通过实验和数据分析,不断提升模型的性能表现,使其达到行业领先水平。
与跨部门团队紧密合作,包括产品、工程、业务等,将大模型技术落地到实际业务场景中,实现技术价值的***化。
跟踪和研究大模型领域的***动态,为团队引入前沿的技术理念和方法,推动团队技术能力的持续提升。
任职要求
1,计算机科学、数学、统计学等相关专业,具有扎实的理论基础。
2,有深度学习、大模型研发经验,有成功的大模型项目经验者优先。
3,精通 Python、TensorFlow、PyTorch 等主流深度学习框架,熟悉 GPU 编程和分布式训练技术。
4,深入理解 Transformer 架构、注意力机制等大模型核心技术,能够熟练运用相关技术进行模型开发。
5,具备优秀的数学和统计学基础,熟悉机器学习、优化理论等相关知识,能够独立推导算法公式。
6,具有良好的问题解决能力和创新思维,能够在复杂的技术挑战中找到有效的解决方案。
7,具备良好的团队协作精神和沟通能力,