当前位置:首页>职位列表>职位详情
高德-voice agent算法工程师/专家-语音大模型 30000-55000元
北京朝阳区 应届毕业生 本科
北京高德云图科技有限公司 2026-01-26 08:04:34 58人关注
职位描述
团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI导航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197) 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 1. 文本对话大模型/多模态对话大模型的研发、语音对话pipeline方案以及端到端方案的交互能力搭建、全双工交互能力搭建,落地到高德agent应用场景; 2. 跟进前沿的对话模型/语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 3. 探索前沿方向,如更加高效且合理的模型架构、跨模态(文字/语音/视觉)混合训练实践、基于speech language model的后训练技术、COT Reasoning in streaming full-duplex、proactive interaction,等等。结合全链路各个agent,持续提升voice agent的交互体验; 4. 海量的语音数据,尤其是对话数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量。 职位描述 1. 985/211高校研究生及以上学历或优秀本科生,计算机、人工智能、软件、数学等相关专业; 2. 较强的代码能力,在文本大模型或多模态大模型某一领域(语音大模型、Voice Agent、生成模型等)有过深入的研究经历或者应用经验; 3. 熟练掌握C/C ,Python,Shell编程语言,对数据结构和算法设计有较好的理解; 4. 精通 Pytorch / megatron等深度学习框架,熟悉 Transformer 架构以及大语言模型基础知识。 加分项: 1. 有丰富的对话大模型(包括文本对话或者语音对话)的研发、应用经验; 2. 具有较强的工程能力,有开发音视频实时交互系统的经验; 3. 在国际权威会议或期刊(ICASSP,Interspeech,ICML,NIPS,TASLP等)上发表论文者优先; 4. 编程能力强,在ACM/ICPC、NOI/IOI、TopCoder、Kaggle等比赛获奖者优先; 5. 良好的沟通能力、团队合作精神、自我驱动能力,对技术充满热情,主动解决问题者优先; 6. 有数据感知、对数据有充分的认识和研究兴趣者,优先;
联系方式
注:联系我时,请说是在今日招聘网上看到的。
工作地点
地址:北京朝阳区北京-朝阳区阿里中心·望京B座
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

若您已有简历,可直接登录登录

  • 省份

    注:0表示面议
    获取验证码
    保存并投递
    投递简历
      马上投递
      投递简历
        马上投递

        企业
        服务热线

        • 400-6680-889
        1. 登录
        2. 注册
        客户服务热线:
        400-6680-889
        在线客服:
        点击这里给我发消息 898995850
        工作日:
        8:30-18:00