美团北斗计划-Omni多模态研究持续招聘中

发布时间：2025-09-18 22:22:15

【Omni多模态交互】下一代人机交互研究\n岗位概述\n我们致力于打造具备语言、视觉、语音、动作等多模态能力的智能体，探索下一代人机交互范式。团队聚焦跨模态融合、端到端交互建模、沉浸式体验创新三大方向，推动多模态大模型从底层算法到真实应用的突破。\n研究方向与职责\n1. 跨模态理解与生成（Cross-modal Understanding & Generation）\n研究目标：打通文本、语音、视觉、动作信号的语义壁垒，提升模型跨模态对齐、统一建模与生成的能力。\n研究内容包括但不限于：\n1.融合语音-文本-视觉-动作的跨模态对齐与表示学习，提升模型多模态语义一致性。 2.研发端到端的跨模态生成算法，实现多模态问答、图文生成、语音驱动动画等交互任务。 3.构建跨模态评测基准，探索统一多模态理解与生成的可解释性。 2. 端到端交互系统（End-to-End Interaction System）\n研究目标：打造高效、轻量、自然的多模态交互体验，推动AI从“感知”走向“理解与回应”。\n研究方向包括但不限于：\n1.开发面向语音、视觉与文本输入的多模态对话系统，提升自然交互能力。 2.探索情感、语调、手势等细粒度信号的建模方法，增强AI在人机交互场景中的表达与共情。\n研究目标：突破多模态交互在真实应用场景中的体验瓶颈，打造沉浸感更强、交互更自然的下一代AI系统。\n研究内容包括但不限于：\n1.探索多模态大模型在实时交互与低延迟生成方面的优化策略。 2.开发面向生活服务、教育、娱乐、元宇宙的智能体与交互式应用。 3.研究长期对话、复杂任务协同中的多模态交互范式，推动从“助手”到“伙伴”的演进。任职要求\n•具备深厚的深度学习与大模型背景，熟悉 Transformer、Diffusion 或强化学习等主流技术。 •至少在语音 / 视觉 / NLP / 多模态方向有深入研究与实践经验。 •有大规模模型训练、推理优化或跨模态建模经验者优先。 •对下一代人机交互充满热情，具备创新思维和优秀的工程实现能力。加入我们，你将获得\n•前沿研究舞台：第一时间接触并推动多模态交互技术的突破。 •真实落地场景：面向亿级用户的业务应用，研究成果快速转化为产品价值。 •丰富成长机会：顶会论文机会、跨学科协作氛围、充足算力与资源支持。 •激励机制完善：行业领先的薪酬水平。

上一篇：秋招一定要去的央国企—南京篇

上一篇：急急急急急有没有啊有没有