发布时间:2025-09-18 22:22:15
美团北斗计划-Omni多模态研究持续招聘中 【Omni多模态交互】下一代人机交互研究\n岗位概述\n我们致力于打造具备 语言、视觉、语音、动作等多模态能力的智能体,探索下一代人机交互范式。团队聚焦 跨模态融合、端到端交互建模、沉浸式体验创新 三大方向,推动多模态大模型从底层算法到真实应用的突破。\n研究方向与职责\n1. 跨模态理解与生成(Cross-modal Understanding & Generation)\n研究目标:打通文本、语音、视觉、动作信号的语义壁垒,提升模型跨模态对齐、统一建模与生成的能力。\n研究内容包括但不限于:\n1.融合语音-文本-视觉-动作的跨模态对齐与表示学习,提升模型多模态语义一致性。 2.研发端到端的跨模态生成算法,实现多模态问答、图文生成、语音驱动动画等交互任务。 3.构建跨模态评测基准,探索统一多模态理解与生成的可解释性。 2. 端到端交互系统(End-to-End Interaction System)\n研究目标:打造高效、轻量、自然的多模态交互体验,推动AI从“感知”走向“理解与回应”。\n研究方向包括但不限于:\n1.开发面向语音、视觉与文本输入的 多模态对话系统,提升自然交互能力。 2.探索情感、语调、手势等细粒度信号的建模方法,增强AI在人机交互场景中的表达与共情。\n研究目标:突破多模态交互在真实应用场景中的体验瓶颈,打造沉浸感更强、交互更自然的下一代AI系统。\n研究内容包括但不限于:\n1.探索多模态大模型在 实时交互 与 低延迟生成 方面的优化策略。 2.开发面向生活服务、教育、娱乐、元宇宙的 智能体与交互式应用。 3.研究长期对话、复杂任务协同中的多模态交互范式,推动从“助手”到“伙伴”的演进。 任职要求\n•具备深厚的 深度学习与大模型 背景,熟悉 Transformer、Diffusion 或强化学习等主流技术。 •至少在 语音 / 视觉 / NLP / 多模态 方向有深入研究与实践经验。 •有大规模模型训练、推理优化或跨模态建模经验者优先。 •对下一代人机交互充满热情,具备创新思维和优秀的工程实现能力。 加入我们,你将获得\n•前沿研究舞台:第一时间接触并推动多模态交互技术的突破。 •真实落地场景:面向亿级用户的业务应用,研究成果快速转化为产品价值。 •丰富成长机会:顶会论文机会、跨学科协作氛围、充足算力与资源支持。 •激励机制完善:行业领先的薪酬水平。 |
上一篇:秋招一定要去的央国企—南京篇
上一篇:急急急急急 有没有啊有没有