发布时间:2025-09-18 10:25:55
大模型算法工程师社招面经——寒武纪 今天分享的是寒武纪的大模型算法工程师社招面经。\n背景介绍:2本9硕,初创公司3年经验,三轮技术面\n自我介绍——5min * 3面\n项目细节提问——10min * 3面\n项目相关技术提问——20min * 3面\n1. 介绍下vllm中page attention的原理。\n2. vllm中的调度策略(V0 engine)是怎样的?所有的seq-group分为了哪几种状态?什么时候发生recompute?\n3. 详细介绍下DeepSeek-V3中的MLA原理,矩阵吸收的原理是什么?最后为什么还要使用一个额外的kv_cache去做concat?其中压缩kv_cache的维度和with_rope的kv_cache维度大小关系是怎样的?\n4. 详细介绍下DeepSeek-V3中MTP的原理,论文中用了几个额外的MTP_layer?原文中是训练还是推理时使用的?\n5. 讲一下MoE这个结构,在训练时如果出现了负载不均衡问题时应该如何排查?有什么解决方法么?\n6. 在训练时如果训着训着loss飞了应该怎么排查这个问题?\n7. 如何利用nv的卡来帮助寒武纪的卡上进行debug?\n8. 如何计算kv cache在推理时所需最小显存?\n9. 对量化算法有什么了解?\n10. 会使用哪些benchmark的评测框架?\n手撕算法:寻找链表的公共节点(1面)+二叉树的先序遍历类题目(2面) 20min * 2面\n反问——10min * 3面\n#人工智能 #大模型 #社招 #面经 #LLM #寒武纪 |
上一篇:做了HR后,才终于明白了社招