转行大模型算法社招面经（无大厂）

发布时间：2025-10-10 17:01:45

转行大模型算法社招面经（无大厂）

大模型八股\n1、解释一下稀疏语义召回，BGE-M3怎么实现的\n2、Qwen3-Embedding的原理，dense向量从哪里来\n3、Lora微调的概念，超参数r和alpha的调参经验\n4、RMSNorm\n5、Flashattention是什么\n6、GQA、MQA\n7、Python抽象类是什么？生成器？上下文管理器\n8、PPO、DPO、GRPO\n9、Git fetch、rebase、pull\n10、python中的async和await为什么一起使用\n11、模型微调能解决什么问题\n12、为什么要进行重排序？（我从模型架构上来回答了，召回用的bi-coder，重排序用的cross-encoder）\n13、什么是上下文工程\n14、MCP是什么\n15、大模型的幻觉问题怎么解决？\n16、python深拷贝和浅拷贝使用的场景\n17、介绍一下大模型的位置编码\n18、Transformer中的cross-attention\n19、注意力分数计算时，为什么要除以根号dk\n项目相关（RAG）\n1、如何将原始文档转换为知识块？你用了三个技巧，能展开说明吗？（语义感知切分、父子文档、滑动窗口）\n2、检索召回阶段为什么Dense用了Qwen3，sparse用了BGE-m3，不全部用BGE（其实都可以，BGE-M3支持dense和sparse）\n3、这个项目的文档分块、清洗规整等等，都是基于每一页的文档。面试官问我，为什么不揉在一起再去做文档处理，这样子分页没法处理跨页信息。\n4、为什么用了Sparse语义召回，还要用BM25? 三路召回的优势？\n5、召回：问我TOPK怎么考虑的，召回后的文档是全量送到reranker吗？那做RRF不是没什么意义吗？（我是把dense召回和sparse召回先做了一个RRF粗排然后和bm25检索出来的文档做一个merge去重）\n6、BM25有做关键词表维护吗（被问了这个问题后，后续的面试我都说有，其实就是用结巴分词的时候，导入一个关键词表）\n7、为什么要用父子文档，细节怎么做的，有做关联吗\n8、在RAG的文本分块中如果chunk_size和overlap设置的很接近，会出现什么后果和问题（我想设置的很接近，文本不都全部重复了吗，严重浪费资源）\n9、几千个文字的文档，重点在开头和结尾，怎么办呢（我想的是可以用大模型来做提取？）\n10、每个优化点提升了多少指标？

上一篇：🇸🇬Micron 内推

上一篇：邯郸行邺高中招教师50人