面试常考题——Prefix LM vs Causal LM

发布时间:2024-03-13 08:46:42   

  • LLMs 千面郎君:https://github.com/km1994/LLMs_interview_notes

    • 介绍:该仓库主要记录 大模型(LLMs) 算法工程师相关的面试题

  • LLMs九层妖塔:https://github.com/km1994/LLMsNineStoryDemonTower

    • 介绍:【LLMs九层妖塔】分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。

  • NLP菜鸟逆袭记:https://github.com/km1994/AwesomeNLP

    • 介绍:【NLP菜鸟逆袭】分享 自然语言处理(文本分类、信息抽取、知识图谱、机器翻译、问答系统、文本生成、Text-to-SQL、文本纠错、文本挖掘、知识蒸馏、模型加速、OCR、TTS等)等 实战与经验。

  • NLP 面无不过:https://github.com/km1994/NLP-Interview-Notes

    • 介绍:该仓库主要记录 NLP 算法工程师相关的面试题

1. 背景

最近发现很多粉丝私聊我,问我“Prefix LM与Causal LM区别”,故而,花费了大半天的时间钻研原理和起源,现在能够给出一个更为透彻明晰的关于Prefix LM与Causal LM两者之间差异的解释。

2. 什么是Prefix LM?

Prefix LM,即前缀语言模型,是一种在自然语言处理领域中的自回归模型结构变体。在标准的自回归Transformer模型(如GPT系列)中,解码器仅能利用之前生成的词元来预测下一个词元,遵循严格的左到右顺序。

而在Prefix LM框架下,模型通常在一个共享的Transformer架构上进行训练和预测,它允许Encoder和Decoder部分通过精心设计的Attention Mask机制来共享权重。这个机制使得在预测过程中,解码器可以有条件地访问到输入序列的部分或全部内容作为“前缀”信息,而不仅仅依赖于已经生成的词元序列。

Google的T5(Text-to-Text Transfer Transformer)模型就引入了类似的概念,尽管不直接称为Prefix LM,但其在预训练阶段采用了所谓的“Prefix任务”,即在编码器中加入额外文本信息(例如问题或上下文),然后让解码器根据这些前缀信息生成目标输出,从而实现对多种NLP任务的统一处理。这种技术有助于模型更好地理解并利用给定的输入上下文来进行后续的文本生成或预测任务。

下面的图很形象地解释了Prefix LM的Attention Mask机制(左)及流转过程(右)。

Prefix LM的Attention Mask机制(左)及流转过程(右)

Prefix LM的代表模型有UniLM、T5、GLM(清华滴~)

3. 什么是 Causal LM?

了解了Prefix LM后,再来看Causal LM就简单的多了~

Causal LM(因果语言模型)是一种自回归语言模型,它在自然语言处理(NLP)领域中用于预测一个序列中的下一个词或token,基于前面已经生成的所有词。在训练和推理过程中,这种模型遵循“因果性”原则,即模型在生成每个位置的token时,只能利用序列中之前出现的部分作为上下文信息,而不能提前看到未来还未生成的部分。

例如,在GPT(Generative Pre-training Transformer)系列模型中,采用了Causal LM结构设计,其解码器部分的自注意力机制被限制为仅能查看左侧(过去)的tokens,确保了模型预测的序列性。这样的模型非常适合于文本生成任务,因为它们能够逐词地生成连贯的文本序列,并且由于其自回归特性,能够捕捉到文本序列内部的时间依赖关系。

参照着Prefix LM,可以看下Causal LM的Attention Mask机制(左)及流转过程(右)。

Causal LM的Attention Mask机制(左)及流转过程(右)

Ps(图真是个好东西,一图胜万字呀)

4. Prefix LM vs Causal LM?

Prefix LM(前缀语言模型)和Causal LM(因果语言模型)在某些上下文中可以指代相同的概念,但通常情况下:

Prefix LM

  • 指的是训练和预测时依赖于输入序列“前缀”的模型。这里的“前缀”是指序列的一部分,通常是一个句子或文本片段的起始部分。

  • 在自回归设置下,一个模型如果仅根据当前时刻之前出现的tokens来预测下一个token,那么这个模型就是一个前缀LM。

Causal LM

  • 更强调模型在预测时遵循“因果性”原则,即不能看到未来的信息,只能基于已生成的部分来预测后续的内容。

  • Causal LM是前缀LM的一个特例,它专指那些在自然语言处理中用于文本生成任务的自回归模型,确保预测时不违反时间上的因果顺序。

所以,实际上,在现代NLP中的自回归文本生成背景下,Causal LM可以视为一种特殊的、更明确的前缀LM,强调其预测过程中的因果关系和时间上的单向依赖性。

5. 总结

一句话足矣~

前缀语言模型可以根据给定的前缀生成后续的文本,而因果语言模型只能根据之前的文本生成后续的文本。

6. 参考

(1) google T5: https://arxiv.org/pdf/1910.10683v4.pdf

(2) 微软UniLM: https://arxiv.org/pdf/1905.03197.pdf

(3) google理论评估PLM与CLM: https://arxiv.org/pdf/2308.06912.pdf

上一篇:教资|教资面试中小学试讲互动金句

上一篇:通商律所招聘实习生/授薪律师

皖ICP备20008326号-9  |   QQ:859242200  |  地址:江苏省宜兴市人力资源产业园  |  电话:13295639219  |