论文:https://arxiv.org/abs/2405.15179
github:https://github.com/wutaiqiang/MoSLoRA
LoRA 通过在预训练权重上添加低秩分支来进行微调,从而减少了需要更新的参数量。然而,LoRA 在适应复杂任务时仍有局限性,主要在于其无法充分捕捉子空间之间更复杂的关系。为了提升性能,探索如何更好地混合这些低秩子空间的信息。
为了解决 LoRA 的不足,研究人员提出了一种新的子空间混合方法——Mixture-of-Subspaces LoRA (MoSLoRA)。MoSLoRA 通过引入一个可学习的混合器来融合多个子空间,从而灵活地捕捉更多信息。这种方法在多个基准测试中表现优异,显著提升了模型的鲁棒性和准确性,同时引入的额外参数和计算开销可以忽略不计
最基本的低秩适应方法。
公式:
∑(i=1 to r) Ai * Bi
其中,Ai ∈ R^(d1×1),Bi ∈ R^(1×d2),r 是秩。
特点:简单直接,但信息交互有限。
通过混合相邻子空间增强信息交流。
公式:
∑(i=1 to r/2) (Ai + Ai+r/2) * (Bi + Bi+r/2)
特点:每对相邻子空间(如 A1 和 A3,B1 和 B3)进行混合,增加信息交互。
引入可学习的混合器来融合更多信息。
公式:
∑(i=1 to r) ∑(j=1 to r) wij * Ai * Bj
其中,wij 是可学习的权重。
特点:最灵活,允许所有 Ai 和 Bj 之间的交互,可学习最优混合策略。
MoSLoRA 的主要优势在于其灵活性和学习能力,可根据具体任务自适应调整子空间交互,潜在获得更好性能。
常识推理任务:MoSLoRA在LLaMA-3 8B模型上的微调表现优于其他基线方法,包括LoRA、LoKr、LoHa、FLoRA、AdaLoRA和DoRA。
视觉指令调优:MoSLoRA在MMBench EN/CN测试集上展现了更好的性能,特别是在推理能力方面。
主题驱动的文本到图像生成:MoSLoRA在生成与特定主题相关的图像时,能够更好地捕捉细节并与给定提示保持一致。
人类评价:在生成图像的人类评价中,MoSLoRA在主题相似性和提示一致性方面都超过了LoRA,特别是在提示一致性上,MoSLoRA的平均胜率比LoRA高出34.3%。
与其他方法的兼容性:MoSLoRA与量化方法(如QLoRA)兼容,这意味着它可以在低资源微调场景中发挥作用。
总体性能:MoSLoRA在InternLM2+ViT上获得了平均分数59.5,比LoRA高出1.7分,进一步证明了其有效性和鲁棒性。
本文作者:Bob
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!