编辑
2024-09-04
AI论文精读
00

目录

Mixture-of-Subspaces in Low-Rank Adaptation
背景
方法论
1. Vanilla LoRA
2. Two-subspaces-mixing LoRA
3. MoSLoRA (Proposed)
组合视图对比
实验结果

屏幕截图 2024-09-04 140606.png

Mixture-of-Subspaces in Low-Rank Adaptation

论文:https://arxiv.org/abs/2405.15179

github:https://github.com/wutaiqiang/MoSLoRA


背景

LoRA 通过在预训练权重上添加低秩分支来进行微调,从而减少了需要更新的参数量。然而,LoRA 在适应复杂任务时仍有局限性,主要在于其无法充分捕捉子空间之间更复杂的关系。为了提升性能,探索如何更好地混合这些低秩子空间的信息。

为了解决 LoRA 的不足,研究人员提出了一种新的子空间混合方法——Mixture-of-Subspaces LoRA (MoSLoRA)。MoSLoRA 通过引入一个可学习的混合器来融合多个子空间,从而灵活地捕捉更多信息。这种方法在多个基准测试中表现优异,显著提升了模型的鲁棒性和准确性,同时引入的额外参数和计算开销可以忽略不计


方法论

屏幕截图 2024-09-04 140606.png


1. Vanilla LoRA

最基本的低秩适应方法。

公式:

∑(i=1 to r) Ai * Bi

其中,Ai ∈ R^(d1×1),Bi ∈ R^(1×d2),r 是秩。

特点:简单直接,但信息交互有限。


2. Two-subspaces-mixing LoRA

通过混合相邻子空间增强信息交流。

公式:

∑(i=1 to r/2) (Ai + Ai+r/2) * (Bi + Bi+r/2)

特点:每对相邻子空间(如 A1 和 A3,B1 和 B3)进行混合,增加信息交互。


3. MoSLoRA (Proposed)

引入可学习的混合器来融合更多信息。

公式:

∑(i=1 to r) ∑(j=1 to r) wij * Ai * Bj

其中,wij 是可学习的权重。

特点:最灵活,允许所有 Ai 和 Bj 之间的交互,可学习最优混合策略。


组合视图对比

  • Vanilla LoRA: A 和 B 之间是固定连接。
  • Two-subspaces-mixing LoRA: A 和 B 之间有固定混合模式。
  • MoSLoRA: A 和 B 之间有可训练混合器,允许更灵活的信息融合。

实验结果

image.png

  • MoSLoRA 的主要优势在于其灵活性和学习能力,可根据具体任务自适应调整子空间交互,潜在获得更好性能。

  • 常识推理任务:MoSLoRA在LLaMA-3 8B模型上的微调表现优于其他基线方法,包括LoRA、LoKr、LoHa、FLoRA、AdaLoRA和DoRA。

  • 视觉指令调优:MoSLoRA在MMBench EN/CN测试集上展现了更好的性能,特别是在推理能力方面。

  • 主题驱动的文本到图像生成:MoSLoRA在生成与特定主题相关的图像时,能够更好地捕捉细节并与给定提示保持一致。

  • 人类评价:在生成图像的人类评价中,MoSLoRA在主题相似性和提示一致性方面都超过了LoRA,特别是在提示一致性上,MoSLoRA的平均胜率比LoRA高出34.3%。

  • 与其他方法的兼容性:MoSLoRA与量化方法(如QLoRA)兼容,这意味着它可以在低资源微调场景中发挥作用。

  • 总体性能:MoSLoRA在InternLM2+ViT上获得了平均分数59.5,比LoRA高出1.7分,进一步证明了其有效性和鲁棒性。

本文作者:Bob

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!