ZipLoRA：通过有效合并 LoRA 实现任何风格的任何主题！

Phrixus

ZipLoRA是由谷歌开发的一项可以组合各种风格LoRA来生成特定对象的风格化技术。

摘要

用于微调概念驱动个性化的生成模型的方法通常在主题驱动或风格驱动的生成中取得很好的结果。最近，低秩适应（LoRA）被提出作为实现概念驱动的个性化的参数有效方式。虽然最近的工作探索了单独 LoRA 的组合来实现学习风格和主题的联合生成，但现有技术并不能可靠地解决该问题，因此主题保真度或风格保真度都会受到损害。我们提出了 ZipLoRA，一种廉价且有效地合并独立训练的风格和主题 LoRA 的方法，以便实现以任何用户提供的风格生成任何用户提供的主题。对各种主题和风格组合的实验表明，ZipLoRA 可以生成令人信服的结果，在主题和风格保真度的基础上进行有意义的改进，同时保留重新上下文化的能力。

结果：个性化风格化

ZipLoRA 可以通过组合各种风格和内容 LoRA 来生成特定对象的风格化。我们的方法成功地保留了参考主题的身份并捕获了参考风格的独特特征。我们还提供了与 Direct Merge、Joint Training 和 StyleDrop 的比较。

方法

一种简单而有效的方法，通过以低成本合并独立训练的主题和风格 LoRA 来生成任何风格的任何主题。
我们的方法基于三个重要的观察：
观察 1：与之前版本的 Stable Diffusion 不同，SDXL 能够通过遵循 DreamBooth 协议，仅使用单个示例图像来学习样式，而无需任何人工反馈。

观察 2：所有层的 LoRA 权重矩阵都是稀疏的。LoRA权重矩阵中的大部分元素量级都很小，对生成质量和保真度影响很小。
观察 3：两个独立训练的 LoRA 的权重矩阵的列彼此之间可能具有不同程度的“对齐”，例如通过余弦相似度来测量。我们发现直接对具有高余弦相似度的列求和会降低合并模型的性能。

基于这些观察，我们假设一种类似于拉链的方法，旨在减少相似方向和的数量，同时保留原始 LoRA 的内容和风格生成属性，将产生更稳健、更高质量的合并。就像拉链无缝连接织物的两侧一样，我们提出的基于优化的方法找到了一组不相交的合并系数来混合两个 LoRA。这确保了合并后的 LoRA 能够熟练地捕捉主题和风格。

重新语境化

合并的 ZipLoRA 模型可以在不同的上下文中通过语义修改重新上下文化参考对象，同时保持风格化质量。

控制风格化的程度。
虽然这不是必需的，但我们仍然可以调整对象和样式的强度以增加可控性。

能够产生参考对象和风格
我们的方法保留了两个模型的原始行为，并且可以准确地生成每个组成 LoRA 的特定结构和风格元素，而直接合并会失败。

原文地址：https://ziplora.github.io/
论文地址：https://arxiv.org/abs/2311.13600