论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。
文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。近年来,随着 Stable Diffusion 等文本到图像生成模型的发展,这些技术使得在保留内容准确性的同时,实现出色的风格转换成为可能。这项技术在数字绘画、广告和游戏设计等领域具有重要的应用价值。
然而,以往的风格迁移算法会让结果的风格化图像过拟合到参考的风格图像上;从而丢失文本控制能力(例如指定颜色)。
为了解决这一难题,西湖大学、复旦大学、南洋理工大学、香港科技大学(广州)等机构的研究团队联合提出了无需额外训练的改进方法,能够与众多已有方法进行结合。简单来说,研究团队优化了图像和文本共同引导生成风格化图像的时候,两种条件如何融合的问题。同时也探讨了关于风格化图像稳定生成和风格歧义性的问题。
论文标题:StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
论文链接:https://arxiv.org/abs/2412.08503
项目地址:https://stylestudio-official.github.io/
Github 地址:https://github.com/Westlake-AGI-Lab/StyleStudio
问题背景
风格定义的模糊性
现在的风格迁移技术由于定义 “风格” 时固有的模糊性,仍然未能达到预期的效果。现在的方法主要在解决的问题是风格图像中的内容元素泄漏进风格化图像中,导致风格化图像完全不遵循文本条件,即内容泄漏问题。然而,一个风格图像中包含了多种元素,如色彩、纹理、光照和笔触;所有这些元素都构成了图像中的整体美学。
现有的方法通常会复制所有的这些元素,这可能会无意中导致过拟合,即生成的输出过于模仿参考风格图像的特点,这种对细节的过度复制不仅降低了生成图像的美学灵活性,也限制了它适应不同风格或基于内容需求的能力。因此,理想的风格迁移方法应该允许更选择性的风格调整,给予用户强调或省略特定风格组件的灵活性,以实现平衡且有意图的转换。
另一个由过拟合引发的挑战是在文本到图像生成过程中保持文本对齐准确性困难,即便是在相当简单的文本条件下,例如 “A