近些年,文本变图模型变得备受关注,这种模型能制作出高质量的图片。然而,它在精确操控方面存在不足,这种矛盾现象值得我们深入研究。

文本到图像扩散模型现状

图像合成领域迎来了文本到图像扩散模型的出现,这无疑是一次重大变革。例如,DALLE这类知名模型,仅凭简短文字描述就能创造出令人惊叹的图像。在创意设计领域,比如电影海报的构思设计,设计师只需输入文字,就能迅速获得多种创意图像。但实际应用中,比如在需要生成系列图像且保持人物特征时,模型往往难以实现精确控制。

文本到图像扩散模型:挑战与机遇,艺术家的新工具  第1张

此外,在众多商业用途中,比如设计品牌广告角色形象时,常常难以确保图像的统一性,这就使得这些模型难以大规模应用于商业领域。

文本到图像扩散模型:挑战与机遇,艺术家的新工具  第2张

身份保留编辑的挑战

文本到图像扩散模型:挑战与机遇,艺术家的新工具  第3张

身份保留编辑至关重要。操作时,即便采用LoRA微调技术,图像结构仍可能发生显著变化。比如,人物换衣,现有模型操作后,衣服虽变,但人物的神态或整体感觉可能已有所不同。

文本到图像扩散模型:挑战与机遇,艺术家的新工具  第4张

此类微调过程耗时较长,计算量也很大。以处理10张图片的身份保留编辑为例,一般电脑可能要花费数小时乃至数天时间,且需对每个参照物进行特定训练,这极大地限制了它在现实场景中的应用范围。

文本到图像扩散模型:挑战与机遇,艺术家的新工具  第5张

零样本适应网络的构建思路

文本到图像扩散模型:挑战与机遇,艺术家的新工具  第6张

研究者提出了一种新颖的策略,即创建了一种零样本适应网络。首先,他们运用了预先训练好的文本至图像的扩散模型、大型语言模型以及视觉语言模型来产出一系列图像。以2022年的一项图像数据研究为例,在3.1节所述的特定模式下,成功制作出了大量的实验图像集合。

在同一预训练扩散模型上实施微调,同时引入了新的并行处理框架。根据某大型图像算法实验中心的数据,这一框架可以显著缩短计算所需时间。该网络的设计宗旨在于,无论在何种任务下,都能迅速、多样化地生成高品质图像,并且特别注重保持图像的身份特征。

监督扩散自蒸馏训练过程

文本到图像扩散模型:挑战与机遇,艺术家的新工具  第7张

构建成对数据集是至关重要的。我们通过运用预训练文本与图像扩散模型的多图像生成能力。这就像在平面设计案例里,通过大语言模型提供的提示,能够生成与潜在一致性相符的普通图像。

之后,我们运用视觉语言模型进行资料整理。以某图像深度整理项目为例,正如3.1.3节所述,我们精心挑选普通图像样本,确保获得高身份一致性的清晰图像集。这个过程就像是一环扣一环的严谨筛选。

新架构的性能对比优势

新的架构相较于其他架构展现出了显著的优势。然而,在原始条件模型中,增加输入通道后效果并不佳。以特定图像编辑任务为例,原始模型可能会丧失大量原始图像的关键特征。

IP系列模型在模仿方面表现突出,却忽略了细节的变动。比如,在调整风景图像的季节时,IP系列可能只是简单复制,并未根据提示进行恰当的调整。相比之下,新架构在图像转换过程中,既能保持主要特征,又能保证转换的多样性和与情境的契合度。

新架构的广泛适用性

新架构能够广泛应用于深度条件图像生成领域。无论是保持结构不变的转换,还是不保留图像结构但保留概念特征的转换,它都适用。以医疗图像处理为例,我们既能对器官结构进行保留性编辑,比如调整正常器官图像的色彩以辅助诊断,也能对包含疾病特征概念的部分进行转换编辑,帮助医生更深入地理解病情特点。

你是否觉得这种新型无样本适应网络能显著提升图像合成的技术水平?期待你的点赞、转发,并在评论区分享你的看法。

文本到图像扩散模型:挑战与机遇,艺术家的新工具  第8张