欧洲杯体育通过量化生成模子的输出-开云(中国)Kaiyun·官方网站 登录入口

发布日期:2025-06-25 06:54    点击次数:109

欧洲杯体育通过量化生成模子的输出-开云(中国)Kaiyun·官方网站 登录入口

卓越 ControlNet++欧洲杯体育,让文生图更可控的新框架来了!

腾讯优图、南洋理工、浙大等商量机构荟萃推出DynamicControl,平直将多模态谎言语模子(MLLM)的推理材干集成到文本生成图像(T2I ) )任务中。

并且还提倡了一种新颖、高效的多限度适配器,不错自适合地取舍不同的要求,从而完结动态多限度对皆。

推行完毕显露,DynamicControl 大大增强了可控性,且不会葬送图像质地或图像文本对皆。

话未几说,底下来看具体本体。

DynamicControl:动态要求取舍新架构

基于 ControlNet 类模子,之前的使命探索了各式限度信号,举例布局拘谨、分割图和深度图,以决定生成的图像中的空间胪列、物体面貌和景深。

此外,该鸿沟还见证了使用快速工程和交叉堤防拘谨来进一步完善图像生成的调度。

不外现存格式均存在各自的局限性。

比如,探究到一个对象的多种要求,一条澄莹(举例 UniControl、UniControlNet)在老师过程中飞速取舍一次激活一种要求,如图 1 ( a ) 所示。

这种处理不同视觉要求的材干格外低效,将大大加多老师的计议包袱和时代老本。

另一类轮番(举例 AnyControl、ControlNet++)使用固定数目(通常为 2 或 4)的要求,并采用 MoE 联想或多限度编码器来措置要求数目变化的问题,如图 1 ( b ) 所示。

然则,这种固定数目有打算并莫得从根柢上措置多要求问题,也莫得探究多要求是否与生成完毕相遏止。

天然这些轮番扩张了受控图像生成的可行性和应用,但在不同要求下增强可控性的了了而全面的轮番仍然是一个正在进行的商量和开导鸿沟。这突显了在 T2I 扩散模子中集成和优化限度机制以完结更可靠和更细心的图像合成方面需要抑制改进。

给定来自归并主题的多个要求,对于换取的文本教唆,不同的要求在神采、纹理、布局,合感性等方面产生不同的完毕。

此外,从与源图像的一样度 SSIM 得分来看,不同的要求难以准确生成与输入源图像一致的图像。这也标明不同要求对生成更好图像的孝敬不同,有些要求以致会产生负面影响。

因此,在先前的轮番中,仅取舍一个或固定数目的要求而不探究它们在生成更接近源图像的图像方面的蹙迫性以及每个要求之间的里面关连是次优的。

为了措置这个问题,商量提倡了DynamicControl,这是一个相沿多种限度信号动态组合的新框架,它不错自适合地取舍不同数目和类型的要求,如图 1(c)所示。

具体咋作念到的

算法的合座进程如下图所示。

给定多种要求,商量领先引入双轮回限度器来产生着实的排行分数,四肢与 MLLM 联接老师要求评估器的监督信号。

然后,这些排行的要求与来自预老师要求评估器的取舍分数由多限度适配器动态编码,以完结可控的图像生成。

Double-Cycle Controlle

鉴于商量将多要求可控性宗旨化为输入要求之间的动态取舍,因此使用判别奖励模子来斟酌这种取舍是可行的。

通过量化生成模子的输出,商量概况依靠这些定量评估来集体增强各式要求限度的优化,以促进更可控的生成过程。

具体来说,给定多个要求和文本教唆,商量领先运用预老师的要求生成模子为每个要求生成图像。

然后通过不同的预老师判别模子索求相应的反向要求。

基于这些生成的图像和反向要求,商量联想了一个双轮回限度器,对输入的多个限度要求进走运行蹙迫性评估。该双轮回限度器由两个一致性分数构成,即要求一致性和图像一致性。

(1)要求一致性。对于每个输入要求和生成图像的相应输出要求,商量优化了要求轮回一致性亏损以取得更好的可控性,其公式为:

这里商量对扰动图像实施单步采样,其中 D 是判别奖励模子,用于优化 G 的可控性。L 暗示抽象度量函数,可证据特定的视觉要求适合各式具体面貌。

这种纯真性使其概况证据不同视觉分析任务的专有要求进行定制,从而增强模子在不同场景中的适用性和有用性。

(2)反向图像一致性。除了要求一致性以外,商量还采用反向图像一致性亏损来保证原始图像与生成的图像一样。

商量通过最小化生成的图像和源图像之间的像素和语义相反来完结这小数。给定源图像和生成的图像的 CLIP 镶嵌,亏损界说为:

这种亏损确保模子在应用要求和文本指示时概况古道地回转要求并复返到源图像,通过最小化源图像和生成的图像之间的相反来强制实施模子。

Condition Evaluator

天然双轮回限度器不错对各式限度要求进行综合评分,但仍然靠近两个挑战:

(i)使用事先老师的生成模子进行图像合成都会给完毕带来较高的不笃定性,这意味着对所采用的基础生成模子的依赖性很高。

(ii)源图像在测试过程中不成用,尤其是在用户指定的任务中。为了措置这个问题,商量在收集架构中引入了多模态谎言语模子(MLLM)。

如图 3 所示,给定要求 c1、c2、…、cN 和指示 τ,商量的主要目的是运用双周期限度器的得分排序来优化要求的最好排序。

商量用 N 个新标记"、…、",扩张了 LLaVA 的原始 LLM 词汇表以暗示生成信息,并将这些标记附加到指示 τ 的末尾。

然后,将要求 c1、c2、…、cN 和重新组织的指示 τ ’输入到谎言语模子 ( VLLM ) LLaV A ( · ; ω ) 中以取得对标记的反应,这些标记被处理以索求相应的荫庇景色 hi ∈ H,从 VLLM 对输入的暗示中拿获更深层的语义信息。

然则,这些荫庇景色主要存在于 LLM 的文本向量空间中,在与扩散模子(尤其是基于 CLIP 文本镶嵌老师的模子)交互时会出现兼容性问题。这种相反可能会隔断模子之间的有用集成。

探究到这小数,商量迁徙了 Q-Former,以将荫庇景色细化为与扩散模子兼容的镶嵌 fc。

转念过程暗示为:

轮回优化过程不错表述为:

随后,每个要求的 LLM 瞻望完毕由双轮回限度器的相应排序分数进行监督,从而优化最终的排序排行。该过程暗示为:

多限度适配器动态编码

为了适合多种动态限度要求的同期应用,作家们改进性地联想了一个多限度适配器。该适配用具于自适合地解释复杂的限度信号,从而概况从文本教唆和动态空间要求中索求全面的多限度镶嵌。

在取得经过雅致预老师的要求评估器后,不错运用其弘大的和洽材干对悉数输入要求进行评分。

从评分要求池中,只好那些达到或跨越预界说阈值的要求才会被选中参与后续的 T2I 模子优化。

这种取舍性轮番确保只好最辩论和最高质地的要求才能参与老师过程,从而有可能擢升 T2I 模子的有用性和后果。

对于阈值诞生,它不是手动预界说的,也不是在老师集内的所少见据对中保捏一致的。相背,它被设立为一个可学习的参数,允许模子自适合地笃定和调理各式数据集的阈值。

因此,这种自适合机制导致动态和各样化的限度要求在数目和类型上都莫得遏止。

这些要求在老师过程中的使用取决于每个数据集的具体特征。这种轮番确保老师概况证据各式数据输入的专有需乞降眇小诀别进行量身定制。

推行完毕

详细而言,来自各式要求限度的推行完毕标明,DynamicControl 大大增强了可控性,而不会葬送图像质地或图像文本对皆。

其中,不同要求限度和数据集下的可控性相比如下。

不同要求限度和数据集下的 FID(↓)/ CLIP 分数(↑)相比如下。

可视化完毕也出来了。

归来

在论文中,商量从定量和定性的角度解说了现存的专注于可控生成的商量仍然未能充分运用多种限度要求的后劲,导致生成的图像与输入要求不一致。

为了措置这个问题,商量引入了 DynamicControl ,它使用高效的要求评估器对要求进行排序,明确优化了多个输入要求和生成的图像之间的一致性,从而将 MLLM 的推理材干集成到 T2I 生成任务中。

此外,商量还提倡了一种新颖而高效的多限度适配器,不错自适合地取舍不同的要求,从而完结动态多限度对皆。

来自各式要求限度的推行完毕标明,DynamicControl 大大增强了可控性,而不会葬送图像质地或图像文本对皆。

这为可控视觉生成提供了新的视角。

论文:

https://arxiv.org/abs/2412.03255

名目主页:

https://hithqd.github.io/projects/Dynamiccontrol/

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本体‍

附上论文 / 名目主页衔接,以及辩论格式哦

咱们会(尽量)实时申诉你

点这里� � 和顺我,铭刻标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿阐发日日再见 ~  



相关资讯