ICCV 2025降低了扩散模型中的空间冗余,上海Joto
栏目:媒体新闻 发布时间:2025-07-08 12:55
该文件的作者联合指导者Yan Zexuan和Ma Yue分别是上海Jiao Tong大学的研究生和香港科学技术大学的研究生。...
该文档的作者联合主任是上海大学人工智能学院的研究生,2025班级和香港科学技术大学2024班的博士。他目前在上海乔尔顿大学的Epic Lab进行了科学研究实习,并由Zhang Lymphang助理教授执导。它的研究地址是高效率和AIGC模型。本文主要介绍了Zhang Lymphang教授的最新文章:Eedit⚡:重新考虑有效图像版的空间和时间冗余。这是第一个加速与多个起始解决方案兼容的一致流量模型的图像编辑框架。框架的速度显着提高,允许比原始工作流程快2.4倍。输入启动条件也很灵活,他们承认各种编辑任务,包括参考图像指南,拖动和索尔塔区指南和THE快速单词指南。该框架使用未知的加速算法而无需调整或蒸馏。该文档已被选择为ICCV 2025。链接:https://arxiv.org/pdf/2503.10270该文档是开源的:https://github.com/yuriyanzexuan/eedit最近,基于流的训练模型的方法已适应了基于流的训练模型的方法。生成简短表格和时间步骤的能力。其中,黑森林实验室开发的助焊剂系列模型主要代表。它达到扩散模型字段的SOTA级别,因为它在性能和发电质量方面超过了SD系列模型的先前水平。但是,尽管图像版中传播模型的性能仍然存在许多问题,包括众多必需的时间步骤和投资过程的大量超载,但对最终编辑结果质量的影响有限。更重要的是,由计算未出版的区域导致了巨大的计算机资源浪费。此外,目前有几种类型的编辑和启动方法具有适用和加速的统一流量重合模型。没有解决方案。关于图像编辑任务中时空的冗余引起的计算超负荷问题,当前的学术研究仍处于早期阶段,相关的研究内容仍在蓝海中。在当前的研究状态之前,上海Joton大学的史诗实验室团队提出了Eedit编辑框架,该框架在没有培训的情况下加速了高效的缓存。核心思想是,在不改变投资的图像的编辑过程中,取决于扩散模型,输出特性的多路复用用于压缩投资过程的时间步骤,并随时间冗余。区域分数奖励用于控制频率更新,多路复用缓存功能的区域标记离子无编辑,同时更新编辑区域中尽可能多的标签以实现有效的计算目标。 Eedit有几个重要的出色方面。 1。不需要训练,需要有效的加速度。 EEDIT基于开源流开发模型,推理,训练或蒸馏。与无法看到的版本相比,它的推理速度也是推理速度的2.4倍,并且使您可以达到比其他类型的图像编辑方法达到更快的加速度的10倍。 2。在Image Edition领域中,已经研究了由时空冗余引起的浪费的美食计算问题,并试图首次尝试解决。该区域品牌的计算频率是通过将投资的过程特征和区域分数的奖励多样化控制的,从而降低了模型在编辑任务中计算复杂性的时空冗余。 3。适应使用多种类型的输入开始。编辑框架可以调整到几个编辑类型编辑任务,包括图像综合参考图像指南,图像编辑单词指南和图像版任务由拖放和释放区域指南指导。接下来,让我们一起看看调查的细节。研究动机1在Tiger EditionCat的情况下,计算过载模型的空间和时间冗余。作者在实用的图像编辑案例中发现了图像编辑任务中的时空冗余。非编辑区的空间冗余比编辑区更大。像素级别的差异可视化图像提供了编辑区域(动物面,头发),在这里突出的区域的存在是这里的重要变化,其余的黑色区域代表并非基本不变的编辑区域。本文的作者根据其空间对应重组隐藏的层,并可视化使用热图。在隐藏层状态的差分余弦相似性中,也可以找到一致的空间冗余。编辑的区域与倒消除过程的开始和阶段之后不那么相似,而未发表的区域则更相似。与消除过程相比,TIE Investment Processne的时间冗余更多。本文的作者使用多路复用器来控制在省略以完整时间步长的传播扩散过程中省略一定百分比的时间步骤时发生的模型的计算。完整的投资过程迅速中断了减少和消除时间步骤的结果。相反,在完整的消除过程中,缩短和消除时间步骤的汇编结果与完整的计算基本一致。考虑到减少冗余时间步骤对编辑延迟的加速有直接影响,由于在整个模型中需要数据以在每个时间步骤中完全计算扩散模型。简介方法的方法加速方案的两个缓存传播模型投资范式版框架MM-DIT扩散模型图像编辑框架使用有效且训练方法。编辑框架将原始图像和编辑请求作为条目。具体而言,流程的投资和消除更新了固定的时间通过周期,而周期内的时间步长则使用部分计算来更新缓存。在投资过程中,本文的作者还使用了省略投资步骤(ISS)的技术,该技术省略了计算以直接多次多次多重模型输出功能。对于缓存更新部分,作者仔细设计了本地高速缓存算法,是特定的设计:图3用于减少空间冗余。关于图像编辑中存在的空间冗余本文的作者Ing Process巧妙地设计了一种空间冗余。图像输入编辑区蒙版将用作空间知识,然后将功能令牌中的存储算法更新为目标。空间位置(SLOC)中的存储是用于MM-DIT的插件缓存中的存储算法。该算法可以存储几个MLP组件的加速度,即相互和自动参与。 SLOC在初始化阶段执行完整的计算,并执行固定的周期时间步骤以减少漂移误差。在周期中,神经元自催化和多层喂养网络的特征部分计算出来,并随时间更新为缓存。 SLOC核是通过分数图(得分映射)的细粒控制来改变与不同空间区域相对应的特征的代币的计算频率。具体来说,1。当沙子初始化时,随机初始初始初始初始化了整个得分using随机种子。在这一点上,所有功能令牌得分均经过高斯分布的随机和均匀分布。 2。将系数编辑的区域的特性令牌乘以区域分数的奖励,并将相邻区域乘以系数与距离L1的分解,以根据所编辑的区域的分布更改得分图的数值分布。 3。根据订购评分图后,根据与第一个R%值相对应的索引下标的特征令牌,将其发送到计算模型层并更新缓存。 4。对于非选择的功能令牌,提供了分数图的增量补偿,这可以平衡不同区域之间的计算频率。对于选定的特征令牌,再次累积了增量补偿。作者还采用了缓存索引预处理技术(TIP)。具体来说,作者使用下标指数的独立性和其缓存更新算法中的特定矢量内容来将在线计算的缓存索引的更新逻辑转换为在线计算,从而使用密集计算加速缓存更新过程。总而言之,通过对空间敏感的更新和重用算法,SLOC使用Tip技能来保证无损图像作为EEDIT的核心组成部分,这使EEDIT与原始解决方案相比达到了2.4倍以上的加速度。实验结果:重量纸将对通量-DEV的开源权重进行实验,并在四个数据集中详细介绍的定性和定量实验,包括长凳,Drag-DR,Drag-SR和TF-Icon基准,以证明EEDIT生成的性能和质量。图4现有SD系列的SLOC比较定量评估具有指标各个维度的模型和流程系列函数包括PSNR,LPIP,SSIM和剪辑,以及在生成场中常用的剪辑,以及量化模型效率的流量和推理时间指标。如下图所示,与其他类型的编辑方法相比,EEDIT使用的SLOC+ISS方案通常更适合于相同的扩散模型(FLX 12B)下的指标(FLX 12B),并且一般计算费用和推理时间有显着改善。有趣的是,与仅重几位数字的SD系列相比,此文档方法在推理效率方面也具有竞争力。图5。在各种类型的起始条件和其他方法中的EEDIT编辑功能的比较。不仅如此,定性实验还表明,在多个起始模式中,此方法具有更强的编辑区域和背景区域的一致性。在某些文字快速方向的情况下,其他方法存在实质性改变一般设计或不一致的历史和风格不一致的问题。对于“拖放指南”,本文中的方法反映了对用户阻力意图的最佳遵守程度。在参考图像指南的图像组成的任务中,本文中的方法显示了一致的绘画样式和与原始元素保持LTO身份一致性的程度。 6。与其他加速方法相比,性能的比较。本地缓存是否适用于编辑中的高速缓存算法?本文的作者得出的结论是,将其与其他缓存加速算法进行比较时是积极的。与缓存中的存储算法也可以应用于MM-DIT,FORA,TACA和DUCA相比,本文档中提出的SLOC算法是加速度,没有比率仅获得推理延迟的优势,也可以获取AC AC的优势。Hieves具有前景保留率(FG保留)的最佳结果,但即使对于某些指标,这种效果也比其他指标高出50%以上。缓存加速算法。 If you want to quote This article, Follow the format: @Misc {Yan2025EedithinkingsPatial, Title = {EEDIT: Rethinking Spatial and Temporary Redundancy for Epficient ImagenE editing}, authors = {Zexuan Yan and yue and yue a and yue chen and cifeng chen and lymphang zhang}, Year = {2025}, print = {2503.10270},ArchivePrefix = {arXiv},primary> url = {https://arxiv.org/abs/2503.10270},},}