沉浸式场景生成,特别是全景图像的制作,得益于大型预训练的文本到图像(T2I)模型在多视角图像生成中的应用。然而,由于获取多视角图像的成本很高,所以大家更倾向于使用不需要复杂调整的生成方法。然而,现有的方法要么只能处理简单的对应关系,要么需要大量的微调才能捕捉复杂的细节。PanoFree 是一种无需调试的多视角图像生成技术,能够支持多种复杂的对应关系。PanoFree 通过一个不断迭代的变形和修补过程,依次生成多个视角的图像,从而解决了在生成过程中常见的一致性问题和由于错误累积而产生的伪影问题,而且这一切都不需要额外的调试。
相比于现有的方法,PanoFree 的生成效率提高了5倍,GPU 内存使用效率提升了3倍,用户研究中的结果多样性也提升了2倍。简单来说,PanoFree 是一种更快、更高效且无需额外调试的全景图生成新技术。
01 技术原理—(a) 在框架层面,PanoFree 采用了两条相反的视角平移或旋转生成路径。通过对称地从另一条路径中选择视角作为指导来生成新的视角,从而增强了图像的一致性。最后,通过合并这两条路径来确保闭环生成。(b) 在每次图像变形和修补的步骤中,PanoFree 通过使用跨视角的图像来引导修补过程,同时估算并擦除可能存在风险的区域,从而减少累积的错误。
简单来说,PanoFree 通过巧妙的双路径设计和精细的修补策略,成功地生成了更加一致和高质量的360°全景图像。PanoFree 的核心优势在于它提升了跨视角的理解能力,并通过多种技术来改善图像的变形和修补过程。这些技术包括跨视角的指导、估算和去除风险区域,以及为闭环生成进行的对称双向引导等。
此外,PanoFree 还通过引导语义和密度控制来保留场景结构。在针对平面、360度和全球形全景图的实验中,PanoFree 显著减少了错误,提升了图像的全局一致性和质量,且完全不需要额外的调试。
02 实际示例—PanoFree 能够根据不同类型的对应关系生成多视角图像,并且无需进行任何微调。一个自然的应用就是生成不同类型的全景图。下面展示了三种常见的全景图的生成效果:平面全景图,360°全景图,完整的全景图。简单来说,PanoFree 可以轻松生成各种类型的全景图,无需繁琐的调试。
任务 1:平面全景图生成-明亮通风的日光浴室配有柳条家具、悬挂植物和大窗户:
任务2:360°全景生成-现代化的厨房配有时尚的电器和开放式平面图:任务 3:完整全景图生成-瑜伽工作室,拥有竹地板和宁静的装饰:
暂无评论内容