ControlNet与DreamBooth:生成模型的精细控制与主体保持
扩散模型直接在像素空间进行扩散,生成效率太低,消耗资源过大,严重制约了模型推广到大尺寸图像的生成中。LDM提出从隐空间(latent space)来进行生产,这里的隐空间简单理解就是经过某种编码压缩后的特征空间。再小尺寸特征图上实现扩散和去噪的过程,从而提高效率。Stable Diffusion就是LDM的一个开源实现,可以用于文生图(T2I)任务中。
扩散模型直接在像素空间进行扩散,生成效率太低,消耗资源过大,严重制约了模型推广到大尺寸图像的生成中。LDM提出从隐空间(latent space)来进行生产,这里的隐空间简单理解就是经过某种编码压缩后的特征空间。再小尺寸特征图上实现扩散和去噪的过程,从而提高效率。Stable Diffusion就是LDM的一个开源实现,可以用于文生图(T2I)任务中。
扩散模型直接在像素空间进行扩散,生成效率太低,消耗资源过大,严重制约了模型推广到大尺寸图像的生成中。LDM提出从隐空间(latent space)来进行生产,这里的隐空间简单理解就是经过某种编码压缩后的特征空间。再小尺寸特征图上实现扩散和去噪的过程,从而提高效率。Stable Diffusion就是LDM的一个开源实现,可以用于文生图(T2I)任务中。
扩散模型是当前AIGC领域通用且有效的底层模型架构,其原理是通过多级联的隐变量实现从高斯分布到指定分布的生成。扩散模型可以被形象地分为两个阶段,即前向扩散与反向生成,前向扩散过程将指定分布的某个样本进行某种设定好的时序迭代线性高斯加噪直到最终达到标准高斯分布,反向过程则逆这个过程从标准高斯分布逐步去噪得到指定分布的样本。DDIM(去噪扩散隐式模型)是DDPM(去噪扩散概率模型)的加速版本,通过取消马尔可夫性实现跨步采样生成。
变分自编码模型基于变分推断理论,通过编解码过程,将图像编码到隐变量空间(latent space),然后通过解码器将隐空间分布中的采样映射到目标数据分布中,从而实现对目标域图像内容的生成。
PyTorch训练模型支持分布式训练,主要的实现方式有DataParallel和DistributedDataParallel两种。分布式训练架构分为parameter server和ring-allreduce两种架构,分布式训练需要考虑数据和模型之间的同步,对于不同的并行化策略来说不同进程的同步的处理方式有所不同。
CLIP模型(Contrastive Language-Image Pretraining)是由OpenAI开发的图文多模态模型,其目的是建模自然语言与图像特征之间的关联性。现在已经在很多任务中被作为插件模型应用于图像和文本的交互过程中(比如将文本提示引入到分割、定位等任务中)。
3D Gaussian Splatting(3DGS)通过利用3D Gaussian分布对3D空间物体进行模拟,以渲染后的目标图像作为约束,对3D空间内容进行建模,3DGS相比于NeRF效率更高。
Segment-Anything(分割一切)模型,又称SAM,是2023年提出的视觉分割领域的通用大模型,可以通过各种prompt(点击、bbox、mask等)提供的信息,引导模型直接输出想要的分割结果,另外也可以直接对图像进行整图分割解析。
霍夫变换基于参数空间搜索的方式对参数化的形状(比如直线、圆形等)在图像中进行检出。广义霍夫变换利用模板匹配(template matching)的思路,将参数空间搜索的思路推广至无解析表达的形状的提取任务中。
逆变换采样又称为逆万流归宗,其主要思路是通过已知的目标分布的累积分布函数(CDF),从均匀分布U(0,1)中生产符合目标分布的随机变量,从而用于相关的模拟实验。其中生产正态分布的特例为Box-Muller变换。