Brain in Machine

机中之脑?缸中之脑?

扩散模型直接在像素空间进行扩散,生成效率太低,消耗资源过大,严重制约了模型推广到大尺寸图像的生成中。LDM提出从隐空间(latent space)来进行生产,这里的隐空间简单理解就是经过某种编码压缩后的特征空间。再小尺寸特征图上实现扩散和去噪的过程,从而提高效率。Stable Diffusion就是LDM的一个开源实现,可以用于文生图(T2I)任务中。

阅读全文 »

扩散模型直接在像素空间进行扩散,生成效率太低,消耗资源过大,严重制约了模型推广到大尺寸图像的生成中。LDM提出从隐空间(latent space)来进行生产,这里的隐空间简单理解就是经过某种编码压缩后的特征空间。再小尺寸特征图上实现扩散和去噪的过程,从而提高效率。Stable Diffusion就是LDM的一个开源实现,可以用于文生图(T2I)任务中。

阅读全文 »

扩散模型是当前AIGC领域通用且有效的底层模型架构,其原理是通过多级联的隐变量实现从高斯分布到指定分布的生成。扩散模型可以被形象地分为两个阶段,即前向扩散与反向生成,前向扩散过程将指定分布的某个样本进行某种设定好的时序迭代线性高斯加噪直到最终达到标准高斯分布,反向过程则逆这个过程从标准高斯分布逐步去噪得到指定分布的样本。DDIM(去噪扩散隐式模型)是DDPM(去噪扩散概率模型)的加速版本,通过取消马尔可夫性实现跨步采样生成。

阅读全文 »

PyTorch训练模型支持分布式训练,主要的实现方式有DataParallel和DistributedDataParallel两种。分布式训练架构分为parameter server和ring-allreduce两种架构,分布式训练需要考虑数据和模型之间的同步,对于不同的并行化策略来说不同进程的同步的处理方式有所不同。

阅读全文 »

CLIP模型(Contrastive Language-Image Pretraining)是由OpenAI开发的图文多模态模型,其目的是建模自然语言与图像特征之间的关联性。现在已经在很多任务中被作为插件模型应用于图像和文本的交互过程中(比如将文本提示引入到分割、定位等任务中)。

阅读全文 »
0%