大西南第一车友网,立足成都辐射全国!

谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换

原创观点

给Imagen加上命中你所指的地方的能力会变得多强只需上传3—5张指定物体的照片,然后用文字描述出你想要生成的背景,动作或表情,指定物体就能闪进你想要的场景,动作表情都栩栩如生

不仅是动物,其他物品如太阳镜,书包和花瓶也可以制成几乎是真正的成品:

属于那种不会被别人看到的朋友。

这种神奇的文本图像生成模型被命名为DreamBooth,是谷歌的最新研究成果在Imagen的基础上进行了调整,一经发布便在推特上引起了热议

有网友调侃:这简直就是最先进的梗图生成器。

目前相关研究论文已上传至arXiv。

几张照片就能环游世界

在介绍原理之前,我们先来看看DreamBooth的各种能力,包括变换场景,分配动作和表情服装,变换风格等。

如果你是一个铲屎官,有了这种模式的换景能力,你可以足不出户的把你的狗送出家门,比如凡尔赛宫,富士山脚下。

光线也是自然的。

不仅如此,宠物的动作和表情也可以随意指定确实一句话p图的细节很到位

除了以上的基础练习,DreamBooth甚至可以改变各种照片风格,也就是所谓的添加滤镜。比如各种世界名画画风,各种视角的狗,不要太艺术化:

至于装修他们各种cosplay道具也是小菜一碟

此外,无论是改变颜色:

就更神奇了这个人工智能可以改变物种

那么,如此有趣的效果背后的原理是什么呢。

在输入中添加一个特殊标识符。

研究人员做了一个比较与DALL—E2,Imagen等其他大规模文本图像模型相比,只有DreamBooth方法可以忠实地还原输入图像

如下图所示,输入3个小闹钟,右边表盘有黄色3,其中DreamBooth生成的图像完美保留了时钟的所有细节,但DALL—E2和Imagen几次生成的时钟与原时钟略有不同。

李悝jy和李鬼。

也就是说,图像生成模型接收到的原始指令只是一种物体,比如,等,但是现在DreamBooth会在这类物体前面加一个特殊的标识符,就变成了

至于为什么不用它直接指代整体。

所以这里采用微调的思路总体来说,还是基于AI已经学习到的特征,再用学习到的特殊特征进行修饰

以一只白狗的产生为例在这里,模型会学习到狗的颜色,体型等个性化细节,再加上模型在这个大类中学习到的狗的共性,这样就可以生成更多既合理又不失个性的白狗照片

为了训练这种微调的文本—图像扩散模型,研究人员首先根据给定的文本描述生成一个低分辨率图像,然后在生成的图像中狗的图像是随机的。

然后,应用超分辨率扩散模型将随机图像替换为用户上传的特定狗。

研究团队

Nataniel Ruiz是波士顿大学图像与视频计算组的四年级博士生,目前在谷歌实习主要研究方向为模型生成,图像翻译,对抗攻击,人脸分析和仿真

论文的链接附在文末。感兴趣的朋友快来看看吧~

论文地址:

参考链接:

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

来自: 车友邦网