您的位置:首页 > 热点 >

让AI搞创作:谷歌夺回“画语权”,机器想象力达到全新高度

2023-01-03 14:30 来源:IT之家

在让AI创作这件事上,Google和OpenAI刚刚起来这不,震惊全网的Dalle2刚发布一个月,Google就给gallants送去了一个叫Imagen的玩家

让AI搞创作:谷歌夺回“画语权”,机器想象力达到全新高度

直接对比上图,左边是Google Imagen玩家眼中的猫绊人雕像,右边是Dalle2玩家创作的同名作品。

你认为哪位选手的作品更符合题目并让网友直呼dalle2过时了是的,不仅仅是这种正面PK的刺激看到这样的照片,如果不说是AI生成的,是不是要感叹两足兽的摆姿势技术越来越高了

你也可以试着让文字变长比如一只非常开心的毛茸茸的熊猫打扮成一个在厨房里做面团的厨师的高对比度画像,身后的墙上还有一幅花的画

看到这里,机器学习圈网友的反应是这样的:

真的,才一个月就又更新了。

请不要再电击我了。

在一起很热,很快就破了圈吃瓜的人立马想到了海贼王

以后可能就没有画廊网站了。

那么这个来自谷歌的新AI掌握了哪些独家秘密呢详情我们一起往下看

增强理解比优化生成更重要

文本到图像生成之前已经介绍过了,基本上是一个套路:CLIP负责从文本特征到图像特征的映射,然后引导一个GAN或者扩散模型生成图像。

但是Google Imagen这次有一个颠覆性的变化——使用纯语言模型只负责编码文本特征,把文本到图像转换的工作留给图像生成模型语言部分使用谷歌自己的T5—XXL,训练后冻结文本编码器图像生成部分是一系列扩散模型,生成低分辨率图像,然后逐步过采样

这样做的最大好处是,纯文本训练数据比高质量的图形数据更容易获得这也是有实验数据支持的在人类评估中,T5—XXL在保真度和语义对齐方面比CLIP表现得更好

谷歌在实验中还发现,扩大语言模型的规模比扩大图像生成模型对最终效果的影响更大。

有网友指出,谷歌最终采用的T5—XXL参数的规模,还不到最新PaLM language模型5400亿个参数的1%如果用PaLM会是什么样子

除了语言模型的发现,Google还通过对Imagen的研究,对扩展模型做了很多优化首先,增加无分类器引导的权重可以提高图文对齐,但会损害图像保真度解决方法是在每个采样步骤中使用动态阈值,这可以防止过饱和

其次,扩散模型多样性不足的问题可以通过在使用高引导权重的同时向低分辨率图像添加噪声来解决第三,改进了扩散模型的经典结构U—Net新的高效U—Net提高了内存使用效率,收敛速度和推理时间

在提升了语言理解和图像生成两方面后,Imagen模型整体在评测中也取得了不错的成绩例如,新的SOTA是在COCO基准测试上实现的,但它根本没有用COCO数据集进行训练

在COCO测试的人体评测部分,我们还发现了Imagen的一个缺点,就是不擅长生成人体图像具体来说,在现实主义中,没有一个人类形象具有更高的人类偏好程度

与此同时,谷歌推出了比COCO更具挑战性的测试基准DrawBench,其中包含了各种棘手的提示发现Dalle2很难准确理解两种颜色需求同时出现的情况,Imagen没问题

反常识的情况,比如一匹马骑着一个宇航员,两者表现都不好,只能画一个宇航员骑着一匹马但Imagen对一只熊猫泡咖啡,拉花的理解更准确,只错了一次Dalle2把所有的熊猫都画成花朵图案

可能骑在马上的宇航员有点反常识。

Imagen也更擅长要求文字出现在图像中除了正确书写文本之外,还可以为文本正确添加fireworks效果

AI绘画正在走出循环。

说起来,AI绘画最早起源于Google2015年,谷歌推出了DeepDream,开创了AI基于文本生成图像的先河

DeepDream作品

不过,要说相关技术真正滚出圈子,标志性事件还得是2021年OpenAI的dalle E当时,Keras之父吴恩达等众多大牌都转发称赞,DALL甚至被称为2021年第一个令人振奋的AI技术突破

随后,语言理解模型和图像生成模型多年的技术进步在AI绘画事件中爆发CLIP+GAN和CLIP+扩散模型的一系列研究和应用在互联网上频频掀起热潮

从此一发不可收拾,技术更新迭代越来越快当Dalle2首次发布时,一些网民发起了一项投票,询问新的SOTA需要多长时间才能出现当时大多数人选择几个月或者一年以上

但是现在,Imagen的出现只需要6周伴随着AI绘画效果越来越大,受众范围也在不断扩大,突破技术圈,进入大众视野前阵子苹果App Store图形和设计排行榜上有一个AI画图应用

现在最新的趋势是,各行各业的设计师排队申请中旅,迪亚马特等商业产品的内测,这将会爆红社交网络。

这种出圈也给OpenAI,Google这样的大公司很大压力出于AI伦理和公平的考虑,Dalle2和Imagen都没有直接开源或开放API他们每个人都在论文中用了很大的篇幅谈论风险和社会影响

OpenAI选择了内测模式,而Google还在做进一步的研究和标准化,会等到确保AI不被滥用后再对外公开如果您现在想体验Imagen,有一个在线演示您可以根据给定的提示自由组合不同的场景

快来试试吧~

演示地址:

论文地址:

参考链接: