快讯速递
环球指数
货币对
上市公司财报

扫一扫
下载APP

移动客户端

自媒体热点 > 正文

如果没有StyleGAN2，真以为初代就是巅峰了：英伟达人脸生成器高能进化，弥补重大缺陷

如果没有StyleGAN2，真以为初代就是巅峰了：英伟达人脸生成器高能进化，弥补重大缺陷

2019年12月15日 11:56 量子位

新浪财经APP举报缩小字体放大字体收藏微博微信

从前你可能会觉得，英伟达的StyleGAN已经是效果最震撼的GAN了吧。

它既能生成逼真的人脸：

也能生成可爱的老婆：

还有逼真的猫咪、卧室、汽车……投喂哪种数据集，就吐出哪种图像。

但英伟达并不过度骄傲，自StyleGAN发表以来，团队就一直研究它的弱点，然后想办法拯救。

现在，升级版StyleGAN2诞生了，它弥补了第一代的各种缺陷。

先举个例子。初代StyleGAN生成人像，周围总是出现水滴状不明物体：

如今，StyleGAN2生成的图像里，看不到奇怪的水滴了：

不要急着惊讶，这只是其中一处，StyleGAN2解锁的新技能还有不少。

更美好的是，英伟达已经把算法开源了。

所以，先来观察一下它到底是怎样进化的吧。

水滴是如何消除的？

初代StyleGAN的第一个缺陷，就是刚刚提到的“水滴”。严重的时候，甚至会破人脸的完整：

论文说，水滴有时候很明显，有时候肉眼不易察觉，但如果从特征图 (Feature Map) 上看，其实问题一直都在：

△ 右边是特征图

想去除水滴，首先要知道它从哪里来，才好对症下药。

从生成64×64的图像开始就有了，分辨率越高，水滴现象就越严重。

团队起初对这种缺陷的存在感到费解，因为按常理说判别器应该能发现才对啊？

但很快，他们就把矛头指向了生成器的实例归一化 (Instance Normalization)，上代StyleGAN用的方法是AdaIN (自适应实例归一化) 。

因为，是这个部分负责把每张特征图的均值 (Mean) 和方差 (Variance) 分开归一化，很可能是这种做法破坏了特征信息。

于是一种假设诞生了：

水滴形成的原因是，生成器故意让信号强度信息 (Signal Strength) 绕过实例归一化，它会创建一个强大的局部化 (Localized) 的信号峰，来支配统计数据，有效缩放信号强度。(欺上瞒下的骚套路啊。)

假设轻松得到了验证。只要把实例归一化拿掉，水滴就完全消失了。

但真的拿掉之后，又会导致每一种风格的效果累积起来 (Cumulative) ，没办法保留在特定的尺度上，这样就很难控制GAN的生成了。所以，团队重新设计了实例归一化的过程。

说到重新设计，就简单介绍一下初代StyleGAN。它的生成器是从风格迁移算法上借鉴而来，能在粗糙到精细的不同尺度上操控GAN的生成，再把各种尺度的风格 (Style) 结合起来：

△ 尺度越细调整越小：最精细尺度只调配色，不改姿势发型五官

初代StyleGAN的生成器，是在风格块里加了偏置 (Bias) 和噪声 (Noise) 。就如下图，(a)是整体架构，(b) 是细节：

△ 灰色框是风格块

团队发现，如果把偏置和噪音挪到风格块之外，直接加在已经归一化的数据上，就能得到更加可预测的结果。

(除此之外，这样改动过后，只要对标准差做归一化和调制就足够，不用再处理均值了。)

这也是重新设计的第一步，迈出这一步之后架构长这样：

在此基础之上，团队又走了第二步：

原本每个风格块由三部分组成，一是调制，二是卷积，三是归一化。

团队把归一化这个部分，用一个新的“解调 (Demodulation) ”代替了。

此处隐去数学过程，只说中心思想：与原本的归一化相比，“解调”不是基于特征图的实际内容，而是基于假设 (Assumptions/Expected Statistics) 。也就是说，比从前的操作更温和了。

修改完毕，变成了下图的样子。是调制后直接解调，把解调结果交给卷积：

实验也证明，新的实例归一化方法可以有效去除水滴现象。不论是在生成的图像上，还是在特征图上，都没有奇怪的斑点了：

从一张图到另一张图的变化过程中，也没有出现水滴：

与此同时，“解调”也让各个尺度的风格，保留在原本的尺度上。团队说，StyleGAN2在不同尺度风格的混合方面，比上一代更自如了：

(来源A和来源B，就是不同尺度的风格。)

这样，一个缺陷就补好了。

但还有下一个。

五官姿势不同步怎么破？

初代StyleGAN，用的是渐进式增大 (Progressive Growing) 的训练方法。

就是从4×4的图像开始生成，到8×8，到16×16，一步一步增大生成的分辨率，最终炼成1024×1024的高清图像生成技能。

这种方法能把GAN的训练过程变得更加稳定，是从大前辈PG-GAN那里沿用下来的。英伟达第一次以生成逼真人脸闻名于世，靠的就是PG-GAN。

只不过，这种方法有一个明显的弱点，就是对牙齿、眼睛等等细节，有很强的位置偏好。也就是说，这些细节特征每移动到一个位置，都会在那里停留很久，才移去下一个位置：

这样一来，脸上各个部位的姿势很容易不匹配。

如果你没看出破绽，观察下面这张图吧。脸转了方向之后，牙齿没有及时跟着走，门牙一直朝着正前方：

这不科学。

团队用一种新的方法取代了渐进式增大。疗效显著，人脸转动的时候，牙齿的朝向也随着改变了：

原本StyleGAN的生成器和判别器都只用了简单的前馈设计，所以团队探索了更科学的结构。

他们借鉴了MSG-GAN的架构 (图a) ，这位前辈是把生成器和判别器的分辨率，用多个跳层连接 (Skip Connections) 匹配起来：

研究人员在这基础上做了简化，生成器用了上采样 (Upsampling) 与求和 (Summing) 来处理每一种分辨率下RGB输出的贡献 (图b上方) 。

判别器 (图b下方) 也是同理，利用了降采样 (Downsampling) 。

然后，就是用残差连接 (Residual Connections) 进一步改造网络。不过，ResNet里面两条路径相加会让信号的方差加倍，所以这里乘以1/√2来解决这个问题。

这一步很重要，因为在分类用的ResNet上，这个问题通常会被批量归一化隐藏起来。

实验表明，跳层连接可以大大提升PPL，残差连接又对FID有利。

最终，团队最终选择了跳层生成器，以及残差判别器。

结果，得到了五官姿势同步变化的人脸：

还能这样玩

论文提到，把生成器的工作“颠倒过来 (Inverting) ”，也是个很有趣且很重要的课题。

也就是说，输入一张图，如果能够复现，就可以判断它是这只GAN生成的。

这就需要把图片投射进潜在空间里，找到它对应的潜在向量，来复现这张图。

迭代1000次之后，得到图片和原图几乎无差的话，原图就是StyleGAN2生成的 (下图左) ；得到的图片和原图有明显差别的话，原图就不是StyleGAN2生成的 (下图右) ：

虽然类似的操作从前也出现过，但团队提出了与前辈不同的方法，来找到复现需要的潜码 (Latent Code) ：

不去扩展潜在空间，只在原本的潜在空间里找潜码，这样不会匹配到无关的图像，而是会对应到生成过的图像上；

给潜码加上了缓步下降的噪音，这样能更充分地挖掘潜在空间；

另外，还优化了StyleGAN2生成器的随机噪音，就是把它们正则化，避免携带相关信号。

科学家说，随着GAN生成的图像越来越逼真，也就更需要检测一张图是不是GAN生成的。

这当然是正经用途。但在算法开源之后，已经被小伙伴们玩坏了，比如推特网友@quasimondo：

濠电姷鏁告慨鐑藉极閸涘﹥鍙忛柟缁㈠枟閸庡顭块懜闈涘缂佺嫏鍥х閻庢稒蓱鐏忣厼霉濠婂懎浜惧ǎ鍥э躬婵″爼宕熼鐐差瀴闂備礁鎲￠悷銉ф崲濮椻偓瀵鏁愭径濠勵吅闂佹寧绻傚Λ顓炍涢崟顓犵＜闁诡垎鍐ｆ寖缂備緡鍣崹鎶藉箲閵忕姭妲堥柕蹇曞Х椤撳搫鈹戦悙鍙夘棞缂佺粯甯楃粋鎺撱偅閸愨斁鎷虹紓浣割儏鐏忓懏螞濮樿埖鐓曢柍鍝勫€绘晶閬嶆煙楠炲灝鐏╅柍瑙勫灩閳ь剨缍嗛崑鎺懳涢崘銊㈡斀闁绘劖娼欓悘銉р偓瑙勬处閸撶喎鐣峰⿰鍫濈妞ゆ柨澧介敍婵囩箾鏉堝墽鍒伴柟纰卞亜閺嗏晠姊绘担鍛婃喐濠殿喚鏁婚幃褔鎮╁顔兼婵犵數濮甸懝鐐劔闂備礁鍟块幖顐﹀磹閸涘﹦顩查柣鎰劋閳锋垹绱掔€ｎ偄顕滄繝鈧幍顔剧＜閻庯綆鍋勯悘瀛樸亜閵忊剝顥堥柡浣规崌閺佹捇鏁撻敓锟�

得到这些鬼畜的表情包，就是说史莱克和阿凡达，果然不是StyleGAN的作品啊。

开源了

既然代码已经放出来，你也要试着玩坏一下StyleGAN2吧。

不然就先看看论文，那里讲到的进化之处比本文要全面，看完之后你就会有更大胆的想法了。

论文传送门：

https://arxiv.org/abs/1912.04958

代码传送门：

https://github.com/NVlabs/stylegan2

大咖齐聚！量子位MEET2020智能未来大会

量子位 MEET 2020 智能未来大会回放来啦！李开复、倪光南、景鲲、周伯文、吴明辉、曹旭东、叶杰平、唐文斌、王砚峰、黄刚、马原等AI大咖与你一起读懂人工智能。扫码观看回放吧~ ~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

文章关键词：英伟达

0条评论|0人参与网友评论

分享到微博

最热评论

最新评论直播：今天市场有望走出小幅修复！

更多精彩评论>>

新浪财经公众号

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）

投资研报扫码订阅

股票简称最新价涨跌幅

以下为热门股票

三峡能源 4.25 -0.23%

京东方Ａ 4.48 -1.10%

TCL科技 4.79 -1.84%

中远海控 14.55 -0.55%

格力电器 42.08 -2.21%

濠电姷鏁告慨鐑藉极閸涘﹥鍙忛柟缁㈠枟閸庡顭块懜闈涘缂佺嫏鍥х閻庢稒蓱鐏忣厼霉濠婂懎浜惧ǎ鍥э躬婵″爼宕熼鐐差瀴闂備礁鎲￠悷銉ф崲濮椻偓瀵鏁愭径濠勵吅闂佹寧绻傚Λ顓炍涢崟顓犵＜闁诡垎鍐ｆ寖缂備緡鍣崹鎶藉箲閵忕姭妲堥柕蹇曞Х椤撳搫鈹戦悙鍙夘棞缂佺粯甯楃粋鎺撱偅閸愨斁鎷虹紓浣割儏鐏忓懏螞濮樿埖鐓曢柍鍝勫€绘晶閬嶆煙楠炲灝鐏╅柍瑙勫灩閳ь剨缍嗛崑鎺懳涢崘銊㈡斀闁绘劖娼欓悘銉р偓瑙勬处閸撶喎鐣峰⿰鍫濈妞ゆ柨澧介敍婵囩箾鏉堝墽鍒伴柟纰卞亜閺嗏晠姊绘担鍛婃喐濠殿喚鏁婚幃褔鎮╁顔兼婵犵數濮甸懝鐐劔闂備礁鍟块幖顐﹀磹閸涘﹦顩查柣鎰劋閳锋垹绱掔€ｎ偄顕滄繝鈧幍顔剧＜閻庯綆鍋勯悘瀛樸亜閵忊剝顥堥柡浣规崌閺佹捇鏁撻敓锟�

7X24小时

股市直播

新浪财经意见反馈留言板

电话：400-052-0066 欢迎批评指正

新浪简介|广告服务|About Sina
联系我们|招聘信息|通行证注册
 产品答疑|网站律师|SINA English

Copyright © 1996-2019 SINA Corporation

All Rights Reserved 新浪公司版权所有

濠电姷鏁告慨鐑藉极閸涘﹥鍙忛柟缁㈠枟閸庡顭块懜闈涘缂佺嫏鍥х閻庢稒蓱鐏忣厼霉濠婂懎浜惧ǎ鍥э躬婵″爼宕熼鐐差瀴闂備礁鎲￠悷銉ф崲濮椻偓瀵鏁愭径濠勵吅闂佹寧绻傚Λ顓炍涢崟顓犵＜闁诡垎鍐ｆ寖缂備緡鍣崹鎶藉箲閵忕姭妲堥柕蹇曞Х椤撳搫鈹戦悙鍙夘棞缂佺粯甯楃粋鎺撱偅閸愨斁鎷虹紓浣割儏鐏忓懏螞濮樿埖鐓曢柍鍝勫€绘晶閬嶆煙楠炲灝鐏╅柍瑙勫灩閳ь剨缍嗛崑鎺懳涢崘銊㈡斀闁绘劖娼欓悘銉р偓瑙勬处閸撶喎鐣峰⿰鍫濈妞ゆ柨澧介敍婵囩箾鏉堝墽鍒伴柟纰卞亜閺嗏晠姊绘担鍛婃喐濠殿喚鏁婚幃褔鎮╁顔兼婵犵數濮甸懝鐐劔闂備礁鍟块幖顐﹀磹閸涘﹦顩查柣鎰劋閳锋垹绱掔€ｎ偄顕滄繝鈧幍顔剧＜閻庯綆鍋勯悘瀛樸亜閵忊剝顥堥柡浣规崌閺佹捇鏁撻敓锟�

-28176秒前机器人概念大幅领涨，多只ETF涨超4％

关闭

-28176秒前机器人概念大幅领涨，多只ETF涨超4％

关闭

-28176秒前机器人概念大幅领涨，多只ETF涨超4％

关闭

新浪首页语音播报返回顶部

发现新版本

V8.7.0

1.自选股不同市场类别对应指数自动切换，大势对比更便捷；2.环球模拟交易系统优化，高手排名更科学；3.个人主页增加私信呼吸灯提示，不错过股友即时信息;

扫码立即体验

关闭