马上就要公布2021年诺贝尔奖了,不知道手机前的朋友们是否和小编一样紧张起来了呢?特别是开学季更换了手机号的朋友,可别因此错失了诺奖的惊喜来电?(bushi
2021年诺贝尔奖揭晓时间 来源:参考文献[1,2]
其实此时此刻,最紧张的人也许不是各位年轻有为的科学家,而是——一位画家!
或许这么说有点奇怪,但如果你回忆一下往届诺奖颁布时各大媒体的新闻封面——
2020年诺贝尔物理学奖封面肖像
2018年诺贝尔物理学奖封面肖像
然后这些封面人物肖像其实是在诺奖公布的同一时刻发布,而且是艺术家用颜料手绘的,你会不会好奇,诺奖到底有没有提前公布?如果没有,这些肖像画又是什么时候、怎么画好的呢?
揭晓谜底之前,让我们先看看这位诺奖首席画家尼克拉斯·埃尔梅赫德(Niklas Elmehed)的帅照吧:
尼克拉斯·埃尔梅赫德
来源:凤凰网
01
比赛即将开始
艺术家尼克拉斯来自瑞典,自2012年以来,每年的10月上旬都将是他最紧张的作画时刻。想想我们印象中的肖像画吧:画家就坐在模特的对面,可以全面而又清晰的观察任何他需要的细节。
来源:新浪大片
然而,尼克拉斯可没有这种观察的机会。一方面,大多数诺奖得主流传在外的照片很可能都过时几十年了,要不就是模糊到令人叹息;另一方面,为了保证诺奖得主的“获奖惊喜体验”——也就是在诺奖公布之前没有任何风吹草动可以让他们知道自己获奖了——尼可拉斯更不能唐突的去找诺奖得主询问照片。因此,这么多年以来,他都仅在诺奖公布前的数小时内悄悄得知获奖者的名字和照片,然后迅速而艺术的捕捉到一个个即将为世人瞩目的肖像。据说,他在40分钟内画出了文学奖得主Svetlana Alexievich的肖像。
2015年诺贝尔文学奖得主肖像画(左)和照片(右)
来源:caijing,manygoodtips
“我必须一直表现得最好,”他说,“这就像一场比赛。”
正在作画的尼克拉斯
来源:寰宇科学新观察
02
人物肖像绘画
尼克拉斯是怎么迅速而艺术的捕捉到人物肖像的呢?下面为大家介绍一下人物肖像绘画的“理论指导”:
[入门级]我们先勾勒出画像整体的轮廓——这相当于建立了一个整体坐标系;再确定眼睛、鼻子、嘴巴等面部器官或特征的相对位置关系;再刻画这些面部特征的具体形状;最后再交待一下明暗关系和细节刻画即可。
雅罗斯拉夫·穆德里的肖像绘画过程
来源:《50个人物肖像绘画》
[进阶级]然而真正迅速准确地捕捉人物肖像的画家,一定还了解人脸的内部结构。人像可以看作这些肌肉舒张、收紧或扭曲最终在面部的投影。只有对这些头部肌肉形状和结构有着深刻的理解,在给人像变换表情、角度的时候,才能更加游刃有余、锦上添花。
头部肌肉结构
来源:花瓣网
好了好了,既然讲到这儿了,有必要继续探索一下,关于不会画画的我们是否还有机会提前知道诺奖得主的消息用技术(即计算机)捕捉人物肖像呢?
03
动作捕捉技术
在人工智能时代来临之前,有一个行业已经迫不及待地开始发展动作捕捉技术(performance capture)了——那就是电影。有时候明明看的是动画片,为什么里面人物的动作表情自然的像真人一样?
《凡人修仙传》
来源:豆瓣
因为,的确是真人表演为动画角色提供了模板。演员会穿上一套在关节处安有反射标记点(Marker)的动作捕捉服,并由几十上百台摄影机对其进行拍摄,每台摄影机发送一束光线到标记点。之后,光线再反射回摄影机镜头,以一系列黑底白点的形式被翻录到胶片上。这些白点反映了安装在演员身上的反射器的位置。最后,计算机会对多台摄影机同时捕捉的画面进行比较,再在此基础上建立3D动作模型。
《极地特快》动作捕捉。 演员汤姆·汉克斯身着紧身衣,脸上贴有152个传感器。100多台摄影机同时拍摄,将其表演转化为数字图像并配上相应的卡通形象,汉克斯能同时扮演五个全虚拟角色。(电影版《达拉崩吧》?) 来源:bilibili@直线网
同样的,如果把这些反射标记点戳在脸上,则可以在精准捕获人物表情。比如《加勒比海盗2》里的戴维·琼斯,给自己的轮廓贴了一圈blingbling的传感器——
来源:百家号@呼噜爸爸聊生活
而绿巨人浩克则整了一脸“麻子”——
来源:百家号@呼噜爸爸聊生活
以上的动作捕捉技术被称为“光学式运动捕捉”。它的精度高,而且表演者活动范围大,表演场地不受限制,但成本比较高。此外,还有机械式、声学式、电磁式捕捉。
机械式运动捕捉依靠机械装置来跟踪和测量运动。成本低、精度高,但机械结构对表演者的动作阻碍和限制也较大。
声学式运动捕捉由发送器、接收器和处理单元组成。通过测量声波从发送器到接收器的时间或相位差,可以计算接收器的位置和方向。这种装置成本低,但运动捕捉会有较大的延迟,精度不够高。
电磁式运动捕捉的组成部分与声学式相似。不过发射源在空间产生的不再是声波,而是按一定规律分布的电磁场。表演者身上的关键部位安装10~20个接受传感器,这些传感器接收到信号后,可以记录六维信息——不仅可以确定空间位置,还能确定运动方向。而且精度高、实时性好。但它对环境要求严格——表演场地附近不能有金属物品,否则造成的电磁场畸变会影响精度。
啊,说了这么多,难道就没有一项技术,既能控制成本、又能达到精度要求,还能不受场地、动作的限制吗?
其实,以上技术和我们上一节“人物肖像绘画”中的[入门级]有相似之处——它们老老实实的记录了“表面现象”,却不用考虑人体、人脸的内部结构规律。然而,这些结构(包括人的骨骼、肌肉等)本身为标记点提供了额外的约束,包含了更多的信息。如果有技术可以考虑到这些信息,那么“直接识别人体特征的运动捕捉技术”便不再是梦想——
虚拟形象驱动。基于3D关键点和3D骨骼,通过普通摄像头实现的3D虚拟形象全身驱动。 来源:相芯科技
于是,AI来了!
04
人脸识别技术
无论什么方法技术,想要捕捉人脸,最关键的还是捕捉人脸“关键点”。人脸上的关键点就应该包含眉毛、眼睛、鼻子、嘴巴、脸部轮廓等的信息。
人脸关键点检测(也称“人脸对齐”)是指给定人脸图像,定位出人脸面部的关键区域位置。目前有很多种算法实现,这里仅介绍最基本的方法便于大家理解。其基本步骤为:人工标定训练集→对齐构建形状模型→搜索匹配。
1
特征点标记
需要一组包含n个特征点的、N幅人脸图像(多个人的不同表情和姿态)作为训练数据。特征点标记在脸的外部轮廓和器官的边缘,各个标定点的顺序在训练集中的每张照片上需要一致。得到的特征点集,可以看做一个2n维的向量(n表示特征点数量)。
来源:CSDN@Imcy
2
模型训练
首先需要“对齐”。对齐是指以某个形状为基准,对其它形状进行旋转、缩放和平移,使其尽可能的与基准形状接近的过程。然后对形状特征做PCA(主成分分析)处理,接着为每个关键点构建局部特征。
3
形状搜索
首先,计算眼睛(或者眼睛+嘴巴)的位置,做简单的缩放和旋转变化,对齐人脸;接着,在对齐后的各个点附近搜索,匹配每个局部关键点,得到初步形状;再用平均人脸(形状模型)修正匹配结果;迭代直到收敛。
通过以上步骤训练得到的模型,即可帮助我们获取人脸关键点的信息。这相当于学习了人脸的内部结构规律。在此基础上,可以轻松绘制出人脸的轮廓。此后,无论是磨皮还是美白,或者是人物动漫化,都相当于用不同的技法,对捕捉的人物肖像进行“艺术加工”。
磨皮主要是通过一个“保边滤波器”,对脸部非器官区域进行平滑处理。以其中的“导向滤波”为例,它根据图像纹理的复杂程度来调节相应的平滑程度。对于平坦区域近似于均值滤波,以处理其各种噪点;而在纹理复杂的区域则接近于原图,从而较完整的保存好轮廓区域的信息。
导向滤波示意图。其中p为原图,I为滤波器。
来源:AI科技大本营
而美白,则是通过将肤色映射到理想的颜色范围来实现。输入任意的RGB颜色值(Rin, Gin, Bin),都可以在颜色查找表中找到对应的颜色值,从而内插出相应的转换结果(Rout, Gout, Bout)。如下图所示左边为基准颜色查找表,右边为调色后的肤色美白颜色查找表。
颜色查找表。在左边找到输入的颜色,在右边对应位置找到输出的颜色,即可完成美白。 来源:AI科技大本营
此外,脸部器官的美型就是基于人脸关键点,识别出了不同的器官,然后对各个器官实施不同的形变调整策略(眼睛变大、鼻翼变小等等)。而美妆处理也需要基于人脸关键点,对嘴唇、脸部等不同部位采取不同的渲染手段。
而人物形象动漫化,或迁移到其它风格,一般来说,基于机器学习算法(比如对抗神经网络GAN)可以很好的实现,感兴趣的朋友可以继续探索,在这里就不再详述啦。
05
声音也想被捕捉特征
正当小编准备收工,这时候传来了一个声音——
(声音:“难道我不配被捕捉特征的吗?”)
在一篇无声的推送里,想要展示一段声音,那必然是这样的:
声音的时域波形图。上面为女声,下面为男声。
来源:知乎@DBinary
相比较肖像而言,声音的特征其实还是比较简单的。它没有眼睛鼻子耳朵嘴巴,而是一个又一个“循环出现的小波”——如上图框线中所示——这就是声音的内部结构“基波”。基波的时域长度被称作“基音周期”,其倒数为基音频率。在上图中,女声的基音周期约为2ms,男声的基音周期约为5ms。
现在很多变声软件都能实现“男变女”、“大叔变萝莉”了,而其核心原理,便是重建原始声音的声波形状,使之尽可能地接近目标声音的波形。这在“时域波形图”下很难实现,需要通过傅里叶变换得到“频域波形图”——
声音的频域波形图。左边为女声,右边为男声。
来源:知乎@DBinary
频域波形图展示了声音的更多细节。它由一系列亮线组成,频率从下往上依次增高,颜色越亮表示能量在这个频率越集中。最底部的亮线代表的是基音频率,这根线也最亮,说明基波的确是声音的主要特征。其往上数,依次是第一泛音、第二泛音……原来除了基波,还有别的频率的声波在刻画一个声音。
上面的两张图片说明,男声频谱图的亮线较女声的更加密集,且基音频率更低。这与男女声的频谱范围数据是一致的——男声频率范围更小,且频率更低。
男女声的频谱范围(单位:Hz)
来源:CSDN@jinbing
在捕获了原始声音和目标声音的特征后,传统的变声方法会通过改变采样频率、改变基音的位置来实现变声。但考虑到基波的样式会受到语气语调、嘴型、呼气量等多种因素的影响;同时,又因为发声方式不同而需要对原始声音进行合理的分类处理……传统的变声手段已经不足以应付时下的复杂需求了,因此,目前更加流行的方法,是通过机器学习对声音波形的规律进行学习和迁移。
不知道柯南的蝴蝶结是不是也更新了算法呢?
来源:百家号@清风读漫画
06
预祝一切顺利
好了好了该回到正题了——所以没错,技术的确可以捕捉到肖像、声音的基本特征。如果想要迅速准确地捕捉诺奖得主的肖像,不会画画,问题不大~
话又说回来,截至2019年,尼克拉斯已经画了近50幅肖像画了。在他看来,“在科学奖上,至少在我这几年里,他们更像是一类特殊的人。”他说,“我的意思是,所有这些人,以他们的智慧和他们所取得的成就,他们真的应该得到这个奖。还有一幅漂亮的肖像画。”所以他紧张疲惫,也倍感欣慰,接下来又是诺奖前的绘画比赛!预祝一切顺利!
如果,我是说如果,有朝一日,你也接到了一个诺奖的惊喜来电,你希望自己获得一张手绘的、还是计算机绘制的肖像画呢?
参考文献
2021诺贝尔奖_百度百科(baidu.com)
https://www.nobelprize.org/prizes/about/prize-announcement-dates/
为何诺贝尔奖获得者的头像是画出来的?诺贝尔首席画家告诉你答案 (baidu.com)
如何画好人像-肖像素描 (baidu.com)
Ярослав Мудрый биография кратко – интересные факты деятельности князя, личная жизнь и кратко о главном (obrazovaka.ru)
好莱坞动画电影技术进化史,这个需要了解下 - 哔哩哔哩 (bilibili.com)
运动捕捉技术及其应用前景 - 百度文库 (baidu.com)
CG和动作捕捉技术的发展-电影制作-电影学院 (1905.com)
人脸识别技术_百度百科 (baidu.com)
人脸关键点检测总结_imcy的博客-CSDN博客_人脸关键点检测
网红直播时的瘦脸、磨皮等美颜功能是如何实现的?(baidu.com)
柯南变声器的算法实现原理_Garvin的专栏-CSDN博客_变声器算法
变声技术_Orange-CSDN博客
变声导论-变声器原理及实现(核心算法实现篇) - 知乎 (zhihu.com)
变声导论-变声器原理及实现(基音分类与滤波系统实现) - 知乎 (zhihu.com)
特别鸣谢:平平无奇小叶榕
表情包来源:网络
编辑:蕉
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)