最近,这几位 TED 演讲者,在外网形成了病毒式传播,然而,他们竟然全都不是真人?!答案揭晓后,五百万网友简直惊掉下巴。这 5 张图里,你能发现几个 bug?
![](http://n.sinaimg.cn/spider20240811/742/w1080h462/20240811/0703-01f7e73be04e305ab0b13b242e4d93c7.png)
最近,这些「TED 演讲者」在外网火得一塌糊涂,堪称病毒式传播。仔细看看,你能发现什么问题吗?
![](http://n.sinaimg.cn/spider20240811/185/w1049h1536/20240811/1138-c31e0dd91d1edf1d38c1d5abf12c12be.png)
![](http://n.sinaimg.cn/spider20240811/448/w832h1216/20240811/6811-119ce16bf198e8f28787c6ca22966cdb.png)
![](http://n.sinaimg.cn/spider20240811/0/w800h800/20240811/acf5-25c1d3f0c8d758810c47b4f5bee0a5ac.png)
![](http://n.sinaimg.cn/spider20240811/448/w832h1216/20240811/8b51-e7cb8d40aa83fbf2592ef6bb1159136d.png)
![](http://n.sinaimg.cn/spider20240811/448/w832h1216/20240811/7d7b-3b141a617c7d344a277044fa3bf9d7e6.png)
答案揭晓 —— 这五个人中,没有一个是真人!
![在线寻人的小哥要哭了](http://n.sinaimg.cn/spider20240811/427/w1010h217/20240811/cbd2-96346595947158c04cadc3323ac1cb42.png)
如此逼真,几乎毫无破绽,这种级别的生图 AI 直接让网友们惊掉下巴。甚至连 AI 识别软件,都认不出来这是 AI 生成的图。
![](http://n.sinaimg.cn/spider20240811/793/w1080h513/20240811/5fe8-33d1e4298b5891f068bf92e3b5786a7b.png)
「看起来真实,难道不是因为本来就是真实的照片?」
![](http://n.sinaimg.cn/spider20240811/430/w930h300/20240811/11bd-0898928be526bdc3572f1d24161f3f1a.png)
「没有一张是真人吗?简直令人毛骨悚然!」
![](http://n.sinaimg.cn/spider20240811/425/w926h299/20240811/3883-c4d578b933acb3eee6d240af7cb80256.png)
网友锐评:这已经超越了恐怖谷,到达了「超真实谷」。
![](http://n.sinaimg.cn/spider20240811/381/w921h260/20240811/8c22-af482311963424e7c5d4f0f9bcf21a16.png)
短短十几个小时,分享这张图片的帖子,在推上的观看人数已经破了 500 万。
![](http://n.sinaimg.cn/spider20240811/789/w829h1560/20240811/7988-e3937f14405924ed7809ed358853f0c4.png)
随后,作者也被扒了出来 —— 他就是 Stable Diffusion 团队的前成员 Leo Kadieff。他揭秘道:这些 TEDx 演讲者,都是用最新的 Flux 真实版 LoRA 制作的。
以往的 AI 生图,人眼多少都会看出违和感,而这次的图片如此逼真,正是靠 LoRA 技术改进了模型,才大大增加了真实感。
并且,作者介绍说,这个工作流还有一个好处,就是大大简化了复杂的提示词。
这个消息,简直让提示词苦手们狂喜。
这个小小的 22MB 文件,就可以让我们省去麻烦,不必再在每个提示词中写一堆与真实性相关的 Token。
一句「一张 RAW 超现实主义照片,UHD,8k」,足矣。现实主义爱好者,绝对爱死了这个工具。
![](http://n.sinaimg.cn/spider20240811/669/w951h518/20240811/aef1-1acd41af4da8ae9135a26c0fb5ed3b31.png)
作者直言:我们还需要对现实模型进行微调吗?
这些图像是 Flux+LoRA 的原始输出,未经过任何放大或后期处理
你需要对应的「RealismLora」文件,以及 ComfyUI 工作流
![](http://n.sinaimg.cn/spider20240811/348/w1000h148/20240811/1d55-4d358dd1819395bb5af0dad716d5ffa2.png)
Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main
ComfuUI:https://we.tl/t-zrC5tPFG17
真实版 LoRA,效果拔群
从下面这两幅图中不难看出,用 LoRA 和不用 LoRA 的效果对比,果然十分明显。
![](http://n.sinaimg.cn/spider20240811/431/w1080h151/20240811/432e-893c123fc36684ec66a62cd09d3e4cec.png)
![](http://n.sinaimg.cn/spider20240811/15/w1080h535/20240811/c2cc-cc2dad72bcf1732aaf1b5975d406186f.png)
![](http://n.sinaimg.cn/spider20240811/275/w1080h795/20240811/b8b1-8bc0c04e25ba3173e81b4d5f45c345e1.png)
网友已玩嗨
与此同时,「TED 演讲者」的分享者 Kyrannio,也尝试用 Midjourney 复刻了一波。
![](http://n.sinaimg.cn/spider20240811/329/w918h211/20240811/3913-fa2e0bc3d3ff2b5379312af9113dfe11.png)
最初的提示词如下:
一位女性在舞台上发言,来自谷歌,白色背景,企业标志被模糊处理,科技会议 --style raw --v 6.1
![](http://n.sinaimg.cn/spider20240811/95/w1080h615/20240811/3440-2682e4ff95f2ef08f80f3e1fb4b42b6c.png)
![](http://n.sinaimg.cn/spider20240811/105/w1080h625/20240811/27fc-6f1cb61da3feecb987957bed14d40082.png)
可以看出,生成效果还不错,但与 Leo Kadieff 生成的图片差距依然很大。
![](http://n.sinaimg.cn/spider20240811/361/w908h253/20240811/80f7-3dd7f25f9f586ee4c587dab28ba5acb0.png)
接着,博主又进行了一些改进:
一位年轻女性微笑着在舞台上发言,来自谷歌,白色背景,企业标志被模糊处理,科技会议 --style raw --v 6.1
![](http://n.sinaimg.cn/spider20240811/411/w918h293/20240811/4c23-00ca8a643ac6532e330b6bff2b456ed4.png)
并在经过多次生成之后,试出了最为接近的结果:
![](http://n.sinaimg.cn/spider20240811/789/w1080h509/20240811/b894-86a5b29780ae91825044d64d4e7c2871.png)
![](http://n.sinaimg.cn/spider20240811/23/w1080h543/20240811/b8dc-e45f7d162bedb38d0216108c2e907c1a.png)
![](http://n.sinaimg.cn/spider20240811/1/w1080h521/20240811/aace-dc2869dc536833794425a86e97bd2885.png)
与此同时,随着谷歌 Imagen 3 公开可用,网友们也在第一时间拿着这套 prompt 进行了尝试。
一时间,全网都掀起 AI 生图的热潮。
![](http://n.sinaimg.cn/spider20240811/620/w1027h393/20240811/784c-e137c4db382faf5f24d737bae660f97c.png)
![](http://n.sinaimg.cn/spider20240811/182/w1080h702/20240811/2f58-3451289af58caa13634a893fdaff171d.png)
![](http://n.sinaimg.cn/spider20240811/276/w1022h854/20240811/a5da-485b17e8257bbd2478819addb9af3dd7.png)
Imagen 3 全员可用
没错,正如刚刚提到的,谷歌最强文生图模型 Imagen 3 已经正式开放可用了。
prompt:Photo of a man holding a sign that says: "Imagen Is Now Almost As Good As Midjourney" in New York City.
![来源:Risphere](http://n.sinaimg.cn/spider20240811/448/w1024h1024/20240811/77f7-7562e30db3f0f0b637b307719014ab68.png)
网友 chrypnotoad 表示,自己还没见过哪个 AI 能把阿喀琉斯之盾做得这么好的!
![](http://n.sinaimg.cn/spider20240811/414/w1017h197/20240811/8eda-552c58ca2ef96e1836bc91e83a8a3cd3.png)
能轻松 hold 住如此复杂的 prompt,Imagen 3 果然不能小觑。
![](http://n.sinaimg.cn/spider20240811/227/w1080h747/20240811/4aee-eaee96b3cd7d8d2b5bf460b2ec2afd6a.png)
知名博主「歸藏」在体验之后表示:
生成的内容准确但图片美观度很差。只要涉及人物,你就得仔细斟酌提示词写法,不然大概率无法出图。
好在,他们在提示词的交互上做得很好:
LLM 会分析提示词类型,并且给出相关词语你可以直接切换。
![来源:歸藏](http://n.sinaimg.cn/spider20240811/135/w1080h655/20240811/a4f7-bd19f8adff95a43770b3a41f7f7afc15.png)
除了直接生成之外,Imagen 3 还支持局部重绘功能,用画笔和提示词对图片进行编辑。
![来源:歸藏](http://n.sinaimg.cn/spider20240811/711/w900h611/20240811/130d-3c332130fa3c7d8a988f0feb7287d71d.png)
当然,几家顶流文生图 AI 的 PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1 [pro]。
![](http://n.sinaimg.cn/spider20240811/345/w1013h932/20240811/e2b8-13b4234986e95f1d53b382be93e1b252.png)
异色瞳的亚洲女性。
![](http://n.sinaimg.cn/spider20240811/28/w1080h548/20240811/3cc5-29d38098c2be20141afe943118e51c50.png)
美洲原住民。
![](http://n.sinaimg.cn/spider20240811/48/w1080h568/20240811/6b98-18fd63447b94b7b3813cbb6b5f68b93a.png)
有美人痣的南亚妇女。
![](http://n.sinaimg.cn/spider20240811/29/w1080h549/20240811/ccf6-3a6ea7fab7a65a0ac9379983e72fcc35.png)
疯狂的艺术家。
很遗憾,谷歌大概因为安全设置过于敏感,并不能生成这个 prompt……
![](http://n.sinaimg.cn/spider20240811/29/w1080h549/20240811/b89a-4bbf1eb251a29d877b941a344f6ab312.png)
留着八字胡的高加索老人。
![](http://n.sinaimg.cn/spider20240811/29/w1080h549/20240811/42d4-df3a4fcd1368dbf5b4076246f6164d32.png)
Runway 也来蹭了一波,但…
趁着这股热度,Runway 创意总监 Nicolas Neubert,还用自家的 Gen-3 Alpha 生成了一段视频。
![](http://n.sinaimg.cn/spider20240811/386/w1014h172/20240811/980b-8d7d023830a7a5ccc35299c53bbde331.png)
果然,AI 图片变成视频后,效果依然杠杠的!
![](http://f.sinaimg.cn/spider20240811/243/w403h640/20240811/c102-giff3fc871f21f3fc05a27487adb5030cb7.gif)
而这个帖子,也同样引起了轰动。
![](http://n.sinaimg.cn/spider20240811/402/w1080h122/20240811/8a3e-5e18670828974cb4be8edea82fe331a9.png)
网友赞叹道:从一年半前惨不忍睹的威尔・史密斯吃意面,到今天这个程度,进步可谓是疯狂的。
![](http://n.sinaimg.cn/spider20240811/663/w846h617/20240811/5fe2-dfbe8d7e23053df28bfae013da671cb3.png)
同时,也有火眼金睛的网友发现,这个视频依然有一些细微的 bug。
比如人的舌头不会动,牙齿有些弯曲、扁平,第 4 秒时左臂出现了奇怪的斑点,还有 Google 标志处的 bug,也非常明显。
![](http://n.sinaimg.cn/spider20240811/699/w519h180/20240811/cce9-eb5a3e839f216cc505bef698d724ece5.png)
![](http://n.sinaimg.cn/spider20240811/471/w763h508/20240811/e563-15571c8b083fc2ff630473a57c5e45c1.png)
如果看得再仔细点,会发现所有的阴影都很不自然,比如麦克风的阴影。还有东西接触的地方,很多线条是乱的。
![](http://n.sinaimg.cn/spider20240811/345/w808h337/20240811/30ff-846e8e015e135369adf8c066dfa9aef0.png)
嘴唇的动作也不自然。
![](http://n.sinaimg.cn/spider20240811/740/w558h182/20240811/f53c-41886516da1035fc53c9bffcc78b734e.png)
眼睛看起来仍然没有灵魂。
![](http://n.sinaimg.cn/spider20240811/197/w838h159/20240811/2242-3ba27c828f72376650248e42fc9fdc74.png)
总的来说,相比于 AI 生图,目前 AI 视频的 bug 显然要多得多。
![](http://n.sinaimg.cn/spider20240811/181/w796h185/20240811/dabc-2fbcd1cd0870afe9f1bae7a89d55dc88.png)
背后的原因还是在于,AI 根本不理解人类的舌头、头发、眼睛究竟是什么东西。接下来的 AI,还是要学会人体解剖和物理学才行。
![](http://n.sinaimg.cn/spider20240811/663/w739h724/20240811/7cb7-31ec542de8cfb37677a267177f754089.png)
而且,在文生图这块,Runway 就要差得多了。
![](http://n.sinaimg.cn/spider20240811/135/w1036h699/20240811/292f-22cfc59229688c9b0a30111f4e81f504.png)
SD 一作携原班人马创业,一出手就是王炸
说回到 FLUX.1,其实在 8 月初的时候它就引起过一波热议。
Stable Diffusion 一作、Stabililty AI 核心成员 Robin Rombach 下场创业,官宣成立 Black Forest Labs。
祭出的首个产品 FLUX.1 系列模型,效果直接秒杀 Midjourney、DALL-E 和 Stable Diffusion!
![](http://n.sinaimg.cn/spider20240811/329/w1080h849/20240811/11ef-0e8a1d43d71b1d4109d273eaf2aa5ccb.png)
根据官博的介绍,FLUX.1 在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了 SOTA。
尤其是 FLUX.1 [pro],经过测试在一众文生图模型中拔得头筹。
![](http://n.sinaimg.cn/spider20240811/4/w1080h524/20240811/36c2-e08e546b3907c37c671904cafd4024d2.png)
视觉质量、提示词遵循、尺寸 / 纵横比变化、排版和输出多样性
![ELO 得分](http://n.sinaimg.cn/spider20240811/207/w1080h727/20240811/7d65-5637338df5ad596d14520d6b6b266ff5.png)
为了在可访问性和模型能力之间取得平衡,FLUX.1 有三种变体:FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]:
- FLUX.1 [pro]:FLUX.1 的顶级版本,提供最先进的图像生成,具有一流的提示词跟随能力、视觉质量、图像细节和输出多样性。
- FLUX.1 [dev] 是一个开放权重的指令蒸馏模型,用于非商业应用。由于是从 FLUX.1 [pro] 直接蒸馏而来,因此 FLUX.1 [dev] 不仅获得了强大的质量和提示词跟随能力,而且比同规模的标准模型更加高效。
- FLUX.1 [schnell] 是最快的模型,专为本地开发和个人使用而设计。(schnell 在德语中就是快的意思)
![](http://n.sinaimg.cn/spider20240811/771/w1080h491/20240811/94a8-01329ad0f55954f4be088f6c11b74a49.png)
值得一提的是,所有 FLUX.1 模型都基于多模态和并行扩散 Transformer 块的混合架构,参数规模为 120 亿。
其中,团队通过构建流匹配(flow matching)改进了之前的扩散模型,并且通过结合旋转位置嵌入(rotary positional embeddings)和并行注意力层提高了模型性能和改进硬件效率。
团队成员
扒开 Black Forest Labs 主页,可以看到团队共有 15 位成员。
![](http://n.sinaimg.cn/spider20240811/521/w1080h241/20240811/733b-c1a07343b65da334b79b7d585496cdb3.png)
创始人正是老熟人 Robin Rombach。
![](http://n.sinaimg.cn/spider20240811/450/w225h225/20240811/6dab-1f978abd6ad8ce0992ea74e0684cd212.png)
Stability AI 曾收购了 Robin 的 Latent Diffusion 模型,并聘请他成为首席科学家。
在 Google Scholar 网站上,Robin Rombach 参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了 9000 多次引用。
![](http://n.sinaimg.cn/spider20240811/35/w1080h555/20240811/cc04-6e2004c036ca6b9451c37cbc1e089328.png)
期间他领导了全球著名文生图开源项目 Stable Diffusion 系列,这也是全球下载最多、使用最广的开源大模型之一。
![论文地址:https://arxiv.org/ pdf/2112.10752](http://n.sinaimg.cn/spider20240811/503/w1080h223/20240811/8266-812ea24cb15d1d40e5f0b843e96e2866.png)
Andreas Blattmann、Patrick Esser、Dominik Lorenz 三人皆是 SD 论文作者,也是 Black Forest Labs 创业团队的新成员。
除了 Bjorn Ommer,可以说 Robin 将 SD 核心元老全都带走了。
《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收 Robin 离职前发表的最后一篇论文。
![论文地址:https://arxiv.org/ abs / 2403.12015](http://n.sinaimg.cn/spider20240811/680/w1080h1200/20240811/cbcb-7aeb18b68772dc45b234c40cfc588103.png)
值得一提的是,在这篇论文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser 也参与了其中。
除此以外,新团队曾经的创新成果包括创建 VQGAN 和潜在扩散(Latent Diffusion)、用于图像和视频生成的 SD 模型(SD XL 、SVD)以及用于超快速实时图像合成的对抗扩散蒸馏(Adversarial Diffusion Distillation)。
![](http://n.sinaimg.cn/spider20240811/480/w240h240/20240811/1b48-e918057aafc6323701382b3f974848b3.jpg)
看来,AI 生图和视频的进步速度,还在不断加快。再过一年,我们能看到的 AI 图片和视频,将是惊人的。
参考资料:
https://x.com/koltregaskes/status/1821984829065588891
https://x.com/doganural
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)