移动客户端

新浪科技> 数码 > 正文

FLUX“官方版 ControlNet”来了：景深轮廓更精准控制，共四款官方工具一齐上线

FLUX“官方版 ControlNet”来了：景深轮廓更精准控制，共四款官方工具一齐上线

2024年11月22日 12:46 IT之家

新浪财经APP 缩小字体放大字体收藏微博微信

“最强绘图模型”FLUX 深夜更新，一口气连发四款工具！

用官方的话说，这次的更新给 FLUX“带来了更多的控制方式和可操作性”。别看官方说得简单，实际效果可是要震撼得多。

只用一个相同的轮廓，FLUX 就能变幻出各式各样不同风格的画作：

或者传一张图，不用提示词就能让人物做出各种不同的动作，同时保持角色一致：

此外，还可以对现有的图像进行扩展，不断延伸画面：

具体来说，此次 FLUX 一共发布了这四款创意工具：

编辑工具 fill，可以修改画面细节或扩展画面；
轮廓控制工具 Canny，类似 ControlNet；
景深控制工具 Depth，类似 ControlNet；
变换工具 Redux，可改变人物动作、画面视角 / 风格。

这些工具分为 dev 和 pro 两个版本，dev 版的代码和模型权重均已开放下载，pro 版也通过 API 提供。而且支持创作者常用的 ComfyUI，能够简单整合进绘画工作流。

有网友评论说，这是一件大事，因为 BFL（FLUX 开发团队）终于有了自己的 ControlNet。

还有人表示，这些工具解锁了（AI 绘图的）可操纵性，是创意绘图的 game changer。

四款工具一齐上线

首先来看 fill，它可以对画面中包括文字在内的任意细节进行编辑或修复，比如图像中人物的衣着，或者加入新的元素。

此外还支持 outpainting，可以将图像扩展到原始画面之外。

测评结果上，FLUX 的官方工具，和第三方 FLUX 工具 Alimama Creative 体现出了优势。

同时也战胜了之前来踢馆的 Ideogram，对比 SD 1.5 的类似功能则更是优势明显。

以文字修改任务为例，测试中对下图“Beers”部分进行了圈选，并要求修改为“Spaghetti”。

可以看出，官方 Fill 工具效果最为自然，Ideogram 也还不错，但仔细对比会发现 FLUX 的文字粗细更加接近画面中的其他文字。

第三方插件则并未匹配原始字体，至于 SD 1.5 那更是惨不忍睹。

再来看看非文字的效果，这项任务需要在图像指定的位置（左侧）加上模糊（blurry）的小猫照片。

下图中的顺序和前面一样，可以看到除了左上角的 FLUX fill 工具之外，都没有满足“模糊”这个要求。

单看的话画面，第三方插件和 Ideogram 也都还可以，不过第三方插件“画蛇添足”地给原图的第一个木块加上了两个点。而 SD 1.5，似乎在保持着一种稳定的抽象。

第二个工具 Canny，相当于一个轮廓 ControlNet，通过边缘检测来精准地控制图像转换过程中的结构。

第二个工具 Canny，相当于一个轮廓 ControlNet，通过边缘检测来精准地控制图像转换过程中的结构。

这次对比的对象包括第三方工具 InstantX，以及 SD 1.5 和 SDXL，结果 FLUX.1 Canny 的成绩优势明显。

当然这轮测试是直接把提取好的轮廓给模型，难度相对于让模型自己提取有一点降低。

利用这样的一个轮廓，每个模型或工具需要生成 6 张不同的图片（每个 prompt 两张）。

下图中，第一行为 Flux.1 Canny（Pro）的作品，第二行为 InstantX，第三第四行分别是 SD 1.5 和 SDXL。

从左到右六张图片的 prompt 依次是：

1&2：a robot made of gold（一个金子做的机器人）
3&4：a robot made of brown and white clay（一个用棕色和白色黏土做的机器人）
5&6：a white robot in front of a gray background（一个白色的机器人在灰色的背景前方）

对于“金子”的部分，FLUX.1 Canny 第一次画出来的效果是质感最好的，而且 FLUX.1 Canny 质量稳定性保持得是比较好的。

单就这个任务而言，SD 1.5 的作品再次成为了最显眼包的一组。

接下来是 Depth，它和 Canny 一样都是类似 ControlNet 的存在，顾名思义控制的内容是景深。

这次没有再把 SD 拉过来，参与对比的是两款第三方插件，还有 MidJourney。

在一项测试任务中，提取之后的景深关系是这样的：

下图中，第一行对应 FLUX.1 Depth（Pro），第二、三行对应 Jasper 和 Shakker 两款第三方工具，最后一行对应 MidJourney。

从左到右，提示词依次是：

1&2：mountain cabin, anime style（山间小屋，动漫风格）
3&4：1950’s aesthetics（上世纪 50 年代的美学）

这里就不一一点评细节了，但 FLUX.1 Depth 的作品是最忠实于控制条件中景深关系的一组，而且也不像 MidJourney 那样出现了画面割裂的情况。

最后是 Redux，给定输入图像，可以让 FLUX 在其基础之上进行“重新设计”，变换出各种不同的图片。图像的背景、角度、画风都可以调整，同时在变换过程中保持角色一致。

如果实在没灵感，也可以只把图丢给模型，不用输入提示词，让模型自行发挥帮你转换。

相比于 SD 1.5 和 SDXL，领先优势十分明显。

比如这张图中有只小猫正抱着一条鱼奔跑，测试过程当中没有输入提示词。

每个模型各自生成了三张图，由上到下分别是 FLUX.1 Redux（Pro）、SD 1.5 和 SDXL。

在 FLUX 作品中鱼和猫的长相都和原图保持了一致，在细节动作时做出了变化，而 SD 1.5 生成的图像里猫和鱼都已经完全变了样子。

到了 SDXL 这里，好家伙，不要说风格了，猫和鱼直接陷入了“量子纠缠”，在三张图中都没有同时出现。

总之对比一圈之后发现，FLUX 这次上线的四款官方工具，不管是相对第三方工具还是相对于其他模型，都十分扛打。

四款工具都是支持 pro 和 dev 两个版本（其中 Canny 和 Depth 还分完整版和 LoRA 版），dev 版本代码和模型权重都是开放下载，pro 版则要通过 BFL API 来使用。

另外，这四个工具还会通过五家 FLUX 合作的模型平台提供，这五家分别是 fal（L 的小写）.ai、Replicate、 Together.ai、Freepik 和 krea.ai。

公告地址（含代码 / 权重 / 测试集下载）：

https://blackforestlabs.ai/flux-1-tools/

参考链接：

[1]https://www.marktechpost.com/2024/11/21/black-forest-labs-release-flux-1-tools-a-suite-of-ai-models-designed-to-add-control-and-steerability-to-the-base-text-to-image-model-flux-1/
[2]https://x.com/fofrAI/status/1859621532550480342
[3]https://x.com/fofrAI/status/1859618518863323591

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

关键词 : 图像

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部