遇见Auraflow:一个真正的开源AI图像生成器,旨在击败稳定的扩散3

遇见Auraflow:一个真正的开源AI图像生成器,旨在击败稳定的扩散3
2024年07月23日 04:36 币界网平台

来源:币界网平台

币界网报道:

开源AI图像生成器之王的头衔有一个新的竞争者:Auraflow。上周由生成媒体公司Fal AI发布的Auraflow凭借其标准Apache 2.0许可证获得了越来越多的关注,与Stability AI用于发布Stable Diffusion 3(SD3)的限制性许可相比,这感觉就像一股新鲜空气。

支持者认为,开源项目可以快速加快竞争行业的开发周期,因为它使开发人员摆脱了许可和其他法律限制。在没有许可费的情况下,社区经常围绕有能力的开源项目形成,开发人员可以调整、修改、培训甚至从他们的工作中获利。

FAL AI在一篇博客文章中表示:“我们很高兴向您展示我们Auraflow模型系列的第一个版本,这是最大但完全开源的基于流的生成模型,能够生成文本到图像。”。这家总部位于旧金山的公司于2021年由分别在Coinbase和亚马逊工作的Burkay Gur和Gorkem Yurtsevenginers共同创立,该公司警告称,开源人工智能正处于危险之中。”他们说:“有些人甚至大胆地宣布开源人工智能已经死了。”别那么快!”

在四周多的密集计算时间里,Auraflow接受了严格的训练,包括对不同大小、分辨率(256x256、512x512和1024x1024)和纵横比(方形图像、风景、肖像等)的图像进行预训练。结果如何?GenEval得分为0.64,使用类似于DALL-E 3的快速增强管道后,得分提高到0.703。

用Auraflow创造的世代。图片由Fal AI分享

换句话说,当使用合成基准测试时,该模型提供了高质量的结果。然而,尽管Auraflow很好,但它仍然只是一个测试版,因为Fal认为它是0.1版,而不是稳定版。

不过,该模型是VRAM吞噬者。它需要一个具有大约12GB VRAM的强大GPU来运行其fp16版本——Stable Diffusion 3仅在6GB VRAM上运行良好,仅供参考。然而,该公司声称正在开发一种更易于管理的模型。Fal AI表示:“对于计算能力有限的消费级GPU卡来说,较小的型号或MoE可能更高效,因此请密切关注这款型号的迷你版,它仍然强大,但运行速度要快得多。”。

Auraflow可以在Huggingface上下载,也可以在ComfyUI中运行,ComfyUI管理器中也有一个自定义节点。

Auraflow代表了SD3的强大替代品,但它足够好吗?我们比较了两种基本模型,并测试了它们在各种艺术风格和提示下的表现。当我们分享我们的观察结果时,你可以判断谁最有可能赢得世界各地人工智能艺术家的心。

艺术风格和创造力

提示:“一幅宁静湖面上日落的详细画作,天空充满了橙色、粉色和紫色的色调,一个延伸到水中的木码头,一个人坐在码头尽头,手里拿着鱼竿,周围是高大的草和野花,整体风格是印象派的,笔触大胆,色彩鲜艳。”

听觉流:

    优点:大胆的笔触和鲜艳的色彩很好地捕捉了印象派风格。天空的色调表现得很好,营造出宁静的氛围。缺点:人和周围自然的细节可能更精确。木制码头和钓鱼可能缺乏明确的定义。钓竿没有处于自然位置。

SD3介质:

    优点:表现出对细节的高度关注,尤其是在人物和码头的刻画方面。整个场景更有条理,元素清晰,轮廓精致。缺点:印象派风格不太明显,笔触看起来比预期的更平滑、更逼真。

胜者:平局。Auraflow更接近印象派风格,但SD3更为详细和结构化。

现实主义

提示:“一张高分辨率的夜间繁华城市街道照片,霓虹灯照亮了现场,人们沿着人行道行走,汽车驶过,一个卖热狗的街头小贩,湿漉漉的人行道上的灯光反射,整体风格非常逼真,注重细节和照明,霓虹灯上写着‘解密’。”

听觉流:

    优势:用霓虹灯和湿路面上的倒影捕捉充满活力的夜生活。现场热闹非凡,灯光效果也做得很好。缺点:一些细节,比如街头小贩和行人,不够清晰,看起来很卡通,影响了超现实的质量。霓虹灯的标志不够清晰。它具有一定程度的文本理解能力,但不足以令人信任。(热狗标志旁边写着“解密”,但几乎看不清。)

SD3介质:

    优点:提供高水平的细节和清晰度,特别是在人物和物体的描绘方面。通过精确的照明和反射,可以很好地实现超现实主义风格。霓虹灯标志清晰,文字易读。缺点:场景可能看起来太乏味,缺乏繁华城市街道的自然混乱。没有街头小贩,只有热狗摊

获胜者:SD3 Medium提供了一个更详细、更逼真的图像,使其成为这个提示的更好模型。

插图

提示:“一只巨大的蜘蛛在丛林中追逐一个女人的手绘插图,极其可怕、痛苦、黑暗和令人毛骨悚然的风景,恐怖,模拟摄影影响的暗示,素描。”

听觉流:

    优点:成功营造出一种黑暗而令人毛骨悚然的氛围。带有草图元素的手绘风格很明显。缺点:蜘蛛和女人的细节可能不足,使场景不那么可怕和激烈。

SD3介质:

    优点:对蜘蛛和女人进行了非常详细和可怕的描绘。痛苦和恐怖元素更为明显。缺点:模拟摄影的影响不太明显,草图风格可能会被高水平的细节所掩盖。蜘蛛的一些肢体是不自然的

获胜者:SD3 Medium提供了一个更可怕、更详细的插图,使其成为这个提示的更好模型。

迅速遵守

提示:“一个超现实的数字艺术作品,描绘了一个漂浮在天空中的岛屿,岛上覆盖着郁郁葱葱的植被,瀑布倾泻到下面的云层中,岛中心有一座小城堡,连接其他漂浮岛屿的光桥,天空中满是五颜六色的热气球和神话般的生物,整体风格梦幻般,有梦幻元素和发光效果。”

听觉流:

    优势:通过发光效果和鲜艳的色彩,很好地捕捉到奇幻和梦幻的元素。浮岛和瀑布被描绘得很漂亮。这些桥是由光组成的,神话生物在场景中得到了体现。缺点:一些元素,如光之桥和神话生物,可能缺乏细节和清晰度。

SD3介质:

    优点:提供了一个非常详细和复杂的场景,具有更卡通的外观。弱点:这一代人的即时坚持较弱,它没有创造出光之桥,这些桥没有连接到其他岛屿,也没有神话生物。

获胜者:Auraflow捕获了提示中的所有元素,使其成为该提示的更好模型。

空间意识

提示:“一只狗站在电视上,屏幕上显示着‘解密’这个词。左边是一个穿着西装的女人,手里拿着一枚硬币,右边是一个机器人站在急救箱上。整体风景超现实。”

听觉流:

    优点:创造超现实和富有想象力的场景。构图和空间布局很有趣。缺点:狗、机器人和女人的细节可能不够精细,影响整体效果。急救箱的十字架漏进了第二个盒子和机器人本身。文本生成很差。

SD3介质:

    优点:对所有元素进行了非常详细和清晰的描述。通过精确的空间布局,超现实的氛围得到了很好的保持。整体场景不太现实。缺点:这个场景可能看起来不那么富有想象力,更直白。

获胜者:平局。SD3 Medium提供了更好的清晰度,使其成为此提示的更好模型。Auraflow也提供了这一代人的所有元素,并在空间理解方面表现出了良好的理解水平。

动漫和漫画

提示:“一位女忍者在日本古代与一位强大的武士作战,动漫、漫画,非常详细、丰富多彩、充满活力。”

听觉流:

    优势:很好地捕捉到动漫和漫画的动态和丰富多彩的元素。动作场面充满活力,引人入胜。它的风格非常详细,更像是封面插图。缺点:它缺乏附着力,只产生女忍者,而不注意武士对手。

SD3介质:

    优点:采用简单的二维漫画风格,使场景生动动态。缺点:颜色可能不那么鲜艳,影响整体活力。它未能捕捉到古代日本的风景。

获胜者:SD3 Medium提供了更详细和动态的描述,使其成为此提示的更好模型。两者都缺乏迅速遵守的关键要素。

结论

Auraflow擅长捕捉印象派、奇幻和异想天开的风格,而SD3 Medium更擅长提供细节、超现实和动态的场景。

这两个弱点都可以通过微调来调整,这就是法律战胜技术的地方。Auraflow的Apache 2.0开源许可证使其对微调者具有吸引力,允许在许可条款下免费使用、复制和分发,这与SD3不同,SD3在这方面更具限制性。因此,开始使用Auraflow可能更容易。但在此之前,这只是一个尚未实现的战略优势。

然而,Auraflow需要大量的VRAM才能运行,一些报告显示高达35 GB,远高于SD3,SD3只需要6 GB的VRAM。作为参考,亚马逊上24GB RTX 4090的价格高达1700美元,而能够运行SD3的6GB RTX3050的价格不到200美元。这是SD3目前相对于Auraflow的明显优势。

考虑到这一点,SD3 Medium目前是比较中更好的型号,由于其较低的硬件要求和可比的质量结果,服务于更广泛的用户群。

尽管如此,Auraflow仍展现出巨大的潜力。如果将来开发一个修剪(更小)或量化(更不精确)的版本来降低其硬件需求,Auraflow可能会成为一个强有力的竞争者,并可能通过其稳定扩散模型挑战Stability长期以来的主导地位。

特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。

海量资讯、精准解读,尽在新浪财经APP

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部