6B参数硬刚旗舰模型 阿里最新生图模型掀桌了

6B参数硬刚旗舰模型 阿里最新生图模型掀桌了
2025年11月28日 15:58 快科技

近日,阿里通义实验室低调推出的新一代模型Z-Image-Turbo迅速成为焦点。

数据显示,这张细节繁复的图像在RTX4090显卡上仅耗时2.3秒即渲染完成,而显存占用指针稳稳地停在了13GB。

这一成绩让无数围观的开发者和硬件发烧友瞬间安静了下来,因为这意味着一个参数量仅为6B的轻量级模型,在实测表现上不仅追平,甚至小幅超越了市面上众多参数量在20B以上的闭源旗舰模型。

官方测试表明,该模型仅需8步采样即可交付印刷级别的画质。

更为重要的是,它极大地降低了硬件门槛,消费级显卡RTX 30606G版本即可流畅运行,最高显存占用也被严格控制在16G以内。这对于广大并没有顶级计算资源的独立创作者而言,无疑是一次真正的算力解放。

在生成质量与语义理解方面,Z-Image-Turbo展现出了对中文语境的深刻洞察。它攻克了长期困扰AI绘画界的痛点,即对超长中文嵌套指令的理解能力。

无论是夜晚的阳光这种充满矛盾修辞的抽象描述,还是左手拿着奶茶、右手手机屏幕显示今日新闻这种涉及多物体、多空间关系的复杂指令,模型都能自动进行逻辑纠偏并精准呈现。

特别是在文字生成领域,它彻底告别了以往AI常见的鬼画符现象,无论是中文汉字还是英文字母,都能清晰准确地融合在画面之中。

从视觉细节来看,皮肤的毛孔纹理、玻璃材质的复杂反射、雨雾天气下的逆光效果以及电影级的景深处理,Z-Image均表现在线。凭借这些硬实力,该模型在权威的Elo人工偏好榜单上迅速攀升,被评测者抬进了开源世界的第一梯队。

这一系列性能飞跃的背后,隐藏着团队在底层架构上的大胆创新。Z-Image采用了全新的S3-DiT架构,这是一种单流扩散Transformer设计。

它打破了传统模型处理信息的壁垒,将文本语义、视觉语义与图像Token串联成一条单一的流进行处理。这种设计使得模型在将参数量砍到竞争对手三分之一的同时,推理效率却直接拉满。

除了基础模型,团队还顺手发布了Z-Image-Edit工具,让修改图片变得像聊天一样简单。用户只需输入一句自然语言,就能实现原图的换头改景,极大地丰富了社区玩家的可玩性。

虽然阿里方面尚未正式官宣是否会进行完全的开源,但目前的动作已诚意十足。

该模型已同步上架ModelScope与HuggingFace两大平台,相关的PullRequest代码也已合并进主流库diffusers的主分支中,开发者只需通过pip一行命令即可加载调用。

Z-Image的出现就像是一声发令枪,标志着图像生成赛道正式迈入了轻量高质的新时代。

当16G显存成为运行门槛的上限,Midjourney和Flux等商业巨头或许不得不开始重新思考其定价策略,用户会用脚投票选择那个既快又好,还跑得动的模型。

责任编辑:振亭
阿里新生
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片