IT之家 2 月 10 日消息,今日阿里千问宣布推出新一代图像生成基础模型 Qwen-Image-2.0。

据介绍,Qwen-Image-2.0 主要特色包括:
阿里云百炼上已开通 API 邀测,开发者也可通过 Qwen Chat(chat.qwen.ai)免费体验新模型。

IT之家附官方详细介绍如下:
我们在 AI Arena 进行了模型盲测,数据显示 Qwen-Image-2.0 作为一个生图编辑二合一的模型,同一模型在文生图和图生图基准中获得优越性能。


在我们介绍 Qwen-Image-2.0 之前,让我们先用一页 PPT 来回顾一下 Qwen-Image 的发展历程:

正如 PPT 展示的那样,在 Qwen-Image-2.0 之前,我们一直在两条支线进行探索:生图支线和编辑支线。在生图支线中,我们探索了图像生成的准确性和真实性。例如 8 月发布的 Qwen-Image 着重突出文字渲染的精准,而 12 月发布的 Qwen-Image-2512 则强化了细节质感和真实性。在编辑支线中,我们更多在功能性和一致性上进行了探索,从 8 月份的单图编辑,到 9 月份的多图编辑,再到 12 月份的一致性提升。而今天,我们发布的 Qwen-Image-2.0 成功的将两条支线合二为一,并且在同时在两个任务上取得了理想的结果。
那新模型从效果上有哪些特点呢?让我们就从这一页 PPT 说起。相信眼尖的读者能观察到,其实上面这一页 PPT 不是人工制作出来的。事实上,这一页 PPT 就是 Qwen-Image-2.0 直接生成的,生成用到的提示词如下:
分析这页 PPT 可以观察到,Qwen-Image-2.0 不仅可以生成发展历程的两个支线时间轴,准确渲染每一个文字,甚至还可以进行复杂的“画中画”绘制。例如对于“下方是一个组图,上面是戴帽子的小狗,下面是同一只小狗去除帽子的图”这段提示词的渲染中,模型不仅完成了渲染,甚至还做到了一致性。这种“画中画”的准确渲染使得模型可以更容易的制作专业的 PPT。
除了渲染的“准”,Qwen-Image-2.0 另一特点是渲染的“多”。模型支持 1k token 的指令,使得模型支持非常复杂的渲染指令,例如下面这个非常夸张的提示词:

有读者可能有疑问,如此复杂的提示词对于用户而言并不友好。而真相是,由于 LLM 蕴含的世界知识,获得详细描述的提示词其实并不困难。比如我们输入下面的例子:
我们可以将这个提示词输入 LLM 进行改写,借助其世界知识,得到如下提示词:
而这样的复杂描述恰恰是 Qwen-Image-2.0 所擅长渲染的,我们看一下成品图:

除了渲染的“准”和“多”之外,“美”也是 Qwen-Image-2.0 文字渲染的一大特色。这种“美”体现在字和图的排版布局上。例如,我们看下面这个例子:

在生成图和字的混合画面时,模型会更倾向于在空白处渲染文字,以达到不遮盖图像主体的目的。
此外,模型也支持多种字体,例如我们用宋徽宗赵佶的瘦金体来书写他创作的宋词《探春令 · 帘旌微动》:

再比如,我们可以利用《兰亭集序》来压测一下小楷:

从图中可以看到,Qwen-Image-2.0 除了极个别字,基本上达成了《兰亭集序》全文的小楷准确渲染。
除了“准”、“多”、“美”,Qwen-Image-2.0 在文字渲染上的另一特点是“真”。让我们来看下面这个提示词:

在上面例子中,模型渲染了多种介质上的字体:玻璃板上的,衣服上的以及杂志上的。这些不同的介质材质不同、摆放的空间斜度不同。Qwen-Image-2.0 准确的渲染了这些不同介质上的文字,使得生成图像真实感更强。
这种真实感也体现在当写实图片和文字同时出现时,模型会在准确渲染文字的前提下,保证真实性,一个典型的例子是电影海报:

除了“准”、“多”、“美”、“真”以外,Qwen-Image-2.0 在文字的渲染还有一个特点是“齐”。让我们看下面一个例子:

在上述例子中,我们可以看到,整个文字的排布是对齐的。而这种对齐,也体现在漫画中的文字,例如下面这个例子:

在每个漫画窗格中,而且对话框中的文字都是规整排版在对话框中,并且居中对齐,这使得每一个对话框看起来更加的自然。
再比如,在下方这个 OKR 信息图中,相似文字段落会自动对齐:

回顾一下,刚刚介绍了 Qwen-Image-2.0 在文字渲染上的 5 大特性:“准”、“多”、“美”、“真”、“齐”。除此之外,Qwen-Image-2.0 在非文字渲染的例子上,写实性也得到了大幅度提高。比如下面这个例子:
Qwen-Image-2.0 建模了多种绿色,自然细节也精细了精细的刻画。

除了文生图以外,Qwen-Image-2.0 在图像编辑中也获得了增强。令人兴奋的是,由于这是一个生图编辑二合一的模型(或者说 omni 的模型),文生图带来的文字渲染和真实质感的增益也带给了图像编辑。这种增益对于编辑而言是全方面的。例如由于文字渲染的增强,模型可以直接在一幅图片上题词:


这一增强可以带来很多有趣的应用,例如可以上传任意照片,并且让模型在上面题诗。比如下面这个例子:


除了文字之外,编辑的真实质感得到了显著提升,例如:


我们再看一个双图编辑的例子:



再比如一个跨次元编辑的例子:



这次的 report 比较长,感谢你看到这里!最后,我们分享一下千问街道图片的提示词:

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)










