Qwen VLo 效果实测

2025年6月26日,Qwen团队发布了Qwen VLo,一个定位是“unified multimodal understanding and generation model”的模型,包括多模态的理解和生成。

根据官方的介绍博客,Qwen VLo包含下面的功能:

  • 图像生成:文生图、2D卡通图像转真实图像
  • 图像编辑:例如修改某个主体、更换颜色、更换风格
  • 图像算法能力:例如检测框、canny 算子、图像分割结果

经过一段时间的测试,我个人的总结是:

  1. 生图能力:效果比较差,感觉是一两年前生图模型的水平
  2. 图像风格转换:效果比较稳定,生图有美感
  3. 图像编辑能力:还算可以,有一些case做不好
  4. 检测框:能稳定生成,单人没问题,多人场景下也不算很准
  5. 图像分割:没有成功
  6. canny算子:细节更丰富,但有一些地方与原图并非完全对齐

再单独吐槽一个点,刚开始没找到Qwen VLo的入口,看微信公众号文章的留言才发现,并不是以一个模型列在可选模型列表中的,而是不管选择什么模型,只要做生图任务或者上传图片进行对话,都调用Qwen VLo。这种不遵从用户已有习惯的设置,随意而为的做法,用户体验很差,要是没看到留言回复,真的不知道怎么用。

下面详细展开我上面总结中各个条目的实际结果。

1. 生图

用最简单的提示词来生成图,下面是一些结果和对应的提示词。

Prompt: 画一个哪吒

Prompt: 画一个哪吒

Prompt: 画一个哪吒骑在龙上的照片

Prompt: 画一个哪吒骑在龙上的照片

没有处理好”骑”这个动作。

Prompt: 生成一个大象和巨龙战斗的图片

Prompt: 生成一个大象和巨龙战斗的图片

大象长翅膀了??

Prompt: 画一幅李白和杜甫打篮球的图片

Prompt: 画一幅李白和杜甫打篮球的图片

非常奇葩的效果:自动将上一轮的图像用上了,虽然提示词根本没有提上一轮的内容。

新开一轮,同样的提示词,结果如下:

Prompt: 画一幅李白和杜甫打篮球的图片

似乎看到了两三年前生图模型的效果…

看看同样提示词,豆包的生成结果:

豆包网页版效果,Prompt: 画一幅李白和杜甫打篮球的图片

数数也数不对:

Prompt: 画一幅包含四个苹果的静物图

总结:感觉Qwen VLo的画图还是玩具级别,距离真实场景下的使用,还差比较远。

2. 风格转换

尝试了三组图像风格转换,包括吉卜力风格、3D风格、像素风格。

输入图像

Prompt: 将图片变成吉卜力风格

Prompt: 将上面的图片转换成3D风格

输入图像

Prompt: 转换成吉卜力风格

提示词:转换为3D风格

输入图像

Prompt: 转换为真人照片

Prompt: 转换为吉卜力风格

Prompt: 转换为3D风格

Prompt: Prompt: 转换为像素风风格

结论:吉卜力风格,3D风格和像素风格生成的图片还是挺不错的,草稿转真人恐怖谷拉满。

3. 图像编辑

基于这张著名的合影做了一些有意思的图像编辑功能:

输入图像

图像上色:

Prompt: 给图片上色

上色对照片的内容改变太多,而且衣服一部分蓝色,一部分黑色,也有点奇怪。

给这些物理学大佬一人戴一个博士帽如何?

Prompt: 给所有人加一顶博士帽

结果一般般,有一些加了博士帽,效果还可以,有一些没有加上去,图像的内容还是变了,爱因斯坦都不像了。

每个人戴一个诺贝尔奖牌:

Prompt: 给每个人的脖子上挂一个诺贝尔奖牌

这个奖牌效果还可以,除了有一个大佬头变大了很多,有点鬼畜,但三排变成了两排,而且画面变化太大了,人物都没一个认识的了……

露齿微笑:

Prompt: 让画面中的每个人都露齿微笑

这个效果还行.

头变成流汗的emoji:

Prompt: 把每个人的头都变成流汗的emoji

怎么都变成了外星人,还有一个拿着头。。

变动物怎么样?

Prompt: 把每个人的头都变成一种动物

左上角的🦁亮眼,别的都是什么呀…

结论:图像编辑整体差强人意,一些需求会出现鬼畜效果。对于这种真人照片,致命问题是图像变化太影响ID的稳定性了,可能对于卡通图中的形象,画面变一点还能接受,真人图的细节变化,可能就完全像是换了一个人。

4. 检测框

Prompt: 将图片中的人用bbox框起来

有时候Prompt会失效:

5. 分割图

分割功能我还没成功实现过,尝试了几次,要么出来文本回答,要么直接返回一张原图

6. Canny效果图

上面的小狗图片得到的Canny结果如下:

Prompt: 给出图片的canny算子结果图

用OpenCV计算得到的结果如下:

可以看到,并不是完全一样,AI生成的Canny细节更丰富,但一些地方并不是与原图完全对齐(例如鼻子),不知道对结果有多大影响?

7. 其他问题

多次对话后,指令遵循能力下降:

新开一次会话就可以了:

8. 总结

总体来说,比较有意思的是风格转换和图像编辑功能,生图功能不知道为什么做的这么差,检测框和Canny还行,分割图没试出来。

这个模型的发布,说明Qwen团队也尝试对偏向应用的生图、编辑图功能进行探索,但相比豆包等长期积累,有大量用户体验上优化、长期生图效果迭代的选手,目前这个模型还不能让人满意。