一、通义千问、通义万相的区别

千问和万相模型均为阿里云推出的模型,千问是语言模型,万相是视觉生成模型,以下是它们的具体区别:

  • 模型类型

    • 千问系列模型是语言模型,如Qwen3系列,主要用于处理文本相关的任务,如文本生成、问答、代码编写等。
    • 万相系列模型是视觉生成基座模型,如Wan2.1、Wan2.2等,主要用于文生视频图生视频任务。
  • 应用场景

    • 千问模型更侧重于专业领域或特定主题的交流,通过问答形式,为用户提供深度的学习和交流机会。
    • 万相模型适用于各种需要视觉内容生成的场景,如广告制作、影视制作、游戏开发等,帮助用户快速获取所需的视觉信息。

二、Qwen 模型

在这里插入图片描述

1、Qwen3-Next 模型系列
模型名称 功能与特点概述
Qwen3-Next-80B-A3B-Instruct 仅支持Instruct(非思考)模式,并且不会在其输出中<think></think>生成块。
Qwen3-Next-80B-A3B-Thinking 仅支持思考模式。为了强化模型思考,模型输出仅包含 </think>,且不包含明确的开始<think>标签。Qwen3-Next-80B-A3B-Thinking可能比其前身生成更长的思考内容
2、Qwen-Image 模型系列
模型名称 功能与特点概述
Qwen-Image-Edit 图生图模型,支持双语(中文和英文)文本编辑,可直接对图像中的文本进行添加、删除和修改,同时保留原始字体、大小和样式。图片中的文字生成效果非常好
Qwen-Image 文生图模型,支持双语(中文和英文)文本编辑,该模型在图像生成和编辑方面均具备强大的通用能力,在文本渲染(尤其是中文文本渲染)方面表现尤为出色
3、Qwen3-Coder
模型名称 功能与特点概述
Qwen3-Coder-480B-A35B-Instruct 在智能体编程、智能体浏览器使用以及其他基础编程任务方面表现卓越
具备长上下文能力,原生支持 256K tokens,借助 Yarn 可扩展至 1M tokens。
适用于大多数平台,如通义千问代码(Qwen Code)、CLINE
Coder-480B-A35B-Instruct-FP8 经过轻量化的版本,fp8 量化可减少模型参数存储所需的空间
能加速模型的推理过程,提高响应速度,但可能会在一定程度上影响模型精度
Qwen3-Coder-30B-A3B-Instruct Qwen3-Coder 小参数的版本,仅支持非思考模式,不会在输出中产生<think></think>块。
Qwen3-Coder-30B-A3B-Instruct-FP8 Qwen3-Coder-30B-A3B-Instruct的轻量化版本
4、Qwen3
  • 模型论文:Qwen3 Technical Report
  • 发布时间:2025年5月 - 7月
  • 整体概述:系列包含 6 个密集模型和 2 个 MoE 模型,参数量从 0.6B 到 235B 不等,如 Qwen3-32B、Qwen3-14B 等为密集模型,Qwen3-235B-A22B 和 Qwen3-30B-A3B 为 MoE 模型。
  • 命名方式解读:Qwen3-[模型参数量xxB]-[激活(active)参数量xxB]-[思考/非思考版本]-[发布时间]-[是否FP8轻量化]
模型名称 更新时间 功能与特点概述
Qwen3-235B-A22B-Thinking-2507-FP8 2025年7月 MOE模型,总参数量2350亿(235 Billions),激活时参数量220亿(22 Blillions),FP8轻量化版本
Qwen3-235B-A22B-Thinking-2507 2025年7月 MOE模型,总参数量2350亿(235 Billions),激活时参数量220亿(22 Blillions)
Qwen3-235B-A22B-Instruct-2507 2025年7月 不支持思考模式, 不会在输出中产生<think></think>块。
Qwen3-30B-A3B-Thinking-2507-FP8 2025年7月 只支持思考模式,输出中只包含</think>,不包含<think>,总参数量300亿(30Billions),激活参数30B,轻量化模型
其余模型 - 0.6B、1.7B、4B、8B、14B、32B模型
5、Qwen3-Reranker 和 Qwen3-Embedding
  • 模型文档:Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models
  • 两个模型的区别
    • Qwen3-Reranker 模型是对文本对进行相关性评估,输出两个文本的相关性得分,用于对检索结果进行排序。
    • Qwen3 Embedding 模型主要功能是将单段文本转换为语义向量,用于语义搜索、问答系统等场景,重点在于文本的向量化表示。
模型类型 模型名称 模型大小 层数 Sequence 长度 Embedding Dimension MRL 支持 Instruction Aware
Text Embedding Qwen3-Embedding-0.6B 0.6B 28 32K 1024 Yes Yes
Text Embedding Qwen3-Embedding-4B 4B 36 32K 2560 Yes Yes
Text Embedding Qwen3-Embedding-8B 8B 36 32K 4096 Yes Yes
Text Reranking Qwen3-Reranker-0.6B 0.6B 28 32K - - Yes
Text Reranking Qwen3-Reranker-4B 4B 36 32K - - Yes
Text Reranking Qwen3-Reranker-8B 8B 36 32K - - Yes
  • MRL 支持:表示嵌入模型是否支持为最终嵌入设置自定义维度。
  • Instruction Aware:指的是嵌入或重排序模型是否支持根据不同任务自定义输入指令。
  • 评估表明,对于大多数下游任务,使用指令(instruct)通常比不使用指令能带来 1% 到 5% 的提升。因此,建议开发者针对其特定任务和场景创建定制化指令。在多语言环境中,我们也建议用户用英语编写指令,因为模型训练过程中使用的大多数指令原本都是用英语编写的。

三、WAN 模型

在这里插入图片描述

1、Wan2.2

发布时间:2025年8月
模型文章

模型名称 功能特点概述 适用场景
Wan2.2-S2V-14B “S2V” 代表从草图(Sketch )生成视频(Video) 适用于创作者有初步创意草图,想快速将草图概念转化为动态视频的场景
Wan2.2-TI2V-5B “TI2V” 表示文本和图像联合生成视频(Text and Image to Video) 同时接受文本描述和图像作为输入信息,结合文本的语义信息和图像的视觉信息来生成视频,适合需要精准控制视频内容和视觉风格的场景,比如广告视频制作、影视概念片生成等。
Wan2.2-I2V-A14B I2V” 指从图像(Image)生成视频(Video) 输入是单张或多张图像,模型会根据图像的画面元素、构图、色彩等信息,生成连贯的视频内容,可用于将静态摄影作品转化为动态视频,或基于已有的图像素材进行创意视频拓展。
Wan2.2-T2V-A14B “T2V” 代表文本生成视频(Text to Video) 只需要输入文本描述,模型就会根据文本的语义、情节等生成对应的视频, 常用于小说影视化片段生成、故事板制作等,只要能用文字描述出的画面,都可以尝试用该模型生成视频。

通义万相AI生视频—使用指南

2、Wan2.2-diffusers
  • wan2.2-diffusers 是指基于 Wan 2.2 开发,并与 Hugging Face 的 Diffusers 库集成的模型版本。
  • diffusers 含义
    • Diffusers 即扩散模型(Diffusion Model),是一类生成式深度学习模型。它的核心原理是通过在数据(如图像、音频、视频等)上逐渐添加噪声,构建一个前向扩散过程,然后再学习一个反向过程,逐步去噪,从而从噪声中恢复出原始数据,以此实现数据生成。
    • Hugging Face 的 Diffusers 库则是一个用于实现和使用扩散模型的工具包,提供了一系列的函数、类和预训练模型,方便开发者快速构建、训练和应用扩散模型。它涵盖了图像生成、视频生成、音频生成等多个领域的应用,能够大大降低扩散模型的使用门槛,加速相关研究和应用的落地 。
模型名称 功能特点概述
Wan2.2-T2V-A14B-Diffusers 文生视频模型,以文本作为输入,能够生成连贯的视频内容
Wan2.2-I2V-A14B-Diffusers 图生视频模型,输入单张或多张图像,生成相应的视频内容
Wan2.2-TI2V-5B-Diffusers 支持将文本描述与图像作为输入,利用文本所携带的语义信息,结合图像的视觉元素、构图、色彩等特征,生成相应的视频内容。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐