10月15日,阿里发布语言大模型Qwen3-VL-4B-Instruct和Qwen3-VL-8B-Instruct,昇思MindSpore在开源当日即实现0day支持。昇思MindSpore通过提供主流生态接口,依托MindSpore One套件,0day完成模型无缝迁移,并上传至开源社区,欢迎广大开发者下载体验!

昇思开源社区MindSpore One代码仓:

https://github.com/mindspore-lab/mindone

魔乐社区昇思MindSpore推理版详细地址: 

https://modelers.cn/models/MindSpore-Lab/Qwen3-VL-4B-Instruct

https://modelers.cn/models/MindSpore-Lab/Qwen3-VL-8B-Instruct

# 01

模型介绍

Qwen3-VL — 迄今为止 Qwen 系列中最强大的视觉语言模型。

这一代产品在各个方面都进行了全面升级:更优秀的文本理解和生成、更深的视觉感知和推理能力、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力。

提供 Dense 和 MoE 架构,可从边缘到云端进行扩展,并提供 Instruct 和增强推理的 Thinking 版本,以实现灵活、按需部署。

主要增强功能:

  • 视觉代理:操作 PC/移动 GUI — 识别元素、理解功能、调用工具、完成任务。

  • 视觉编码增强:从图像/视频生成 Draw.io/HTML/CSS/JS。

  • 高级空间感知:判断物体位置、视角和遮挡;提供更强的 2D 接地并启用 3D 接地,用于空间推理和具身 AI。

  • 长上下文和视频理解:原生 256K 上下文,可扩展至 1M;处理书籍和数小时长的视频,具有完整的回忆和秒级索引。

  • 增强的多模态推理:在 STEM/数学方面表现出色 — 因果分析和基于逻辑、证据的答案。

  • 升级的视觉识别:更广泛、更高品质的预训练能够“识别一切”——名人、动漫、产品、地标、动植物等。

  • 扩展的 OCR:支持 32 种语言(从 19 种增加);在低光、模糊和倾斜情况下表现稳健;更好地处理罕见/古代字符和术语;改进了长文档结构解析。

  • 与纯 LLM 相当的文本理解:无缝的文本-视觉融合,实现无损、统一的理解。

# 02

Qwen3-VL-4B-Instruct Mindspore推理指南

1、模型下载。

执行以下命令为自定义下载路径 `/mnt/data/Qwen3-VL-4B-Instruct` 添加白名单。

export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-VL-4B-Instruct

执行以下命令从魔乐社区下载Qwen3-VL-4B-Instruct 权重文件至指定路径 `/mnt/data/Qwen3-VL-4B-Instruct` 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 9GB 的磁盘空间,请预留足够空间。

pip install openmind_hub
    python 
    
    from openmind_hub import snapshot_download
     
    snapshot_download(
       repo_id="MindSpore-Lab/Qwen3-VL-4B-Instruct",
       local_dir="/mnt/data/Qwen3-VL-4B-Instruct",
       local_dir_use_symlinks=False
    )
    exit()

    2、快速开始

    Qwen3-VL-4B-Instruct推理需要 1卡 Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-VL-4B-Instruct推理可用的Docker容器镜像,供开发者快速体验。

    2.1 停止其他进程,避免服务器中其他进程影响

    pkill -9 pythonpkill -9 mindiepkill -9 ray

    2.2 下载昇思 MindSpore 推理容器镜像

    执行以下 Shell 命令,拉取推理容器镜像:

    docker pull swr.cn-central-221.ovaijisuan.com/mindsporelab/qwen3vl:20250928

    2.3 启动容器

    执行以下命令创建并启动容器(/mnt/data/Qwen3-VL-4B-Instruct用于存放权重路径,若没有/mnt盘则要修改):

    docker run -it \--privileged \--name=Qwen3-VL-4B-Instruct \--net=host \--cap-add=SYS_PTRACE \--security-opt seccomp=unconfined \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \--device=/dev/davinci_manager \-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \-v /usr/local/sbin:/usr/local/sbin \-v /etc/hccn.conf:/etc/hccn.conf \-v /mnt/data/Qwen3-VL-4B-Instruct/:/mnt/data/Qwen3-VL-4B-Instruct/ \swr.cn-central-221.ovaijisuan.com/mindsporelab/qwen3vl:20250928 \/bin/bash

    2.4 执行如下命令离线推理

    注意:参数image指定本地路径图片。图片可以提前下载到本地,也可以是网上图片链接,确保服务器网络正常。

    输出英文描述命令: 

    python /workspace/mindone/examples/transformers/qwen3_vl/generate_qwen3_vl.py --model_name /mnt/data/Qwen3-VL-4B-Instruct --image /mnt/data/1.jpg --prompt "Describe this image."

    输出中文描述命令:

    python /workspace/mindone/examples/transformers/qwen3_vl/generate_qwen3_vl.py --model_name /mnt/data/Qwen3-VL-4B-Instruct --image /mnt/data/1.jpg --prompt "请描述这张图片"

    # 03

    Qwen3-VL-8B-Instruct Mindspore推理指南

    1、模型下载。

    执行以下命令为自定义下载路径 `/mnt/data/Qwen3-VL-8B-Instruct` 添加白名单。

    export HUB_WHITE_LIST_PATHS=/mnt/data/Qwen3-VL-8B-Instruct

    执行以下命令从魔乐社区下载Qwen3-VL-8B-Instruct 权重文件至指定路径 `/mnt/data/Qwen3-VL-8B-Instruct` 。下载的文件包含模型代码、权重、分词模型和示例代码,占用约 18GB 的磁盘空间,请预留足够空间。

    pip install openmind_hub
      python
       
      from openmind_hub import snapshot_download
       
      snapshot_download(   
         repo_id="MindSpore-Lab/Qwen3-VL-8B-Instruct", 
         local_dir="/mnt/data/Qwen3-VL-8B-Instruct",  
         local_dir_use_symlinks=False
      )
      exit()

      2、快速开始

      Qwen3-VL-8B-Instruct推理需要 1卡 Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了Qwen3-VL-8B-Instruct推理可用的Docker容器镜像,供开发者快速体验。

      2.1 停止其他进程,避免服务器中其他进程影响

      pkill -9 python
      pkill -9 mindie
      pkill -9 ray

      2.2 下载昇思 MindSpore 推理容器镜像

      执行以下 Shell 命令,拉取推理容器镜像:

      docker pull swr.cn-central-221.ovaijisuan.com/mindsporelab/qwen3vl:20250928

      2.3 启动容器

      执行以下命令创建并启动容器(/mnt/data/Qwen3-VL-8B-Instruct用于存放权重路径,若没有/mnt盘则要修改):

      docker run -it \--privileged \--name=Qwen3-VL-8B-Instruct \--net=host \--cap-add=SYS_PTRACE \--security-opt seccomp=unconfined \--device=/dev/davinci0 \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \--device=/dev/davinci_manager \-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \-v /usr/local/sbin:/usr/local/sbin \-v /etc/hccn.conf:/etc/hccn.conf \-v /mnt/data/Qwen3-VL-8B-Instruct/:/mnt/data/Qwen3-VL-8B-Instruct/ \swr.cn-central-221.ovaijisuan.com/mindsporelab/qwen3vl:20250928 \/bin/bash

      2.4 执行如下命令离线推理

      注意:参数image指定本地路径图片。图片可以提前下载到本地,也可以是网上图片链接,确保服务器网络正常。

      输出英文描述命令:

      python /workspace/mindone/examples/transformers/qwen3_vl/generate_qwen3_vl.py --model_name /mnt/data/Qwen3-VL-8B-Instruct --image /mnt/data/1.jpg --prompt "Describe this image."

      输出中文描述命令:

      python /workspace/mindone/examples/transformers/qwen3_vl/generate_qwen3_vl.py --model_name /mnt/data/Qwen3-VL-8B-Instruct --image /mnt/data/1.jpg --prompt "请描述这张图片"
      Logo

      火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

      更多推荐