在这里插入图片描述

Qwen-VL等视觉大模型微调数据的常见格式和示例:

一、基础数据格式

Qwen-VL的微调数据通常采用JSON或JSONL格式,每条数据包含图像路径和对应的文本指令-响应对[[1]][[2]]。以下是两种典型结构:

1. 指令-响应格式(单轮对话)
{
  "image": "train_images/img001.jpg",
  "instruction": "请描述图片中的场景",
  "output": "这是一张工厂流水线的照片,左边有一台红色机器人手臂,正在抓取零件。"
}

应用场景

  • 工业质检(产品图+缺陷说明)
  • 电商客服(商品图+属性描述)
  • 医疗影像(CT扫描图+诊断报告)[[3]][[4]]
2. 多轮对话格式
{
  "id": "sample_0",
  "conversations": [
    {
      "from": "user",
      "value": "Picture 1: <img>path/to/image1.jpg</img>\n图中的动物是什么品种?"
    },
    {
      "from": "assistant",
      "value": "图中是一只金毛寻回犬。"
    },
    {
      "from": "user",
      "value": "请框出它的眼睛位置"
    },
    {
      "from": "assistant",
      "value": "<ref>眼睛</ref><box>(210,320),(240,350)</box><ref>眼睛</ref><box>(280,315),(310,345)</box>"
    }
  ]
}

特点

  • 支持视觉定位(如<box>坐标标注)
  • 允许多轮交互式问答[[5]][[6]]

二、实际应用示例

  1. 工业场景

    {
      "image": "defect_003.png",
      "instruction": "检测产品表面缺陷",
      "output": "右侧边缘存在长约2mm的划痕,缺陷等级B"
    }
    
  2. 医疗场景

    {
      "image": "xray_chest_123.jpg",
      "instruction": "分析肺部影像",
      "output": "右肺下叶见斑片状高密度影,考虑炎症可能性大"
    }
    

三、数据集构建建议

  1. 数据存储:所有样本需整合至单个JSONL文件,每行一个完整JSON对象[[7]][[8]]
  2. 图像处理
    • 支持常见格式(JPG/PNG)
    • 需保持图像路径与文本描述的对应关系
  3. 规模要求
    • 基础微调建议≥1000条样本
    • 复杂任务需数万条高质量数据[[9]][[10]]

四、注意事项

  • 目标检测任务需提供标准化坐标格式(如(x1,y1),(x2,y2))[[11]]
  • 微调前需统一图像分辨率(推荐224×224或448×448)
  • 建议划分训练集/验证集(比例通常为8:2)[[12]]

以上格式均适用于Qwen-VL系列的微调,包括Qwen2.5-VL和Qwen2-VL模型。实际使用时需根据具体任务调整字段名称和标注规范。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐