Qwen2.5-Omni 评估基准详细梳理

本文档详细梳理了 Qwen2.5-Omni 技术报告第5节"Evaluation"部分的所有测试基准(Benchmark),按照论文分类方式进行组织。

评估概述

Qwen2.5-Omni 的评估分为两大类:

  1. 理解能力 (X→Text):评估模型理解各种多模态输入(文本、音频、图像、视频)并生成文本响应的能力
  2. 语音生成 (X→Speech):评估模型的语音生成能力

一、理解能力评估 (X→Text)

1. Text→Text(文本到文本)

1.1 通用能力评估

MMLU-Pro

  • 说明:增强版的大规模多任务语言理解基准,用于评估模型的通用知识和推理能力
  • 论文:Wang et al., 2024f
  • 地址:https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro

MMLU-redux

  • 说明:MMLU的改进版本,修正了原始数据集中的问题
  • 论文:Gema et al., 2024
  • 地址:https://github.com/edinburgh-dawg/mmlu-redux

Livebench0803

  • 说明:动态更新的基准测试,避免数据污染问题(版本:2024年8月3日)
  • 论文:White et al., 2024
  • 地址:https://livebench.ai/
1.2 数学与科学能力

GPQA (Graduate-Level Google-Proof Q&A)

  • 说明:研究生级别的科学问题问答基准,涵盖物理、化学、生物等领域
  • 论文:Rein et al., 2023
  • 地址:https://github.com/idavidrein/gpqa

GSM8K (Grade School Math 8K)

  • 说明:包含8,000个小学数学应用题的数据集
  • 论文:Cobbe et al., 2021
  • 地址:https://github.com/openai/grade-school-math

MATH

  • 说明:包含高难度数学竞赛题目的数据集
  • 论文:Hendrycks et al., 2021b
  • 地址:https://github.com/hendrycks/math
1.3 编程能力

HumanEval

  • 说明:评估代码生成能力的基准,包含164个Python编程问题
  • 论文:Chen et al., 2021
  • 地址:https://github.com/openai/human-eval

MBPP (Mostly Basic Python Problems)

  • 说明:包含974个基础Python编程问题
  • 论文:Austin et al., 2021
  • 地址:https://github.com/google-research/google-research/tree/master/mbpp

MultiPL-E

  • 说明:多编程语言评估基准,将HumanEval扩展到多种编程语言
  • 论文:Cassano et al., 2023
  • 地址:https://github.com/nuprl/MultiPL-E

LiveCodeBench 2305-2409

  • 说明:动态代码生成基准(2023年5月至2024年9月)
  • 论文:Jain et al., 2024
  • 地址:https://livecodebench.github.io/

2. Audio→Text(音频到文本)

2.1 音频理解任务

ASR (Automatic Speech Recognition) - 自动语音识别

  • Fleurs_zh:多语言语音识别数据集(中文)

    • 地址:https://huggingface.co/datasets/google/fleurs
  • CommonVoice_en:Mozilla的开源语音数据集(英文)

    • 地址:https://commonvoice.mozilla.org/
  • CommonVoice_zh:Mozilla的开源语音数据集(中文)

    • 地址:https://commonvoice.mozilla.org/

S2TT (Speech-to-Text Translation) - 语音到文本翻译

  • CoVoST2_en-de:语音翻译数据集(英语到德语)

    • 地址:https://github.com/facebookresearch/covost
  • CoVoST2_zh-en:语音翻译数据集(中文到英语)

    • 地址:https://github.com/facebookresearch/covost

SER (Speech Entity Recognition) - 语音实体识别

  • 说明:识别语音中的命名实体

VSC (Vocal Sound Classification) - 声音分类

  • 说明:对各类声音进行分类识别

Music - 音乐理解

  • 说明:评估模型对音乐的理解能力
2.2 音频推理

MMAU (Multimodal Audio Understanding)

  • 说明:综合音频推理基准,包含声音、音乐和语音三个子集
  • 论文:Sakshi et al., 2024
  • 地址:https://github.com/sakshi113/mmau
2.3 语音对话

VoiceBench

  • 说明:评估语音交互能力的综合基准
  • 论文:Chen et al., 2024b
  • 地址:https://github.com/MatthewCYM/VoiceBench

Self-curated Speech-Instruction Benchmark

  • 说明:自建的语音指令基准,将纯文本基准的约90%文本指令转换为语音进行评估

3. Image→Text(图像到文本)

3.1 大学级问题

MMMU (Massive Multi-discipline Multimodal Understanding)

  • 说明:大规模多学科多模态理解基准,涵盖大学级别的各学科问题
  • 论文:Yue et al., 2023
  • 地址:https://mmmu-benchmark.github.io/

MMMU-Pro

  • 说明:MMMU的增强版本
  • 论文:Yue et al., 2024
  • 地址:https://mmmu-benchmark.github.io/
3.2 数学能力

MathVista

  • 说明:视觉数学推理基准
  • 论文:Lu et al., 2024b
  • 地址:https://mathvista.github.io/

MathVision

  • 说明:数学视觉理解基准
  • 论文:Wang et al., 2024b
  • 地址:https://mathvision-cuhk.github.io/
3.3 通用视觉问答

MMBench-V1.1

  • 说明:多模态基准测试(版本1.1)
  • 论文:Liu et al., 2023c
  • 地址:https://github.com/open-compass/MMBench

MMVet

  • 说明:多模态兽医级别评估基准
  • 论文:Yu et al., 2024
  • 地址:https://github.com/yuweihao/MM-Vet

MMStar

  • 说明:多模态明星基准
  • 论文:Chen et al., 2024a
  • 地址:https://github.com/MMStar-Benchmark/MMStar

MME (Multimodal Evaluation)

  • 说明:综合多模态评估基准
  • 论文:Fu et al., 2023
  • 地址:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

MuirBench

  • 说明:多图像推理基准
  • 论文:Wang et al., 2024a
  • 地址:https://muirbench.github.io/

CRPE

  • 说明:组合推理和规划评估基准
  • 论文:Wang et al., 2024d
  • 地址:相关论文链接

RealWorldQA

  • 说明:真实世界问答基准
  • 来源:X.AI., 2024
  • 地址:https://x.ai/blog/grok-1.5v

MMERealWorld

  • 说明:真实世界多模态评估基准
  • 论文:Zhang et al., 2024
  • 地址:https://github.com/zwq2018/MME-RealWorld

MM-MT-Bench

  • 说明:多模态多轮对话基准
  • 论文:Agrawal et al., 2024
  • 地址:https://github.com/microsoft/MM-MT-Bench
3.4 OCR相关任务

AI2D (AI2 Diagrams)

  • 说明:科学图表理解数据集
  • 论文:Kembhavi et al., 2016
  • 地址:https://allenai.org/data/diagrams

TextVQA

  • 说明:需要阅读文本的视觉问答数据集
  • 论文:Singh et al., 2019
  • 地址:https://textvqa.org/

DocVQA (Document Visual Question Answering)

  • 说明:文档视觉问答数据集
  • 论文:Mathew et al., 2021
  • 地址:https://www.docvqa.org/

ChartQA

  • 说明:图表问答数据集
  • 论文:Masry et al., 2022
  • 地址:https://github.com/vis-nlp/ChartQA

OCRBench_v2

  • 说明:OCR综合评估基准(版本2)
  • 论文:Fu et al., 2024b
  • 地址:https://github.com/Yuliang-Liu/MultimodalOCR
3.5 视觉定位

Referring Expression Comprehension Benchmarks

  • 说明:指称表达理解基准
  • 论文:Kazemzadeh et al., 2014; Mao et al., 2016
  • 包含:RefCOCO, RefCOCO+, RefCOCOg等
  • 地址:https://github.com/lichengunc/refer

Object Detection in the Wild

  • 说明:野外目标检测基准
  • 论文:Li et al., 2022
  • 地址:相关论文链接

Self-curated Point Grounding Benchmark

  • 说明:自建的点定位基准

4. Video (w/o Audio)→Text(视频(无音频)到文本)

Video-MME

  • 说明:视频多模态评估基准
  • 论文:Fu et al., 2024a
  • 地址:https://video-mme.github.io/

MVBench (Multi-View Benchmark)

  • 说明:多视角视频理解基准
  • 论文:Li et al., 2024a
  • 地址:https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2

EgoSchema

  • 说明:第一人称视频理解基准
  • 论文:Mangalam et al., 2023
  • 地址:https://egoschema.github.io/

5. Multimodality→Text(多模态到文本)

OmniBench

  • 说明:混合模态(图像、音频和文本)提示的综合评估基准
  • 论文:Li et al., 2024b
  • 地址:https://github.com/m-a-p/OmniBench

二、语音生成评估 (X→Speech)

1. Zero-Shot Speech Generation(零样本语音生成)

SEED

  • 说明:评估零样本语音生成的内容一致性(WER)和说话人相似度(SIM)
  • 论文:Anastassiou et al., 2024
  • 评估指标
    • WER (Word Error Rate):词错误率,评估内容一致性
    • SIM (Similarity):说话人相似度
  • 地址:相关论文链接

2. Single-Speaker Speech Generation(单说话人语音生成)

SEED (Stability Evaluation)

  • 说明:评估说话人微调模型的稳定性
  • 论文:Anastassiou et al., 2024

Self-created Dataset (NMOS Evaluation)

  • 说明:自建数据集,评估生成语音的主观自然度
  • 评估指标
    • NMOS (Naturalness Mean Opinion Score):自然度平均意见分

三、评估结果总结

3.1 Text→Text 性能

Qwen2.5-Omni 的性能总体介于 Qwen2-7B 和 Qwen2.5-7B 之间,在大多数基准上优于 Qwen2-7B,特别是在 MMLU-Pro、MMLU-redux、MATH、GSM8K、MBPP、MultiPL-E 和 LiveCodeBench 上表现出色。

3.2 Audio→Text 性能

  • 音频理解:在 ASR 和 S2TT 任务上达到最先进性能,超越 Whisper-large-v3、Qwen2Audio、MinMo 等模型
  • 音频推理:在 MMAU 基准的声音、音乐和语音子集上达到最先进结果
  • 语音对话:在 VoiceBench 上获得 74.12 的平均分,显著缩小了与使用文本指令的 Qwen2-7B 的差距

3.3 Image→Text 性能

  • 与 Qwen2.5-VL-7B 性能相当
  • 在 MMMU、MathVision、MMBench-V1.1-EN、TextVQA、DocVQA 和 ChartQA 上优于其他开源全模态模型
  • 在大多数基准上超越 GPT-4o-mini
  • 视觉定位:在从框定位到点定位的大多数基准上优于其他模型,在开放词汇目标检测上达到 42.2 mAP

3.4 Video→Text 性能

优于所有其他最先进的开源全模态模型和 GPT-4o-Mini,与 Qwen2.5-VL-7B 相比取得更好或竞争性的结果。

3.5 Multimodality→Text 性能

在 OmniBench 上达到最先进性能,大幅超越其他全模态模型。

3.6 Speech Generation 性能

  • 零样本生成:展现出高度竞争力的性能,经过强化学习优化后,在稳定性上有显著提升
  • 单说话人生成:说话人微调后的模型更精确地捕捉目标说话人的细微韵律风格,在主观和客观指标上接近人类水平

四、基准分类总结表

表1:Text→Text 基准总览

类别 基准名称 评估内容 论文/来源
通用能力 MMLU-Pro 大规模多任务语言理解(增强版) Wang et al., 2024f
通用能力 MMLU-redux MMLU改进版 Gema et al., 2024
通用能力 Livebench0803 动态基准测试 White et al., 2024
数学与科学 GPQA 研究生级别科学问答 Rein et al., 2023
数学与科学 GSM8K 小学数学应用题 Cobbe et al., 2021
数学与科学 MATH 高难度数学竞赛题 Hendrycks et al., 2021b
编程能力 HumanEval Python代码生成 Chen et al., 2021
编程能力 MBPP 基础Python编程 Austin et al., 2021
编程能力 MultiPL-E 多编程语言评估 Cassano et al., 2023
编程能力 LiveCodeBench 2305-2409 动态代码生成基准 Jain et al., 2024

表2:Audio→Text 基准总览

类别 基准名称 评估内容 论文/来源
音频理解-ASR Fleurs_zh 中文语音识别 Google Fleurs
音频理解-ASR CommonVoice_en 英文语音识别 Mozilla CommonVoice
音频理解-ASR CommonVoice_zh 中文语音识别 Mozilla CommonVoice
音频理解-S2TT CoVoST2_en-de 英德语音翻译 Facebook CoVoST2
音频理解-S2TT CoVoST2_zh-en 中英语音翻译 Facebook CoVoST2
音频理解 SER 语音实体识别 -
音频理解 VSC 声音分类 -
音频理解 Music 音乐理解 -
音频推理 MMAU 多模态音频理解(声音/音乐/语音) Sakshi et al., 2024
语音对话 VoiceBench 语音交互能力 Chen et al., 2024b
语音对话 Self-curated Speech-Instruction 自建语音指令基准 自建

表3:Image→Text 基准总览

类别 基准名称 评估内容 论文/来源
大学级问题 MMMU 多学科多模态理解 Yue et al., 2023
大学级问题 MMMU-Pro MMMU增强版 Yue et al., 2024
数学能力 MathVista 视觉数学推理 Lu et al., 2024b
数学能力 MathVision 数学视觉理解 Wang et al., 2024b
通用视觉问答 MMBench-V1.1 多模态基准测试 Liu et al., 2023c
通用视觉问答 MMVet 多模态兽医级评估 Yu et al., 2024
通用视觉问答 MMStar 多模态明星基准 Chen et al., 2024a
通用视觉问答 MME 综合多模态评估 Fu et al., 2023
通用视觉问答 MuirBench 多图像推理 Wang et al., 2024a
通用视觉问答 CRPE 组合推理和规划评估 Wang et al., 2024d
通用视觉问答 RealWorldQA 真实世界问答 X.AI., 2024
通用视觉问答 MMERealWorld 真实世界多模态评估 Zhang et al., 2024
通用视觉问答 MM-MT-Bench 多模态多轮对话 Agrawal et al., 2024
OCR相关 AI2D 科学图表理解 Kembhavi et al., 2016
OCR相关 TextVQA 文本阅读视觉问答 Singh et al., 2019
OCR相关 DocVQA 文档视觉问答 Mathew et al., 2021
OCR相关 ChartQA 图表问答 Masry et al., 2022
OCR相关 OCRBench_v2 OCR综合评估(v2) Fu et al., 2024b
视觉定位 Referring Expression Comprehension 指称表达理解 Kazemzadeh et al., 2014; Mao et al., 2016
视觉定位 Object Detection in the Wild 野外目标检测 Li et al., 2022
视觉定位 Self-curated Point Grounding 点定位基准 自建

表4:Video (w/o Audio)→Text 基准总览

类别 基准名称 评估内容 论文/来源
视频理解 Video-MME 视频多模态评估 Fu et al., 2024a
视频理解 MVBench 多视角视频理解 Li et al., 2024a
视频理解 EgoSchema 第一人称视频理解 Mangalam et al., 2023

表5:Multimodality→Text 基准总览

类别 基准名称 评估内容 论文/来源
混合模态 OmniBench 图像+音频+文本混合提示 Li et al., 2024b

表6:X→Speech 基准总览

类别 基准名称 评估内容 评估指标 论文/来源
零样本语音生成 SEED 内容一致性和说话人相似度 WER, SIM Anastassiou et al., 2024
单说话人生成 SEED 模型稳定性 WER, SIM Anastassiou et al., 2024
单说话人生成 Self-created Dataset 主观自然度 NMOS 自建

五、关键评估指标说明

理解能力指标

  • 准确率 (Accuracy):大多数分类和问答任务的主要指标
  • WER (Word Error Rate):词错误率,用于ASR任务
  • BLEU/ChrF:用于翻译任务的评估指标
  • mAP (mean Average Precision):用于目标检测任务

语音生成指标

  • WER (Word Error Rate):词错误率,评估生成语音的内容准确性
  • SIM (Speaker Similarity):说话人相似度,评估生成语音与目标说话人的相似程度
  • NMOS (Naturalness Mean Opinion Score):自然度平均意见分,主观评估生成语音的自然度

六、参考文献

完整的参考文献列表请参见原论文:

  • 论文标题:Qwen2.5-Omni Technical Report
  • 作者:Jin Xu, Zhifang Guo, Jinzheng He, et al.
  • arXiv链接:http://arxiv.org/abs/2503.20215
  • 发布日期:2025年3月26日

文档生成日期:2025年10月4日

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐