Qwen2.5-Omni-详解05:Evaluation
理解能力 (X→Text):评估模型理解各种多模态输入(文本、音频、图像、视频)并生成文本响应的能力语音生成 (X→Speech):评估模型的语音生成能力Qwen2.5-Omni 的性能总体介于 Qwen2-7B 和 Qwen2.5-7B 之间,在大多数基准上优于 Qwen2-7B,特别是在 MMLU-Pro、MMLU-redux、MATH、GSM8K、MBPP、MultiPL-E 和 LiveC
Qwen2.5-Omni 评估基准详细梳理
本文档详细梳理了 Qwen2.5-Omni 技术报告第5节"Evaluation"部分的所有测试基准(Benchmark),按照论文分类方式进行组织。
评估概述
Qwen2.5-Omni 的评估分为两大类:
- 理解能力 (X→Text):评估模型理解各种多模态输入(文本、音频、图像、视频)并生成文本响应的能力
- 语音生成 (X→Speech):评估模型的语音生成能力
一、理解能力评估 (X→Text)
1. Text→Text(文本到文本)
1.1 通用能力评估
MMLU-Pro
- 说明:增强版的大规模多任务语言理解基准,用于评估模型的通用知识和推理能力
- 论文:Wang et al., 2024f
- 地址:https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro
MMLU-redux
- 说明:MMLU的改进版本,修正了原始数据集中的问题
- 论文:Gema et al., 2024
- 地址:https://github.com/edinburgh-dawg/mmlu-redux
Livebench0803
- 说明:动态更新的基准测试,避免数据污染问题(版本:2024年8月3日)
- 论文:White et al., 2024
- 地址:https://livebench.ai/
1.2 数学与科学能力
GPQA (Graduate-Level Google-Proof Q&A)
- 说明:研究生级别的科学问题问答基准,涵盖物理、化学、生物等领域
- 论文:Rein et al., 2023
- 地址:https://github.com/idavidrein/gpqa
GSM8K (Grade School Math 8K)
- 说明:包含8,000个小学数学应用题的数据集
- 论文:Cobbe et al., 2021
- 地址:https://github.com/openai/grade-school-math
MATH
- 说明:包含高难度数学竞赛题目的数据集
- 论文:Hendrycks et al., 2021b
- 地址:https://github.com/hendrycks/math
1.3 编程能力
HumanEval
- 说明:评估代码生成能力的基准,包含164个Python编程问题
- 论文:Chen et al., 2021
- 地址:https://github.com/openai/human-eval
MBPP (Mostly Basic Python Problems)
- 说明:包含974个基础Python编程问题
- 论文:Austin et al., 2021
- 地址:https://github.com/google-research/google-research/tree/master/mbpp
MultiPL-E
- 说明:多编程语言评估基准,将HumanEval扩展到多种编程语言
- 论文:Cassano et al., 2023
- 地址:https://github.com/nuprl/MultiPL-E
LiveCodeBench 2305-2409
- 说明:动态代码生成基准(2023年5月至2024年9月)
- 论文:Jain et al., 2024
- 地址:https://livecodebench.github.io/
2. Audio→Text(音频到文本)
2.1 音频理解任务
ASR (Automatic Speech Recognition) - 自动语音识别
-
Fleurs_zh:多语言语音识别数据集(中文)
- 地址:https://huggingface.co/datasets/google/fleurs
-
CommonVoice_en:Mozilla的开源语音数据集(英文)
- 地址:https://commonvoice.mozilla.org/
-
CommonVoice_zh:Mozilla的开源语音数据集(中文)
- 地址:https://commonvoice.mozilla.org/
S2TT (Speech-to-Text Translation) - 语音到文本翻译
-
CoVoST2_en-de:语音翻译数据集(英语到德语)
- 地址:https://github.com/facebookresearch/covost
-
CoVoST2_zh-en:语音翻译数据集(中文到英语)
- 地址:https://github.com/facebookresearch/covost
SER (Speech Entity Recognition) - 语音实体识别
- 说明:识别语音中的命名实体
VSC (Vocal Sound Classification) - 声音分类
- 说明:对各类声音进行分类识别
Music - 音乐理解
- 说明:评估模型对音乐的理解能力
2.2 音频推理
MMAU (Multimodal Audio Understanding)
- 说明:综合音频推理基准,包含声音、音乐和语音三个子集
- 论文:Sakshi et al., 2024
- 地址:https://github.com/sakshi113/mmau
2.3 语音对话
VoiceBench
- 说明:评估语音交互能力的综合基准
- 论文:Chen et al., 2024b
- 地址:https://github.com/MatthewCYM/VoiceBench
Self-curated Speech-Instruction Benchmark
- 说明:自建的语音指令基准,将纯文本基准的约90%文本指令转换为语音进行评估
3. Image→Text(图像到文本)
3.1 大学级问题
MMMU (Massive Multi-discipline Multimodal Understanding)
- 说明:大规模多学科多模态理解基准,涵盖大学级别的各学科问题
- 论文:Yue et al., 2023
- 地址:https://mmmu-benchmark.github.io/
MMMU-Pro
- 说明:MMMU的增强版本
- 论文:Yue et al., 2024
- 地址:https://mmmu-benchmark.github.io/
3.2 数学能力
MathVista
- 说明:视觉数学推理基准
- 论文:Lu et al., 2024b
- 地址:https://mathvista.github.io/
MathVision
- 说明:数学视觉理解基准
- 论文:Wang et al., 2024b
- 地址:https://mathvision-cuhk.github.io/
3.3 通用视觉问答
MMBench-V1.1
- 说明:多模态基准测试(版本1.1)
- 论文:Liu et al., 2023c
- 地址:https://github.com/open-compass/MMBench
MMVet
- 说明:多模态兽医级别评估基准
- 论文:Yu et al., 2024
- 地址:https://github.com/yuweihao/MM-Vet
MMStar
- 说明:多模态明星基准
- 论文:Chen et al., 2024a
- 地址:https://github.com/MMStar-Benchmark/MMStar
MME (Multimodal Evaluation)
- 说明:综合多模态评估基准
- 论文:Fu et al., 2023
- 地址:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
MuirBench
- 说明:多图像推理基准
- 论文:Wang et al., 2024a
- 地址:https://muirbench.github.io/
CRPE
- 说明:组合推理和规划评估基准
- 论文:Wang et al., 2024d
- 地址:相关论文链接
RealWorldQA
- 说明:真实世界问答基准
- 来源:X.AI., 2024
- 地址:https://x.ai/blog/grok-1.5v
MMERealWorld
- 说明:真实世界多模态评估基准
- 论文:Zhang et al., 2024
- 地址:https://github.com/zwq2018/MME-RealWorld
MM-MT-Bench
- 说明:多模态多轮对话基准
- 论文:Agrawal et al., 2024
- 地址:https://github.com/microsoft/MM-MT-Bench
3.4 OCR相关任务
AI2D (AI2 Diagrams)
- 说明:科学图表理解数据集
- 论文:Kembhavi et al., 2016
- 地址:https://allenai.org/data/diagrams
TextVQA
- 说明:需要阅读文本的视觉问答数据集
- 论文:Singh et al., 2019
- 地址:https://textvqa.org/
DocVQA (Document Visual Question Answering)
- 说明:文档视觉问答数据集
- 论文:Mathew et al., 2021
- 地址:https://www.docvqa.org/
ChartQA
- 说明:图表问答数据集
- 论文:Masry et al., 2022
- 地址:https://github.com/vis-nlp/ChartQA
OCRBench_v2
- 说明:OCR综合评估基准(版本2)
- 论文:Fu et al., 2024b
- 地址:https://github.com/Yuliang-Liu/MultimodalOCR
3.5 视觉定位
Referring Expression Comprehension Benchmarks
- 说明:指称表达理解基准
- 论文:Kazemzadeh et al., 2014; Mao et al., 2016
- 包含:RefCOCO, RefCOCO+, RefCOCOg等
- 地址:https://github.com/lichengunc/refer
Object Detection in the Wild
- 说明:野外目标检测基准
- 论文:Li et al., 2022
- 地址:相关论文链接
Self-curated Point Grounding Benchmark
- 说明:自建的点定位基准
4. Video (w/o Audio)→Text(视频(无音频)到文本)
Video-MME
- 说明:视频多模态评估基准
- 论文:Fu et al., 2024a
- 地址:https://video-mme.github.io/
MVBench (Multi-View Benchmark)
- 说明:多视角视频理解基准
- 论文:Li et al., 2024a
- 地址:https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
EgoSchema
- 说明:第一人称视频理解基准
- 论文:Mangalam et al., 2023
- 地址:https://egoschema.github.io/
5. Multimodality→Text(多模态到文本)
OmniBench
- 说明:混合模态(图像、音频和文本)提示的综合评估基准
- 论文:Li et al., 2024b
- 地址:https://github.com/m-a-p/OmniBench
二、语音生成评估 (X→Speech)
1. Zero-Shot Speech Generation(零样本语音生成)
SEED
- 说明:评估零样本语音生成的内容一致性(WER)和说话人相似度(SIM)
- 论文:Anastassiou et al., 2024
- 评估指标:
- WER (Word Error Rate):词错误率,评估内容一致性
- SIM (Similarity):说话人相似度
- 地址:相关论文链接
2. Single-Speaker Speech Generation(单说话人语音生成)
SEED (Stability Evaluation)
- 说明:评估说话人微调模型的稳定性
- 论文:Anastassiou et al., 2024
Self-created Dataset (NMOS Evaluation)
- 说明:自建数据集,评估生成语音的主观自然度
- 评估指标:
- NMOS (Naturalness Mean Opinion Score):自然度平均意见分
三、评估结果总结
3.1 Text→Text 性能
Qwen2.5-Omni 的性能总体介于 Qwen2-7B 和 Qwen2.5-7B 之间,在大多数基准上优于 Qwen2-7B,特别是在 MMLU-Pro、MMLU-redux、MATH、GSM8K、MBPP、MultiPL-E 和 LiveCodeBench 上表现出色。
3.2 Audio→Text 性能
- 音频理解:在 ASR 和 S2TT 任务上达到最先进性能,超越 Whisper-large-v3、Qwen2Audio、MinMo 等模型
- 音频推理:在 MMAU 基准的声音、音乐和语音子集上达到最先进结果
- 语音对话:在 VoiceBench 上获得 74.12 的平均分,显著缩小了与使用文本指令的 Qwen2-7B 的差距
3.3 Image→Text 性能
- 与 Qwen2.5-VL-7B 性能相当
- 在 MMMU、MathVision、MMBench-V1.1-EN、TextVQA、DocVQA 和 ChartQA 上优于其他开源全模态模型
- 在大多数基准上超越 GPT-4o-mini
- 视觉定位:在从框定位到点定位的大多数基准上优于其他模型,在开放词汇目标检测上达到 42.2 mAP
3.4 Video→Text 性能
优于所有其他最先进的开源全模态模型和 GPT-4o-Mini,与 Qwen2.5-VL-7B 相比取得更好或竞争性的结果。
3.5 Multimodality→Text 性能
在 OmniBench 上达到最先进性能,大幅超越其他全模态模型。
3.6 Speech Generation 性能
- 零样本生成:展现出高度竞争力的性能,经过强化学习优化后,在稳定性上有显著提升
- 单说话人生成:说话人微调后的模型更精确地捕捉目标说话人的细微韵律风格,在主观和客观指标上接近人类水平
四、基准分类总结表
表1:Text→Text 基准总览
| 类别 | 基准名称 | 评估内容 | 论文/来源 |
|---|---|---|---|
| 通用能力 | MMLU-Pro | 大规模多任务语言理解(增强版) | Wang et al., 2024f |
| 通用能力 | MMLU-redux | MMLU改进版 | Gema et al., 2024 |
| 通用能力 | Livebench0803 | 动态基准测试 | White et al., 2024 |
| 数学与科学 | GPQA | 研究生级别科学问答 | Rein et al., 2023 |
| 数学与科学 | GSM8K | 小学数学应用题 | Cobbe et al., 2021 |
| 数学与科学 | MATH | 高难度数学竞赛题 | Hendrycks et al., 2021b |
| 编程能力 | HumanEval | Python代码生成 | Chen et al., 2021 |
| 编程能力 | MBPP | 基础Python编程 | Austin et al., 2021 |
| 编程能力 | MultiPL-E | 多编程语言评估 | Cassano et al., 2023 |
| 编程能力 | LiveCodeBench 2305-2409 | 动态代码生成基准 | Jain et al., 2024 |
表2:Audio→Text 基准总览
| 类别 | 基准名称 | 评估内容 | 论文/来源 |
|---|---|---|---|
| 音频理解-ASR | Fleurs_zh | 中文语音识别 | Google Fleurs |
| 音频理解-ASR | CommonVoice_en | 英文语音识别 | Mozilla CommonVoice |
| 音频理解-ASR | CommonVoice_zh | 中文语音识别 | Mozilla CommonVoice |
| 音频理解-S2TT | CoVoST2_en-de | 英德语音翻译 | Facebook CoVoST2 |
| 音频理解-S2TT | CoVoST2_zh-en | 中英语音翻译 | Facebook CoVoST2 |
| 音频理解 | SER | 语音实体识别 | - |
| 音频理解 | VSC | 声音分类 | - |
| 音频理解 | Music | 音乐理解 | - |
| 音频推理 | MMAU | 多模态音频理解(声音/音乐/语音) | Sakshi et al., 2024 |
| 语音对话 | VoiceBench | 语音交互能力 | Chen et al., 2024b |
| 语音对话 | Self-curated Speech-Instruction | 自建语音指令基准 | 自建 |
表3:Image→Text 基准总览
| 类别 | 基准名称 | 评估内容 | 论文/来源 |
|---|---|---|---|
| 大学级问题 | MMMU | 多学科多模态理解 | Yue et al., 2023 |
| 大学级问题 | MMMU-Pro | MMMU增强版 | Yue et al., 2024 |
| 数学能力 | MathVista | 视觉数学推理 | Lu et al., 2024b |
| 数学能力 | MathVision | 数学视觉理解 | Wang et al., 2024b |
| 通用视觉问答 | MMBench-V1.1 | 多模态基准测试 | Liu et al., 2023c |
| 通用视觉问答 | MMVet | 多模态兽医级评估 | Yu et al., 2024 |
| 通用视觉问答 | MMStar | 多模态明星基准 | Chen et al., 2024a |
| 通用视觉问答 | MME | 综合多模态评估 | Fu et al., 2023 |
| 通用视觉问答 | MuirBench | 多图像推理 | Wang et al., 2024a |
| 通用视觉问答 | CRPE | 组合推理和规划评估 | Wang et al., 2024d |
| 通用视觉问答 | RealWorldQA | 真实世界问答 | X.AI., 2024 |
| 通用视觉问答 | MMERealWorld | 真实世界多模态评估 | Zhang et al., 2024 |
| 通用视觉问答 | MM-MT-Bench | 多模态多轮对话 | Agrawal et al., 2024 |
| OCR相关 | AI2D | 科学图表理解 | Kembhavi et al., 2016 |
| OCR相关 | TextVQA | 文本阅读视觉问答 | Singh et al., 2019 |
| OCR相关 | DocVQA | 文档视觉问答 | Mathew et al., 2021 |
| OCR相关 | ChartQA | 图表问答 | Masry et al., 2022 |
| OCR相关 | OCRBench_v2 | OCR综合评估(v2) | Fu et al., 2024b |
| 视觉定位 | Referring Expression Comprehension | 指称表达理解 | Kazemzadeh et al., 2014; Mao et al., 2016 |
| 视觉定位 | Object Detection in the Wild | 野外目标检测 | Li et al., 2022 |
| 视觉定位 | Self-curated Point Grounding | 点定位基准 | 自建 |
表4:Video (w/o Audio)→Text 基准总览
| 类别 | 基准名称 | 评估内容 | 论文/来源 |
|---|---|---|---|
| 视频理解 | Video-MME | 视频多模态评估 | Fu et al., 2024a |
| 视频理解 | MVBench | 多视角视频理解 | Li et al., 2024a |
| 视频理解 | EgoSchema | 第一人称视频理解 | Mangalam et al., 2023 |
表5:Multimodality→Text 基准总览
| 类别 | 基准名称 | 评估内容 | 论文/来源 |
|---|---|---|---|
| 混合模态 | OmniBench | 图像+音频+文本混合提示 | Li et al., 2024b |
表6:X→Speech 基准总览
| 类别 | 基准名称 | 评估内容 | 评估指标 | 论文/来源 |
|---|---|---|---|---|
| 零样本语音生成 | SEED | 内容一致性和说话人相似度 | WER, SIM | Anastassiou et al., 2024 |
| 单说话人生成 | SEED | 模型稳定性 | WER, SIM | Anastassiou et al., 2024 |
| 单说话人生成 | Self-created Dataset | 主观自然度 | NMOS | 自建 |
五、关键评估指标说明
理解能力指标
- 准确率 (Accuracy):大多数分类和问答任务的主要指标
- WER (Word Error Rate):词错误率,用于ASR任务
- BLEU/ChrF:用于翻译任务的评估指标
- mAP (mean Average Precision):用于目标检测任务
语音生成指标
- WER (Word Error Rate):词错误率,评估生成语音的内容准确性
- SIM (Speaker Similarity):说话人相似度,评估生成语音与目标说话人的相似程度
- NMOS (Naturalness Mean Opinion Score):自然度平均意见分,主观评估生成语音的自然度
六、参考文献
完整的参考文献列表请参见原论文:
- 论文标题:Qwen2.5-Omni Technical Report
- 作者:Jin Xu, Zhifang Guo, Jinzheng He, et al.
- arXiv链接:http://arxiv.org/abs/2503.20215
- 发布日期:2025年3月26日
文档生成日期:2025年10月4日
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)