小米重磅开源Xiaomi-MiMo-Audio:语音大模型领域迎来"GPT-3+LLaMA"双重革命

【免费下载链接】MiMo-Audio-7B-Instruct 【免费下载链接】MiMo-Audio-7B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Instruct

今日,科技巨头小米对外发布了其在人工智能语音领域的重大突破——正式宣布开源旗下首个原生端到端语音大模型Xiaomi-MiMo-Audio。这款革命性的模型凭借创新的预训练架构设计以及基于上亿小时海量语音数据的深度训练,在业内首次成功实现了语音领域基于上下文学习(ICL)的少样本泛化能力,更在预训练过程中观察到显著的人工智能"涌现"现象,标志着语音大模型技术迈入全新发展阶段。

经过后续精细的指令微调与对齐训练,Xiaomi-MiMo-Audio在智能交互的多个维度实现了质的飞跃,包括理解力(智商)、情感共鸣(情商)、语音表现力以及内容安全性等跨模态对齐能力得到全面激发。实际语音对话测试显示,该模型在语言自然度、情感色彩传递以及交互场景适配等核心指标上均达到了极高的拟人化水准,为用户带来近乎真人的交流体验。

在性能表现上,Xiaomi-MiMo-Audio展现出强大的竞争力,不仅在开源领域独树一帜,更敢于与国际顶尖闭源语音模型同台竞技。在通用语音理解及对话交互等多项权威标准评测基准中,MiMo-Audio以70亿参数量级(7B)的模型规模,大幅超越了同参数量级的所有开源语音模型,刷新了该参数档位的最佳性能纪录。尤为引人注目的是,在音频理解权威基准MMAU的标准测试集上,MiMo-Audio的综合表现超越了Google旗下闭源语音模型Gemini-2.5-Flash;而在面向音频复杂逻辑推理的专业基准Big Bench Audio S2T任务中,该模型同样展现出卓越实力,性能指标超越了OpenAI最新发布的闭源语音模型GPT-4o-Audio-Preview,充分证明了中国科技企业在语音人工智能领域的技术突破。

此次小米发布的MiMo-Audio模型承载了多项技术创新与行业首次突破。该模型首次通过实证研究表明,当语音无损压缩预训练规模Scaling至1亿小时级别时,模型能够"涌现"出跨任务的泛化能力,具体表现为显著的少样本学习(Few-Shot Learning)能力,这一里程碑式的发现被业内专家视为语音领域迎来的"GPT-3时刻",预示着语音大模型将像当年GPT-3颠覆自然语言处理一样,重塑语音智能的技术格局。

同时,MiMo-Audio项目首次明确界定了语音生成式预训练的核心目标与科学定义,并向全球开发者开源了一套完整的语音预训练技术方案。该方案涵盖了自主研发的无损压缩Tokenizer、全新设计的模型网络结构、高效的训练优化方法以及全面的性能评测体系,为行业提供了标准化的技术蓝图,此举被视作开启了语音领域的"LLaMA时刻",将极大降低语音大模型的研发门槛,推动整个行业的创新发展。值得关注的是,MiMo-Audio还是首个将"思维链(Thinking)"机制同时引入语音理解和语音生成过程的开源模型,支持"混合思考"模式,能够在处理复杂语音任务时模拟人类的认知推理过程,显著提升模型对上下文的理解深度和响应的逻辑性。

为了充分赋能全球开发者社区,小米此次采取全方位开源策略,提供了丰富的技术资源:包括预训练基础模型MiMo-Audio-7B-Base(已发布于Hugging Face平台);经过深度优化的指令微调模型MiMo-Audio-7B-Instruct(同步发布于Hugging Face平台),该模型支持non-thinking和thinking两种工作模式,为研究人员开展语音强化学习(RL)和智能体(Agentic)训练提供了理想的基座模型;参数量达12亿的Tokenizer模型及其完整推理代码;详细阐述技术细节的技术报告;以及一套全面的语音模型预训练ICL测评及后训练评估框架。这些开源资源均通过Gitcode平台向公众开放,仓库地址为https://gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Instruct,为全球语音人工智能研究者和开发者提供了前所未有的技术基座和创新工具。

小米此次全面开源MiMo-Audio语音大模型,不仅展现了中国科技企业在人工智能领域的技术实力与开放胸怀,更为语音智能的产业化应用注入强劲动力。随着该技术的普及,预计将在智能助手、人机交互、无障碍通信、教育医疗等众多领域催生大量创新应用,推动语音交互从简单指令执行向深度智能对话跨越,最终让人工智能更好地服务于人类社会。

【免费下载链接】MiMo-Audio-7B-Instruct 【免费下载链接】MiMo-Audio-7B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Instruct

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐