Whisper 是一个多功能的语音识别模型,通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练,能够执行包括多种语言的语音识别、语音翻译以及语言辨识等多项任务。 



Stars 数 73633
Forks 数 8800

主要特点

  • 多语言支持:Whisper能够识别和转录多种语言的语音,这使得它在跨语言交流和国际化应用中具有巨大潜力。

  • 语音转文字:Whisper可以将音频文件转换为准确的文字记录,适用于会议记录、字幕生成等场景。

  • 语音翻译:除了转录,Whisper还能将语音直接翻译成英文文本,为跨语言交流提供便利。

  • 语言识别:Whisper能够自动检测音频中使用的语言,无需用户手动指定。

  • 开源免费:作为一个开源项目,Whisper可以被自由使用和修改,这大大促进了其在各种应用场景中的推广。

  • 多种模型大小:Whisper提供了从tiny到large不同大小的模型,用户可以根据自己的需求和硬件条件选择合适的版本。

GitHub:https://github.com/openai/whisper

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐