【机器学习】入门语音识别：从MFCC、HMM到CTC/Attention，让机器听懂你的声音

今天，我们将探索一个 fascinating 的领域——语音识别与处理 (Speech Recognition and Processing)，也就是让机器能够“听懂”人类语言的技术。从智能手机上的语音助手（如 Siri、小爱同学）到智能家居控制，再到会议记录自动转写，语音识别技术已深度融入我们的生活。

大模型铲屎官

1710人浏览 · 2025-04-21 09:15:00

大模型铲屎官 · 2025-04-21 09:15:00 发布

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
 02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
 03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
 04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
 05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘

机器学习系列文章目录

前言

欢迎来到我们机器学习之旅的第 37 天！今天，我们将探索一个 fascinating 的领域——语音识别与处理 (Speech Recognition and Processing)，也就是让机器能够“听懂”人类语言的技术。从智能手机上的语音助手（如 Siri、小爱同学）到智能家居控制，再到会议记录自动转写，语音识别技术已深度融入我们的生活。这篇博客将带你从基础概念出发，逐步了解语音信号的特性、关键的特征提取方法 (MFCC)，回顾传统的识别模型 (HMM-GMM)，并介绍当前主流的基于深度学习的端到端模型 (CTC, Attention)，最后还会通过 Python 实战带你体验语音转文字的魅力，并探讨现实应用中的挑战。无论你是初学者还是希望系统梳理知识的进阶者，相信本文都能为你提供有价值的见解。

一、语音信号：机器“听觉”的起点

要让机器理解语音，首先要了解语音信号本身是什么，以及如何将其转化为机器可处理的形式。

1.1 声音的本质与模拟信号

声音本质上是一种波，由物体振动产生，通过介质（如空气）传播。我们说话时，声带振动产生声波，这些声波具有不同的频率 (Frequency)、振幅 (Amplitude) 和音色 (Timbre)。

频率：决定声音的音高（高低音），单位是赫兹 (Hz)。
振幅：决定声音的响度（大小声），通常用分贝 (dB) 衡量。
音色：区分不同声音来源（如不同人声、不同乐器）的特征，由声波的波形决定。

这种连续变化的物理波就是模拟信号 (Analog Signal)。

1.2 语音信号的数字化

计算机无法直接处理连续的模拟信号，需要将其转换为离散的数字信号 (Digital Signal)。这个过程主要包含两个步骤：

1.2.1 采样 (Sampling)

采样是在时间轴上对模拟信号进行离散化。按照一定的采样率 (Sampling Rate)（每秒采样的次数，单位 Hz），周期性地获取模拟信号的瞬时值。根据奈奎斯特定理 (Nyquist Theorem)，采样率必须至少是信号最高频率的两倍，才能无失真地恢复原始信号。人声的主要频率范围通常在 300Hz 到 3400Hz 之间，因此电话系统常用 8kHz 采样率，而 CD 音质则使用 44.1kHz，语音识别常用 16kHz 采样率。

1.2.2 量化 (Quantization)

量化是在幅度轴上对采样后的信号值进行离散化。将每个采样点的幅度值映射到有限个离散的量化级别上，并用二进制码表示。量化的精度由量化位数 (Bit Depth) 决定，位数越多，表示的幅度级别越精细，失真越小。常见的有 8 位、16 位量化。

图 1: 语音信号数字化流程示意图

1.3 语音信号的关键特性

数字化后的语音信号是一串时间序列数据，但直接使用这些原始数据进行识别效果不佳，因为它包含大量冗余信息且对环境变化敏感。我们需要关注其更本质的特性，这些特性随时间变化，反映了语音的内容：

短时平稳性: 语音信号在宏观上是非平稳的，但可以在很短的时间段内（如 10-30 毫秒）近似看作是平稳的。这是进行分帧处理的基础。
频谱特性: 语音信号的频率成分（频谱）包含了重要的语音信息（如元音、辅音的区别）。
能量特性: 语音段的能量（响度）变化也能提供信息（如区分语音和静音）。

二、听懂的关键：语音特征提取

为了让模型更有效地学习，我们需要从原始的数字语音波形中提取出能更好地区分不同语音内容的关键特征。梅尔频率倒谱系数 (Mel Frequency Cepstral Coefficients, MFCC) 是其中最经典、最常用的一种。

2.1 为什么需要特征提取？

降维: 原始语音数据维度高，计算量大。
去除冗余: 原始信号包含与内容无关的信息（如说话人音色、背景噪声的某些成分）。
突出区分性: 提取对语音内容（音素）更敏感、对无关因素（如音量、说话人）更鲁棒的特征。
符合听觉感知: 模拟人类听觉系统处理声音的方式，使特征更有效。

2.2 梅尔频率倒谱系数 (MFCC) 详解

MFCC 的提取过程模拟了人类的听觉感知机制，主要步骤如下：

图 2: MFCC 特征提取流程图

2.2.1 预加重、分帧、加窗

（1）预加重 (Pre-emphasis)

目的：提升语音信号高频部分的能量，因为高频部分通常包含更多区分性信息但能量较弱。通常通过一个一阶高通滤波器实现：
$\alpha \cdot x(t-1)$
其中 $x (t)$ 是原始信号， $y (t)$ 是预加重后的信号， $\alpha$ 通常取 0.95 或 0.97。

（2）分帧 (Framing)

目的：利用语音的短时平稳性，将连续的语音信号切分成很多短时帧。
操作：通常每帧长度为 20-30ms（如 25ms），帧与帧之间有重叠（如 10ms 的帧移/步长），以保证帧之间的平滑过渡。

（3）加窗 (Windowing)

目的：减少后续进行 FFT 时产生的频谱泄露效应。
操作：给每一帧乘以一个窗函数（如汉明窗 Hamming Window），使得帧两端的信号值平滑过渡到零。

2.2.2 快速傅里叶变换 (FFT)

目的：将时域信号转换到频域，分析每一帧的频率成分。
操作：对加窗后的每一帧信号进行 FFT，得到其频谱。

2.2.3 计算功率谱

目的：得到每个频率分量的能量。
操作：计算频谱幅度的平方。 $P = |FFT(frame)|^2$ 。

2.2.4 梅尔滤波器组 (Mel Filter Bank)

目的：模拟人耳对不同频率的感知特性。人耳对低频声音的分辨率高于高频。梅尔刻度 (Mel Scale) 正是描述这种非线性关系的一种方式。
操作：设计一组按梅尔刻度分布的三角滤波器（通常 20-40 个），将功率谱通过这些滤波器，计算每个滤波器覆盖频带内的能量。
梅尔频率与实际频率 $f$ 的转换关系近似为：
$\cdot \log_{10}(1 + \frac{f}{700})$

2.2.5 计算对数能量 (Log Energy)

目的：对能量进行对数变换，一方面符合人耳对响度的感知（对数关系），另一方面可以压缩动态范围。
操作：取每个滤波器组输出能量的对数值。

2.2.6 离散余弦变换 (DCT)

目的：对梅尔滤波器组的对数能量进行变换，去除各维度之间的相关性，得到最终的倒谱系数。
操作：对对数能量向量进行 DCT（通常是 DCT-II），取前 N 个系数（通常是 12-13 个）作为该帧的 MFCC 特征。第一个系数通常反映了帧的整体能量，有时会单独处理或替换为帧的对数能量。

最终，每一帧语音信号都转换成了一个低维（如 13 维）的 MFCC 特征向量。整个语音段就变成了一个 MFCC 特征向量序列。通常还会加上一阶差分（表示特征随时间的变化率）和二阶差分（变化率的变化率），构成更丰富的特征（如 39 维）。

2.3 MFCC 的意义与局限

意义: MFCC 是语音识别领域里程碑式的特征，它模拟了人耳听觉特性，对不同音素有较好的区分度，且计算相对高效，对噪声也有一定的鲁棒性。
局限: MFCC 基于较强的假设（如短时平稳），对噪声和信道失真仍然敏感，并且在提取过程中可能丢失部分相位信息。现代深度学习模型有时也会直接从频谱图（如 Mel Spectrogram，即应用梅尔滤波器组后的结果，未进行 DCT）甚至原始波形学习特征。

三、传统语音识别模型：经典方法回顾

在深度学习兴起之前，基于隐马尔可夫模型 (Hidden Markov Model, HMM) 和高斯混合模型 (Gaussian Mixture Model, GMM) 的方法是语音识别的主流。

3.1 语音识别的基本框架

传统语音识别系统通常包含两个核心部分：声学模型 (Acoustic Model, AM) 和语言模型 (Language Model, LM)。

特征提取: 将语音信号转化为特征序列（如 MFCC）。
声学模型 (AM): 描述声学特征序列与语音单元（通常是音素 Phoneme）之间的关系。给定一个音素，它可能对应哪些声学特征？ $P (O b ser v a t i o n ∣ P h o n e m e)$ 。
词典 (Lexicon): 定义单词如何由音素序列构成。
语言模型 (LM): 描述词语序列的可能性。给定一个词序列，它出现的概率是多少？ $P (W or d S e q u e n ce)$ 。
解码器 (Decoder): 结合 AM、LM 和词典，寻找最有可能的词语序列，使得该序列对应的声学特征概率和语言模型概率的乘积最大。

3.2 声学模型 (Acoustic Model): HMM-GMM

3.2.1 隐马尔可夫模型 (HMM)

HMM 是一种统计模型，用于描述一个含有隐含未知参数的马尔可夫过程。在语音识别中，通常用 HMM 来对音素进行建模。

状态 (States): 每个音素模型（或子音素模型，如一个音素包含起始、中间、结束三个状态）由若干个状态组成。语音识别过程被看作是在这些状态之间跳转。
转移概率 (Transition Probability): 从一个状态跳转到另一个状态的概率。
观测概率/发射概率 (Observation/Emission Probability): 在某个状态下，观测到某个声学特征向量（如 MFCC）的概率。

3.2.2 高斯混合模型 (GMM)

GMM 用于建模 HMM 中每个状态的观测概率。因为一个状态对应的声学特征分布通常比较复杂，单一高斯分布难以描述，所以使用多个高斯分布的加权和来拟合。
$P(O_t | State_j) = \sum_{k=1}^{K} w_{jk} \mathcal{N}(O_t | \mu_{jk}, \Sigma_{jk})$
其中， $O_t$ 是第 t 帧的观测特征向量， $State_j$ 是 HMM 的第 j 个状态， $K$ 是混合的高斯分量数量， $w_{jk}$ 是第 k 个高斯分量的权重， $\mathcal{N}(O_t | \mu_{jk}, \Sigma_{jk})$ 是均值为 $\mu_{jk}$ 、协方差矩阵为 $\Sigma_{jk}$ 的高斯分布概率密度。

3.2.3 HMM-GMM 的工作原理

训练: 使用大量标注好的语音数据，通过 Baum-Welch 算法 (一种 EM 算法的变种) 来估计 HMM 的转移概率和 GMM 的参数（权重、均值、协方差）。
解码: 给定一段新的语音特征序列，使用 Viterbi 算法 在由所有音素 HMM 模型构成的网络中，结合语言模型，找到概率最大的状态序列，进而得到最可能的词序列。

3.3 语言模型 (Language Model)

3.3.1 语言模型的角色

语言模型的作用是评估一个词序列的合理性，帮助解码器选择更符合语法和语义的句子。例如，对于发音相似的 “recognize speech” 和 “wreck a nice beach”，语言模型会告诉解码器前者的概率远大于后者。

3.3.2 N-gram 模型简介

N-gram 模型是最经典的语言模型之一。它基于一个马尔可夫假设：一个词出现的概率只与其前面 N-1 个词有关。

Unigram (N=1): $P(w_i)$ ，只考虑单个词的出现频率。
Bigram (N=2): $P(w_i | w_{i-1})$ ，考虑前一个词。
Trigram (N=3): $P(w_i | w_{i-1}, w_{i-2})$ ，考虑前两个词。
句子的概率 $P(W) = P(w_1, w_2, ..., w_n)$ 可以近似为：
$\approx \prod_{i=1}^{n} P(w_i | w_{i-N+1}, ..., w_{i-1})$
N-gram 模型的参数通过统计大型文本语料库中词语共现的频率来估计。

3.4 传统方法的挑战

建模能力局限: HMM 的独立性假设和 GMM 的拟合能力有限。
分模块优化: 声学模型、语言模型、词典是分开训练的，可能导致次优解。
特征依赖: 严重依赖手工设计的特征（如 MFCC），特征提取的好坏直接影响性能。
复杂流程: 训练和解码流程相对复杂。

四、深度学习时代：端到端语音识别

随着深度学习的发展，尤其是循环神经网络 (RNN) 和注意力机制 (Attention) 的引入，端到端 (End-to-End, E2E) 的语音识别模型逐渐成为主流。它们可以直接将输入的声学特征（甚至原始波形）映射到输出的文本序列，简化了传统流程。

4.1 端到端模型的优势

简化流程: 将声学模型、发音词典、语言模型（部分或全部）集成到一个神经网络中进行联合优化。
自动特征学习: 可以从更原始的输入（如频谱图）中自动学习有效的特征表示，减少对 MFCC 等手工特征的依赖。
更强建模能力: 深度神经网络具有强大的非线性拟合能力，能更好地捕捉语音信号中的复杂模式和长时依赖关系。
性能提升: 在许多基准测试和实际应用中，端到端模型取得了超越传统方法的性能。

4.2 基于 CTC 的模型

4.2.1 CTC (Connectionist Temporal Classification) 原理

CTC 是一种用于序列标注任务的损失函数，特别适合处理输入序列和输出序列长度不一致且对齐关系未知的情况（这正是语音识别面临的挑战）。

核心思想: 引入一个特殊的 “blank” 标签 (通常表示为 $\epsilon$ 或 -)。模型在每个时间步输出一个字符或 blank 的概率分布。然后，通过合并重复字符和移除 blank，将网络输出的路径 (Paths) 映射到最终的标签序列 (Label Sequences)。
例如: 对于目标词 “CAT”，网络可能输出 “CCC-A-A-TTT” 或 “C-A–T” 等路径，这些路径在移除重复和 blank 后都对应 “CAT”。CTC 损失函数的目标是最大化所有能映射到正确标签序列的路径的概率之和。
优点: 无需预先对齐语音帧和标签，允许模型自由学习对齐关系。
结构: 通常使用 RNN (如 LSTM, GRU) 或 CNN+RNN 结构来处理输入特征序列，最后接一个 Softmax 层输出每个时间步的概率分布。

4.2.2 CTC 的应用

CTC 被广泛应用于诸如 DeepSpeech 系列等模型中。

4.3 基于 Attention 的模型

4.3.1 Attention 机制的核心思想

Attention 机制模拟了人类在处理信息时的注意力分配过程。在语音识别中，当模型生成输出文本的某个字符时，它会动态地关注（给予更高权重）输入语音特征序列中与该字符最相关的部分。

工作方式: 通常包含一个 Encoder（编码器）和一个 Decoder（解码器）。Encoder 负责将输入语音特征序列编码成一系列高层表示。Decoder 在生成每个输出字符时，会通过 Attention 机制计算一个上下文向量 (Context Vector)，该向量是 Encoder 输出表示的加权和，权重体现了当前解码步骤对输入各部分的关注程度。
优点: 能够更好地处理长距离依赖关系，对输入和输出之间的复杂对齐模式有更强的建模能力。

4.3.2 Encoder-Decoder 架构

这是 Attention 模型常用的结构，也称为 Sequence-to-Sequence (Seq2Seq) 模型。

Encoder: 通常使用 RNN (LSTM, GRU) 或 Transformer 来处理输入特征序列。
Decoder: 通常使用带 Attention 机制的 RNN 或 Transformer 来生成输出字符序列。

图 3: 基于 Attention 的 Encoder-Decoder 模型示意图

4.3.3 Attention 模型的优势

Attention 模型在许多语音识别任务中表现出色，尤其是在处理口音、语速变化和噪声方面显示出潜力。Transformer 架构（完全基于 Self-Attention）的引入进一步提升了性能和并行计算能力。

4.4 混合模型与其他

实践中，也有结合 CTC 和 Attention 优势的混合模型，以及基于 Transducer 的模型（如 RNN-T），它们在流式识别（实时输出）方面表现更好。

五、实战演练与常用工具

理论学习之后，让我们动手实践一下，并了解一些常用的工具。

5.1 Python `SpeechRecognition` 库快速入门

SpeechRecognition 是一个非常方便的 Python 库，它封装了多种在线和离线的语音识别引擎/API。

5.1.1 安装与基本使用

pip install SpeechRecognition
# 注意：如果需要使用麦克风，可能还需要安装 PyAudio
# Windows: pip install pyaudio
# MacOS: brew install portaudio && pip install pyaudio
# Linux: sudo apt-get install python3-pyaudio (或类似命令)

基本使用（识别本地音频文件，这里以 wav 格式为例）：

import speech_recognition as sr

# 创建 Recognizer 实例
r = sr.Recognizer()

# 音频文件路径
audio_file = "path/to/your/audio.wav" # 请替换为你的音频文件路径

# 打开音频文件
with sr.AudioFile(audio_file) as source:
    # 从文件中加载音频数据
    audio_data = r.record(source)

    # 尝试使用 Google Web Speech API 进行识别 (需要联网)
    try:
        # 识别英文
        text = r.recognize_google(audio_data, language='en-US')
        print(f"Google Web Speech API 识别结果: {text}")

        # 识别中文
        # text_zh = r.recognize_google(audio_data, language='zh-CN')
        # print(f"Google Web Speech API 识别结果 (中文): {text_zh}")

    except sr.UnknownValueError:
        print("Google Web Speech API 无法理解音频")
    except sr.RequestError as e:
        print(f"无法从 Google Web Speech API 请求结果; {e}")

    # 也可以尝试使用其他引擎，如 Sphinx (离线，需安装 CMU Sphinx)
    # try:
    #     text_sphinx = r.recognize_sphinx(audio_data)
    #     print(f"Sphinx 识别结果: {text_sphinx}")
    # except sr.UnknownValueError:
    #     print("Sphinx 无法理解音频")
    # except sr.RequestError as e:
    #     print(f"Sphinx 错误; {e}")

5.1.2 处理音频文件

上面的代码展示了如何处理本地 .wav 文件。SpeechRecognition 也支持其他格式，但可能需要安装 ffmpeg。

5.1.3 使用麦克风输入

import speech_recognition as sr

r = sr.Recognizer()

# 使用默认麦克风作为音频源
with sr.Microphone() as source:
    print("请说话...")
    # 调整环境噪音，持续 1 秒
    r.adjust_for_ambient_noise(source, duration=1)
    # 录制音频
    try:
        audio = r.listen(source, timeout=5, phrase_time_limit=10) # 等待 5 秒，最长录 10 秒
        print("录音结束，正在识别...")
        # 使用 Google API 识别
        text = r.recognize_google(audio, language='zh-CN') # 识别中文
        print(f"你说的是: {text}")
    except sr.WaitTimeoutError:
        print("超时：在指定时间内未检测到语音")
    except sr.UnknownValueError:
        print("无法识别你说的话")
    except sr.RequestError as e:
        print(f"请求 Google 服务失败; {e}")
    except Exception as e:
        print(f"发生错误: {e}")

5.1.4 注意事项与引擎选择

引擎: recognize_google() 使用 Google 的免费 Web API，方便但有频率限制且需联网。recognize_sphinx() 使用离线引擎 CMU Sphinx，需要额外安装，准确率相对较低，适合简单场景或无网络环境。该库还支持 Google Cloud Speech, Wit.ai, Azure Speech, Baidu Speech 等多种商业 API (通常需要 API Key)。
依赖: 麦克风输入依赖 PyAudio，其安装有时会遇到问题。
准确率: 免费 API 或离线引擎的准确率通常不如商业级云服务。

5.2 主流云服务语音识别 API

对于需要高准确率、支持更多语种和功能的生产级应用，通常会选择云服务提供商的 API。

服务商	API 名称	主要优势	可能劣势
Google Cloud	Speech-to-Text	准确率高，语种支持广，功能丰富（如说话人分离）	价格相对较高
Microsoft Azure	Speech Service	准确率高，与 Azure 生态集成好，定制化能力强	配置选项较多
AWS	Transcribe	准确率不错，与 AWS 生态集成紧密，按量付费	功能特性略有差异
百度智能云	语音识别	中文识别效果好，价格有竞争力，提供多种模型	国际语种支持相对少
阿里云	智能语音交互	中文支持好，与阿里生态结合，提供定制化服务	同上
科大讯飞	讯飞开放平台语音听写	中文领域技术积累深厚，准确率高，教育/政府常用	价格体系需关注

表 1: 主流云服务语音识别 API 简要对比

选择哪个 API 取决于具体需求，如目标语种、准确率要求、预算、是否需要定制化、以及是否已在使用该云平台等。

5.3 语音助手背后的挑战

看似简单的语音交互背后，其实隐藏着巨大的技术挑战：

5.3.1 噪声环境与鲁棒性

现实环境充满各种噪声（背景人声、音乐、电器声、风噪等），以及用户口音、语速、情绪、口头禅、甚至距离麦克风远近的变化，都会严重影响识别准确率。模型需要具备强大的鲁棒性 (Robustness)。常用技术包括语音增强 (Speech Enhancement)、多通道信号处理 (Beamforming) 和在含噪数据上训练模型。

5.3.2 远场识别与唤醒词检测

语音助手通常需要在几米外（远场）接收指令，信号衰减和混响更严重。此外，它们需要 7x24 小时低功耗地监听唤醒词 (Wake Word)（如 “Hey Siri”, “小爱同学”），只有听到唤醒词才启动后续的完整识别流程，这对功耗和准确率（低误报、低漏报）提出了极高要求。

5.3.3 口语化表达与上下文理解

用户说话往往不按标准语法，充满省略、重复、修正和非正式表达。机器不仅要准确转写文字 (ASR)，还需要结合自然语言理解 (Natural Language Understanding, NLU) 技术，理解用户的真实意图，处理指代消解、上下文关联等问题。

5.3.4 实时性要求

语音交互要求低延迟，用户说完话后需要快速得到响应。这对模型的计算效率和部署架构提出了很高要求，尤其是在移动设备或边缘端部署时。

六、总结

恭喜你完成了今天的学习！这篇博客带我们深入探索了语音识别与处理的基础知识和核心技术。我们回顾了以下关键点：

语音信号基础: 了解了声音的物理本质，以及如何通过采样和量化将模拟语音转换为机器可处理的数字信号。
特征提取 (MFCC): 学习了最经典的语音特征 MFCC 的提取流程（预加重、分帧、加窗、FFT、梅尔滤波、对数能量、DCT），理解了其模拟人耳听觉感知和降低数据维度的重要性。
传统语音识别 (HMM-GMM + LM): 回顾了基于 HMM-GMM 声学模型和 N-gram 语言模型的传统识别框架，了解了它们的基本原理和局限性。
端到端深度学习模型: 介绍了现代主流的基于 CTC 和 Attention 机制的端到端模型，它们简化了流程，提升了性能，能够自动学习特征和处理复杂对齐。
实战与工具: 通过 Python SpeechRecognition 库体验了简单的语音转文字，并了解了主流的云服务语音识别 API。
现实挑战: 探讨了语音助手等实际应用中面临的噪声、远场、口语理解、实时性等核心挑战。

语音识别是一个融合了信号处理、声学、统计学、机器学习和自然语言处理等多个领域的交叉学科。虽然我们今天只触及了冰山一角，但希望这些内容能为你打开一扇门，激发你进一步探索这个“让机器听懂世界”的迷人领域！下一天，我们将继续机器学习的探索之旅！

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

FireRedASR: 开源工业级自动语音识别模型使用教程

FireRedASR 是一套开源的工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。该模型在公开的普通话ASR基准测试中取得了新的最佳效果（SOTA），并且具有出色的歌声识别能力。FireRedASR 包括两种变体：- FireRedASR-LLM：采用编码器-适配器-LLM框架，利用大型语言模型（LLM）的能力，旨在实现最佳性能和无缝端到端语音交互。- FireRedASR-

火山引擎开发者社区

FireRedASR项目使用与启动教程

FireRedASR项目是一个开源的自动语音识别（ASR）模型项目，其目录结构如下：- `assets/`：包含项目所需的资源文件，如音频示例等。- `examples/`：包含项目运行示例脚本，用于演示如何使用ASR模型进行语音识别。- `fireredasr/`：包含项目的核心代码，包括模型定义、数据处理等。- `pretrained_models/`：用于存放预训练模型文件。-

火山引擎开发者社区

所有评论(0)

查看更多评论

大模型铲屎官

@Kiradzy

已为社区贡献20条内容

【机器学习】入门语音识别：从MFCC、HMM到CTC/Attention，让机器听懂你的声音

大模型铲屎官

Langchain系列文章目录

PyTorch系列文章目录

Python系列文章目录

机器学习系列文章目录

文章目录

前言

一、语音信号：机器“听觉”的起点

1.1 声音的本质与模拟信号

1.2 语音信号的数字化

1.2.1 采样 (Sampling)

1.2.2 量化 (Quantization)

1.3 语音信号的关键特性

二、听懂的关键：语音特征提取

2.1 为什么需要特征提取？

2.2 梅尔频率倒谱系数 (MFCC) 详解

2.2.1 预加重、分帧、加窗

（1） 预加重 (Pre-emphasis)

（2） 分帧 (Framing)

（3） 加窗 (Windowing)

2.2.2 快速傅里叶变换 (FFT)

2.2.3 计算功率谱

2.2.4 梅尔滤波器组 (Mel Filter Bank)

2.2.5 计算对数能量 (Log Energy)

2.2.6 离散余弦变换 (DCT)

2.3 MFCC 的意义与局限

三、传统语音识别模型：经典方法回顾

3.1 语音识别的基本框架

3.2 声学模型 (Acoustic Model): HMM-GMM

3.2.1 隐马尔可夫模型 (HMM)

3.2.2 高斯混合模型 (GMM)

3.2.3 HMM-GMM 的工作原理

3.3 语言模型 (Language Model)

3.3.1 语言模型的角色

3.3.2 N-gram 模型简介

3.4 传统方法的挑战

四、深度学习时代：端到端语音识别

4.1 端到端模型的优势

4.2 基于 CTC 的模型

4.2.1 CTC (Connectionist Temporal Classification) 原理

4.2.2 CTC 的应用

4.3 基于 Attention 的模型

4.3.1 Attention 机制的核心思想

4.3.2 Encoder-Decoder 架构

4.3.3 Attention 模型的优势

4.4 混合模型与其他

五、实战演练与常用工具

5.1 Python SpeechRecognition 库快速入门

5.1.1 安装与基本使用

5.1.2 处理音频文件

5.1.3 使用麦克风输入

5.1.4 注意事项与引擎选择

5.2 主流云服务语音识别 API

5.3 语音助手背后的挑战

5.3.1 噪声环境与鲁棒性

5.3.2 远场识别与唤醒词检测

5.3.3 口语化表达与上下文理解

5.3.4 实时性要求

六、总结

所有评论(0)

大模型铲屎官

（1）预加重 (Pre-emphasis)

（2）分帧 (Framing)

（3）加窗 (Windowing)

5.1 Python `SpeechRecognition` 库快速入门