Skip to content

2026 最全 AI 人声分离模型指南:SDR、Fullness 与 Bleedless 指标深度解析

在音频工程与机器学习的交叉领域,AI 音源分离(Audio Source Separation) 已不再是“能否分离”的问题,而是追求母带级无损分离。随着 MVSEP 榜单的不断更新,从早期的 Hybrid Demucs 到如今主导排行榜的 BS-Roformer 变体,音频制作人面临复杂的参数选择。

本文基于最新的 MVSEP Multisong 基准测试数据,深度解析当前主流 SOTA(State-of-the-Art)模型,并提供针对不同音轨特征的专业选型指南。


核心指标解析:SDR、Fullness 与 Bleedless

在评估 AI 人声分离质量时,业内公认的三大核心维度为:

  1. SDR (Signal-to-Distortion Ratio):信噪比,衡量信号失真程度。
  2. Fullness (饱满度):模型保留器乐细节、动态范围和低频质感的能力。
  3. Bleedless (洁净度):去除残留人声伪影的能力。

注意:Fullness 与 Bleedless 往往存在权衡。追求极致干净可能会损伤器乐饱满度。因此,针对不同曲风选择特定模型非常关键,例如录音室母带与现场录音的需求不同。


选择模型时需考虑的因素

  1. 歌曲类型与风格
    每首歌的乐器编排、混音方式和效果处理不同,同一模型在不同曲目上的表现可能差异巨大。

  2. Fullness 与 Bleedless 指标
    Fullness 表示伴奏细节保留能力,Bleedless 表示人声残留去除能力。MVSEP 提供多曲目测试数据,可按指标排序选择模型。

  3. Phase Fix 技术
    对于常见“人声残留”或“低频嗡嗡声”,可在 UVR > Tools 使用 Phase Fixer 或 Phase Swapper 功能进行修复。


2026 主流 AI 人声/伴奏分离模型对比

以下数据基于 MVSEP Multisong Dataset 评估结果,展示单模型表现:

模型名称架构类型Inst. FullnessInst. BleedlessSDR (dB)核心应用场景
Becruily Mel-Roformer "Deux"Mel-Roformer34.2541.3617.55全能之王:均衡、高 SDR、无相位修复需求
Unwa HyperAce v2BS-Roformer38.0337.8717.40极致细节:声场开阔、适合复杂声乐伴奏
BS-Roformer ResurrectionBS-Roformer34.9340.1417.25钢琴与电吉他:中低频平滑、底噪极低
Unwa Mel-Roformer V1e+Mel-Roformer37.8936.5316.65现代混音:适合电子、Trap 等高能背景音

专家级模型深度点评

1. Becruily Dual Mel-Roformer "Deux"

作为 SOTA 代表,Deux 模型内部自动执行相位反转校正。

  • 技术亮点:适合商业混音,钢琴等乐器保留度极佳,避免水声伪影。
  • 进阶调优:对伴奏推荐 chunk_size705,600。更高 Chunk 可提升 Fullness,但超过 882,000 可能降低 SDR。

2. Unwa HyperAce v2 (BS-Roformer)

追求最高 aura_mrstft 评分的首选模型。

  • 听感特征:声学乐器表现通透,比 V1e+ 更饱满。
  • 局限性:Vocoder 音频提取能力弱,推理速度比 Resurrection 慢。

3. BS-Roformer Resurrection

专为解决“相位畸变”设计。

  • 应用建议:处理静默片段或极简钢琴曲时,Resurrection 可有效减少背景沙沙声。

使用建议与优化技巧

  1. 切分音频与调节 Chunk Size

    • Becruily Deux:661,500–749,700 常用,过高可能降低 SDR
    • V1e+:570K 默认适中
  2. Phase Fix / Phase Swapper

    • UVR > Tools 的 Phase Fix 可解决低频嗡嗡声及轻微人声残留
    • 使用 Bleedless 模型作为参考可提升效果
  3. 组合与比对模型

    • 钢琴独奏使用 Resurrection,复杂声乐伴奏使用 HyperAce v2
    • 分段处理或组合模型可获得最佳效果
  4. 参考 MVSEP 数据


离线处理工程实践建议

  1. 隐私与无损输出

    • 使用 LyRuno 可实现离线人声分离、不用上传文件、充分保护隐私
  2. 批量工作流

    • 批量导入音轨,提高处理效率
  3. Overlap & Chunking 参数控制

    • 合理设置 Overlap(如 8)可消除块处理边缘噪声
  4. 大文件处理

    • 对于超大文件,可采用分段分离的方式, LyRuno 可以很好的处理这种体积或者时长超级大的文件

常见问题 (FAQ)

Q1: 为什么分离出来的伴奏有“机器味”?

通常是模型过度切削基频,尝试增加 chunk_size 或使用 Becruily Deux 处理相位一致性。

Q2: 2-stem 还是 4-stem 模型?

目标是干声提取:2-stem SDR 更高。4-stem 可分离鼓和贝斯,但边缘频率泄漏更明显。

Q3: 如何快速去除轻微人声残留?

先用 denoise/bleedless 模型,再用 Phase Fix 进一步处理,效果最佳。

Q4: MVSEP 数据如何参考?

MVSEP 提供 Fullness、Bleedless、SDR 等指标,可排序和对比不同模型,是选型的重要依据。


本文参考资料: