2026 最全 AI 人声分离模型指南:SDR、Fullness 与 Bleedless 指标深度解析
在音频工程与机器学习的交叉领域,AI 音源分离(Audio Source Separation) 已不再是“能否分离”的问题,而是追求母带级无损分离。随着 MVSEP 榜单的不断更新,从早期的 Hybrid Demucs 到如今主导排行榜的 BS-Roformer 变体,音频制作人面临复杂的参数选择。
本文基于最新的 MVSEP Multisong 基准测试数据,深度解析当前主流 SOTA(State-of-the-Art)模型,并提供针对不同音轨特征的专业选型指南。
核心指标解析:SDR、Fullness 与 Bleedless
在评估 AI 人声分离质量时,业内公认的三大核心维度为:
- SDR (Signal-to-Distortion Ratio):信噪比,衡量信号失真程度。
- Fullness (饱满度):模型保留器乐细节、动态范围和低频质感的能力。
- Bleedless (洁净度):去除残留人声伪影的能力。
注意:Fullness 与 Bleedless 往往存在权衡。追求极致干净可能会损伤器乐饱满度。因此,针对不同曲风选择特定模型非常关键,例如录音室母带与现场录音的需求不同。
选择模型时需考虑的因素
歌曲类型与风格
每首歌的乐器编排、混音方式和效果处理不同,同一模型在不同曲目上的表现可能差异巨大。Fullness 与 Bleedless 指标
Fullness 表示伴奏细节保留能力,Bleedless 表示人声残留去除能力。MVSEP 提供多曲目测试数据,可按指标排序选择模型。Phase Fix 技术
对于常见“人声残留”或“低频嗡嗡声”,可在 UVR > Tools 使用 Phase Fixer 或 Phase Swapper 功能进行修复。
2026 主流 AI 人声/伴奏分离模型对比
以下数据基于 MVSEP Multisong Dataset 评估结果,展示单模型表现:
| 模型名称 | 架构类型 | Inst. Fullness | Inst. Bleedless | SDR (dB) | 核心应用场景 |
|---|---|---|---|---|---|
| Becruily Mel-Roformer "Deux" | Mel-Roformer | 34.25 | 41.36 | 17.55 | 全能之王:均衡、高 SDR、无相位修复需求 |
| Unwa HyperAce v2 | BS-Roformer | 38.03 | 37.87 | 17.40 | 极致细节:声场开阔、适合复杂声乐伴奏 |
| BS-Roformer Resurrection | BS-Roformer | 34.93 | 40.14 | 17.25 | 钢琴与电吉他:中低频平滑、底噪极低 |
| Unwa Mel-Roformer V1e+ | Mel-Roformer | 37.89 | 36.53 | 16.65 | 现代混音:适合电子、Trap 等高能背景音 |
专家级模型深度点评
1. Becruily Dual Mel-Roformer "Deux"
作为 SOTA 代表,Deux 模型内部自动执行相位反转校正。
- 技术亮点:适合商业混音,钢琴等乐器保留度极佳,避免水声伪影。
- 进阶调优:对伴奏推荐
chunk_size≈ 705,600。更高 Chunk 可提升 Fullness,但超过 882,000 可能降低 SDR。
2. Unwa HyperAce v2 (BS-Roformer)
追求最高 aura_mrstft 评分的首选模型。
- 听感特征:声学乐器表现通透,比 V1e+ 更饱满。
- 局限性:Vocoder 音频提取能力弱,推理速度比 Resurrection 慢。
3. BS-Roformer Resurrection
专为解决“相位畸变”设计。
- 应用建议:处理静默片段或极简钢琴曲时,Resurrection 可有效减少背景沙沙声。
使用建议与优化技巧
切分音频与调节 Chunk Size
- Becruily Deux:661,500–749,700 常用,过高可能降低 SDR
- V1e+:570K 默认适中
Phase Fix / Phase Swapper
- UVR > Tools 的 Phase Fix 可解决低频嗡嗡声及轻微人声残留
- 使用 Bleedless 模型作为参考可提升效果
组合与比对模型
- 钢琴独奏使用 Resurrection,复杂声乐伴奏使用 HyperAce v2
- 分段处理或组合模型可获得最佳效果
参考 MVSEP 数据
- Fullness、Bleedless、SDR 数据可量化选择模型
- MVSEP 模型测试结果
离线处理工程实践建议
隐私与无损输出
- 使用 LyRuno 可实现离线人声分离、不用上传文件、充分保护隐私
批量工作流
- 批量导入音轨,提高处理效率
Overlap & Chunking 参数控制
- 合理设置 Overlap(如 8)可消除块处理边缘噪声
大文件处理
- 对于超大文件,可采用分段分离的方式, LyRuno 可以很好的处理这种体积或者时长超级大的文件
常见问题 (FAQ)
Q1: 为什么分离出来的伴奏有“机器味”?
通常是模型过度切削基频,尝试增加
chunk_size或使用 Becruily Deux 处理相位一致性。
Q2: 2-stem 还是 4-stem 模型?
目标是干声提取:2-stem SDR 更高。4-stem 可分离鼓和贝斯,但边缘频率泄漏更明显。
Q3: 如何快速去除轻微人声残留?
先用 denoise/bleedless 模型,再用 Phase Fix 进一步处理,效果最佳。
Q4: MVSEP 数据如何参考?
MVSEP 提供 Fullness、Bleedless、SDR 等指标,可排序和对比不同模型,是选型的重要依据。