2026 最全 AI 人声分离模型指南：SDR、Fullness 与 Bleedless 指标深度解析

在音频工程与机器学习的交叉领域，AI 音源分离（Audio Source Separation） 已不再是“能否分离”的问题，而是追求母带级无损分离。随着 MVSEP 榜单的不断更新，从早期的 Hybrid Demucs 到如今主导排行榜的 BS-Roformer 变体，音频制作人面临复杂的参数选择。

本文基于最新的 MVSEP Multisong 基准测试数据，深度解析当前主流 SOTA（State-of-the-Art）模型，并提供针对不同音轨特征的专业选型指南。

核心指标解析：SDR、Fullness 与 Bleedless

在评估 AI 人声分离质量时，业内公认的三大核心维度为：

SDR (Signal-to-Distortion Ratio)：信噪比，衡量信号失真程度。
Fullness (饱满度)：模型保留器乐细节、动态范围和低频质感的能力。
Bleedless (洁净度)：去除残留人声伪影的能力。

注意：Fullness 与 Bleedless 往往存在权衡。追求极致干净可能会损伤器乐饱满度。因此，针对不同曲风选择特定模型非常关键，例如录音室母带与现场录音的需求不同。

选择模型时需考虑的因素

歌曲类型与风格
每首歌的乐器编排、混音方式和效果处理不同，同一模型在不同曲目上的表现可能差异巨大。
Fullness 与 Bleedless 指标
Fullness 表示伴奏细节保留能力，Bleedless 表示人声残留去除能力。MVSEP 提供多曲目测试数据，可按指标排序选择模型。
Phase Fix 技术
对于常见“人声残留”或“低频嗡嗡声”，可在 UVR > Tools 使用 Phase Fixer 或 Phase Swapper 功能进行修复。

2026 主流 AI 人声/伴奏分离模型对比

以下数据基于 MVSEP Multisong Dataset 评估结果，展示单模型表现：

模型名称	架构类型	Inst. Fullness	Inst. Bleedless	SDR (dB)	核心应用场景
Becruily Mel-Roformer "Deux"	Mel-Roformer	34.25	41.36	17.55	全能之王：均衡、高 SDR、无相位修复需求
Unwa HyperAce v2	BS-Roformer	38.03	37.87	17.40	极致细节：声场开阔、适合复杂声乐伴奏
BS-Roformer Resurrection	BS-Roformer	34.93	40.14	17.25	钢琴与电吉他：中低频平滑、底噪极低
Unwa Mel-Roformer V1e+	Mel-Roformer	37.89	36.53	16.65	现代混音：适合电子、Trap 等高能背景音

专家级模型深度点评

1. Becruily Dual Mel-Roformer "Deux"

作为 SOTA 代表，Deux 模型内部自动执行相位反转校正。

技术亮点：适合商业混音，钢琴等乐器保留度极佳，避免水声伪影。
进阶调优：对伴奏推荐 chunk_size ≈ 705,600。更高 Chunk 可提升 Fullness，但超过 882,000 可能降低 SDR。

2. Unwa HyperAce v2 (BS-Roformer)

追求最高 aura_mrstft 评分的首选模型。

听感特征：声学乐器表现通透，比 V1e+ 更饱满。
局限性：Vocoder 音频提取能力弱，推理速度比 Resurrection 慢。

3. BS-Roformer Resurrection

专为解决“相位畸变”设计。

应用建议：处理静默片段或极简钢琴曲时，Resurrection 可有效减少背景沙沙声。

使用建议与优化技巧

切分音频与调节 Chunk Size
- Becruily Deux：661,500–749,700 常用，过高可能降低 SDR
- V1e+：570K 默认适中
Phase Fix / Phase Swapper
- UVR > Tools 的 Phase Fix 可解决低频嗡嗡声及轻微人声残留
- 使用 Bleedless 模型作为参考可提升效果
组合与比对模型
- 钢琴独奏使用 Resurrection，复杂声乐伴奏使用 HyperAce v2
- 分段处理或组合模型可获得最佳效果
参考 MVSEP 数据
- Fullness、Bleedless、SDR 数据可量化选择模型
- MVSEP 模型测试结果

离线处理工程实践建议

隐私与无损输出
- 使用 LyRuno 可实现离线人声分离、不用上传文件、充分保护隐私
批量工作流
- 批量导入音轨，提高处理效率
Overlap & Chunking 参数控制
- 合理设置 Overlap（如 8）可消除块处理边缘噪声
大文件处理
- 对于超大文件，可采用分段分离的方式， LyRuno 可以很好的处理这种体积或者时长超级大的文件

常见问题 (FAQ)

Q1: 为什么分离出来的伴奏有“机器味”？

通常是模型过度切削基频，尝试增加 chunk_size 或使用 Becruily Deux 处理相位一致性。

Q2: 2-stem 还是 4-stem 模型？

目标是干声提取：2-stem SDR 更高。4-stem 可分离鼓和贝斯，但边缘频率泄漏更明显。

Q3: 如何快速去除轻微人声残留？

先用 denoise/bleedless 模型，再用 Phase Fix 进一步处理，效果最佳。

Q4: MVSEP 数据如何参考？

MVSEP 提供 Fullness、Bleedless、SDR 等指标，可排序和对比不同模型，是选型的重要依据。

2026 最全 AI 人声分离模型指南：SDR、Fullness 与 Bleedless 指标深度解析 ​

核心指标解析：SDR、Fullness 与 Bleedless ​

选择模型时需考虑的因素 ​

2026 主流 AI 人声/伴奏分离模型对比 ​

专家级模型深度点评 ​

1. Becruily Dual Mel-Roformer "Deux" ​

2. Unwa HyperAce v2 (BS-Roformer) ​

3. BS-Roformer Resurrection ​

使用建议与优化技巧 ​

离线处理工程实践建议 ​

常见问题 (FAQ) ​

本文参考资料： ​