关于V2模型的使用问题反馈 #162

TheHonestBob · 2025-04-17T02:10:23Z

我使用了hf上的服务，当我勾选语音情感选项时，发现转换后的音频会咬字不清晰，但是v1版没有这个问题，以下是源音频和参考音色音频

源音频.zip

徐志胜.zip

Plachtaa · 2025-04-17T14:09:08Z

确实是会这样，在现阶段的方法中这个是不可避免的trade off

Approximetal · 2025-04-23T03:59:40Z

发现huggingface上面的demo page经常输出的音频会爆音，是不是需要clip或者限制一下最大音量

Plachtaa · 2025-04-23T11:36:58Z

发现huggingface上面的demo page经常输出的音频会爆音，是不是需要clip或者限制一下最大音量

这个是Gradio自己会去缩放音量导致的，用cli推理没有观察到这种问题，暂时不知道怎么解决

Approximetal · 2025-04-24T03:45:15Z

发现huggingface上面的demo page经常输出的音频会爆音，是不是需要clip或者限制一下最大音量

这个是Gradio自己会去缩放音量导致的，用cli推理没有观察到这种问题，暂时不知道怎么解决

不知道是不是Gradio的bug，我回退到1月的版本就没有这个问题，或者也可以在这句output_wave = (output_wave * 32768.0).astype(np.int16)前面加上output_wave = np.clip(output_wave, -0.999, 0.999)，会稍微好一点（不会爆但是db还是有点拉满了）

Plachtaa · 2025-04-24T03:47:22Z

发现huggingface上面的demo page经常输出的音频会爆音，是不是需要clip或者限制一下最大音量

这个是Gradio自己会去缩放音量导致的，用cli推理没有观察到这种问题，暂时不知道怎么解决

不知道是不是的bug，我回退到1月的版本就没有这个问题，或者也可以在这句output_wave = (output_wave * 32768.0).astype(np.int16)前面加上output_wave = np.clip(output_wave, -0.999, 0.999)，会稍微好一点（不会爆但是db还是有点拉满了）

那有可能是升级了gradio导致的，我会尝试你的方案看是否能改善

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于V2模型的使用问题反馈 #162

关于V2模型的使用问题反馈 #162

TheHonestBob commented Apr 17, 2025 •

edited

Loading

Plachtaa commented Apr 17, 2025 •

edited

Loading

Approximetal commented Apr 23, 2025

Plachtaa commented Apr 23, 2025

Approximetal commented Apr 24, 2025 •

edited

Loading

Plachtaa commented Apr 24, 2025

关于V2模型的使用问题反馈 #162

关于V2模型的使用问题反馈 #162

Comments

TheHonestBob commented Apr 17, 2025 • edited Loading

Plachtaa commented Apr 17, 2025 • edited Loading

Approximetal commented Apr 23, 2025

Plachtaa commented Apr 23, 2025

Approximetal commented Apr 24, 2025 • edited Loading

Plachtaa commented Apr 24, 2025

TheHonestBob commented Apr 17, 2025 •

edited

Loading

Plachtaa commented Apr 17, 2025 •

edited

Loading

Approximetal commented Apr 24, 2025 •

edited

Loading