Skip to content

关于V2模型的使用问题反馈 #162

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
TheHonestBob opened this issue Apr 17, 2025 · 5 comments
Open

关于V2模型的使用问题反馈 #162

TheHonestBob opened this issue Apr 17, 2025 · 5 comments

Comments

@TheHonestBob
Copy link

TheHonestBob commented Apr 17, 2025

我使用了hf上的服务,当我勾选语音情感选项时,发现转换后的音频会咬字不清晰,但是v1版没有这个问题,以下是源音频和参考音色音频

源音频.zip

徐志胜.zip

@Plachtaa
Copy link
Owner

Plachtaa commented Apr 17, 2025

确实是会这样,在现阶段的方法中这个是不可避免的trade off

@Approximetal
Copy link

发现huggingface上面的demo page经常输出的音频会爆音,是不是需要clip或者限制一下最大音量

@Plachtaa
Copy link
Owner

发现huggingface上面的demo page经常输出的音频会爆音,是不是需要clip或者限制一下最大音量

这个是Gradio自己会去缩放音量导致的,用cli推理没有观察到这种问题,暂时不知道怎么解决

@Approximetal
Copy link

Approximetal commented Apr 24, 2025

发现huggingface上面的demo page经常输出的音频会爆音,是不是需要clip或者限制一下最大音量

这个是Gradio自己会去缩放音量导致的,用cli推理没有观察到这种问题,暂时不知道怎么解决

不知道是不是Gradio的bug,我回退到1月的版本就没有这个问题,或者也可以在这句output_wave = (output_wave * 32768.0).astype(np.int16)前面加上output_wave = np.clip(output_wave, -0.999, 0.999),会稍微好一点(不会爆但是db还是有点拉满了)

@Plachtaa
Copy link
Owner

发现huggingface上面的demo page经常输出的音频会爆音,是不是需要clip或者限制一下最大音量

这个是Gradio自己会去缩放音量导致的,用cli推理没有观察到这种问题,暂时不知道怎么解决

不知道是不是的bug,我回退到1月的版本就没有这个问题,或者也可以在这句output_wave = (output_wave * 32768.0).astype(np.int16)前面加上output_wave = np.clip(output_wave, -0.999, 0.999),会稍微好一点(不会爆但是db还是有点拉满了)

那有可能是升级了gradio导致的,我会尝试你的方案看是否能改善

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants