Skip to content

关于歌声转化的请教 #179

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
EricPengShuai opened this issue May 1, 2025 · 3 comments
Open

关于歌声转化的请教 #179

EricPengShuai opened this issue May 1, 2025 · 3 comments

Comments

@EricPengShuai
Copy link

我这边使用一小段音频作为 source 音频 和 target 音频尝试歌声转化,感觉效果不太好,具体推理过程如下:

source 歌声音频、target 歌声音频](url)以及生成的歌声音频:https://pan.quark.cn/s/5b438a7ff8bd

python inference.py --source ./dataset/这世界那么多人.m4a \
--target ./dataset/像我这样的人.m4a \
--output ./reconstructed \
--diffusion-steps 30 \
--f0-condition True \
--length-adjust 1.0 \
--inference-cfg-rate 0.7 \
--semi-tone-shift 0 \
--checkpoint ./pth/DiT_seed_v2_uvit_whisper_base_f0_44k_bigvgan_pruned_ft_ema.pth \
--config ./configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
  1. 请问一下是我使用方法有误吗,还是说需要自己根据某个歌手的数据集训练一个模型然后推理呢
  2. 如果自己使用 train.py 训练模型需要准备很多 30s 以内的音频,这些音频可以是歌声吗(就带bgm那种)
  3. 模型推理的时候必须要 source 音频长度少于 30s 吗,这个不能使用一首 3-4min左右的歌作为 source 音频吗
  4. 我对之前网上那些AI孙燕姿歌声比较感兴趣,不知道这个模型可以不可以实现AI毛不易等自己喜欢的歌手,我想的是准备这些歌手常见的唱歌片段,不知道大佬有什么好的方式来准备这些30s左右的音频
@A-little-star
Copy link

  1. 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多

@scutfrank
Copy link

  1. 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多

请问下有没有比较好的音乐分离模型

@hjj-lmx
Copy link

hjj-lmx commented May 10, 2025

  1. 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多

请问下有没有比较好的音乐分离模型

请问找到了吗

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants