关于歌声转化的请教 #179

EricPengShuai · 2025-05-01T12:04:50Z

我这边使用一小段音频作为 source 音频和 target 音频尝试歌声转化，感觉效果不太好，具体推理过程如下：

source 歌声音频、target 歌声音频](url)以及生成的歌声音频：https://pan.quark.cn/s/5b438a7ff8bd

python inference.py --source ./dataset/这世界那么多人.m4a \
--target ./dataset/像我这样的人.m4a \
--output ./reconstructed \
--diffusion-steps 30 \
--f0-condition True \
--length-adjust 1.0 \
--inference-cfg-rate 0.7 \
--semi-tone-shift 0 \
--checkpoint ./pth/DiT_seed_v2_uvit_whisper_base_f0_44k_bigvgan_pruned_ft_ema.pth \
--config ./configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml

请问一下是我使用方法有误吗，还是说需要自己根据某个歌手的数据集训练一个模型然后推理呢
如果自己使用 train.py 训练模型需要准备很多 30s 以内的音频，这些音频可以是歌声吗（就带bgm那种）
模型推理的时候必须要 source 音频长度少于 30s 吗，这个不能使用一首 3-4min左右的歌作为 source 音频吗
我对之前网上那些AI孙燕姿歌声比较感兴趣，不知道这个模型可以不可以实现AI毛不易等自己喜欢的歌手，我想的是准备这些歌手常见的唱歌片段，不知道大佬有什么好的方式来准备这些30s左右的音频

A-little-star · 2025-05-05T13:47:16Z

你的 source 音频和 target 音频都是有背景音乐的，歌声转换之前先用音乐分离模型把人声分离出来，这样效果会好很多

scutfrank · 2025-05-09T09:22:48Z

你的 source 音频和 target 音频都是有背景音乐的，歌声转换之前先用音乐分离模型把人声分离出来，这样效果会好很多

请问下有没有比较好的音乐分离模型

hjj-lmx · 2025-05-10T09:34:25Z

你的 source 音频和 target 音频都是有背景音乐的，歌声转换之前先用音乐分离模型把人声分离出来，这样效果会好很多

请问下有没有比较好的音乐分离模型

请问找到了吗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于歌声转化的请教 #179

关于歌声转化的请教 #179

EricPengShuai commented May 1, 2025

A-little-star commented May 5, 2025

scutfrank commented May 9, 2025

hjj-lmx commented May 10, 2025

关于歌声转化的请教 #179

关于歌声转化的请教 #179

Comments

EricPengShuai commented May 1, 2025

A-little-star commented May 5, 2025

scutfrank commented May 9, 2025

hjj-lmx commented May 10, 2025