配音渠道_F5-TTS/Spark-TTS/index-TTS/Dia-TTS/VoxCPM/Confucius-TTS | pyVideoTrans官网-开源免费视频翻译配音软件 pyvideotrans.com pyvideotrans github github.com/jianchang512/pyvideotrans

配音渠道:F5-TTS/Spark-TTS/index-TTS/Dia-TTS/VoxCPM/Confucius-TTS

v3.68 起，该设置界面可同时用于 , 只需要填写对应TTS服务启动后的 WebUI 地址，默认通常是http://127.0.0.1:7860, 然后在主界面配音渠道下拉列表中选择对应服务即可。

F5-TTS

上海交大开源的TTS服务，默认支持中文和英文，其他语言添加方法拉到底部查看

使用整合包或源码部署后，启动 WebUI，默认地址是http://127.0.0.1:7860

Windows整合包下载地址(百度网盘): https://pan.baidu.com/s/1A6jBECIQ41OZaa8yTDCgjA?pwd=1234
Windows整合包 hugginface.co: https://huggingface.co/mortimerme/repocollect/resolve/main/f5-tts0528.7z?download=true

源码部署方法请参照官方项目说明文档部署 https://github.com/SWivid/F5-TTS

index-tts

B站开源的TTS服务，支持中文和英文

使用整合包或源码部署后，启动 WebUI, 默认地址是http://127.0.0.1:7860

Windows整合包百度网盘下载地址 https://pan.baidu.com/s/1dmLdhJgBC7HlfY-hITMVeg?pwd=1234
Windows整合包 huggingface.co下载地址 https://huggingface.co/mortimerme/repocollect/resolve/main/indextts2-0529.7z?download=true

源码部署方法请参照官方项目说明文档部署 https://github.com/index-tts/index-tts

VoxCPM-TTS

面壁智能开源的TTS服务，支持30多种语言
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
中文: 普通话，四川话, 粤语, 吴语, 东北话, 河南话, 陕西话, 山东话, 天津话, 闽南话

使用官方源码部署后，启动 WebUI, 默认地址是http://127.0.0.1:7860

请源码部署，方法参照官方项目说明文档部署 https://github.com/OpenBMB/VoxCPM

Spark-tts

支持中文和英文

使用整合包或源码部署后，启动 WebUI, 默认地址是http://127.0.0.1:7860

请源码部署，方法参照官方项目说明文档部署 https://github.com/SparkAudio/Spark-TTS

Dia-tts

仅支持英文

使用整合包或源码部署后，启动 WebUI, 默认地址是http://127.0.0.1:7860

请源码部署，方法参照官方项目说明文档部署 https://github.com/nari-labs/dia.git

Confucius-TTS网页开源的TTS服务，支持16种语言

默认地址http://127.0.0.1:7860

支持 14 种语言：中文、英文、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语

源码部署注意：
官方源码不含有WebUI和API，无法直接对接本软件，源码部署后，需要下载 webui.py()
然后放在官方源码目录下启动(python webui.py),
启动前需安装gradio模块，安装命令pip install gradio
整合包可直接双击启动webui.bat使用，无法额外操作

Windows整合包下载地址(百度网盘): https://pan.baidu.com/s/1rtrlJ5pE7wAm4bbpl72x3A?pwd=1234
Windows整合包 hugginface.co: https://huggingface.co/mortimerme/repocollect/resolve/main/confucius4-2026-0624.7z?download=true

源码部署方法参照官方项目说明文档部署 https://github.com/netease-youdao/Confucius4-TTS

配置参考音频

参考音频统一在菜单--TTS设置--设置参考音频中处理

打开设置后，在“参考音频”一栏中，填写以下内容：

想要使用的音频文件名#该音频文件中对应的文字

注意： 请将参考音频文件放置在 pyVideotrans 项目根目录下的 f5-tts 文件夹内。如果该文件夹不存在，请手动创建。例如，您可以将参考音频文件命名为 nverguo.wav。

参考音频放到pyVideotrans软件内的f5-tts文件夹内，别搞错

填写示例如下：

参考音频和参考音频内文字

F5-TTS 增加其他语言

如果您需要使用其他语言的模型，也需要修改 F5-TTS 项目目录/src/f5_tts/infer/infer_gradio.py 文件。

找到大约第 59 行的代码：

python

DEFAULT_TTS_MODEL_CFG = [
    "hf://SWivid/F5-TTS/F5TTS_v1_Base/model_1250000.safetensors",
    "hf://SWivid/F5-TTS/F5TTS_v1_Base/vocab.txt",
    json.dumps(dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)),
]

代码位置示意图：

默认情况下，这里配置的是官方的中文和英文模型。如果您需要使用其他语言的模型，请按照以下说明进行修改。修改完成后，需要重新启动 F5-TTS，并确保已配置好科学上网环境，以便程序在线下载新的语言模型。下载成功后，先通过 WebUI 克隆一个音色进行测试，然后再通过 pyVideoTrans 使用。

重要提示：在使用前，请确保 pyVideoTrans 中的配音文字语言与 F5-TTS 中选择的模型语言一致。

以下是各语言模型的配置信息：

法语：

python

DEFAULT_TTS_MODEL_CFG = [
    "hf://RASPIAUDIO/F5-French-MixedSpeakers-reduced/model_last_reduced.pt",
    "hf://RASPIAUDIO/F5-French-MixedSpeakers-reduced/vocab.txt",
    json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1}),
]

印地语：

python

DEFAULT_TTS_MODEL_CFG = [
    "hf://SPRINGLab/F5-Hindi-24KHz/model_2500000.safetensors",
    "hf://SPRINGLab/F5-Hindi-24KHz/vocab.txt",
    json.dumps({"dim": 768, "depth": 18, "heads": 12, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
]

意大利语：

python

DEFAULT_TTS_MODEL_CFG = [
    "hf://alien79/F5-TTS-italian/model_159600.safetensors",
    "hf://alien79/F5-TTS-italian/vocab.txt",
    json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
]

日语：

python

DEFAULT_TTS_MODEL_CFG = [
    "hf://Jmica/F5TTS/JA_25498980/model_25498980.pt",
    "hf://Jmica/F5TTS/JA_25498980/vocab_updated.txt",
    json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
]

俄语：

python

DEFAULT_TTS_MODEL_CFG = [
    "hf://hotstone228/F5-TTS-Russian/model_last.safetensors",
    "hf://hotstone228/F5-TTS-Russian/vocab.txt",
    json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})
]

西班牙语：

python

DEFAULT_TTS_MODEL_CFG = [
    "hf://jpgallegoar/F5-Spanish/model_last.safetensors",
    "hf://jpgallegoar/F5-Spanish/vocab.txt",
    json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "conv_layers": 4})
]

芬兰语：

python

   DEFAULT_TTS_MODEL_CFG = [
    "hf://AsmoKoskinen/F5-TTS_Finnish_Model/model_common_voice_fi_vox_populi_fi_20241206.safetensors",
    "hf://AsmoKoskinen/F5-TTS_Finnish_Model/vocab.txt",
    json.dumps({"dim": 1024, "depth": 22, "heads": 16, "ff_mult": 2, "text_dim": 512, "text_mask_padding": False, "conv_layers": 4, "pe_attn_head": 1})]

可关注官方更新，其他语言可使用类似方式增加，地址：https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md

常见错误和注意事项

API 使用过程中，您可以关闭浏览器中的 WebUI 界面，但不能关闭启动 F5-TTS 的终端窗口。
能否动态切换 F5-TTS 中的模型？ 不可以。您需要按照上述方式手动修改代码，然后重启 WebUI。
频频出现这类错误

    raise ConnectTimeout(e, request=request)
requests.exceptions.ConnectTimeout: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /SWivid/F5-TTS/resolve/main/F5TTS_v1_Base/vocab.txt (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000002174796DF60>, 'Connection to huggingface.co timed out. (connect timeout=10)'))"), '(Request ID: 0458b571-90ab-4edd-ae59-b93bd603cdd0)')

梯子问题，请科学上网，并使用流畅的梯子，参照上方配置科学上网环境

F5-TTS ​

index-tts ​

VoxCPM-TTS ​

Spark-tts ​

Dia-tts ​

Confucius-TTS网页开源的TTS服务，支持16种语言 ​

配置参考音频 ​

F5-TTS 增加其他语言 ​

常见错误和注意事项 ​

F5-TTS

index-tts

VoxCPM-TTS

Spark-tts

Dia-tts

Confucius-TTS网页开源的TTS服务，支持16种语言

配置参考音频

F5-TTS 增加其他语言

常见错误和注意事项