Skip to content

pyVideoTrans 常见问题与解决方案

为了帮助您更好地使用 pyVideoTrans,我们整理了以下常见问题及其解决方案。

菜单栏--帮助/关于 中有很多链接,比如模型下载地址、CUDA配置等,遇到问题时可尝试点开使用。

image.png

如何查看日志:软件根目录下的 logs/ 文件夹有按日期命名的 .log 日志文件。报错时可复制日志底部约 30 行内容寻求帮助。

如何恢复出厂设置:删除 videotrans/ 目录下的 cfg.jsonparams.jsoncodec.jsonass.json 四个文件,重启软件即可。


第一部分:安装与启动问题

1. 双击 sp.exe 后,软件无法打开或长时间没有反应?

这通常是正常现象,请不要着急。

  • 原因:本软件基于 PySide6 开发,主界面包含较多组件,首次加载时需要初始化,这会消耗一些时间。根据您的电脑性能,启动时间可能在 5秒到2分钟 不等。
  • 解决方案
    1. 耐心等待:双击后请耐心等待一段时间。
    2. 检查安全软件:部分杀毒软件或安全卫士可能会阻止程序启动,请尝试暂时关闭它们,或将本软件添加到信任/白名单中。
    3. 检查文件路径:确保软件存放的路径只包含英文和数字,不应有中文、空格或特殊符号。例如,D:\pyVideoTrans 是一个好的路径,而 D:\program file\视频 工具 则可能导致问题。
    4. 升级包问题:如果您是覆盖了升级包后无法启动,说明操作有误。请重新下载完整的软件包,解压后再覆盖新版升级包。

2. 启动时提示缺少 python310.dll 文件怎么办?

这个问题说明您只下载了升级补丁包,而没有下载主程序。

  • 解决方案
    1. 请先前往官网下载 完整软件包
    2. 解压完整包到指定目录。
    3. 之后再下载最新的升级补丁包,覆盖到完整包的目录中即可。

3. 软件需要安装吗?

本软件是绿色版,无需安装。下载完整包后解压,双击 sp.exe 即可直接运行。

4. 为什么杀毒软件会报病毒或拦截?

  • 原因:本软件使用 PyInstaller 工具打包,并且没有进行商业数字签名认证。一些安全软件会基于此启动风险预警,这属于常见误报
  • 解决方案
    1. 添加信任:将本软件添加到您杀毒软件的信任区或白名单中。
    2. 源码运行:如果您是开发者,也可以选择从源代码直接部署运行,以完全避免此问题。

5. 软件支持 Windows 7 系统吗?

不支持。软件依赖的许多核心组件(如 PyTorch、PySide6)已不再支持 Windows 7 系统。请使用 Windows 10 或 Windows 11。

6. macOS / Linux 如何部署源码?

  • 前置依赖
    • Python 3.10
    • FFmpeg(brew install ffmpeg / apt install ffmpeg
    • uv 包管理器
    • libsndfile
  • 部署步骤
    bash
    git clone https://github.com/jianchang512/pyvideotrans
    cd pyvideotrans
    uv sync
    uv run sp.py
  • 可选依赖uv sync --all-extra 安装所有可选渠道(qwen-tts, qwen-asr, moss-tts, chatterbox)

7. 源码部署后启动报错怎么办?

常见原因及解决方案:

  • FFmpeg 未安装:确保系统已安装 FFmpeg 且配置了环境变量
  • 依赖缺失:运行 uv sync 重新安装依赖
  • Python 版本不对:必须使用 Python 3.10(.python-version 文件已指定)

第二部分:核心功能与设置

8. 如何提升语音识别的准确率?

识别准确率主要取决于您选择的模型大小和设置。

  • 模型选择:在 "faster" 或 "openai" 模式下,模型越大,准确率越高,但处理速度越慢、资源消耗也越大。
    • tiny: 体积最小,速度最快,但准确率较低。
    • base / small / medium: 效果与资源消耗居中,是常用的选项。
    • large-v3: 体积最大,效果最好,对硬件要求也最高(需要 8GB+ 显存)。
  • 优化设置:点击 菜单--工具--高级选项

找到 faster/openai语音识别调整 部分,进行如下修改:

  • 语音阈值 设为 0.5
  • 最短持续时间/毫秒 设为 3000
  • 最大语音持续时间/秒 设为 6
  • 静音分隔毫秒 设为 140
  • 热词:如果视频中有专有名词,可以在此填写,以逗号分隔
  • 降噪处理:如果视频有背景音乐或噪声,点击 设置更多参数 选中 分离人声背景声,可以显著提升识别效果。

9. 为什么处理后的视频清晰度/质量降低了?

任何涉及重新编码的操作都会不可避免地导致视频质量损失。如果您希望最大程度地保持原始画质,请确保满足以下所有条件:

  1. 原始视频格式:使用兼容性最好的 H.264 (libx264) 编码的 MP4 文件
  2. 禁用慢速处理:在功能选项中,不要勾选"视频自动慢速"。
  3. 不嵌入硬字幕:可以选择不嵌入字幕,或只嵌入软字幕。硬字幕会强制重新编码整个视频。
  4. 高级选项-视频输出质量控制:数字默认23,可以降低到18或更低(最低0),越低输出视频质量越高,但尺寸也越大
  5. 高级选项-输出视频压缩率:默认是fast,可用选择slow或slower,质量会更高,但输出耗时将增加
  6. 高级选项-264/265编码:默认是264,可选265,输出视频质量更高

10. 为什么输出视频超级大?

  1. 修改高级选项-视频输出质量控制 为 25-51 越大输出视频尺寸越小,但质量也随之降低
  2. 高级选项-264/265编码:选择265,同质量下 265 尺寸更小

11. 如何配置网络代理?

部分翻译或配音服务(如 Google、OpenAI、Gemini)在国内无法直接访问,需要通过网络代理。

  • 设置方法:在主界面的"网络代理地址"文本框中,填入您的代理服务地址。
  • 格式要求:通常是 http://127.0.0.1:10808 这样的格式(端口号需根据您的代理客户端设置填写)。
  • 重要提示:如果您不了解代理或没有可用的代理服务,请将此项留空。错误的设置将导致报错。
  • 国内 API 不需要代理:百度翻译、腾讯翻译、阿里翻译、DeepSeek、智谱AI、字节火山等国内 API 默认不走代理。
  • 本地服务不需要代理:GPT-SoVITS、ChatTTS、F5-TTS 等本地服务自动绕过代理。

12. 如何自定义字幕的字体、颜色和样式?

点击主界面中 -> 设置更多参数 -> 修改硬字幕


第三部分:语音识别问题

13. 识别结果为空或乱码

  • 原因:可能语言选择错误、视频无有效人声、或显存不足
  • 解决方案
    1. 检查"原始语言"是否选择正确(不要过度依赖 Auto)
    2. 检查视频是否有背景音乐干扰(尝试开启降噪)
    3. 显存不足:降低 beam_size,改用 int8 量化,或使用 small 模型
    4. 尝试更换识别渠道(如从 faster-whisper 换成 openai-whisper)

14. 识别速度非常慢

  • 原因:使用了大型模型但未启用 GPU 加速
  • 解决方案
    1. 启用 CUDA 加速:确保已安装 CUDA 12.8+ 和 cuDNN 9.x,勾选 CUDA加速
    2. 使用小模型:将 large-v3 换成 mediumsmall
    3. CPU 模式优化:在高级选项中将 计算数据类型 改为 int8

15. 提示显存或内存不足(Unable to allocateCUDA out of memory

  • 原因:模型太大或显存被其他程序占用
  • 解决方案(按推荐顺序尝试)
    1. 使用更小的模型:将识别模型从 large-v3 更换为 mediumsmallbaselarge-v3 模型最低需要 8GB 显存。
    2. 调整高级设置:在菜单栏 工具/选项 -> 高级选项 中进行如下修改:
      • CUDA数据类型: 将 float32 改为 float16int8
      • beam_size: 将 5 改为 1
      • best_of: 将 5 改为 1
      • 上下文: 将 true 改为 false
    3. 检查多显卡:如果有多个可用显卡,检查第一块显卡可用显存是否过小。软件默认使用第一块显卡,升级到 v3.98-317 以上版本会自动选择显存最大的显卡。

16. 说话人识别不准确

  • 原因:说话人分离模型对某些场景(如多人同时说话、背景噪声大)效果有限
  • 解决方案
    1. 设置更多参数 中勾选 识别说话人 并指定人数
    2. 在高级选项中切换说话人模型(内置、阿里CAM++、pyannote)
    3. 使用 pyannote 模型需要在 HuggingFace 上申请 token 并同意授权协议

17. LLM 重新断句后结果更差

  • 原因:本地小模型(如 7B)智能不足,或提示词过于复杂
  • 解决方案
    1. 使用更强的在线模型(DeepSeek-V3、GPT-4o 等)
    2. 精简提示词(在 videotrans/prompts/recharge/recharge-llm.txt 中修改)
    3. 使用 clone 角色克隆原音色时,不建议使用 LLM 重新断句

18. 配音后字幕和声音不同步

这是翻译配音中的常见现象,源于语言间的时长差异。

  • 原因:不同语言表达同一意思时,音节数和语法结构不同,导致配音时长与原始字幕时长不一致。例如,一句2秒的中文,翻译成英文后配音时长可能变为3-4秒。
  • 解决方案
    1. 启用音频加速:勾选 音频加速,自动将过长的配音加速到匹配字幕时长
    2. 启用视频慢速:勾选 视频慢速,放慢视频画面以匹配配音时长
    3. 两者同时启用:当倍率 > 1.2x 时,音频加速和视频慢速各负担一半时间差
    4. 调整语速:设置 配音语速 值(如 +10%)加快整体配音速度
    5. 使用二次识别:勾选 二次识别,在配音完成后再次识别生成更精准的字幕时间轴

详细原理请参考 音频视频时间轴对齐原理说明

19. 二次识别是什么?什么时候需要?

二次识别是在配音完成后,对生成的配音音频再次进行语音识别,生成时间轴更精准、字数更简短的字幕。

  • 适用场景:选择了 嵌入单字幕(硬字幕或软字幕),且需要字幕和配音精确对齐
  • 设置方法:勾选 二次识别,在高级选项中设置二次识别的最长/最短语音持续时间
  • 注意:二次识别需要额外的处理时间

第四部分:翻译问题

20. 翻译结果有空白行或包含提示词

  • 原因:本地小模型智能不足,或 AI 合并了字幕行
  • 解决方案
    1. 本地小模型(如 7B)智能不足,建议改用 DeepSeek/GPT-4 等在线模型
    2. 取消"发送完整字幕"选项,改为按行翻译
    3. 设置 trans_thread=1 降低并发
    4. 具体原理和解决方法点击查看

21. AI 翻译触发安全限制被过滤

  • 错误信息内容触发AI风控被过滤
  • 原因:翻译内容被 AI 服务的安全系统拦截
  • 解决方案
    1. 手动编辑字幕,移除可能触发风控的内容
    2. 更换翻译渠道(如从 OpenAI 换成 DeepSeek)

22. 翻译结果与原文不对应(字幕行错位)

  • 原因:AI 翻译时合并了字幕行,导致行号错位
  • 解决方案
    1. 在高级选项中取消勾选"发送完整字幕"
    2. 将翻译并发数设为 1
    3. 使用支持大上下文的在线 AI 模型

23. 翻译缓存导致结果异常

  • 原因:翻译结果被缓存,修改提示词或翻译渠道后未生效
  • 解决方案
    1. 勾选主界面的 清理已生成 选项
    2. 或手动删除 tmp/translate_cache/ 目录下的缓存文件

第五部分:配音问题

24. Edge-TTS 报错 403 或生成静音

  • 原因:微软限流,短时间内请求过多
  • 解决方案
    1. 在"高级选项"中将"同时配音线程数"设为 1
    2. 将"配音后暂停秒数"设为 5-10 秒
    3. 如果使用了代理,Edge-TTS 可能因代理问题失败。在软件根目录创建 edgetts-noproxy.txt 空文件可强制绕过代理

25. F5-TTS / CosyVoice / GPT-SoVITS 无法连接

  • 原因:本地 TTS 服务未启动或地址配置错误
  • 解决方案
    1. 确保外部 TTS 服务的终端窗口未关闭
    2. 检查 API 地址是否正确(注意端口号)
    3. GPT-SoVITS 需启动 api.pyapi_v2.py,不能使用网页版 7860 端口
    4. 如果填写了 0.0.0.0 作为地址,改为 127.0.0.1

26. GPT-SoVITS 报错 {"detail":"Not Found"}

  • 原因:API 版本不匹配或端口错误
  • 解决方案
    1. 检查启动的是 api.py 还是 api_v2.py,在软件中勾选对应的 api_v2? 选项
    2. 确保填写的是 API 地址(默认 9880),而非网页版地址(7860)

27. Index-TTS 报错 Value: 'Same as the voice reference' is not in the list

  • 原因:Index-TTS 内部多语言翻译不一致的 Bug
  • 解决方案:打开 Index-TTS 项目根目录的 webui.py,将 i18n("与音色参考音频相同") 替换为 Same as the voice reference

28. Azure-TTS 报错 Could not find module Microsoft.CognitiveServices.Speech.core.dll

  • 原因:缺少微软 VC++ 运行库
  • 解决方案
    1. 如果是下载的补丁包,请重新下载完整包
    2. 如果已是完整包,安装 微软 VC++ 运行时集合包 后重启电脑

29. 配音后声音有机械感或杂音

  • 原因:音频加速倍率过高(> 3x),或参考音频质量差
  • 解决方案
    1. 启用视频慢速,与音频加速协同分担时间差
    2. 提升参考音频质量:使用清晰的 5-10 秒单人声 WAV 文件
    3. 勾选 分离人声背景声,去除背景噪声

第六部分:声音克隆问题

30. 使用 clone 角色配音失败或音质差

  • 原因:参考音频时长不在 3-10 秒范围内,或字幕时间轴被 LLM 重新断句打乱
  • 解决方案
    1. 禁止使用 LLM 重新断句:LLM 重新断句会打乱时间轴,导致参考音频截取错位
    2. 强制控制字幕时长:在 高级选项 -> 语音识别参数 中,将 最长语音持续秒数 设为 6-10,最短语音持续毫秒 设为 3000-4000
    3. 勾选 合并过短字幕到邻近Whisper预分割音频
    4. 使用 OmniVoice-TTS 渠道,对短参考音频兼容性更好
    5. 勾选 分离人声背景声,提升参考音频质量

31. 如何使用自定义参考音频?

  1. 录制或截取一段 5-10 秒的 WAV 格式音频(单人声、无背景噪声)
  2. 将音频复制到软件目录下的 f5-tts 文件夹
  3. 打开 菜单 -> TTS 设置 -> 设置参考音频,填写 文件名.wav#音频中的说话文本
  4. 在主界面配音角色下拉框中选择该文件名

注意:GPT-SoVITS 的参考音频需要放在 GPT-SoVITS 软件的根目录下,而非 f5-tts 文件夹。


第七部分:视频合成与输出问题

32. 执行过程中报错 ffprobe exec errorffmpeg 相关异常

  • 原因:文件路径过长或含有特殊符号
  • 解决方案
    1. 将视频文件移动到更浅的目录(如 D:\videos
    2. 重命名为简短的英文或数字名称
    3. 删除文件名中的特殊符号(?*、表情符号等)

33. 软件提示视频"不含音轨"

  • 可能原因 1:视频确实没有声音(从某些网站下载时画面和声音分离)
  • 可能原因 2:视频编码格式不支持(如 AV1)
  • 可能原因 3:背景噪音过大,人声被掩盖
  • 解决方案
    1. 用播放器本地播放确认是否有声音
    2. 尝试先将视频转换为标准 H.264/MP4 格式
    3. 开启降噪或人声分离功能

34. 如何输出无损视频?

当满足以下所有条件时,视频将无损输出(不重新编码):

  1. 原始视频编码为 mp4/h.264/yuv420p
  2. 高级选项中 264/265编码 选择 264
  3. 未启用 视频慢速
  4. 未嵌入 硬字幕(软字幕不影响)

注意:若配音后时长大于视频原时长,超出部分会被截断。

35. 处理后出现声音、字幕、画面不同步

这是语言翻译中的正常现象。

  • 原因:不同语言表达同一个意思时,句子的长度和音节数均不同,发音时长必然发生变化。
  • 解决方案
    1. 启用 音频加速 和/或 视频慢速
    2. 设置 配音语速(如 +10%)加快整体速度
    3. 启用 二次识别 生成更精准的字幕时间轴
    4. 详细原理请参考 音频视频时间轴对齐原理说明

36. 总是提示显存不足 (例如 Unable to allocate 错误)

这个错误意味着您的显卡没有足够的显存或内存来执行当前任务。

  • 解决方案(按推荐顺序尝试)
    1. 使用更小的模型:将识别模型从 large-v3 更换为 mediumsmallbase
    2. 调整高级设置
      • CUDA数据类型: 将 float32 改为 float16int8
      • beam_size: 将 5 改为 1
      • best_of: 将 5 改为 1
      • 上下文: 将 true 改为 false

37. 已经安装了 CUDA,为什么软件还是无法使用 GPU 加速?

请检查以下可能的原因:

  • CUDA 版本不兼容:本软件要求 CUDA 12.8 及以上版本
  • 显卡驱动过旧:请更新您的 NVIDIA 显卡驱动到最新版本
  • 缺少 cuDNN:确保已安装 cuDNN 9.x 并配置了环境变量
  • 硬件不兼容:GPU 加速仅支持 NVIDIA 显卡(N卡)。AMD 或 Intel 显卡无法使用 CUDA
  • 环境变量未配置:检查系统环境变量中是否包含 CUDA 的 binlib 目录

38. GPU 使用率很低,正常吗?

正常。软件的工作流程是:语音识别 -> 文字翻译 -> 文本配音 -> 视频合成

只有在第一步 "语音识别" 阶段,才会大量使用 GPU 进行运算。其他阶段(如翻译、合成)主要依赖 CPU,因此 GPU 在大部分时间处于低负载状态是符合预期的。

39. 处理几个视频后,发现硬盘空间被占满?

这通常是由于启用了"视频慢速"功能并产生了大量临时文件。

  • 原因:该功能会将视频按字幕切割成许多小片段,并对每个片段进行处理,这会产生远超原视频体积的缓存文件。
  • 解决方案
    1. 手动清理:处理完成后,手动删除软件根目录下的 tmp/ 文件夹内的所有内容
    2. 自动清理:正常关闭软件时,程序会自动清理这些缓存

40. 反复处理同一个视频,为什么识别结果和字幕总是不变?

  • 原因:软件默认启用了缓存机制,如果检测到某个视频已经生成过字幕文件,会直接使用缓存结果
  • 解决方案:在软件主界面的左上角,勾选 清理已生成 复选框


第八部分:批量处理问题

41. 批量翻译视频时总是会卡住

默认批量任务时,会将每个任务分为多个阶段,同时交叉并行处理,太多任务时可能导致资源耗尽。

  • 解决方案:选中 高级选项--批量翻译时强制串行,将执行方式改为串行处理

42. 批量处理时如何控制并发数量

高级选项 -> 通用设置 中:

  • CPU同时任务数:最大 CPU 同时任务数,不超过 CPU 核数
  • GPU同时任务数:GPU 任务同时执行数量,除非多卡或单卡显存 > 24G,否则设为 1
  • 批量翻译视频时每批数量:设为 1 可逐个处理,设为 0 则全部同时处理

第九部分:高级选项详解

43. 音频加速和视频慢速的区别?

选项效果适用场景
音频加速加速配音以匹配字幕时长,音质可能略有损失配音比字幕长 1-2 倍
视频慢速慢放视频以匹配配音时长,画面可能略卡配音比字幕长 2 倍以上
两者同时各负担一半时间差,效果最佳配音远长于字幕

44. 发送完整字幕 有什么作用?

选中后,AI 翻译时会附带行号和时间轴发给 AI,翻译质量更好但可能合并行。建议:

  • 使用在线大模型(DeepSeek、GPT-4o)时选中
  • 使用本地小模型时取消选中

45. 二次识别LLM重新断句 的区别?

选项时机作用
LLM重新断句语音识别后AI 修正错别字、重新切分长文本
二次识别配音完成后对配音音频再次识别,生成更精准的时间轴

使用 clone 角色时,不建议使用 LLM 重新断句。

46. 嵌入字幕类型如何选择?

类型说明适用场景
不嵌入字幕只替换声音,不添加字幕仅需配音
嵌入硬字幕字幕永久烧录到画面,无法关闭任何播放器都能显示
嵌入软字幕字幕作为独立轨道,播放器可开关需要灵活控制字幕显示
嵌入硬字幕(双)中英双语硬字幕需要双语对照
嵌入软字幕(双)中英双语软字幕需要双语对照且可关闭

第十部分:文件与路径问题

47. 输入文件路径有什么要求?

  1. 路径长度:Windows 命令行有 260 字符限制,文件路径应尽量简短
  2. 特殊符号:文件名中不应包含 ?*、表情符号等特殊符号
  3. 中文路径:虽然支持,但建议使用英文路径以避免兼容性问题
  4. 空格:路径中可以有空格,但建议避免

48. 输出文件保存在哪里?

  • 默认位置:原视频目录下的 _video_out/ 文件夹
  • 独立功能输出:批量转录、配音、翻译 SRT 等功能输出到 output/ 目录
  • 自定义输出:可在主界面设置输出目录

49. 如何导入已有的 SRT 字幕?

  1. 在视频文件同级目录下创建 _video_out/ 文件夹
  2. 在其中创建视频同名子文件夹(如 myvideo-mp4,必须带格式后缀)
  3. 将字幕文件复制到子文件夹,重命名为 zh-cn.srt(源语言)和 en.srt(目标语言)
  4. 导入视频执行翻译,软件会自动跳过 ASR 和翻译阶段

第十一部分:CLI 命令行问题

50. CLI 基本用法

bash
uv run cli.py --task <任务类型> --name "<文件路径>" [其他参数]

任务类型:stt(语音转录)、tts(文字配音)、sts(字幕翻译)、vtv(视频翻译)

51. 如何查看可用的渠道和语言?

bash
uv run cli.py --list providers    # 查看所有渠道
uv run cli.py --list languages    # 查看所有语言代码
uv run cli.py --list models       # 查看 faster-whisper 模型

52. CLI 常见报错

  • --name is required:未指定输入文件
  • File not found:文件路径错误或文件不存在
  • --voice_role is required:TTS 模式下必须指定配音角色
  • --target_language_code is required:STS/VTV 模式下必须指定目标语言

第十二部分:综合信息

53. 软件是否支持 Docker 部署?

支持。使用webui界面

54. 能否识别视频画面中的硬字幕(OCR 功能)?

不能。本软件的原理是分析视频中的音频轨道,识别出人类的语音并转换为文字。它不具备图像文字识别(OCR)功能。 若有需要,可以点击查看另一个项目,提取视频中硬字幕

55. 我可以添加新的语言支持吗?

可以新增目标语言,具体查看

56. 软件是否收费?可以商用吗?

  • 费用:本项目是一个免费且开源的软件,您可以免费使用所有功能。请注意,如果您使用第三方的翻译或TTS或语音转录接口,这些服务商可能会收取费用,但这与本软件无关。
  • 商用:个人和公司均可自由使用本软件。但如果您希望将本项目的代码集成到您自己的商业产品中,则必须遵守 GPL-v3 开源协议。此外某些渠道使用的模型或在线API可能有他们自己的协议要求,是否允许商用,请咨询所使用的渠道对应的平台。

57. 是否提供人工客服?

没有。本项目为个人开发的免费开源软件,没有盈利,因此无法配备专门的人工客服团队。如果您遇到问题,请先仔细阅读本 FAQ。 或你也可以选择软件右下角微信二维码打赏,留言你的微信号,获取有偿技术支持。

58. 从哪里下载软件和模型?

59. 报错与日志

  • 日志位置:软件根目录下的 logs 文件夹有当前年月日命名的 log 格式日志文件
  • 反馈方式:报错时点击弹窗的"报告错误"可自动提交至官方论坛;或复制日志底部 30 行内容询问 AI

60. 新版本为什么在发音语言列表中没有了"自动检测"?

在 "批量语音转字幕" 功能面板中可以选择"自动检测",在"翻译视频或音频"功能中去掉了自动检测。因为视频翻译后续工作如字幕翻译、配音(涉及参考音频)等某些渠道需要明确指定原始语言,否则会报错。如果你仅仅想转录语音为字幕,可单独使用左侧面板中的"批量语音转字幕"功能。


快速问题排查表

问题可能原因解决方案
软件无法启动杀毒软件拦截 / 路径问题添加信任白名单 / 移至英文路径
缺少 python310.dll只下载了补丁包下载完整包再覆盖补丁
识别结果为空语言选择错误 / 无有效人声正确选择语言 / 开启降噪
显存不足模型太大换小模型 / 改 int8 / 降 beam_size
GPU 未启用CUDA 未安装 / 驱动过旧安装 CUDA 12.8+ / 更新驱动
翻译有空白行AI 合并了字幕行取消"发送完整字幕" / 用在线模型
Edge-TTS 403微软限流降并发 / 加暂停秒数
声音字幕不同步语言时长差异启用音频加速 / 视频慢速
ffprobe 报错路径过长或特殊符号简化文件名 / 移至浅层目录
硬盘空间占满视频慢速产生大量临时文件清理 tmp/ 文件夹
clone 配音差参考音频时长不当控制 3-10 秒 / 禁用 LLM 断句
GPT-SoVITS 404API 版本不匹配检查 api.py vs api_v2.py