语音识别中的VAD参数调整

在视频翻译的语音识别阶段，生成的字幕有时可能过长（几十秒甚至几分钟），有时又过短（不到1秒）。通过调整VAD（语音活动检测）参数，可以优化这些问题，使字幕更符合实际语音内容。

VAD 是什么

VAD 是一个语音活动检测工具，用于识别音频中的语音部分，并将其与静音或噪音分离。它可以与语音识别工具（如 Whisper）结合使用，在识别前后检测和分割语音片段，从而提升识别效果。

在 3.92版本后，默认vad模型为 ten-vad,你可以在菜单-工具-高级选项中，手动切换为silero

语音阈值: 表示音频片段被认为是语音的最低概率。VAD 会为每个音频片段计算语音概率，超过此阈值的部分被视为语音，反之视为静音或噪音。越小越灵敏但可能误将噪声视为语音
最长语音持续秒数: 限制单个语音片段的最大长度。超过此时长时强制分割。填写数字，单位是秒
最短语音持续毫秒: 最短语音持续的时长，如果某条字幕时长小于该值对应ms，则尝试将该字幕合并进相邻字幕中，单位是毫秒
合并过短字幕到邻近: 只有选中该项，才会合并短字幕
静音分割持续毫秒: 在语音结束时，需等待的静音时间达到此值后，才会分割出语音片段。填写数字，单位ms，也就是只在大于此值的静音片段处分割
选择VAD: 选择要使用的VAD
no speech threshold: 减小可降低幻觉但可能遗漏文字
采样温度: 采样温度
热词: 告诉模型哪些词可能出现，以英文逗号分隔多个
重复惩罚: 增大该值有利于减少重复
文本压缩率: 减小该值有利于减少重复
Whisper预分割音频?: 是否提前将音频切割为句子片段后再发给whisper模型识别?若使用clone配音角色，请选中，并将最短语音设为3000，最大语音设为10，提供语音克隆可靠性