Skip to content

你可能还不知道,Gemini2.5 新增 多说话人文字配音(TTS),可免费使用

你可能还不知道,Google 的 Gemini 2.5 新增了一项非常实用的功能——多说话人文字配音!可在 Google AI Studio 上免费使用。该功能由gemini-2.5-flash-preview-ttsgemini-2.5-pro-preview-tts模型实现。

重要提示:

  1. 科学上网能力:访问 Google AI 服务,你需要能够访问国际互联网(请自行解决网络问题)。这是使用国外 AI 工具的基础,否则后续步骤无法进行。
  2. Google 账号:你需要一个免费的 Google 账号。如果还没有,可以前往 Google 官网注册,通常国内手机号即可完成注册。

一、 打开 Gemini 配音网页

你可以通过以下任一方式进入 Gemini 的文字转语音功能页面:

  1. 直接访问:在浏览器中打开链接 https://aistudio.google.com/generate-speech
  2. 通过 AI Studio 主页进入:如果你已经登录 Google AI Studio,也可以按照下图指引找到语音生成功能入口。 通过 AI Studio 主页进入语音生成功能

如果页面无法打开,或者打开后看到类似下图提示“当前地区不支持”(例如,使用香港地区的网络节点时常会遇到此问题),请尝试切换你的网络代理节点到其他国家或地区(如美国、新加坡等)。

若看到此页面,说明当前网络节点所在区域不受支持,请尝试切换

成功打开后,你会看到如下的语音生成界面:

这才是 Gemini 免费文字转语音的正确界面

二、 界面概览与模式切换

别担心,虽然是英文界面,但操作起来非常简单。下面我们会一步步说明。

Gemini 的语音生成工具会自动检测你输入的文本语言,目前支持多达 24 种语言(虽文档中未列明支持中文,但实际是支持的)。

默认情况下,你将进入 多说话人 (Multi-speaker audio) 配音界面:

默认进入的是多说话人配音界面

如果你只需要单个声音进行配音,可以点击界面右侧的 Singe-speaker audio 切换到 单说话人 (Single-speaker audio) 模式。单人模式的界面更为简洁:

点击右侧  可切换为单说话人配音模式

三、 多说话人配音实操步骤

我们重点介绍功能更丰富的多说话人配音,目前仅 支持2个说话人

1. 准备并粘贴配音文本

在界面左侧的 Raw structure 文本框中,输入或粘贴你想要配音的文字内容。 关键点

  • 分行:建议每行内容不要过长,以自然的语句停顿为佳。
  • 指定说话人:在每一行的开头,使用 说话人X: (英文冒号) 的格式来指定由哪个角色朗读该行。例如: 说话人1: 今天是个好日子,风和日丽。说话人2: 是啊,我们去公园散步怎么样?
  • Gemini 会为标记了不同说话人的行分配不同的声音。目前最多支持两位说话人(例如,你可以定义 "说话人1" 和 "说话人2")。

2. 配置说话人角色 (Voice settings)

在界面右侧的 Voice settings 区域,你需要为每个说话人进行配置:

  • 设置说话人名称 (Name): 如下图所示,在 Name 输入框中填写的名称,必须与你在左侧文本中每行开头的说话人标识(如 "说话人1"、"说话人2")完全一致。大小写、数字、甚至空格都要匹配。

    确保此处设置的说话人名称与文本中引用的名称完全一致

  • 选择发音人 (Voice): 在 Name下方的 Voice 下拉菜单中,你可以为当前选定的说话人选择一个具体的发音人角色。点击每个角色旁边的播放按钮可以试听其音色,选择你最喜欢的声音。

    点击播放按钮试听并选择合适的发音人角色

3. (可选) 设置发音风格 (Style instructions)

如果你希望配音带有特定的情感或语气(例如高兴、生气、悲伤等),可以在 Style instructions 文本框中输入风格提示词填写后,这些提示词会自动应用到整个配音项目中,影响所有说话人的整体风格。

在此处填写英文风格提示词,如 "happy", "excited"

提示:右侧的文本预览区也会实时显示你左侧编辑区的内容,并且可以直接在此区域进行修改、删除或添加行,非常方便。

右侧预览区可直接编辑文本,与左侧编辑区同步

4. 生成与下载配音

完成以上所有设置后,点击界面右下角的蓝色 Run 按钮。Gemini 便会开始处理你的文本并生成语音。 如果一切顺利,稍等片刻,下方就会出现生成的音频播放器。你可以直接在线播放试听,确认效果满意后,点击下载按钮将其保存到你的电脑。

点击 Run 开始生成,成功后可播放或下载音频

四、 可能遇到的问题及解决方案

目前 Gemini 对 API 的调用频率限制比较严格。当你处理的文本行数较多,特别是使用双说话人模式时,可能会遇到生成失败的情况(尤其当文字是中文时),并看到类似下图的错误提示:

这种错误提示通常与请求频率过高或文本处理复杂性有关

如果遇到此问题,可以尝试以下方法:

  • 切换到单说话人模式:如果多说话人不是必须的,切换到 Singe-speaker audio (单说话人) 模式通常能提高成功率。
  • 稍后再试:最简单的方法是等待几分钟或更长时间后再重新尝试。