Skip to main content
本页面为独立的功能模块,主要用于测试与验证多模态模型的语音合成(Text-to-Speech, TTS)能力,不与其他业务模块耦合。

概述

LangChat Pro 提供“语音合成”测试页面,用于快速验证不同模型供应商的 TTS 效果:
  • 用途:Prompt/音色模板迭代、不同模型对比
  • 范围:仅测试合成效果,不进行生产业务流转
  • 当前支持:阿里、豆包、Gitee、硅基流动等
示例(硅基流动:fnlp/MOSS-TTSD-v0.5): image-20250926181338953

参数与音色

不同模型的音色与参数存在差异:
  • 音色(voice):部分模型必须指定(如阿里),否则调用失败
  • 语速/音量/音高:模型对范围与默认值支持不同
  • 采样率/编码:影响音质与文件大小(如 16kHz/24kHz,mp3/wav/ogg)
因厂商参数规范不统一,建议先按默认配置合成,再逐项微调参数并记录;调用失败优先检查必填音色与采样率配置。

播放与格式

  • 播放器:右侧内置播放器可预览音频,并显示动态波形
  • 格式:建议使用浏览器广泛支持的编码(mp3/ogg);wav 体积较大但兼容性好
  • 下载与归档:将合成参数与样例音频一并归档,便于复现

稳定性与质量

  • 文本规范化:去除多余符号、统一标点,提高合成清晰度
  • 分段合成:长文本建议分段,避免超时/截断
  • 重试策略:网络抖动或限频时增加重试与退避

最佳实践

  • 预置“音色模板”,为品牌声音选择标准音色
  • 固定采样率与编码,确保在目标平台可播放
  • 对比不同模型在同一文本与音色下的表现
  • 失败时优先检查:音色是否必填、采样率是否受支持