摘要：本文介绍 Dify 与 Open Audio 合作推出的 Fish Audio 插件。该工具支持高质量文本转语音（TTS）与声音克隆，帮助开发者轻松将音频生成能力集成至 AI 应用与工作流中。

Product: Dify x Open Audio — TTS与声音克隆轻松上手

我们很高兴宣布 Dify 与 Open Audio 达成全新合作。Open Audio 的多功能 Fish Audio 工具集插件现已正式上架 Dify Marketplace（应用市场）。此次深度集成，让 Dify 用户能够将高质量的文本转语音（TTS）和声音克隆能力，无缝融入自己的 AI 应用中。

🎙️ Fish Audio 核心功能

Fish Audio 在语音生成与处理领域表现卓越，主要提供以下两项关键能力：

语音合成（TTS）
支持高性能的实时文本转语音转换。内置 WebSocket API，可实现音频流式输出。用户可自由调节语速、音量等参数。系统兼容 Opus、MP3 和 WAV 等主流音频格式。
声音克隆
具备出色的声音复刻能力。仅需提供 30~45 秒的语音样本，即可快速完成模型训练与音色克隆。

🚀 快速上手指南

在 Dify 中接入 Fish Audio 工具非常简单：

前往 Dify Marketplace（应用市场）搜索并安装 Fish Audio 插件。
进入配置页面，填入你的 API Key 与 Endpoint URL（获取入口见此处）。
设置过程中需选择对应的计费模式（Balance Mode），完成即可启用。

💬 在 Dify Chatflow 中使用 TTS 工具

你可以搭建一条自动化工作流：先由大语言模型（LLM）生成回复文本，随后接入 Fish Audio Text-to-Speech (TTS) 节点，自动将文本转换为音频片段。

配置 Fish Audio TTS 节点的步骤如下：
- 输入文本（Input Text）：指定需要转语音的内容。通常直接将 LLM 节点的输出变量链接至该字段即可。
- 选择音色（Select Voice）：从可用列表中选择目标声音，填入对应的 Voice ID。
- 输出格式（Output Format）：设定生成的音频文件格式。

配置完成后，工作流将自动调用指定音色与格式，把 LLM 的文本回复实时转换为语音输出。

🔍 了解 Voice ID 与自定义音色

什么是 Voice ID？
Voice ID 是 Fish Audio 平台上特定声音模型的唯一标识符。它代表一个独立的声音档案，供你在 TTS 生成时直接调用。

如何创建并使用自定义音色？
你无需局限于官方默认选项。通过内置的 Build Voice（构建音色）功能，你可以训练专属的声音模型。训练完成后，前往 My Library 即可找到你的定制音色。复制其对应的 Voice ID，便可直接在 Dify 工作流中调用。

🌍 实际应用场景

🔹 多语言客服场景

借助声音克隆技术，企业可基于优秀客服的录音训练专属模型。系统能自动将书面回复转为自然语音播报。当识别到客户使用不同语种时，还能智能切换对应音色与语言。该方案深度融合了声音克隆、ASR（自动语音识别）与 TTS 能力，大幅提升交互体验与服务效率。

🔹 教育与培训内容制作

Fish Audio 可快速生成标准化的教学音频。以语言学习为例，它能克隆母语者发音提供标准范例；结合 ASR 技术实现实时纠音反馈。同时利用 TTS 输出一致的课程讲解音频，确保教学内容标准化、高效化。

🔹 播客与媒体内容创作

创作者可使用自身声音样本生成专属数字音色，将文字脚本直接转为录音稿。后期制作中，ASR 功能可快速提取字幕与文稿，提升内容可读性。平台还支持自定义语速与情感基调，完美契合创意需求。

📖 关于 Open Audio

Open Audio 是 Hanabi AI Inc. 旗下的开源实验室，致力于为全球开发者提供优质的音频相关项目。其核心产品 Fish Audio 在语音合成与识别领域已达到行业领先水平，全面兼容开源与闭源生态。
网站 | Github | FishAudio | X | Discord

📖 关于 Dify.AI

原文图片