Product

【Product】Dify × Open Audio:借助 Fish Audio 插件扩展你的 AI —— TTS 与声音克隆轻松实现

摘要:本文介绍 Dify 与 Open Audio 合作推出的 Fish Audio 插件。该工具支持高质量文本转语音(TTS)与声音克隆,帮助开发者轻松将音频生成能力集成至 AI 应用与工作流中。

Product: Dify x Open Audio — TTS与声音克隆轻松上手

我们很高兴宣布 Dify 与 Open Audio 达成全新合作。Open Audio 的多功能 Fish Audio 工具集插件现已正式上架 Dify Marketplace(应用市场)。此次深度集成,让 Dify 用户能够将高质量的文本转语音(TTS)和声音克隆能力,无缝融入自己的 AI 应用中。

🎙️ Fish Audio 核心功能

Fish Audio 在语音生成与处理领域表现卓越,主要提供以下两项关键能力:

  • 语音合成(TTS)
    支持高性能的实时文本转语音转换。内置 WebSocket API,可实现音频流式输出。用户可自由调节语速、音量等参数。系统兼容 Opus、MP3 和 WAV 等主流音频格式。

  • 声音克隆
    具备出色的声音复刻能力。仅需提供 30~45 秒的语音样本,即可快速完成模型训练与音色克隆。

🚀 快速上手指南

在 Dify 中接入 Fish Audio 工具非常简单:

  1. 前往 Dify Marketplace(应用市场)搜索并安装 Fish Audio 插件。
  2. 进入配置页面,填入你的 API KeyEndpoint URL(获取入口见此处)。
  3. 设置过程中需选择对应的计费模式(Balance Mode),完成即可启用。

💬 在 Dify Chatflow 中使用 TTS 工具

你可以搭建一条自动化工作流:先由大语言模型(LLM)生成回复文本,随后接入 Fish Audio Text-to-Speech (TTS) 节点,自动将文本转换为音频片段。

配置 Fish Audio TTS 节点的步骤如下:
- 输入文本(Input Text):指定需要转语音的内容。通常直接将 LLM 节点的输出变量链接至该字段即可。
- 选择音色(Select Voice):从可用列表中选择目标声音,填入对应的 Voice ID
- 输出格式(Output Format):设定生成的音频文件格式。

配置完成后,工作流将自动调用指定音色与格式,把 LLM 的文本回复实时转换为语音输出。

🔍 了解 Voice ID 与自定义音色

什么是 Voice ID?
Voice ID 是 Fish Audio 平台上特定声音模型的唯一标识符。它代表一个独立的声音档案,供你在 TTS 生成时直接调用。

如何创建并使用自定义音色?
你无需局限于官方默认选项。通过内置的 Build Voice(构建音色)功能,你可以训练专属的声音模型。训练完成后,前往 My Library 即可找到你的定制音色。复制其对应的 Voice ID,便可直接在 Dify 工作流中调用。

🌍 实际应用场景

🔹 多语言客服场景

借助声音克隆技术,企业可基于优秀客服的录音训练专属模型。系统能自动将书面回复转为自然语音播报。当识别到客户使用不同语种时,还能智能切换对应音色与语言。该方案深度融合了声音克隆、ASR(自动语音识别)与 TTS 能力,大幅提升交互体验与服务效率。

🔹 教育与培训内容制作

Fish Audio 可快速生成标准化的教学音频。以语言学习为例,它能克隆母语者发音提供标准范例;结合 ASR 技术实现实时纠音反馈。同时利用 TTS 输出一致的课程讲解音频,确保教学内容标准化、高效化。

🔹 播客与媒体内容创作

创作者可使用自身声音样本生成专属数字音色,将文字脚本直接转为录音稿。后期制作中,ASR 功能可快速提取字幕与文稿,提升内容可读性。平台还支持自定义语速与情感基调,完美契合创意需求。


📖 关于 Open Audio

Open Audio 是 Hanabi AI Inc. 旗下的开源实验室,致力于为全球开发者提供优质的音频相关项目。其核心产品 Fish Audio 在语音合成与识别领域已达到行业领先水平,全面兼容开源与闭源生态。
网站 | Github | FishAudio | X | Discord

📖 关于 Dify.AI

Dify.AI 正在重塑 AI 原生应用开发模式。该平台提供开源解决方案,全面简化 AI 应用的创建、部署与管理全生命周期。凭借可扩展的插件生态,开发者与企业可无缝集成 AI 能力、自定义工作流并加速创新落地。Dify.AI 有效降低技术门槛,助力用户以更高效率与灵活性构建智能应用。
网站 | GitHub | Docs | X | Discord | Linkedin | YouTube


原文图片

文章来源: https://dify.ai/blog/blog-dify-x-open-audio-expand-your-ai-with-the-fish-audio-plugin-tts-and-voice-cloning-made-e
← 返回文章列表