文章分类：Product

摘要
本文介绍 DupDub 音频 AI 插件正式登陆 Dify Marketplace。集成语音转写、声音克隆、说话人识别及 TTS 合成等功能。用户可通过可视化工作流快速构建多模态 AI 应用，提升音频处理效率与体验。

DupDub 插件登陆 Dify Marketplace，带来高级音频 AI 能力

我们很高兴地宣布，DupDub 推出的一系列强大音频 AI 插件现已登陆 Dify Marketplace。此次集成将语音转写、声音克隆、说话人识别和文本转语音（TTS）合成等高级能力直接带入 Dify 平台。这将赋能用户构建功能更丰富、更易用且更具吸引力的 AI 应用。

Dify Marketplace：驱动 AI 创新

Dify Marketplace 随 Dify v1.0.0 同步上线。依托我们的开源 AI 应用开发平台，它正迅速成长为一个充满活力的生态系统。市场内汇聚了模型（Models）、工具（Tools）、智能体策略（Agent Strategies）、扩展（Extensions）和套件（Bundles）等多样化插件。这些插件助力 Dify 用户更快创新并规模化部署 AI 解决方案。其模块化设计为集成 DupDub 等前沿工具提供了理想环境，进一步丰富了 Dify 社区的多模态能力。

介绍 DupDub 工具：在 Dify 中实现高级音频处理

随着 DupDub 工具成功集成至 Dify，用户现在可以将复杂的音频处理无缝融入 AI 工作流。核心功能包括：

语音转写（Speech Transcription）：使用 TranscribeSpeech 工具，精准将音视频语音转为文本。该功能可助力内容分析、字幕生成、数据处理，并显著提升无障碍访问体验。
声音克隆（Voice Cloning）：打造独特且个性化的语音体验。Voice Cloning 工具支持从样本中克隆特定说话人的声音。非常适合生成统一的品牌音色、个性化语音助手或本地化内容配音。
说话人识别（Speaker Identification）：借助 Get Speaker ID 工具，精准识别并区分音频文件中的多位说话人。该功能在会议记录分析、客服通话质检或多参与者音频场景中极具价值。
文本转语音（TTS）合成：通过 Speech Synthesis 工具，将文本转化为自然流畅的语音。用户可自由选择克隆音色或标准音色，并灵活调节语速与音调，从而为各类应用场景生成高品质音频。

上述功能均可在 Dify 的可视化工作流构建器中轻松编排。用户只需极少的人工干预，即可实现音频相关任务的自动化与高效处理。

在 Dify 中快速上手 DupDub 工具

以下是 Dify 中使用 DupDub 工具的快速操作指南。

TranscribeSpeech 工具

借助该工具，您可轻松将语音转文本功能接入工作流。

将工具添加至工作流：
1. 点击左侧面板的 Orchestrate。
2. 点击 Tools，在 dupdup 插件下搜索 TranscribeSpeech。
3. 将 TranscribeSpeech 工具拖拽至工作流画布。

配置 TranscribeSpeech 工具：
1. 将 START 节点连接至 TranscribeSpeech 节点。
2. 填写 Input Variables（输入变量）：
* Duration（必填）：输入音视频时长。
* URL（必填）：输入音视频文件的链接。
* Language（必填）：设置内容语言（如 en 代表英语）。
3. Additional Settings（附加设置）：
* Retry on Failure：开启后，工具出错时将自动重试。
* Error Handling：选择错误处理策略。
* Next Step：定义转写完成后的下一步操作（如后续处理）。

运行与发布：
点击 Run 执行工作流。测试通过后，点击 Publish 完成发布与部署。

Voice Cloning 工具

为工作流注入强大的声音克隆能力，实现精准且可定制的音频复刻。

将工具添加至工作流：
1. 点击左侧面板的 Orchestrate。
2. 点击 Tools，在 Dupdub 插件下搜索 Voice Cloning。
3. 将 Voice Cloning 工具拖拽至工作流画布。

配置 Voice Cloning 工具：
1. 将 START 节点连接至 Voice Cloning 节点。
2. 填写 Input Variables（输入变量）：
* Speaker Name（必填）：输入说话人名称。
* URL（必填）：输入语音样本链接（支持 WAV、MP3、MP4 格式）。
* Language（必填）：指定样本语言（如 en 英语，zh 中文）。
* Gender（必填）：指定说话人性别（MALE 或 FEMALE）。
* Age（必填）：指定年龄段（Children 儿童、Youth 青年、Adults 成年、Seniors 老年）。
3. Additional Settings（附加设置）：配置重试、错误处理及下一步操作。

运行与发布：
点击 Run 执行并启动克隆。测试通过后点击 Publish 发布。

Get Speaker ID 工具

借助该工具在工作流中精准识别说话人，为高级音频处理与个性化输出提供支撑。

将工具添加至工作流：
1. 点击左侧面板的 Orchestrate。
2. 点击 Tools，在 Dupdub 插件下搜索 Get Speaker ID。
3. 将 Get Speaker ID 工具拖拽至工作流画布。

配置 Get Speaker ID 工具：
1. 将 START 节点连接至 Get Speaker ID 节点。
2. 当前配置下无需填写输入变量。
3. Additional Settings（附加设置）：配置重试、错误处理及下一步操作。

运行与发布：
点击 Run 执行并获取说话人 ID。测试通过后点击 Publish 发布。

该流程将有效识别工作流中的说话人，助力实现更高级的音频处理与个性化输出。

Speech Synthesis 工具

将文本转语音合成无缝接入工作流，实现定制化高品质音频生成。

将工具添加至工作流：
1. 点击左侧面板的 Orchestrate。
2. 点击 Tools，在 Dupdub 插件下搜索 Speech Synthesis。
3. 将 Speech Synthesis 工具拖拽至工作流画布。

配置 Speech Synthesis 工具：
1. 将 START 节点连接至 Speech Synthesis 节点。
2. 填写 Input Variables（输入变量）：
* Speaker Name（必填）：输入合成语音的说话人名称。
* Speaker（必填）：输入将使用的说话人标识符。
* Speed（选填）：设置语速。默认为正常速度（1.0）。
* Pitch（选填）：设置音调。默认为标准音调（0）。
* Text（必填）：输入需要转为语音的文本。
3. Additional Settings（附加设置）：配置重试、错误处理及下一步操作。

运行与发布：
点击 Run 执行并合成语音。测试通过后点击 Publish 发布。

![](https://framerusercontent.com/image