文章分类:Product
摘要
本文介绍 DupDub 音频 AI 插件正式登陆 Dify Marketplace。集成语音转写、声音克隆、说话人识别及 TTS 合成等功能。用户可通过可视化工作流快速构建多模态 AI 应用,提升音频处理效率与体验。
DupDub 插件登陆 Dify Marketplace,带来高级音频 AI 能力

我们很高兴地宣布,DupDub 推出的一系列强大音频 AI 插件现已登陆 Dify Marketplace。此次集成将语音转写、声音克隆、说话人识别和文本转语音(TTS)合成等高级能力直接带入 Dify 平台。这将赋能用户构建功能更丰富、更易用且更具吸引力的 AI 应用。
Dify Marketplace:驱动 AI 创新
Dify Marketplace 随 Dify v1.0.0 同步上线。依托我们的开源 AI 应用开发平台,它正迅速成长为一个充满活力的生态系统。市场内汇聚了模型(Models)、工具(Tools)、智能体策略(Agent Strategies)、扩展(Extensions)和套件(Bundles)等多样化插件。这些插件助力 Dify 用户更快创新并规模化部署 AI 解决方案。其模块化设计为集成 DupDub 等前沿工具提供了理想环境,进一步丰富了 Dify 社区的多模态能力。

介绍 DupDub 工具:在 Dify 中实现高级音频处理
随着 DupDub 工具成功集成至 Dify,用户现在可以将复杂的音频处理无缝融入 AI 工作流。核心功能包括:
- 语音转写(Speech Transcription):使用
TranscribeSpeech工具,精准将音视频语音转为文本。该功能可助力内容分析、字幕生成、数据处理,并显著提升无障碍访问体验。 - 声音克隆(Voice Cloning):打造独特且个性化的语音体验。
Voice Cloning工具支持从样本中克隆特定说话人的声音。非常适合生成统一的品牌音色、个性化语音助手或本地化内容配音。 - 说话人识别(Speaker Identification):借助
Get Speaker ID工具,精准识别并区分音频文件中的多位说话人。该功能在会议记录分析、客服通话质检或多参与者音频场景中极具价值。 - 文本转语音(TTS)合成:通过
Speech Synthesis工具,将文本转化为自然流畅的语音。用户可自由选择克隆音色或标准音色,并灵活调节语速与音调,从而为各类应用场景生成高品质音频。
上述功能均可在 Dify 的可视化工作流构建器中轻松编排。用户只需极少的人工干预,即可实现音频相关任务的自动化与高效处理。

在 Dify 中快速上手 DupDub 工具
以下是 Dify 中使用 DupDub 工具的快速操作指南。
TranscribeSpeech 工具
借助该工具,您可轻松将语音转文本功能接入工作流。
将工具添加至工作流:
1. 点击左侧面板的 Orchestrate。
2. 点击 Tools,在 dupdup 插件下搜索 TranscribeSpeech。
3. 将 TranscribeSpeech 工具拖拽至工作流画布。
配置 TranscribeSpeech 工具:
1. 将 START 节点连接至 TranscribeSpeech 节点。
2. 填写 Input Variables(输入变量):
* Duration(必填):输入音视频时长。
* URL(必填):输入音视频文件的链接。
* Language(必填):设置内容语言(如 en 代表英语)。
3. Additional Settings(附加设置):
* Retry on Failure:开启后,工具出错时将自动重试。
* Error Handling:选择错误处理策略。
* Next Step:定义转写完成后的下一步操作(如后续处理)。
运行与发布:
点击 Run 执行工作流。测试通过后,点击 Publish 完成发布与部署。

Voice Cloning 工具
为工作流注入强大的声音克隆能力,实现精准且可定制的音频复刻。
将工具添加至工作流:
1. 点击左侧面板的 Orchestrate。
2. 点击 Tools,在 Dupdub 插件下搜索 Voice Cloning。
3. 将 Voice Cloning 工具拖拽至工作流画布。

配置 Voice Cloning 工具:
1. 将 START 节点连接至 Voice Cloning 节点。
2. 填写 Input Variables(输入变量):
* Speaker Name(必填):输入说话人名称。
* URL(必填):输入语音样本链接(支持 WAV、MP3、MP4 格式)。
* Language(必填):指定样本语言(如 en 英语,zh 中文)。
* Gender(必填):指定说话人性别(MALE 或 FEMALE)。
* Age(必填):指定年龄段(Children 儿童、Youth 青年、Adults 成年、Seniors 老年)。
3. Additional Settings(附加设置):配置重试、错误处理及下一步操作。
运行与发布:
点击 Run 执行并启动克隆。测试通过后点击 Publish 发布。

Get Speaker ID 工具
借助该工具在工作流中精准识别说话人,为高级音频处理与个性化输出提供支撑。
将工具添加至工作流:
1. 点击左侧面板的 Orchestrate。
2. 点击 Tools,在 Dupdub 插件下搜索 Get Speaker ID。
3. 将 Get Speaker ID 工具拖拽至工作流画布。

配置 Get Speaker ID 工具:
1. 将 START 节点连接至 Get Speaker ID 节点。
2. 当前配置下无需填写输入变量。
3. Additional Settings(附加设置):配置重试、错误处理及下一步操作。
运行与发布:
点击 Run 执行并获取说话人 ID。测试通过后点击 Publish 发布。

该流程将有效识别工作流中的说话人,助力实现更高级的音频处理与个性化输出。
Speech Synthesis 工具
将文本转语音合成无缝接入工作流,实现定制化高品质音频生成。
将工具添加至工作流:
1. 点击左侧面板的 Orchestrate。
2. 点击 Tools,在 Dupdub 插件下搜索 Speech Synthesis。
3. 将 Speech Synthesis 工具拖拽至工作流画布。

配置 Speech Synthesis 工具:
1. 将 START 节点连接至 Speech Synthesis 节点。
2. 填写 Input Variables(输入变量):
* Speaker Name(必填):输入合成语音的说话人名称。
* Speaker(必填):输入将使用的说话人标识符。
* Speed(选填):设置语速。默认为正常速度(1.0)。
* Pitch(选填):设置音调。默认为标准音调(0)。
* Text(必填):输入需要转为语音的文本。
3. Additional Settings(附加设置):配置重试、错误处理及下一步操作。
运行与发布:
点击 Run 执行并合成语音。测试通过后点击 Publish 发布。
![](https://framerusercontent.com/image