发布 Workflow 文件上传功能:Google NotebookLM 播客应用演示
摘要:Dify v0.10.0 正式发布,Workflow 新增文件上传功能,全面支持文档、音频与视频处理。本文详解配置步骤,并演示如何快速搭建类 NotebookLM 的 AI 播客应用。同时,旧版图片上传功能将逐步停用。
今天,我们很高兴地宣布 Dify v0.10.0 正式发布。本次更新为 Workflow 全面引入了文件上传能力。Dify 始终致力于帮助开发者快速将 AI 创意落地,无论是打造产品原型还是构建效率工具。此次升级让 Workflow 能够直接处理多种文档格式、音频及视频文件,进一步拓宽了 AI 应用开发的边界。
为什么这项更新很重要
新增的文件上传功能为您带来以下核心能力:
- 文档问答:基于上传的文档精准回答问题,并提供可靠的来源引用。
- 报告摘要:从长文档中自动提取关键信息,快速生成精简摘要。
- 表格处理:高效检索和操作文档或电子表格中的特定数据。
更重要的是,此次升级正式打开了多模态 AI 应用的大门。开发者现在可以构建处理图像、音频和视频的工作流,大幅提升应用功能与用户体验。
快速上手文件上传
直接启用文件上传
开启该功能非常简单。在功能列表中直接打开开关即可(文件引用将自动存储在系统变量 sys.files 中)。用户可通过对话界面上传文件,系统会自动用最新上传的文件替换旧文件。开发者还可开启记忆功能,以实现更灵活的上下文管理。
创建自定义变量
或者,您可以在“开始”节点中创建自定义变量,以支持单文件或多文件上传。配置完成后,界面将显示文件上传表单,所有对话与工作流将围绕上传的文件展开。

上传文件后,需根据文件类型进行预处理,以便 LLM 有效分析:
- 文档文件(如 TXT、PDF、HTML):使用“文档提取器”节点将文本提取为字符串变量,供 LLM 调用。
- 音频/视频文件:需借助音频转文本或视频关键帧提取等工具。
注:OpenAI 的 gpt-4.0-audio-preview 模型支持直接处理音频进行推理与对话。该功能将在后续更新中集成。
本次发布还引入了“文档提取器”和“列表操作”节点,用于文件提取与过滤,并对大部分 Workflow 节点进行了底层优化。更多详情请参阅我们的文档。
利用文件上传构建 AI 播客
Google 近期推出了 NotebookLM,这款 AI 工具凭借全新的音频功能脱颖而出。它能快速分析海量内容,提取核心要点,并生成类似播客的对谈式语音摘要。这既节省了用户时间,又帮助快速掌握内容主旨。
接下来,我们将演示如何利用 Workflow 的文件上传功能及相关节点,将文档转化为 AI 驱动的播客,实现与 NotebookLM 类似的效果。
配置“开始”节点
新建一个 Chatflow,在“开始”节点中配置文件上传,并定义关键变量(如风格、主持人姓名、嘉宾姓名、语言):
file:字段类型选择“单文件”,以启用文档上传。tone:使用“下拉选项”,提供随意、正式、幽默等选项,供用户自定义播客风格。host_name:选择“文本”,用于输入主持人姓名。guest_name:选择“文本”,用于输入嘉宾姓名。language:使用“下拉选项”,提供中文、English、日本語等选项,供用户选择播客语言。

使用文档提取器与 LLM 节点生成播客脚本
文件上传后,“文档提取器”节点会从 file 变量中抓取文本,将非结构化数据转换为 LLM 可处理的文本格式。随后,内容将流经三个 LLM 节点,生成完整的播客脚本:
- LLM 分析节点(分析输入内容):提取文本中的关键信息,提炼播客所需的核心主题、故事线索与数据,为内容创作奠定基础。
- LLM 脚本生成节点(撰写对话):基于分析结果与预设变量(
tone、language、host_name、guest_name),生成自然、生动且个性化的播客对话。确保互动严格符合设定的角色与风格。 - LLM 总结节点(结语):通过主持人与嘉宾的对话回顾核心要点,输出富有洞察力的播客总结。

使用模板节点合并内容
经过 LLM 节点处理后,我们已获得播客对话与总结内容。此时,“模板”节点将把这些元素整合为连贯的脚本。
- 输入:从“撰写对话”和“结语”节点获取文本片段,通过变量
arg1和arg2进行引用。 - 输出:合并
arg1(对话内容)与arg2(总结内容),生成结构完整的播客脚本,并以字符串形式输出,供下一步处理。

配置并生成播客音频
最后,脚本通过模板节点的 output 传递给“播客音频生成器”,正式进入音频生成阶段。
该工具可将脚本转化为播客音频。开发者可为主持人与嘉宾选择音色(如 "Alloy" 和 "Shimmer")以定义语音风格。生成器最终将输出音频文件,供用户下载。

按照上述步骤,您即可轻松利用文件上传功能创建 AI 播客。我们已将此应用作为模板发布在 Explore 页面,方便您快速上手。

图片上传功能停用通知
在 Dify v0.10.0 中,我们将原有的图片上传能力升级为文件上传功能。应用现可同时管理文档、音频、视频及图像文件。
针对 Chatflow 应用
图片上传功能现已并入文件上传模块。启用后,您可在对话窗口中通过 LLM 节点的可视化变量选择器引用 sys.file,从而调用图像及其他文件。

我们已做好向后兼容处理,使用旧版图片上传功能的应用将继续无缝运行。
针对 Workflow 应用
我们建议在“开始”节点中创建自定义文件类型变量,以便管理更广泛的文件类型。
注意:旧版图片上传功能及 sys.file 系统变量将在后续版本中逐步停用。
