发布 Workflow 文件上传功能：Google NotebookLM 播客应用演示

摘要：Dify v0.10.0 正式发布，Workflow 新增文件上传功能，全面支持文档、音频与视频处理。本文详解配置步骤，并演示如何快速搭建类 NotebookLM 的 AI 播客应用。同时，旧版图片上传功能将逐步停用。

今天，我们很高兴地宣布 Dify v0.10.0 正式发布。本次更新为 Workflow 全面引入了文件上传能力。Dify 始终致力于帮助开发者快速将 AI 创意落地，无论是打造产品原型还是构建效率工具。此次升级让 Workflow 能够直接处理多种文档格式、音频及视频文件，进一步拓宽了 AI 应用开发的边界。

为什么这项更新很重要

新增的文件上传功能为您带来以下核心能力：

文档问答：基于上传的文档精准回答问题，并提供可靠的来源引用。
报告摘要：从长文档中自动提取关键信息，快速生成精简摘要。
表格处理：高效检索和操作文档或电子表格中的特定数据。

更重要的是，此次升级正式打开了多模态 AI 应用的大门。开发者现在可以构建处理图像、音频和视频的工作流，大幅提升应用功能与用户体验。

快速上手文件上传

直接启用文件上传

开启该功能非常简单。在功能列表中直接打开开关即可（文件引用将自动存储在系统变量 sys.files 中）。用户可通过对话界面上传文件，系统会自动用最新上传的文件替换旧文件。开发者还可开启记忆功能，以实现更灵活的上下文管理。

创建自定义变量

或者，您可以在“开始”节点中创建自定义变量，以支持单文件或多文件上传。配置完成后，界面将显示文件上传表单，所有对话与工作流将围绕上传的文件展开。

上传文件后，需根据文件类型进行预处理，以便 LLM 有效分析：

文档文件（如 TXT、PDF、HTML）：使用“文档提取器”节点将文本提取为字符串变量，供 LLM 调用。
音频/视频文件：需借助音频转文本或视频关键帧提取等工具。

注：OpenAI 的 gpt-4.0-audio-preview 模型支持直接处理音频进行推理与对话。该功能将在后续更新中集成。

本次发布还引入了“文档提取器”和“列表操作”节点，用于文件提取与过滤，并对大部分 Workflow 节点进行了底层优化。更多详情请参阅我们的文档。

利用文件上传构建 AI 播客

Google 近期推出了 NotebookLM，这款 AI 工具凭借全新的音频功能脱颖而出。它能快速分析海量内容，提取核心要点，并生成类似播客的对谈式语音摘要。这既节省了用户时间，又帮助快速掌握内容主旨。

接下来，我们将演示如何利用 Workflow 的文件上传功能及相关节点，将文档转化为 AI 驱动的播客，实现与 NotebookLM 类似的效果。

配置“开始”节点

新建一个 Chatflow，在“开始”节点中配置文件上传，并定义关键变量（如风格、主持人姓名、嘉宾姓名、语言）：

file：字段类型选择“单文件”，以启用文档上传。
tone：使用“下拉选项”，提供随意、正式、幽默等选项，供用户自定义播客风格。
host_name：选择“文本”，用于输入主持人姓名。
guest_name：选择“文本”，用于输入嘉宾姓名。
language：使用“下拉选项”，提供中文、English、日本語等选项，供用户选择播客语言。

使用文档提取器与 LLM 节点生成播客脚本

文件上传后，“文档提取器”节点会从 file 变量中抓取文本，将非结构化数据转换为 LLM 可处理的文本格式。随后，内容将流经三个 LLM 节点，生成完整的播客脚本：

LLM 分析节点（分析输入内容）：提取文本中的关键信息，提炼播客所需的核心主题、故事线索与数据，为内容创作奠定基础。
LLM 脚本生成节点（撰写对话）：基于分析结果与预设变量（tone、language、host_name、guest_name），生成自然、生动且个性化的播客对话。确保互动严格符合设定的角色与风格。
LLM 总结节点（结语）：通过主持人与嘉宾的对话回顾核心要点，输出富有洞察力的播客总结。