文章分类：Release

Dify v1.1.0 发布：使用自定义元数据过滤知识库检索

摘要：Dify v1.1.0 重磅推出元数据知识库过滤功能。通过自定义元数据属性，该功能可显著提升检索准确率与效率，强化细粒度访问控制与数据安全。在 RAG 场景下，助力企业实现更智能、合规的知识管理。

大家好，我是 Dify 产品团队的 Yawen。今天，我们很高兴地推出 Dify v1.1.0 版本，带来全新功能：元数据知识库过滤。通过自定义元数据属性，该功能能显著提升知识库中相关数据的检索效率与准确性。

过去，用户只能在全量数据中盲目搜索。系统无法根据具体需求进行过滤或权限控制，导致难以精准定位核心信息。引入元数据后，数据相当于被打上标签并分类管理。这一机制极大优化了检索效果。在 RAG（检索增强生成）场景下，面对海量信息，该功能对于高效管理与精准调用尤为重要。

理解元数据过滤

元数据本质上是“描述数据的数据”。它提供额外的上下文或属性，用于描述核心数据，从而实现更精准的搜索与检索。例如，在文档管理系统中，元数据可能包含文档名称、作者、创建日期等。这种结构化信息让系统能够按特定条件过滤结果，大幅提升检索内容的相关性。

应用元数据过滤的优势

元数据过滤能显著提升搜索准确率。用户可快速定位目标文档，同时大幅减少无关结果。它还能强化数据安全，通过执行访问控制策略，确保只有授权用户才能查看敏感信息。此外，该功能通过缩小查询范围优化了搜索性能。它能提升效率，并节省计算资源。这种定制化体验改善了用户交互。尤其在企业级环境中，能帮助用户更快速、直观地浏览大型文档库。

下图展示了访问控制的对比，说明元数据过滤如何实现细粒度权限管理。本例中应用了三个过滤条件：privacylevel（隐私等级）、uploader（上传者）和 update_date（更新日期）。

通过调整 privacylevel，管理员可精准控制用户对《RAG 2.0 Roadmap》的访问权限。这不仅能提升数据访问的安全性，还能优化整体效率。

简而言之，元数据充当了智能的知识过滤器。通过增加上下文层与访问控制，它让信息检索变得更智能、更安全、更高效。在 RAG 系统中，保障知识隐私与相关性至关重要，该功能正是为此而生。

如何将元数据作为知识库过滤器？

步骤 1：在知识库中为文档添加元数据

用户可以为知识库中的文档添加和管理元数据。文档创建时，系统会自动分配默认元数据，如文件名、上传者、上传日期等。用户也可手动新增元数据字段，自定义字段名与数据类型，并对现有文档进行批量编辑或修改。这一打标过程为文档补充了结构化信息，便于后续检索与管理。

步骤 2：在应用中配置元数据过滤

用户可在 Chatbot 的 Context 部分，或 Chatflow/Workflow 的 Knowledge Retrieval 节点中找到元数据过滤功能。该功能支持基于元数据属性精准过滤与检索信息。

用户可选择自动或手动过滤模式：
- 自动模式：系统会从用户查询中自动提取并生成过滤条件。
- 手动模式：用户可根据元数据字段类型（如字符串、数字、时间）设置过滤条件，并进一步配置多个条件之间的逻辑关系（AND 或 OR）。

三种元数据类型及其应用场景

我们目前支持三种元数据类型：字符串（String）、数字（Number）和时间（Time）。用户可根据实际业务场景灵活应用。以下为具体示例：

字符串元数据（String）—— 增强上下文相关性
字符串元数据可通过过滤无关信息来优化搜索结果。例如，当用户搜索“项目报告”时，带有“Marketing”或“R&D”标签的元数据能确保系统仅返回对应部门或项目的文档。

数字元数据（Number）—— 实施访问控制
数字元数据可用于基于预设条件限制访问权限。例如，系统可配置为仅允许检索隐私等级高于特定阈值的文档，从而保障数据安全与合规访问。

时间元数据（Time）—— 管理文档版本
时间元数据可用于区分文档的旧版与新版本。当内容更新并重新上传时，基于时间的过滤机制会优先检索最新版本。若将上传者设置为“自身”，用户还可方便地对不同批次上传的多个版本进行对比检索测试，前提是文档处理流程保持一致。

如需了解详细操作指南，请参阅知识库文档。欢迎前往 Dify.AI 亲自体验！

本文目录