Release

【Release】Dify v1.1.0:基于自定义元数据过滤知识检索

文章分类:Release

Dify v1.1.0 发布:使用自定义元数据过滤知识库检索

摘要:Dify v1.1.0 重磅推出元数据知识库过滤功能。通过自定义元数据属性,该功能可显著提升检索准确率与效率,强化细粒度访问控制与数据安全。在 RAG 场景下,助力企业实现更智能、合规的知识管理。

大家好,我是 Dify 产品团队的 Yawen。今天,我们很高兴地推出 Dify v1.1.0 版本,带来全新功能:元数据知识库过滤。通过自定义元数据属性,该功能能显著提升知识库中相关数据的检索效率与准确性。

过去,用户只能在全量数据中盲目搜索。系统无法根据具体需求进行过滤或权限控制,导致难以精准定位核心信息。引入元数据后,数据相当于被打上标签并分类管理。这一机制极大优化了检索效果。在 RAG(检索增强生成)场景下,面对海量信息,该功能对于高效管理与精准调用尤为重要。

理解元数据过滤

元数据本质上是“描述数据的数据”。它提供额外的上下文或属性,用于描述核心数据,从而实现更精准的搜索与检索。例如,在文档管理系统中,元数据可能包含文档名称、作者、创建日期等。这种结构化信息让系统能够按特定条件过滤结果,大幅提升检索内容的相关性。

应用元数据过滤的优势

元数据过滤能显著提升搜索准确率。用户可快速定位目标文档,同时大幅减少无关结果。它还能强化数据安全,通过执行访问控制策略,确保只有授权用户才能查看敏感信息。此外,该功能通过缩小查询范围优化了搜索性能。它能提升效率,并节省计算资源。这种定制化体验改善了用户交互。尤其在企业级环境中,能帮助用户更快速、直观地浏览大型文档库。

下图展示了访问控制的对比,说明元数据过滤如何实现细粒度权限管理。本例中应用了三个过滤条件:privacylevel(隐私等级)、uploader(上传者)和 update_date(更新日期)。

通过调整 privacylevel,管理员可精准控制用户对《RAG 2.0 Roadmap》的访问权限。这不仅能提升数据访问的安全性,还能优化整体效率。

简而言之,元数据充当了智能的知识过滤器。通过增加上下文层与访问控制,它让信息检索变得更智能、更安全、更高效。在 RAG 系统中,保障知识隐私与相关性至关重要,该功能正是为此而生。

如何将元数据作为知识库过滤器?

步骤 1:在知识库中为文档添加元数据

用户可以为知识库中的文档添加和管理元数据。文档创建时,系统会自动分配默认元数据,如文件名、上传者、上传日期等。用户也可手动新增元数据字段,自定义字段名与数据类型,并对现有文档进行批量编辑或修改。这一打标过程为文档补充了结构化信息,便于后续检索与管理。

步骤 2:在应用中配置元数据过滤

用户可在 Chatbot 的 Context 部分,或 Chatflow/Workflow 的 Knowledge Retrieval 节点中找到元数据过滤功能。该功能支持基于元数据属性精准过滤与检索信息。

用户可选择自动或手动过滤模式:
- 自动模式:系统会从用户查询中自动提取并生成过滤条件。
- 手动模式:用户可根据元数据字段类型(如字符串、数字、时间)设置过滤条件,并进一步配置多个条件之间的逻辑关系(AND 或 OR)。

三种元数据类型及其应用场景

我们目前支持三种元数据类型:字符串(String)、数字(Number)和时间(Time)。用户可根据实际业务场景灵活应用。以下为具体示例:

字符串元数据(String)—— 增强上下文相关性
字符串元数据可通过过滤无关信息来优化搜索结果。例如,当用户搜索“项目报告”时,带有“Marketing”或“R&D”标签的元数据能确保系统仅返回对应部门或项目的文档。

数字元数据(Number)—— 实施访问控制
数字元数据可用于基于预设条件限制访问权限。例如,系统可配置为仅允许检索隐私等级高于特定阈值的文档,从而保障数据安全与合规访问。

时间元数据(Time)—— 管理文档版本
时间元数据可用于区分文档的旧版与新版本。当内容更新并重新上传时,基于时间的过滤机制会优先检索最新版本。若将上传者设置为“自身”,用户还可方便地对不同批次上传的多个版本进行对比检索测试,前提是文档处理流程保持一致。

如需了解详细操作指南,请参阅知识库文档。欢迎前往 Dify.AI 亲自体验!

本文目录

文章来源: https://dify.ai/blog/dify-v1-1-0-filtering-knowledge-retrieval-with-customized-metadata
← 返回文章列表