分类:Release
摘要:本文介绍了 Dify.AI 数据集管理功能的最新升级。新增引用溯源功能,优化了 API 调用体验,支持通过文本和文件创建文档,并提供多种格式上传。助力开发者更高效地管理与利用数据资产。
Dify.AI 数据集功能全新升级
在数据管理领域,技术迭代日新月异。紧跟最新功能与特性,是保持竞争力的关键。为此,我们很高兴推出一系列更新,旨在提升数据集管理工具的易用性与效率。本次更新引入了精细化功能与更友好的交互界面,让您与数据集的交互更加轻松高效。以下是新功能详解,助您打造流畅的数据管理体验。
引用数据集文档
现在,在应用编排中手动开启“引用与溯源”(Citations and Attributions)功能后,输出结果将直接显示引用的文档来源(如被引用的文档名称)。您可直接跳转至对应的数据集文档编辑页面。这不仅大幅提升了文档定位效率,也让后续文档片段的修改变得更加便捷。
全新数据集 API 功能
数据集 API 服务是高效管理与利用数据文档的得力工具。借助 Dify 数据集 API,您可以轻松上传、实时更新并有效管理数据集。该功能与大模型深度集成,进一步提升了用户体验与工作效率。此外,我们还提供了详细示例,帮助您快速上手并动手实践。
如何使用数据集 API 功能?
进入“数据集”页面,点击左侧导航栏即可切换至 API 页面。在此页面,您可以查阅 Dify 提供的数据集 API 文档,并在 API Key 区域管理访问凭证。
数据集 API 调用示例
创建空数据集
该方法用于创建空数据集。
curl --location --request POST 'https://api.dify.ai/v1/datasets' \
--header 'Authorization: Bearer {api_key}' \
--header 'Content-Type: application/json' \
--data-raw '{"name": "name"}'
数据集列表
通过指定页码和返回数量查询数据集列表,便于数据集的管理与筛选。
curl --location --request GET 'https://api.dify.ai/v1/datasets?page=1&limit=20' \
--header 'Authorization: Bearer {api_key}'
通过文本创建文档
通过简洁的文本上传界面,轻松导入现有文本数据。
curl --location --request POST 'https://api.dify.ai/v1/datasets/<uuid:dataset_id>/document/create_by_text' \
--header 'Authorization: Bearer {api_key}' \
--header 'Content-Type: application/json' \
--data-raw '{
"name": "Dify",
"text": "Dify means Do it for you...",
"indexing_technique": "high_quality",
"process_rule": {
"rules": {
"pre_processing_rules": [
{ "id": "remove_extra_spaces", "enabled": true },
{ "id": "remove_urls_emails", "enabled": true }
],
"segmentation": {
"separator": "###",
"max_tokens": 500
}
},
"mode": "custom"
}
}'
通过文件创建文档
文件上传功能现已支持更多格式,包括 markdown、md、pdf、html、htm、xlsx、docx 和 csv,大幅扩展了您的选择范围。
curl --location POST 'https://api.dify.ai/v1/datasets/{dataset_id}/document/create_by_file' \
--header 'Authorization: Bearer {api_key}' \
--form 'data="{\"name\":\"Dify\",\"indexing_technique\":\"high_quality\",\"process_rule\":{\"rules\":{\"pre_processing_rules\":[{\"id\":\"remove_extra_spaces\",\"enabled\":true},{\"id\":\"remove_urls_emails\",\"enabled\":true}],\"segmentation\":{\"separator\":\"###\",\"max_tokens\":500}},\"mode\":\"custom\"}";type=text/plain' \
--form 'file=@"/path/to/file"'