Release

【Release】Dify.AI 全新数据集功能升级

分类:Release

摘要:本文介绍了 Dify.AI 数据集管理功能的最新升级。新增引用溯源功能,优化了 API 调用体验,支持通过文本和文件创建文档,并提供多种格式上传。助力开发者更高效地管理与利用数据资产。

Dify.AI 数据集功能全新升级

在数据管理领域,技术迭代日新月异。紧跟最新功能与特性,是保持竞争力的关键。为此,我们很高兴推出一系列更新,旨在提升数据集管理工具的易用性与效率。本次更新引入了精细化功能与更友好的交互界面,让您与数据集的交互更加轻松高效。以下是新功能详解,助您打造流畅的数据管理体验。

引用数据集文档

现在,在应用编排中手动开启“引用与溯源”(Citations and Attributions)功能后,输出结果将直接显示引用的文档来源(如被引用的文档名称)。您可直接跳转至对应的数据集文档编辑页面。这不仅大幅提升了文档定位效率,也让后续文档片段的修改变得更加便捷。

全新数据集 API 功能

数据集 API 服务是高效管理与利用数据文档的得力工具。借助 Dify 数据集 API,您可以轻松上传、实时更新并有效管理数据集。该功能与大模型深度集成,进一步提升了用户体验与工作效率。此外,我们还提供了详细示例,帮助您快速上手并动手实践。

如何使用数据集 API 功能?

进入“数据集”页面,点击左侧导航栏即可切换至 API 页面。在此页面,您可以查阅 Dify 提供的数据集 API 文档,并在 API Key 区域管理访问凭证。

数据集 API 调用示例

创建空数据集

该方法用于创建空数据集。

curl --location --request POST 'https://api.dify.ai/v1/datasets' \
--header 'Authorization: Bearer {api_key}' \
--header 'Content-Type: application/json' \
--data-raw '{"name": "name"}'

数据集列表

通过指定页码和返回数量查询数据集列表,便于数据集的管理与筛选。

curl --location --request GET 'https://api.dify.ai/v1/datasets?page=1&limit=20' \
--header 'Authorization: Bearer {api_key}'

通过文本创建文档

通过简洁的文本上传界面,轻松导入现有文本数据。

curl --location --request POST 'https://api.dify.ai/v1/datasets/<uuid:dataset_id>/document/create_by_text' \
--header 'Authorization: Bearer {api_key}' \
--header 'Content-Type: application/json' \
--data-raw '{
  "name": "Dify",
  "text": "Dify means Do it for you...",
  "indexing_technique": "high_quality",
  "process_rule": {
    "rules": {
      "pre_processing_rules": [
        { "id": "remove_extra_spaces", "enabled": true },
        { "id": "remove_urls_emails", "enabled": true }
      ],
      "segmentation": {
        "separator": "###",
        "max_tokens": 500
      }
    },
    "mode": "custom"
  }
}'

通过文件创建文档

文件上传功能现已支持更多格式,包括 markdown、md、pdf、html、htm、xlsx、docx 和 csv,大幅扩展了您的选择范围。

curl --location POST 'https://api.dify.ai/v1/datasets/{dataset_id}/document/create_by_file' \
--header 'Authorization: Bearer {api_key}' \
--form 'data="{\"name\":\"Dify\",\"indexing_technique\":\"high_quality\",\"process_rule\":{\"rules\":{\"pre_processing_rules\":[{\"id\":\"remove_extra_spaces\",\"enabled\":true},{\"id\":\"remove_urls_emails\",\"enabled\":true}],\"segmentation\":{\"separator\":\"###\",\"max_tokens\":500}},\"mode\":\"custom\"}";type=text/plain' \
--form 'file=@"/path/to/file"'
文章来源: https://dify.ai/blog/difyai-new-dataset-features
← 返回文章列表