本文详细介绍如何在 Dify 平台部署 Google 开源大模型 Gemma。涵盖模型背景、Hugging Face API 接入步骤(Hosted API 与 Inference Endpoint 两种模式)、本地与云端部署方案,并附带性能对比数据,助力开发者快速上手。
如何在 Dify 上运行开源模型 Gemma?
Introduction
2月21日,Google 发布了一系列轻量级开源大语言模型:Gemma-2B、Gemma-7B、Gemma-2B-IT 和 Gemma-7B-IT。
据 Google 官方博客介绍,Gemma 采用了与 Gemini 系列相同的研究与技术,但专为负责任的 AI 开发而设计。
模型发布后,Google DeepMind 首席执行官也发文祝贺:“我们长期致力于支持负责任的开源与科学研究,这能推动快速的技术进步。因此,我们很自豪地推出 Gemma:这是一组轻量级开源模型,在同等规模下性能领先,其技术灵感源自 Gemini。”
Overview of Gemma
Gemma 模型系列包含 Gemma 2B 和 Gemma 7B。两者均支持预训练与指令微调(Instruct 版本)。
这些模型继承了 Google 在 Transformer、TensorFlow、BERT 和 T5 等技术上的创新基因。它们为开发者在自然语言处理、机器学习、数据分析等领域提供了强大的工具。
Google 希望通过开源 Gemma,促进开发者创新与协作,并引导 AI 技术的负责任使用。
在 Gemma 官方博客与技术报告中,Google 披露了以下关键信息:
- 提供两种参数量级的模型权重:Gemma 2B 和 Gemma 7B。每种规模均包含预训练版与指令微调版。
- 全新推出的 Responsible Generative AI Toolkit,为使用 Gemma 构建更安全的 AI 应用提供指导与核心工具。
- 全面支持 JAX、PyTorch 和 TensorFlow 等主流框架。通过原生 Keras 3.0 提供推理与监督微调(SFT)工具链。
- 提供开箱即用的 Colab 与 Kaggle Notebook。同时深度集成 Hugging Face、MaxText、NVIDIA NeMo 和 TensorRT-LLM 等热门工具,降低上手门槛。
- 预训练版与指令微调版 Gemma 均可在笔记本、工作站或 Google Cloud 上运行。支持通过 Vertex AI 和 Google Kubernetes Engine (GKE) 轻松部署。
- 针对 NVIDIA GPU 和 Google Cloud TPU 等多种 AI 硬件平台进行深度优化,确保行业领先的性能表现。
- 使用条款允许所有规模的组织进行负责任的商业使用与分发。
How to Use Gemma in Dify?
Dify 支持接入 Hugging Face 上的 Text-Generation 模型与 Embeddings 模型。在 Dify 中使用 Gemma 的具体步骤如下:
1. 注册 Hugging Face 账号(https://huggingface.co/join)。
2. 配置 Hugging Face API Key(https://huggingface.co/settings/tokens)。
3. 访问 Gemma 模型详情页(https://huggingface.co/google/gemma-7b),复制模型名称或 Endpoint URL。

Dify 提供两种接入 Hugging Face 模型的方式:
- Hosted Inference API:使用 Hugging Face 官方托管的模型。该方式免费,但仅支持部分模型。
- Inference Endpoint:使用 Hugging Face 调用的 AWS 等资源部署模型。该方式需付费。
Method 1: Accessing the Hosted Inference API model
1. 选择模型
模型详情页右侧会显示支持 Hosted Inference