本文详细介绍如何在 Dify 平台部署 Google 开源大模型 Gemma。涵盖模型背景、Hugging Face API 接入步骤（Hosted API 与 Inference Endpoint 两种模式）、本地与云端部署方案，并附带性能对比数据，助力开发者快速上手。

如何在 Dify 上运行开源模型 Gemma？

Introduction

2月21日，Google 发布了一系列轻量级开源大语言模型：Gemma-2B、Gemma-7B、Gemma-2B-IT 和 Gemma-7B-IT。
据 Google 官方博客介绍，Gemma 采用了与 Gemini 系列相同的研究与技术，但专为负责任的 AI 开发而设计。
模型发布后，Google DeepMind 首席执行官也发文祝贺：“我们长期致力于支持负责任的开源与科学研究，这能推动快速的技术进步。因此，我们很自豪地推出 Gemma：这是一组轻量级开源模型，在同等规模下性能领先，其技术灵感源自 Gemini。”

Overview of Gemma

Gemma 模型系列包含 Gemma 2B 和 Gemma 7B。两者均支持预训练与指令微调（Instruct 版本）。
这些模型继承了 Google 在 Transformer、TensorFlow、BERT 和 T5 等技术上的创新基因。它们为开发者在自然语言处理、机器学习、数据分析等领域提供了强大的工具。
Google 希望通过开源 Gemma，促进开发者创新与协作，并引导 AI 技术的负责任使用。

在 Gemma 官方博客与技术报告中，Google 披露了以下关键信息：
- 提供两种参数量级的模型权重：Gemma 2B 和 Gemma 7B。每种规模均包含预训练版与指令微调版。
- 全新推出的 Responsible Generative AI Toolkit，为使用 Gemma 构建更安全的 AI 应用提供指导与核心工具。
- 全面支持 JAX、PyTorch 和 TensorFlow 等主流框架。通过原生 Keras 3.0 提供推理与监督微调（SFT）工具链。
- 提供开箱即用的 Colab 与 Kaggle Notebook。同时深度集成 Hugging Face、MaxText、NVIDIA NeMo 和 TensorRT-LLM 等热门工具，降低上手门槛。
- 预训练版与指令微调版 Gemma 均可在笔记本、工作站或 Google Cloud 上运行。支持通过 Vertex AI 和 Google Kubernetes Engine (GKE) 轻松部署。
- 针对 NVIDIA GPU 和 Google Cloud TPU 等多种 AI 硬件平台进行深度优化，确保行业领先的性能表现。
- 使用条款允许所有规模的组织进行负责任的商业使用与分发。

How to Use Gemma in Dify?

Dify 支持接入 Hugging Face 上的 Text-Generation 模型与 Embeddings 模型。在 Dify 中使用 Gemma 的具体步骤如下：
1. 注册 Hugging Face 账号（https://huggingface.co/join）。
2. 配置 Hugging Face API Key（https://huggingface.co/settings/tokens）。
3. 访问 Gemma 模型详情页（https://huggingface.co/google/gemma-7b），复制模型名称或 Endpoint URL。

How to get Hugging Face API Key (User Access Token).

Dify 提供两种接入 Hugging Face 模型的方式：
- Hosted Inference API：使用 Hugging Face 官方托管的模型。该方式免费，但仅支持部分模型。
- Inference Endpoint：使用 Hugging Face 调用的 AWS 等资源部署模型。该方式需付费。

Method 1: Accessing the Hosted Inference API model

1. 选择模型
模型详情页右侧会显示支持 Hosted Inference