使用 Gemini API 根据多模态提示生成文本


使用 Vertex AI in Firebase SDK 从应用调用 Gemini API 时, 您可以提示 Gemini 模型根据多模态输入生成文本。 多模态提示可以包括多种模态(或多种输入类型), 例如文字、图片、PDF、视频和音频。

如需测试和迭代多模态提示,我们建议您使用 Vertex AI Studio

准备工作

如果您还没有这样做,请完成 Vertex AI in Firebase SDK 入门指南。 请确保您已完成以下所有操作:

  1. 设置一个新的或现有的 Firebase 项目,包括使用 Blaze 定价方案并启用所需的 API。

  2. 将您的应用关联至 Firebase,包括注册应用和向 Firebase 添加 Firebase 配置添加到您的应用。

  3. 添加 SDK 并初始化 Vertex AI 服务和生成模型 。

在将您的应用连接到 Firebase、添加 SDK 并初始化 Vertex AI 服务和生成模型, 您已准备好调用 Gemini API

根据文本和单张图片生成文本

确保您已完成准备工作 部分,然后再尝试此示例。

您可以使用包含以下内容的多模态提示来调用 Gemini API 文本和单个文件(比如图片,如此示例中所示)。对于这些 则需使用支持多模态提示的模型 (如 Gemini 1.5 Pro)。

支持的文件包括图片、PDF、视频、音频等。 请务必查看 输入文件的要求和建议

选择你想逐字逐句给出回答 (generateContentStream) 还是稍等 直到生成完整结果 (generateContent)。

流式传输

通过不等待来自 API 的整个结果, 而是改用流式传输来处理部分结果。

不在线播放

或者,您也可以等待整个结果,而不是流式传输; 结果仅在模型完成整个生成过程后返回 过程。

了解如何选择 Gemini 模型 以及可选的地理位置 适合您的用例和应用。

根据文本和多张图片生成文本

确保您已完成准备工作 部分,然后再尝试此示例。

您可以使用包含以下内容的多模态提示来调用 Gemini API 文本和多个文件(比如图片,如此示例中所示)。对于这些 则需使用支持多模态提示的模型 (如 Gemini 1.5 Pro)。

支持的文件包括图片、PDF、视频、音频等。 请务必查看 输入文件的要求和建议

选择你想逐字逐句给出回答 (generateContentStream) 还是稍等 直到生成完整结果 (generateContent)。

流式传输

通过不等待来自 API 的整个结果, 而是改用流式传输来处理部分结果。

不在线播放

或者,您也可以等待整个结果 在线播放;那么只有在模型完成整个训练过程后, 生成过程。

了解如何选择 Gemini 模型 以及可选的地理位置 适合您的用例和应用。

根据文本和视频生成文本

确保您已完成准备工作 部分,然后再尝试此示例。

您可以使用包含以下内容的多模态提示来调用 Gemini API 文本和单个视频(如此示例中所示)。对于这些 则需使用支持多模态提示的模型 (如 Gemini 1.5 Pro)。

请务必查看 输入文件的要求和建议

选择你想逐字逐句给出回答 (generateContentStream) 还是稍等 直到生成完整结果 (generateContent)。

流式传输

通过不等待来自 API 的整个结果, 而是改用流式传输来处理部分结果。

不在线播放

或者,您也可以等待整个结果,而不是流式传输; 结果仅在模型完成整个生成过程后返回 过程。

了解如何选择 Gemini 模型 以及可选的地理位置 适合您的用例和应用。

针对输入文件的要求和建议

要了解支持的文件类型、如何指定 MIME 类型,以及如何将 请确保您的文件和多模态请求符合要求,并遵循 最佳做法,请参阅 Vertex AI Gemini API 支持的输入文件和要求

您还可以做些什么?

  • 了解如何统计词元 然后再向模型发送长提示。
  • 设置 Cloud Storage for Firebase 以便在多模态请求中包含大型文件 Cloud Storage 个网址。文件可能包括图片、PDF 文件、视频和音频。
  • 开始考虑制作准备工作,包括 设置 Firebase App Check 保护 Gemini API 免遭未经授权的客户端滥用。

试用Gemini API的其他功能

了解如何控制内容生成

。 您还可以使用以下方法对提示和模型配置进行实验: Vertex AI Studio

详细了解 Gemini 模型

详细了解 适用于各种应用场景的模型 及其 配额和定价


提供反馈 分享您对Vertex AI in Firebase的体验