Анализируйте документы (например, PDF-файлы) с помощью Gemini API.

Вы можете попросить модель Gemini проанализировать файлы документов (например, PDF-файлы и текстовые файлы), предоставленные вами либо непосредственно (в кодировке base64), либо по URL-адресу. При использовании Firebase AI Logic вы можете отправить этот запрос непосредственно из своего приложения.

Благодаря этой возможности вы можете делать, например, следующее:

Анализ диаграмм, графиков и таблиц внутри документов.
Извлечение информации в структурированные выходные форматы.
Ответьте на вопросы о визуальном и текстовом содержании документов.
Сводная информация по документам
Преобразовать содержимое документа (например, в HTML), сохраняя макет и форматирование, для использования в последующих приложениях (например, в конвейерах RAG).

Это руководство посвящено генерации текста из входных документов (например, PDF-файлов), но вы также можете генерировать изображения из входных документов .

Перейти к примерам кода Перейти к коду для потоковых ответов

Дополнительные возможности работы с документами (например, PDF-файлами) можно найти в других руководствах.
Создание структурированного вывода Многоходовой чат

Прежде чем начать

Чтобы просмотреть контент и код, относящиеся к вашему поставщику API Gemini , нажмите на него.

Если вы еще этого не сделали, пройдите руководство по началу работы , в котором описывается, как настроить проект Firebase, подключить приложение к Firebase, добавить SDK, инициализировать бэкэнд-сервис для выбранного вами поставщика API Gemini и создать экземпляр GenerativeModel .

Для тестирования и доработки ваших подсказок мы рекомендуем использовать Google AI Studio .

Нужен образец PDF-файла?

Вы можете использовать этот общедоступный файл с MIME-типом application/pdf ( просмотреть или загрузить файл ). https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf

Модели, поддерживающие эту возможность

Данное руководство посвящено генерации текста из входных документов (например, PDF-файлов) и применимо к следующим моделям Gemini :

gemini-3.1-pro-preview
gemini-3.6-flash (и более старая версия gemini-3.5-flash )
gemini-3.5-flash-lite (и более старая модель gemini-3.1-flash-lite )
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite

Создание текста из PDF-файлов (в кодировке base64)

Прежде чем опробовать этот пример, выполните раздел «Перед началом работы » этого руководства, чтобы настроить свой проект и приложение.
В этом разделе вам также нужно будет нажать кнопку для выбранного вами поставщика API Gemini , чтобы увидеть на этой странице контент, относящийся к данному поставщику .

Вы можете попросить модель Gemini сгенерировать текст, предоставив ей текстовые файлы и PDF-документы — указав mimeType каждого входного файла и сам файл. Требования и рекомендации к входным файлам вы найдете далее на этой странице.