Ao chamar a API Gemini da Vertex AI no seu app usando um SDK da Vertex AI para Firebase, você pode solicitar que o modelo Gemini gere texto com base em uma entrada multimodal. Os comandos multimodais podem incluir várias modalidades (ou tipos de entrada), como texto com imagens, PDFs, vídeo e áudio.
Para as partes da entrada que não são de texto, como arquivos de mídia, é necessário usar tipos de arquivos com suporte, especificar um tipo MIME compatível e garantir que os arquivos e as solicitações multimodais atendam aos requisitos e sigam as práticas recomendadas.
Os arquivos de entrada compatíveis variam de acordo com o modelo e podem incluir imagens, PDFs, vídeo e áudio.
- A entrada de vídeo com suporte também varia de acordo com o modelo e pode incluir apenas frames ou frames com áudio.
Requisitos e práticas recomendadas para arquivos de entrada e solicitações multimodais:
Em Saiba mais sobre os modelos do Gemini, você encontra um resumo rápido dos requisitos para arquivos compatíveis com base no modelo (por exemplo, contagens máximas e tamanho máximo de arquivos).
Na documentação do Google Cloud, há informações detalhadas sobre os requisitos e as práticas recomendadas para arquivos de entrada e solicitações multimodais (por exemplo, tipos MIME compatíveis e quando fornecer o arquivo de entrada na solicitação).
Requisitos específicos dos SDKs da Vertex AI para Firebase
Nos SDKs da Vertex AI para Firebase, o tamanho máximo da solicitação é 20 MB. Você vai receber um erro HTTP 413 se uma solicitação for muito grande.
Se o tamanho de um arquivo fizer com que o tamanho total da solicitação ultrapasse 20 MB, use um URL do Cloud Storage para Firebase para incluir o arquivo na solicitação multimodal.
Se um arquivo for pequeno, muitas vezes você poderá passá-lo diretamente como dados inline. No entanto, um arquivo fornecido como dados inline é codificado como base64 em trânsito, o que aumenta o tamanho da solicitação. Confira exemplos de como incluir arquivos como dados inline em Gerar texto com base em comandos multimodais usando a API Gemini.