Arquivos de entrada e requisitos compatíveis com a API Vertex AI Gemini

Ao chamar a API Gemini da Vertex AI no seu app usando um SDK da Vertex AI para Firebase, você pode solicitar que o modelo Gemini gere texto com base em uma entrada multimodal. Os comandos multimodais podem incluir várias modalidades (ou tipos de entrada), como texto com imagens, PDFs, vídeo e áudio.

Para as partes da entrada que não são de texto, como arquivos de mídia, é necessário usar tipos de arquivos com suporte, especificar um tipo MIME compatível e garantir que os arquivos e as solicitações multimodais atendam aos requisitos e sigam as práticas recomendadas.

  • Os arquivos de entrada compatíveis variam de acordo com o modelo e podem incluir imagens, PDFs, vídeo e áudio.

    • A entrada de vídeo com suporte também varia de acordo com o modelo e pode incluir apenas frames ou frames com áudio.
  • Requisitos e práticas recomendadas para arquivos de entrada e solicitações multimodais:

    • Em Saiba mais sobre os modelos do Gemini, você encontra um resumo rápido dos requisitos para arquivos compatíveis com base no modelo (por exemplo, contagens máximas e tamanho máximo de arquivos).

    • Na documentação do Google Cloud, há informações detalhadas sobre os requisitos e as práticas recomendadas para arquivos de entrada e solicitações multimodais (por exemplo, tipos MIME compatíveis e quando fornecer o arquivo de entrada na solicitação).

Requisitos específicos dos SDKs da Vertex AI para Firebase

Nos SDKs da Vertex AI para Firebase, o tamanho máximo da solicitação é 20 MB. Você vai receber um erro HTTP 413 se uma solicitação for muito grande.