Ao chamar a Gemini API do seu app usando um SDK da Vertex AI in Firebase, é possível solicitar que o modelo Gemini gere texto com base em uma entrada multimodal. Os comandos multimodais podem incluir várias modalidades (ou tipos de entrada), como texto com imagens, PDFs, vídeo e áudio.
Para testar e iterar comandos multimodais, recomendamos usar Vertex AI Studio.
Antes de começar
Conclua o guia para iniciantes dos SDKs do Vertex AI in Firebase, se ainda não tiver feito isso. Verifique se você fez o seguinte:
Configurou um projeto novo ou existente do Firebase, incluindo o uso do plano de preços Blaze e a ativação das APIs necessárias.
Conectou seu app ao Firebase, incluindo o registro e a adição da configuração do Firebase.
Adicione o SDK e inicialize o serviço do Vertex AI e o modelo generativo no seu app.
Depois de conectar seu app ao Firebase, adicionar o SDK e inicializar o serviço Vertex AI e o modelo generativo, você poderá chamar o Gemini API.
- Gerar texto com base em texto e uma única imagem
- Gerar texto com base em texto e várias imagens
- Gerar texto com base em texto e vídeo
Gerar texto com base em texto e uma única imagem
Conclua a seção Antes de começar deste guia antes de testar este exemplo.
É possível chamar Gemini API com comandos multimodais que incluem texto e um único arquivo (como uma imagem, conforme mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais, como o Gemini 1.5 Pro.
Os arquivos compatíveis incluem imagens, PDFs, vídeos, áudio e muito mais. Leia os requisitos e recomendações para arquivos de entrada.
Escolha se você quer transmitir a resposta (generateContentStream
) ou esperar
pela resposta até que todo o resultado seja gerado (generateContent
).
Streaming
É possível conseguir interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.
Sem streaming
Como alternativa, aguarde o resultado completo em vez de streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.
Saiba como escolher um modelo do Gemini e, opcionalmente, um local adequado para seu caso de uso e app.
Gerar texto com base em texto e várias imagens
Conclua a seção Antes de começar deste guia antes de testar este exemplo.
É possível chamar Gemini API com comandos multimodais que incluem texto e vários arquivos (como imagens, conforme mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais, como o Gemini 1.5 Pro.
Os arquivos compatíveis incluem imagens, PDFs, vídeos, áudio e muito mais. Leia os requisitos e recomendações para arquivos de entrada.
Escolha se você quer transmitir a resposta (generateContentStream
) ou esperar
pela resposta até que todo o resultado seja gerado (generateContent
).
Streaming
É possível conseguir interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.
Sem streaming
Como alternativa, aguarde o resultado completo em vez de fazer streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.
Saiba como escolher um modelo do Gemini e, opcionalmente, um local adequado para seu caso de uso e app.
Gerar texto com base em texto e vídeo
Conclua a seção Antes de começar deste guia antes de testar este exemplo.
É possível chamar Gemini API com comandos multimodais que incluem texto e um único vídeo (como mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais, como o Gemini 1.5 Pro.
Leia os requisitos e recomendações para arquivos de entrada.
Escolha se você quer transmitir a resposta (generateContentStream
) ou esperar
pela resposta até que todo o resultado seja gerado (generateContent
).
Streaming
É possível conseguir interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.
Sem streaming
Como alternativa, aguarde o resultado completo em vez de streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.
Saiba como escolher um modelo do Gemini e, opcionalmente, um local adequado para seu caso de uso e app.
Requisitos e recomendações para arquivos de entrada
Consulte Arquivos de entrada e requisitos compatíveis com o Vertex AI Gemini API para saber mais sobre o seguinte:
- Opções diferentes para enviar um arquivo em uma solicitação
- Tipos de arquivos compatíveis
- Tipos MIME compatíveis e como especificá-los
- Requisitos e práticas recomendadas para arquivos e solicitações multimodais
O que mais você pode fazer?
- Saiba como contar tokens antes de enviar comandos longos para o modelo.
- Configure Cloud Storage for Firebase para incluir arquivos grandes nas solicitações multimodais e ter uma solução mais gerenciada para fornecer arquivos em comandos. Os arquivos podem incluir imagens, PDFs, vídeos e áudio.
- Comece a pensar na preparação para a produção, incluindo a configuração de Firebase App Check para proteger o Gemini API contra abusos de clientes não autorizados.
Testar outros recursos do Gemini API
- Crie conversas com vários turnos (chat).
- Gerar texto com base em comandos somente de texto.
- Gere saída estruturada (como JSON) com comandos de texto e multimodais.
- Use a chamada de função para conectar modelos generativos a sistemas e informações externas.
Saiba como controlar a geração de conteúdo
- Entenda o design de comandos, incluindo práticas recomendadas, estratégias e exemplos de comandos.
- Configure os parâmetros do modelo, como temperatura e máximo de tokens de saída.
- Use as configurações de segurança para ajustar a probabilidade de receber respostas que podem ser consideradas nocivas.
Saiba mais sobre os modelos do Gemini
Saiba mais sobre os modelos disponíveis para vários casos de uso e as cotas e os preços.Enviar feedback sobre sua experiência com o Vertex AI in Firebase