A família de modelos Gemini é considerada multimodal porque é capaz de processar informações de várias modalidades, incluindo imagens, vídeos e texto. Por exemplo, você pode enviar ao modelo Gemini a foto de um prato de biscoitos e pedir que ele mostre uma receita desses biscoitos.
Comando | Resposta |
Mostre um roteiro para esses cookies. |
**INGREDIENTES** - 1 c. (2 palitos) manteiga sem sal e suave - 3/4 de xícara de açúcar granulado - 3/4 de xícara de açúcar mascavo, embalado - 1 colher de chá. extrato de baunilha - 2 ovos grandes - 2 1/4 de xícara de farinha de trigo - 1 colher de chá de bicarbonato de sódio - 1 colher de chá de sal ... |
É possível interagir com a família de modelos do Gemini usando a API Genmini fornecida pela Vertex AI no Google Cloud. Em apps da Web e para dispositivos móveis, é possível usar os SDKs da Vertex AI para Firebase a fim de chamar a API Gemini e interagir com os modelos do Genmini diretamente pelo app.
Esta página fornece as seguintes informações sobre os modelos do Gemini:
Comparação de alto nível dos casos de uso dos vários modelos Gemini, incluindo os tipos de entrada compatíveis.
Comparação dos detalhes de cada modelo, por exemplo, máximo de tokens de entrada ou da duração máxima do vídeo.
Descrição de como os modelos do Gemini têm controle de versões, especificamente, as versões estável, atualizadas automaticamente e de pré-lançamento.
Listas de nomes de modelos disponíveis para incluir no código durante a inicialização.
Lista de idiomas compatíveis com os modelos do Gemini.
Modelos disponíveis
É possível usar qualquer um dos seguintes modelos do Gemini com a Vertex AI para Firebase:
Gemini 1.5 Flash: modelo multimodal compatível com os mesmos tipos de entrada e saída que o 1.5 Pro (com a contagem total de tokens), mas o 1.5 Flash foi desenvolvido especificamente para aplicativos econômicos e de alto volume.
Gemini 1.5 Pro: modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. Além disso, oferece suporte para compreensão de contextos longos, com até 1 milhão de tokens.
Gemini 1.0 Pro Vision: modelo multimodal projetado para processar texto, imagens e vídeo para uma resposta de texto ou código. Não pode ser usado no chat.
Gemini 1.0 Pro: modelo projetado para processar tarefas de linguagem natural, chat com vários turnos com texto e código e geração de código.
Acesse nomes de modelos para incluir no código
Casos de uso de cada modelo
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|
Tipos de entrada | |||
Textos | |||
Programar | |||
Imagem | |||
Vídeo (somente frames) | |||
Vídeo (frames e áudio) | |||
Áudio | |||
Tipos de saída | |||
Textos | |||
Programar | |||
Casos de uso gerais | |||
Solicitações multimodais | |||
Chat multiturno |
Saiba mais sobre os casos de uso para os modelos Gemini na documentação do Google Cloud:
- Casos de uso do Genmini 1.5 Flash
- Casos de uso do Gemini 1.5 Pro
- Casos de uso do Gemini 1.0 Pro Vision
- Casos de uso do Gemini 1.0 Pro
Informações detalhadas sobre cada modelo
Para todos os modelos do Gemini, um token equivale a cerca de quatro caracteres. 100 tokens equivalem aproximadamente a 60-80 palavras em inglês. É possível determinar a contagem total de tokens nas suas solicitações usando countTokens
.
Propriedade |
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|
Limite total de tokens (entrada e saída combinadas) | 1 milhão de tokens | 16.384 tokens | 32.760 tokens |
Limite de token de saída | 8.192 tokens | 2.048 tokens | 8.192 tokens |
Número máximo de imagens por solicitação | 3.000 imagens | 16 imagens | N/A |
Tamanho máximo da imagem codificada em base64 | 7 MB | 7 MB | N/A |
Tamanho máximo do PDF | 30 MB | 30 MB | N/A |
Número máximo de arquivos de vídeo por solicitação | 10 arquivos de vídeo | 1 arquivo de vídeo | N/A |
Duração máxima do vídeo (somente frames) | 60 minutos de vídeo | 2 minutos | N/A |
Duração máxima do vídeo (frames e áudio) | Aprox. 45 minutos de vídeo | N/A | N/A |
Número máximo de arquivos de áudio por solicitação | 1 arquivo de áudio | N/A | N/A |
Duração máxima do áudio | Aprox.8,4 horas de áudio | N/A | N/A |
Confira informações ainda mais detalhadas sobre os modelos e os arquivos de entrada:
Saiba mais sobre as diferenças entre os modelos multimodais na documentação do Google Cloud.
Saiba mais sobre os tipos de arquivos compatíveis, como especificar o tipo MIME e como garantir que seus arquivos e solicitações multimodais atendam aos requisitos e seguir as práticas recomendadas em Arquivos de entrada compatíveis e requisitos para a API Vertex AI Gemini.
Controle de versões dos modelos
Os modelos do Gemini são oferecidos nas versões estável, atualizadas automaticamente e de visualização.
As versões estáveis são consideradas com disponibilidade geral.
- As versões estáveis têm nomes de modelos anexados com um
número específico de versão de três dígitos, por exemplo,
.gemini-1.0-pro-001
- As versões estáveis têm nomes de modelos anexados com um
número específico de versão de três dígitos, por exemplo,
As versões com atualização automática sempre apontam para a versão estável mais recente do modelo. Se uma nova versão estável for lançada, a versão atualizada automaticamente começará a apontar automaticamente para ela.
- As versões atualizadas automaticamente têm nomes de modelo sem
anexos, por exemplo,
.gemini-1.0-pro
- As versões atualizadas automaticamente têm nomes de modelo sem
anexos, por exemplo,
As versões de pré-lançamento têm novos recursos e são consideradas não estáveis. As versões de pré-lançamento sempre apontam para a versão mais recente desse modelo. Se uma nova versão de pré-lançamento for lançada, qualquer versão de pré-lançamento atual começará a apontar automaticamente para ela.
- As versões de pré-lançamento têm nomes de modelos anexados com
junto com a data de lançamento inicial do modelo (-preview
), por exemplo,-MMDD
(lançado em 9 de abril de 2024).gemini-1.5-pro-preview-0409
- As versões de pré-lançamento têm nomes de modelos anexados com
Saiba mais sobre as versões disponíveis do modelo Gemini e o ciclo de vida delas na documentação do Google Cloud.
Nomes de modelos disponíveis
Nomes de modelo são os valores explícitos que você inclui no código durante a inicialização do modelo generativo (que é uma etapa obrigatória para chamar a API Generative). Para exemplos de inicialização da sua linguagem, consulte o guia para iniciantes.
Nomes dos modelos em Flash do Gemini 1.5
Nome do modelo | Descrição | Estágio de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.5-flash-001 |
Versão estável mais recente do Gemini 1.5 Flash | Disponibilidade geral | 2024-05-24 | A partir de 24/05/2025 |
Versão com atualização automática | ||||
gemini-1.5-flash |
Aponta para a versão estável mais recente do Flash 1.5 (atualmente gemini-1.5-flash-001 |
Disponibilidade geral | 2024-05-24 | --- |
Versões de pré-lançamento | ||||
gemini-1.5-flash-preview-0514 |
Versão de pré-lançamento mais recente do Gemini 1.5 Flash | Prévia pública | 2024-05-14 | 2024-06-24 |
Nomes dos modelos Gemini 1.5 Pro
Nome do modelo | Descrição | Estágio de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.5-pro-001 |
Versão estável mais recente do Gemini 1.5 Pro | Disponibilidade geral | 2024-05-24 | A partir de 24/05/2025 |
Versão com atualização automática | ||||
gemini-1.5-pro |
Aponta para a versão estável mais recente do 1.5 Pro (atualmente gemini-1.5-pro-001 |
Disponibilidade geral | 2024-05-24 | --- |
Versões de pré-lançamento | ||||
gemini-1.5-pro-preview-0514 |
Versão de pré-lançamento mais recente do Gemini 1.5 Pro | Prévia pública | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Aponta para gemini-1.5-pro-preview-0514 (que é a versão de pré-lançamento mais recente) |
Prévia pública | 2024-04-09 | 2024-06-14 |
Nomes dos modelos Gemini 1.0 Pro Vision
Nome do modelo | Descrição | Estágio de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.0-pro-vision-001 |
Versão estável mais recente do Gemini 1.0 Pro Vision | Disponibilidade geral | 2024-02-15 | A partir de 15/02/2025 |
Versão com atualização automática | ||||
gemini-1.0-pro-vision |
Aponta para a versão estável mais recente do Pro 1.5 Pro Vision (atualmente gemini-1.5-pro-vision-001 |
Disponibilidade geral | 2024-01-04 | --- |
Nomes dos modelos Gemini 1.0 Pro
Nome do modelo | Descrição | Estágio de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.0-pro-002 |
Versão estável mais recente do Gemini 1.0 Pro | Disponibilidade geral | 2024-04-09 | A partir de 09/04/2025 |
gemini-1.0-pro-001 |
Versão estável do Gemini 1.0 Pro | Disponibilidade geral | 2024-02-15 | A partir de 15/02/2025 |
Versão com atualização automática | ||||
gemini-1.0-pro |
Aponta para a versão estável mais recente do 1.0 Pro (atualmente gemini-1.0-pro-002 |
Disponibilidade geral | 2024-02-15 | --- |
Idiomas disponíveis
Os modelos do Gemini são compatíveis com as seguintes linguagens:
Árabe (ar), bengali (bn), búlgaro (bg), chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), dinamarquês (da), holandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), italiano (hu), húngaro (hu), tcheco
Próximas etapas
Teste os recursos da API Gemini
- Crie conversas com várias interações (chat).
- Gerar texto com base em comandos somente de texto.
- Gerar texto a partir de comandos multimodais (incluindo texto, imagens, PDFs, vídeo e áudio).
- Use chamadas de função para conectar modelos generativos a informações e sistemas externos.