Vertex AI in Firebase SDK를 사용하여 앱에서 Vertex AI Gemini API를 호출하면 Gemini 모델에 멀티모달 입력을 기반으로 텍스트를 생성하도록 프롬프트할 수 있습니다. 멀티모달 프롬프트에는 이미지, PDF, 동영상, 오디오와 함께 텍스트와 같은 여러 모달(또는 입력 유형)이 포함될 수 있습니다.
입력의 텍스트가 아닌 부분 (예: 미디어 파일)의 경우 지원되는 파일 형식을 사용하고, 지원되는 MIME 유형을 지정하고, 파일과 다중 모드 요청이 요구사항을 충족하고 권장사항을 준수하는지 확인해야 합니다.
이 페이지에서는 다음 사항을 설명합니다.
지원되는 MIME 유형, 권장사항, 다음 파일 입력의 제한사항에 관한 세부정보:
이미지 | 동영상 | 오디오 | 문서 (예: PDF)
멀티모달 요청에서 파일을 제공하는 옵션
각 멀티모달 요청에서 항상 다음을 제공해야 합니다.
파일의
mimeType
입니다. 이 페이지의 해당 섹션에서 각 입력 파일의 지원되는 MIME 유형을 확인하세요.파일 URL / URI를 사용하여 파일을 제공하거나 파일을 인라인 데이터로 제공할 수 있습니다.
요청에 제공할 수 있는 파일의 크기와 수는 입력 파일 형식, 파일을 제공하는 방법, 사용된 모델에 따라 다릅니다(자세한 내용은 이 페이지의 각 입력 파일 형식 섹션 참고).
옵션 1: URL 또는 URI를 사용하여 파일 제공
허용되는 URL 또는 URI 유형은 다음과 같습니다.
Cloud Storage for Firebase 버킷 URL: 파일의 URL이 공개이거나 로그인한 사용자 또는 클라이언트가 파일에 충분한 액세스 권한을 보유해야 합니다. Cloud Storage for Firebase 이점, URL 요구사항, 코드 샘플에 대해 자세히 알아보세요.
Google Cloud Storage 버킷 URL: 파일의 URL은 공개여야 합니다.
브라우저/HTTP URL: 파일 URL은 공개적으로 읽을 수 있어야 합니다. 예로는 미디어 호스팅 사이트의 URL, 미디어를 직접 보여주는 URL(미디어를 호스팅하는 웹페이지가 아님), 게시된 Google Drive 또는 Google Workspace 파일이 있습니다.
YouTube 동영상 URL: YouTube 동영상은 공개 또는 일부 공개여야 합니다.
Google Cloud 문서에서 URL 및 URI 요구사항에 관해 자세히 알아보세요.
옵션 2: 파일을 인라인 데이터로 제공
인라인 데이터로 제공된 파일은 다음 사항에 유의하세요.
총 요청 크기 제한이 20MB이므로 작은 파일만 인라인 데이터로 전송할 수 있습니다.
전송 중에 파일이 base64로 인코딩되므로 파일 크기가 커집니다.
파일을 인라인 데이터로 포함하는 방법을 보여주는 예는 Gemini API를 사용하여 멀티모달 프롬프트에서 텍스트 생성을 참고하세요.
이미지: 요구사항, 권장사항, 제한사항
이미지: 요구사항
이 섹션에서는 지원되는 MIME 유형과 이미지 요청당 한도에 대해 알아봅니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 이미지 MIME 유형을 지원합니다.
이미지 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
요청당 한도
이미지의 픽셀 수에는 제한이 없습니다. 그러나 큰 이미지는 원래 가로세로 비율을 유지하면서 최대 해상도인 3072 x 3072에 맞게 축소 및 패딩됩니다.
프롬프트 요청에 허용되는 최대 이미지 파일 수는 다음과 같습니다.
- Gemini 1.0 Pro Vision: 이미지 16개
- Gemini 1.5 Flash 및 Gemini 1.5 Pro: 이미지 3,000개
이미지: 토큰화
이미지의 토큰은 다음과 같이 계산됩니다.
- Gemini 1.0 Pro Vision: 각 이미지는 258개의 토큰을 차지합니다.
- Gemini 1.5 Flash 및 Gemini 1.5 Pro:
- 이미지의 가로세로 크기가 둘 다 384픽셀 이하인 경우 258개의 토큰이 사용됩니다.
- 이미지의 한 변의 길이가 384픽셀보다 크면 이미지가 타일로 잘립니다. 기본적으로 각 타일 크기는 (너비 또는 높이 중에서) 가장 작은 치수를 1.5로 나눈 값으로 설정됩니다. 필요한 경우 각 타일은 256픽셀보다 작지 않고 768픽셀보다 크지 않도록 조정됩니다. 그런 다음 각 타일의 크기가 768x768로 조정되고 258개의 토큰이 사용됩니다.
이미지: 권장사항
이미지를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 이미지에서 텍스트를 감지하려면 단일 이미지가 포함된 프롬프트를 사용하면 여러 이미지가 포함된 프롬프트보다 더 나은 결과를 얻을 수 있습니다.
- 프롬프트에 단일 이미지가 포함된 경우 요청에서 텍스트 프롬프트 앞에 이미지를 배치합니다.
- 프롬프트에 여러 이미지가 있고 나중에 프롬프트에서 이를 참조하거나 모델이 모델 응답에서 이를 참조하도록 하려는 경우 각 이미지 앞에 색인을 지정하면 도움이 될 수 있습니다. 색인에
또는a
b
c
를 사용합니다. 다음은 프롬프트에서 색인이 생성된 이미지를 사용하는 예시입니다.image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 해상도가 높은 이미지를 사용하면 결과가 더 좋습니다.
- 프롬프트에 몇 가지 예시를 포함하세요.
- 이미지를 적절한 방향으로 회전한 후에 프롬프트에 추가하세요.
- 흐릿한 이미지는 사용하지 마세요.
이미지: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 이미지에 대해 답변을 제공하지 않습니다.
- 공간 추론: 이 모델은 이미지에 있는 텍스트 또는 객체 수를 정확하게 맞히지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
- 의료 용도: 이 모델은 의료용 영상 (예: X선 및 CT 촬영)을 해석하거나 의료 조언을 제공하는 데 적합하지 않습니다.
- 사람 인식: 이 모델은 이미지에서 유명인이 아닌 사람을 식별하는 데 적합하지 않습니다.
- 정확성: 이 모델은 저품질 이미지, 회전된 이미지 또는 매우 해상도가 매우 낮은 이미지를 해석할 때 할루시네이션 또는 오류가 발생할 수 있습니다. 이 모델은 이미지 문서에서 필기 입력 텍스트를 해석할 때도 할루시네이션이 발생할 수 있습니다.
동영상: 요구사항, 권장사항, 제한사항
동영상: 요구사항
이 섹션에서는 지원되는 MIME 유형과 동영상 요청당 제한사항에 대해 알아봅니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 동영상 MIME 유형을 지원합니다.
동영상 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
요청당 한도
프롬프트 요청에 허용되는 최대 동영상 파일 수는 다음과 같습니다.
- Gemini 1.0 Pro Vision: 동영상 파일 1개
- Gemini 1.5 Flash 및 Gemini 1.5 Pro: 동영상 파일 10개
동영상: 토큰화
동영상의 토큰은 다음과 같이 계산됩니다.
- 모든 Gemini 멀티모달 모델: 동영상은
1 fps(초당 프레임 수) fh로 샘플링됩니다. 각 동영상 프레임은 258개의 토큰을 차지합니다. - Gemini 1.5 Flash 및 Gemini 1.5 Pro: 오디오 트랙은 동영상 프레임으로 인코딩됩니다. 오디오 트랙도
1초 트렁크 로 분할되며 각 트렁크는 32개의 토큰을 차지합니다. 동영상 프레임 및 오디오 토큰은 타임스탬프와 함께 인터리브 처리됩니다. 타임스탬프는 7개의 토큰으로 표시됩니다.
동영상: 권장사항
동영상을 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 프롬프트에 동영상 하나가 포함된 경우 텍스트 프롬프트 앞에 동영상을 배치하세요.
- 오디오가 있는 동영상에서 타임스탬프 현지화가 필요한 경우 모델에
MM:SS
형식으로 타임스탬프를 생성하도록 요청합니다. 여기서 처음 두 자리는 분을, 마지막 두 자리는 초를 나타냅니다. 타임스탬프를 묻는 질문에는 동일한 형식을 사용합니다. Gemini 1.0 Pro Vision을 사용하는 경우 다음에 유의하세요.
- 프롬프트당 동영상을 두 개 이상 사용하지 않습니다.
- 모델은 동영상의 처음 2분 동안의 정보만 처리합니다.
- 모델은 동영상의 비연속 이미지 프레임으로 동영상을 처리합니다. 오디오는 포함되지 않습니다. 모델에서 동영상의 일부 내용이 누락되었다면 모델이 동영상 내용을 더 많이 캡처하도록 동영상 길이를 줄여보세요.
- 모델이 오디오 정보 또는 타임스탬프 메타데이터를 처리하지 않습니다. 따라서 자막 오디오 같은 오디오 입력이나 속도, 리듬과 같은 시간 관련 정보가 필요한 사용 사례에서는 모델이 제대로 작동하지 않을 수 있습니다.
동영상: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 동영상에 대해 답변을 제공하지 않습니다.
- 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
- 고속 모션:
1 fps(초당 프레임 수) 로 고정된 샘플링 레이트로 인해 모델이 동영상의 고속 모션을 인식할 때 오류가 발생할 수 있습니다. - 텍스트 변환 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델에서 구두점이 포함되지 않은 텍스트 변환을 반환할 수 있습니다.
오디오: 요구사항 및 제한사항
오디오: 요구사항
이 섹션에서는 지원되는 MIME 유형과 오디오 요청당 제한사항에 대해 알아봅니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 오디오 MIME 유형을 지원합니다.
오디오 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
요청당 한도
프롬프트 요청에는 최대
오디오: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
- 오디오 전용 타임스탬프: 오디오 전용 파일의 타임스탬프를 정확하게 생성하려면
generation_config
에서audio_timestamp
매개변수를 구성해야 합니다. - 텍스트 변환 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델에서 구두점이 포함되지 않은 텍스트 변환을 반환할 수 있습니다.
문서 (예: PDF): 요구사항, 권장사항, 제한사항
문서: 요구사항
이 섹션에서는 지원되는 MIME 유형과 문서 (예: PDF) 요청당 제한사항에 대해 알아봅니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 문서 MIME 유형을 지원합니다.
문서 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
텍스트 - text/plain |
요청당 한도
PDF는 이미지로 취급되므로 PDF의 한 페이지는 하나의 이미지로 취급됩니다. 프롬프트에서 허용되는 페이지 수는 모델이 지원할 수 있는 이미지 수로 제한됩니다.
- Gemini 1.0 Pro Vision: 16페이지
- Gemini 1.5 Pro 및 Gemini 1.5 Flash: 1,000페이지
문서: 토큰화
PDF 토큰화
PDF는 이미지로 취급되므로 PDF의 각 페이지가 이미지와 동일한 방법으로 토큰화됩니다.
또한 PDF 비용은 Gemini 이미지 가격 책정을 따릅니다. 예를 들어 Gemini API 호출에 2페이지 PDF를 포함하면 두 개의 이미지 처리에 대한 입력 수수료가 발생합니다.
일반 텍스트 토큰화
일반 텍스트 문서는 텍스트로 토큰화됩니다. 예를 들어 Gemini API 호출에 100단어의 일반 텍스트 문서를 포함하면 100단어 처리에 대한 입력 수수료가 발생합니다.
문서: 권장사항
PDF를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 프롬프트에 단일 PDF가 포함된 경우 요청에서 텍스트 프롬프트 앞에 PDF를 배치합니다.
- 문서가 긴 경우 여러 PDF로 분할하여 처리하는 것이 좋습니다.
- 스캔한 이미지에 텍스트를 사용하는 대신 텍스트로 렌더링된 텍스트로 생성된 PDF를 사용합니다. 이 형식은 머신이 텍스트를 읽을 수 있으므로 스캔한 이미지 PDF에 비해 모델이 더 쉽게 수정, 검색, 조작할 수 있습니다. 따라서 계약서와 같이 텍스트가 많은 문서를 작업할 때 최적의 결과를 얻을 수 있습니다.
문서: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 공간 추론: 이 모델은 PDF에 있는 텍스트 또는 객체 수를 정확하게 맞히지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
- 정확성: 이 모델은 PDF 문서에서 필기 텍스를 해석할 때 할루시네이션이 발생할 수 있습니다.