Firebase용 Vertex AI SDK를 사용하여 앱에서 Vertex AI Gemini API를 호출하면 Gemini 모델에 멀티모달 입력을 기반으로 텍스트를 생성하라는 메시지를 표시할 수 있습니다. 멀티모달 프롬프트에는 이미지, PDF, 동영상, 오디오와 함께 텍스트와 같은 여러 형식(또는 입력 유형)이 포함될 수 있습니다.
입력의 텍스트가 아닌 부분 (예: 미디어 파일)의 경우 지원되는 파일 형식을 사용하고 지원되는 MIME 유형을 지정하며 파일 및 멀티모달 요청이 요구사항을 충족하고 권장사항을 준수하는지 확인해야 합니다.
지원되는 입력 파일은 모델에 따라 다르며 이미지, PDF, 동영상, 오디오를 포함할 수 있습니다.
- 지원되는 동영상 입력도 모델에 따라 다르며 프레임 전용 또는 오디오가 있는 프레임을 포함할 수 있습니다.
입력 파일 및 멀티모달 요청의 요구사항 및 권장사항
Gemini 모델에 대해 알아보기에서 모델별 지원되는 파일 요구사항 (예: 최대 파일 수 및 최대 파일 크기)의 간략한 요약을 확인할 수 있습니다.
Google Cloud 문서에서 입력 파일 및 멀티모달 요청에 대한 요구사항과 권장사항 (예: 지원되는 MIME 유형 및 요청에 입력 파일을 제공해야 하는 경우)에 대한 자세한 정보를 알아볼 수 있습니다.
Firebase용 Vertex AI SDK 관련 요구사항
Firebase용 Vertex AI SDK의 경우 최대 요청 크기는 20MB입니다. 요청이 너무 크면 HTTP 413 오류가 발생합니다.
파일 크기로 인해 총 요청 크기가 20MB를 초과하는 경우 Firebase용 Cloud Storage URL을 사용하여 파일을 멀티모달 요청에 포함합니다.
파일이 작은 경우 종종 인라인 데이터로 직접 전달할 수 있습니다. 하지만 인라인 데이터로 제공된 파일은 전송 시 base64로 인코딩되므로 요청의 크기가 늘어납니다. 파일을 인라인 데이터로 포함하는 방법을 보여주는 예는 Gemini API를 사용하여 멀티모달 프롬프트에서 텍스트 생성을 참고하세요.