Firebase is back at Cloud Next on April 9 - 11. Register now.

Trang này được dịch bởi Cloud Translation API.

Tạo văn bản trong các câu lệnh đa phương thức bằng API Gemini
bookmark_border Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Khi gọi Gemini API từ ứng dụng bằng SDK Vertex AI in Firebase, bạn có thể nhắc mô hình Gemini tạo văn bản dựa trên dữ liệu đầu vào đa phương thức. Lời nhắc đa phương thức có thể bao gồm nhiều phương thức (hoặc loại dữ liệu đầu vào), chẳng hạn như văn bản cùng với hình ảnh, tệp PDF, tệp văn bản thuần tuý, video và âm thanh.

Trong mỗi yêu cầu đa phương thức, bạn phải luôn cung cấp những thông tin sau:

mimeType của tệp. Tìm hiểu về các loại MIME được hỗ trợ của tệp đầu vào.
Tệp. Bạn có thể cung cấp tệp dưới dạng dữ liệu cùng dòng (như hiển thị trên trang này) hoặc sử dụng URL hoặc URI của tệp.

Để kiểm thử và lặp lại các lời nhắc đa phương thức, bạn nên sử dụng Vertex AI Studio.

Các tuỳ chọn khác để làm việc với Gemini API

Bạn có thể tuỳ ý thử nghiệm phiên bản "Google AI" thay thế của Gemini API
Nhận quyền truy cập miễn phí (trong giới hạn và nếu có) bằng cách sử dụng Google AI Studio và SDK ứng dụng Google AI. Bạn chỉ nên sử dụng các SDK này để tạo bản mô hình trong ứng dụng dành cho thiết bị di động và web.

Sau khi bạn đã quen thuộc với cách hoạt động của Gemini API, hãy chuyển sang SDK Vertex AI in Firebase của chúng tôi (tài liệu này). SDK này có nhiều tính năng bổ sung quan trọng đối với ứng dụng web và ứng dụng di động, chẳng hạn như bảo vệ API khỏi hành vi sử dụng sai trái bằng cách sử dụng Firebase App Check và hỗ trợ các tệp phương tiện lớn trong yêu cầu.

Không bắt buộc gọi Vertex AI Gemini API phía máy chủ (chẳng hạn như với Python, Node.js hoặc Go)
Sử dụng SDK Vertex AI phía máy chủ, Genkit hoặc Firebase Extensions cho Gemini API.

Trước khi bắt đầu

Nếu bạn chưa hoàn tất, hãy hoàn thành hướng dẫn bắt đầu sử dụng. Hướng dẫn này mô tả cách thiết lập dự án Firebase, kết nối ứng dụng với Firebase, thêm SDK, khởi chạy dịch vụ Vertex AI và tạo một thực thể GenerativeModel.

Tạo văn bản từ văn bản và một hình ảnh Tạo văn bản từ văn bản và nhiều hình ảnh Tạo văn bản từ văn bản và video

Tệp nội dung nghe nhìn mẫu

Nếu chưa có tệp nội dung đa phương tiện, bạn có thể sử dụng các tệp có sẵn công khai sau đây. Vì các tệp này được lưu trữ trong các bộ chứa không có trong dự án Firebase, nên bạn cần sử dụng định dạng https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE cho URL.

Hình ảnh: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg với loại MIME là image/jpeg. Xem hoặc tải hình ảnh này xuống.
PDF: https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf với loại MIME là application/pdf. Xem hoặc tải tệp PDF này xuống.
Video: https://storage.googleapis.com/cloud-samples-data/video/animals.mp4 có loại MIME là video/mp4. Xem hoặc tải video này xuống.
Âm thanh: https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3 với loại MIME là audio/mp3. Nghe hoặc tải bản âm thanh này xuống.

Tạo văn bản từ văn bản và một hình ảnh

Hãy đảm bảo bạn đã hoàn tất phần Trước khi bắt đầu trong hướng dẫn này trước khi thử mẫu này.

Bạn có thể gọi Gemini API bằng lời nhắc đa phương thức bao gồm cả văn bản và một tệp (chẳng hạn như hình ảnh, như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ nội dung nghe nhìn trong lời nhắc (chẳng hạn như Gemini 2.0 Flash).

Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream) hay đợi phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent).

Phát trực tuyến Không truyền trực tuyến

Bạn có thể đạt được các lượt tương tác nhanh hơn bằng cách không chờ toàn bộ kết quả từ quá trình tạo mô hình, mà thay vào đó, hãy sử dụng tính năng truyền trực tuyến để xử lý một phần kết quả.

Ví dụ này cho biết cách sử dụng generateContentStream() để truyền trực tuyến văn bản được tạo từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và một hình ảnh:

KotlinJava

^{Đối với Kotlin, các phương thức trong SDK này là hàm tạm ngưng và cần được gọi từ phạm vi Coroutine.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
val generativeModel = Firebase.vertexAI.generativeModel("gemini-2.0-flash")

// Loads an image from the app/res/drawable/ directory
val bitmap: Bitmap = BitmapFactory.decodeResource(resources, R.drawable.sparky)

// Provide a prompt that includes the image specified above and text
val prompt = content {
  image(bitmap)
  text("What developer tool is this mascot from?")
}

// To stream generated text output, call generateContentStream with the prompt
var fullResponse = ""
generativeModel.generateContentStream(prompt).collect { chunk ->
  print(chunk.text)
  fullResponse += chunk.text
}

Lưu ý: Ví dụ trên tận dụng cách đơn giản để xử lý các loại hình ảnh gốc của nền tảng (Bitmap) trong lời nhắc đa phương thức. Các loại hình ảnh này (bất kể định dạng ban đầu) được chuyển đổi sang JPEG ở phía máy khách với chất lượng 80% trước khi được gửi đến máy chủ. Điều này có nghĩa là khi cung cấp hình ảnh nội tuyến như trong ví dụ trên, bạn không cần chỉ định loại MIME.

Để kiểm soát nhiều hơn các định dạng hình ảnh và lượt chuyển đổi, bạn có thể cung cấp hình ảnh dưới dạng InlineDataPart và cung cấp loại MIME cụ thể. Ví dụ: content { inlineData(/* PNG as byte array */, "image/png") }.

^{Đối với Java, các phương thức truyền trực tuyến trong SDK này trả về một loại Publisher từ thư viện Luồng phản ứng.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
GenerativeModel gm = FirebaseVertexAI.getInstance()
        .generativeModel("gemini-2.0-flash");
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Bitmap bitmap = BitmapFactory.decodeResource(getResources(), R.drawable.sparky);

// Provide a prompt that includes the image specified above and text
Content prompt = new Content.Builder()
        .addImage(bitmap)
        .addText("What developer tool is this mascot from?")
        .build();

// To stream generated text output, call generateContentStream with the prompt
Publisher<GenerateContentResponse> streamingResponse = model.generateContentStream(prompt);

final String[] fullResponse = {""};

streamingResponse.subscribe(new Subscriber<GenerateContentResponse>() {
    @Override
    public void onNext(GenerateContentResponse generateContentResponse) {
        String chunk = generateContentResponse.getText();
        fullResponse[0] += chunk;
    }

    @Override
    public void onComplete() {
        System.out.println(fullResponse[0]);
    }

    @Override
    public void onError(Throwable t) {
        t.printStackTrace();
    }

    @Override
    public void onSubscribe(Subscription s) {
    }
});

Ngoài ra, bạn có thể chờ toàn bộ kết quả thay vì truyền trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo.

Ví dụ này cho biết cách sử dụng generateContent() để tạo văn bản từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và một hình ảnh:

KotlinJava

^{Đối với Kotlin, các phương thức trong SDK này là hàm tạm ngưng và cần được gọi từ phạm vi Coroutine.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
val generativeModel = Firebase.vertexAI.generativeModel("gemini-2.0-flash")

// Loads an image from the app/res/drawable/ directory
val bitmap: Bitmap = BitmapFactory.decodeResource(resources, R.drawable.sparky)

// Provide a prompt that includes the image specified above and text
val prompt = content {
  image(bitmap)
  text("What developer tool is this mascot from?")
}

// To generate text output, call generateContent with the prompt
val response = generativeModel.generateContent(prompt)
print(response.text)

^{Đối với Java, các phương thức trong SDK này trả về một ListenableFuture.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
GenerativeModel gm = FirebaseVertexAI.getInstance()
        .generativeModel("gemini-2.0-flash");
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Bitmap bitmap = BitmapFactory.decodeResource(getResources(), R.drawable.sparky);

// Provide a prompt that includes the image specified above and text
Content content = new Content.Builder()
        .addImage(bitmap)
        .addText("What developer tool is this mascot from?")
        .build();

// To generate text output, call generateContent with the prompt
ListenableFuture<GenerateContentResponse> response = model.generateContent(content);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
    @Override
    public void onSuccess(GenerateContentResponse result) {
        String resultText = result.getText();
        System.out.println(resultText);
    }

    @Override
    public void onFailure(Throwable t) {
        t.printStackTrace();
    }
}, executor);

Tìm hiểu cách chọn một mô hình và tuỳ ý chọn một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn.

Tạo văn bản từ văn bản và nhiều hình ảnh

Hãy đảm bảo bạn đã hoàn tất phần Trước khi bắt đầu trong hướng dẫn này trước khi thử mẫu này.

Bạn có thể gọi Gemini API bằng các lời nhắc đa phương thức bao gồm cả văn bản và nhiều tệp (như hình ảnh, như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ nội dung nghe nhìn trong lời nhắc (chẳng hạn như Gemini 2.0 Flash).

Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream) hay đợi phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent).

Phát trực tuyến Không truyền trực tuyến

Ví dụ này cho thấy cách sử dụng generateContentStream() để truyền trực tuyến văn bản được tạo từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và nhiều hình ảnh:

KotlinJava

^{Đối với Kotlin, các phương thức trong SDK này là hàm tạm ngưng và cần được gọi từ phạm vi Coroutine.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
val generativeModel = Firebase.vertexAI.generativeModel("gemini-2.0-flash")

// Loads an image from the app/res/drawable/ directory
val bitmap1: Bitmap = BitmapFactory.decodeResource(resources, R.drawable.sparky)
val bitmap2: Bitmap = BitmapFactory.decodeResource(resources, R.drawable.sparky_eats_pizza)

// Provide a prompt that includes the images specified above and text
val prompt = content {
    image(bitmap1)
    image(bitmap2)
    text("What's different between these pictures?")
}

// To stream generated text output, call generateContentStream with the prompt
var fullResponse = ""
generativeModel.generateContentStream(prompt).collect { chunk ->
  print(chunk.text)
  fullResponse += chunk.text
}

^{Đối với Java, các phương thức truyền trực tuyến trong SDK này trả về một loại Publisher từ thư viện Luồng phản ứng.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
GenerativeModel gm = FirebaseVertexAI.getInstance()
        .generativeModel("gemini-2.0-flash");
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Bitmap bitmap1 = BitmapFactory.decodeResource(getResources(), R.drawable.sparky);
Bitmap bitmap2 = BitmapFactory.decodeResource(getResources(), R.drawable.sparky_eats_pizza);

// Provide a prompt that includes the images specified above and text
Content prompt = new Content.Builder()
    .addImage(bitmap1)
    .addImage(bitmap2)
    .addText("What's different between these pictures?")
    .build();

// To stream generated text output, call generateContentStream with the prompt
Publisher<GenerateContentResponse> streamingResponse = model.generateContentStream(prompt);

final String[] fullResponse = {""};

streamingResponse.subscribe(new Subscriber<GenerateContentResponse>() {
    @Override
    public void onNext(GenerateContentResponse generateContentResponse) {
        String chunk = generateContentResponse.getText();
        fullResponse[0] += chunk;
    }

    @Override
    public void onComplete() {
        System.out.println(fullResponse[0]);
    }

    @Override
    public void onError(Throwable t) {
        t.printStackTrace();
    }

    @Override
    public void onSubscribe(Subscription s) {
    }
});

Ngoài ra, bạn có thể đợi toàn bộ kết quả thay vì truyền trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo.

Ví dụ này cho biết cách sử dụng generateContent() để tạo văn bản từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và nhiều hình ảnh:

KotlinJava

^{Đối với Kotlin, các phương thức trong SDK này là hàm tạm ngưng và cần được gọi từ phạm vi Coroutine.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
val generativeModel = Firebase.vertexAI.generativeModel("gemini-2.0-flash")

// Loads an image from the app/res/drawable/ directory
val bitmap1: Bitmap = BitmapFactory.decodeResource(resources, R.drawable.sparky)
val bitmap2: Bitmap = BitmapFactory.decodeResource(resources, R.drawable.sparky_eats_pizza)

// Provide a prompt that includes the images specified above and text
val prompt = content {
  image(bitmap1)
  image(bitmap2)
  text("What is different between these pictures?")
}

// To generate text output, call generateContent with the prompt
val response = generativeModel.generateContent(prompt)
print(response.text)

^{Đối với Java, các phương thức trong SDK này trả về một ListenableFuture.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
GenerativeModel gm = FirebaseVertexAI.getInstance()
        .generativeModel("gemini-2.0-flash");
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Bitmap bitmap1 = BitmapFactory.decodeResource(getResources(), R.drawable.sparky);
Bitmap bitmap2 = BitmapFactory.decodeResource(getResources(), R.drawable.sparky_eats_pizza);

// Provide a prompt that includes the images specified above and text
Content prompt = new Content.Builder()
    .addImage(bitmap1)
    .addImage(bitmap2)
    .addText("What's different between these pictures?")
    .build();

// To generate text output, call generateContent with the prompt
ListenableFuture<GenerateContentResponse> response = model.generateContent(prompt);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
    @Override
    public void onSuccess(GenerateContentResponse result) {
        String resultText = result.getText();
        System.out.println(resultText);
    }

    @Override
    public void onFailure(Throwable t) {
        t.printStackTrace();
    }
}, executor);

Tìm hiểu cách chọn một mô hình và tuỳ ý chọn một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn.

Tạo văn bản từ văn bản và video

Hãy đảm bảo bạn đã hoàn tất phần Trước khi bắt đầu trong hướng dẫn này trước khi thử mẫu này.

Bạn có thể gọi Gemini API bằng lời nhắc đa phương thức bao gồm cả(các) tệp văn bản và video (như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ nội dung nghe nhìn trong lời nhắc (chẳng hạn như Gemini 2.0 Flash).

Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream) hay đợi phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent).

Phát trực tuyến Không truyền trực tuyến

Ví dụ này cho thấy cách sử dụng generateContentStream() để truyền trực tuyến văn bản được tạo từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và một video:

KotlinJava

^{Đối với Kotlin, các phương thức trong SDK này là hàm tạm ngưng và cần được gọi từ phạm vi Coroutine.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
val generativeModel = Firebase.vertexAI.generativeModel("gemini-2.0-flash")

val contentResolver = applicationContext.contentResolver
contentResolver.openInputStream(videoUri).use { stream ->
  stream?.let {
    val bytes = stream.readBytes()

    // Provide a prompt that includes the video specified above and text
    val prompt = content {
        inlineData(bytes, "video/mp4")
        text("What is in the video?")
    }

    // To stream generated text output, call generateContentStream with the prompt
    var fullResponse = ""
    generativeModel.generateContentStream(prompt).collect { chunk ->
        Log.d(TAG, chunk.text ?: "")
        fullResponse += chunk.text
    }
  }
}

^{Đối với Java, các phương thức truyền trực tuyến trong SDK này trả về một loại Publisher từ thư viện Luồng phản ứng.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
GenerativeModel gm = FirebaseVertexAI.getInstance()
        .generativeModel("gemini-2.0-flash");
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

ContentResolver resolver = getApplicationContext().getContentResolver();
try (InputStream stream = resolver.openInputStream(videoUri)) {
    File videoFile = new File(new URI(videoUri.toString()));
    int videoSize = (int) videoFile.length();
    byte[] videoBytes = new byte[videoSize];
    if (stream != null) {
        stream.read(videoBytes, 0, videoBytes.length);
        stream.close();

        // Provide a prompt that includes the video specified above and text
        Content prompt = new Content.Builder()
                .addInlineData(videoBytes, "video/mp4")
                .addText("What is in the video?")
                .build();

        // To stream generated text output, call generateContentStream with the prompt
        Publisher<GenerateContentResponse> streamingResponse =
                model.generateContentStream(prompt);

        final String[] fullResponse = {""};

        streamingResponse.subscribe(new Subscriber<GenerateContentResponse>() {
            @Override
            public void onNext(GenerateContentResponse generateContentResponse) {
                String chunk = generateContentResponse.getText();
                fullResponse[0] += chunk;
            }

            @Override
            public void onComplete() {
                System.out.println(fullResponse[0]);
            }

            @Override
            public void onError(Throwable t) {
                t.printStackTrace();
            }

            @Override
            public void onSubscribe(Subscription s) {
            }
         });
    }
} catch (IOException e) {
    e.printStackTrace();
} catch (URISyntaxException e) {
    e.printStackTrace();
}

Ngoài ra, bạn có thể chờ toàn bộ kết quả thay vì truyền trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo.

Ví dụ này cho thấy cách sử dụng generateContent() để tạo văn bản từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và một video:

KotlinJava

^{Đối với Kotlin, các phương thức trong SDK này là hàm tạm ngưng và cần được gọi từ phạm vi Coroutine.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
val generativeModel = Firebase.vertexAI.generativeModel("gemini-2.0-flash")

val contentResolver = applicationContext.contentResolver
contentResolver.openInputStream(videoUri).use { stream ->
  stream?.let {
    val bytes = stream.readBytes()

    // Provide a prompt that includes the video specified above and text
    val prompt = content {
        inlineData(bytes, "video/mp4")
        text("What is in the video?")
    }

    // To generate text output, call generateContent with the prompt
    val response = generativeModel.generateContent(prompt)
    Log.d(TAG, response.text ?: "")
  }
}

^{Đối với Java, các phương thức trong SDK này trả về một ListenableFuture.}

// Initialize the Vertex AI service and create a `GenerativeModel` instance
// Specify a model that supports your use case
GenerativeModel gm = FirebaseVertexAI.getInstance()
        .generativeModel("gemini-2.0-flash");
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

ContentResolver resolver = getApplicationContext().getContentResolver();
try (InputStream stream = resolver.openInputStream(videoUri)) {
    File videoFile = new File(new URI(videoUri.toString()));
    int videoSize = (int) videoFile.length();
    byte[] videoBytes = new byte[videoSize];
    if (stream != null) {
        stream.read(videoBytes, 0, videoBytes.length);
        stream.close();

        // Provide a prompt that includes the video specified above and text
        Content prompt = new Content.Builder()
                .addInlineData(videoBytes, "video/mp4")
                .addText("What is in the video?")
                .build();

        // To generate text output, call generateContent with the prompt
        ListenableFuture<GenerateContentResponse> response = model.generateContent(prompt);
        Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
            @Override
            public void onSuccess(GenerateContentResponse result) {
                String resultText = result.getText();
                System.out.println(resultText);
            }

            @Override
            public void onFailure(Throwable t) {
                t.printStackTrace();
            }
        }, executor);
    }
} catch (IOException e) {
    e.printStackTrace();
} catch (URISyntaxException e) {
    e.printStackTrace();
}

Tìm hiểu cách chọn một mô hình và tuỳ ý chọn một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn.

Yêu cầu và đề xuất đối với tệp đầu vào

Hãy xem phần Các tệp đầu vào được hỗ trợ và yêu cầu đối với Vertex AI Gemini API để tìm hiểu về những nội dung sau:

Các tuỳ chọn cung cấp tệp trong yêu cầu
Các loại tệp được hỗ trợ
Các loại MIME được hỗ trợ và cách chỉ định các loại đó
Yêu cầu và phương pháp hay nhất đối với tệp và yêu cầu đa phương thức

Bạn có thể làm gì khác?

Tìm hiểu cách đếm mã thông báo trước khi gửi lời nhắc dài đến mô hình.
Thiết lập Cloud Storage for Firebase để bạn có thể đưa các tệp lớn vào yêu cầu đa phương thức và có giải pháp quản lý tốt hơn để cung cấp tệp trong lời nhắc. Tệp có thể bao gồm hình ảnh, tệp PDF, video và âm thanh.
Bắt đầu suy nghĩ về việc chuẩn bị cho bản phát hành chính thức, bao gồm cả việc thiết lập Firebase App Check để bảo vệ Gemini API khỏi hành vi lạm dụng của các ứng dụng không được uỷ quyền. Ngoài ra, hãy nhớ xem lại danh sách kiểm tra cho bản phát hành chính thức.

Thử các tính năng khác

Xây dựng cuộc trò chuyện nhiều lượt (trò chuyện).
Tạo văn bản từ lời nhắc chỉ có văn bản.
Tạo kết quả có cấu trúc (như JSON) từ cả lời nhắc bằng văn bản và đa phương thức.
Tạo hình ảnh từ câu lệnh dạng văn bản.
Sử dụng tính năng gọi hàm để kết nối các mô hình tạo sinh với hệ thống và thông tin bên ngoài.

Tìm hiểu cách kiểm soát việc tạo nội dung

Tìm hiểu về thiết kế câu lệnh, bao gồm cả các phương pháp hay nhất, chiến lược và câu lệnh mẫu.
Định cấu hình các tham số mô hình như nhiệt độ và mã thông báo đầu ra tối đa (đối với Gemini) hoặc tỷ lệ khung hình và tạo người (đối với Imagen).
Sử dụng chế độ cài đặt an toàn để điều chỉnh khả năng nhận được những câu trả lời có thể bị coi là có hại.

Bạn cũng có thể thử nghiệm với các câu lệnh và cấu hình mô hình bằng cách sử dụng Vertex AI Studio.

Tìm hiểu thêm về các mẫu được hỗ trợ

Tìm hiểu về các mô hình có sẵn cho nhiều trường hợp sử dụng, cũng như hạn mức và giá của các mô hình đó.

Gửi ý kiến phản hồi về trải nghiệm của bạn với Vertex AI in Firebase

Tạo văn bản trong các câu lệnh đa phương thức bằng API Gemini bookmark_borderbookmark Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Trước khi bắt đầu

Tệp nội dung nghe nhìn mẫu

Tạo văn bản từ văn bản và một hình ảnh

Tạo văn bản từ văn bản và nhiều hình ảnh

Tạo văn bản từ văn bản và video

Yêu cầu và đề xuất đối với tệp đầu vào

Bạn có thể làm gì khác?

Thử các tính năng khác

Tìm hiểu cách kiểm soát việc tạo nội dung

Tìm hiểu thêm về các mẫu được hỗ trợ

Tạo văn bản trong các câu lệnh đa phương thức bằng API Gemini
bookmark_border Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.