generować uporządkowany wynik (np. w formacie JSON) za pomocą interfejsu Gemini API;
bookmark_border Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Funkcja Gemini API domyślnie zwraca odpowiedzi jako tekst nieustrukturyzowany. Niektóre przypadki użycia wymagają jednak tekstu ustrukturyzowanego, np. w formacie JSON. Możesz na przykład używać odpowiedzi do innych zadań, które wymagają ustalonego schematu danych.

Aby wygenerowane przez model dane wyjściowe zawsze były zgodne z określonym schematem, możesz zdefiniować schemat odpowiedzi, który działa jak szablon odpowiedzi modelu. Dzięki temu możesz wyodrębnić dane bezpośrednio z wyjścia modelu, co wymaga mniej przetwarzania w pościepce.

Oto przykłady:

Upewnij się, że odpowiedź modelu zwraca prawidłowy format JSON i jest zgodna ze schematem dostarczonym przez Ciebie.
Na przykład model może generować uporządkowane wpisy dotyczące przepisów, które zawsze zawierają nazwę przepisu, listę składników i sposób przygotowania. Dzięki temu łatwiej będzie Ci analizować te informacje i wyświetlać je w interfejsie aplikacji.
Ogranicz, jak model może odpowiadać podczas zadań klasyfikacji.
Możesz na przykład zlecić modelowi dodanie do tekstu adnotacji za pomocą określonego zestawu etykiet (np. określonego zbioru typów danych takich jak positive i negative) zamiast etykiet generowanych przez model (które mogą się różnić, np. good, positive, negative lub bad).

Z tego przewodnika dowiesz się, jak wygenerować dane wyjściowe w formacie JSON, podając parametr responseSchema w wywołaniu funkcji generateContent. Usługa koncentruje się na danych wejściowych w postaci tekstu, ale może też generować uporządkowane odpowiedzi na żądania multimodalne, które zawierają obrazy, filmy i dźwięk.

W dolnej części tej strony znajdziesz więcej przykładów, np. jak generować wartości wyliczenia jako dane wyjściowe. Aby zobaczyć dodatkowe przykłady generowania uporządkowanych danych wyjściowych, zapoznaj się z listą przykładowych schematów i reakcji modelu w dokumentacji Google Cloud.

Inne opcje dotyczące Gemini API

Opcjonalnie możesz wypróbować alternatywną wersję „Google AI” usługi Gemini API
. Możesz uzyskać bezpłatny dostęp (w ograniczonym zakresie i w miejscach, w których jest dostępny) za pomocą pakietów SDK klienta Google AI Studio i Google AI. Pakiety SDK powinny być używane tylko do tworzenia prototypów w aplikacjach mobilnych i internetowych.

Gdy już poznasz działanie interfejsu Gemini API, przenieś się na nasze pakiety Vertex AI in Firebase SDK (ta dokumentacja), które zawierają wiele dodatkowych funkcji ważnych dla aplikacji mobilnych i internetowych, takich jak ochrona interfejsu API przed nadużyciami za pomocą Firebase App Check oraz obsługa dużych plików multimedialnych w żądaniach.

Opcjonalnie wywołaj Gemini API in Vertex AI po stronie serwera (np. w Pythonie, Node.js lub Go)
Użyj pakietu Vertex AI SDK po stronie serwera Genkit lub Firebase Extensions dla Gemini API.

Zanim zaczniesz

Jeśli jeszcze tego nie zrobisz, przeczytaj przewodnik dla początkujących, w którym znajdziesz instrukcje konfigurowania projektu Firebase, łączenia aplikacji z Firebase, dodawania pakietu SDK, inicjowania usługi Vertex AI i tworzenia wystąpienia GenerativeModel.

Krok 1. Zdefiniuj schemat odpowiedzi

Zdefiniuj schemat odpowiedzi, aby określić strukturę danych wyjściowych modelu, nazwy pól i oczekiwaną formę danych w każdym polu.

Podczas generowania odpowiedzi model używa nazwy pola i kontekstu z promptu. Aby jasno określić intencję, zalecamy użycie przejrzystej struktury, jednoznacznych nazw pól, a w razie potrzeby – również opisów.

Uwagi dotyczące schematów odpowiedzi

Podczas pisania schematu odpowiedzi pamiętaj o tych kwestiach:

Rozmiar schematu odpowiedzi wlicza się do limitu tokenów wejściowych.
Funkcja schematu odpowiedzi obsługuje te typy MIME odpowiedzi:
- application/json: dane wyjściowe w formacie JSON zgodnie ze schematem odpowiedzi (przydatne w przypadku wymagań dotyczących danych uporządkowanych).
- text/x.enum: zwraca wartość typu wyliczeniowego zgodnie ze schematem odpowiedzi (przydatne w przypadku zadań klasyfikacyjnych).
Funkcja schematu odpowiedzi obsługuje te pola schematu:

enum
items
maxItems
nullable
properties
required

Jeśli użyjesz pola, które nie jest obsługiwane, model może nadal obsłużyć Twoje żądanie, ale zignoruje to pole. Pamiętaj, że powyższa lista jest podzbiorem obiektu schematu OpenAPI 3.0 (patrz dokumentacja schematu Vertex AI).
Domyślnie w SDK Vertex AI in Firebase wszystkie pola są uważane za wymagane, chyba że w tablicy optionalProperties zostaną określone jako opcjonalne. W przypadku tych opcjonalnych pól model może wypełnić pola lub je pominąć.

Pamiętaj, że jest to przeciwieństwo domyślnego zachowania funkcji Gemini API in Vertex AI.

Krok 2. Wyślij prompt z schematem odpowiedzi, aby wygenerować plik JSON

Poniższy przykład pokazuje, jak wygenerować uporządkowane dane wyjściowe w formacie JSON.

Aby wygenerować dane wyjściowe w formie ustrukturyzowanej, musisz podczas inicjalizacji modelu określić odpowiednią funkcję responseMimeType (w tym przykładzie application/json), a także funkcję responseSchema, której model ma używać.

Używanie responseSchema jest obsługiwane przez wszystkie modele Gemini (z wyjątkiem modeli Gemini 1.0).

Dowiedz się, jak wybrać model i opcjonalnie lokalizację odpowiednią do przypadku użycia i aplikacji.

Dodatkowe przykłady

Aby zobaczyć dodatkowe przykłady korzystania z uporządkowanego wyjścia i jego generowania, zapoznaj się z listą przykładowych schematów i reakcji modeli w dokumentacji Google Cloud.

Generowanie wartości typu wyliczeniowego jako danych wyjściowych

Ten przykład pokazuje, jak używać schematu odpowiedzi w przypadku zadania polegającego na klasyfikacji. Model ma rozpoznać gatunek filmu na podstawie jego opisu. Wyjściem jest jedna wartość typu enum w prostym tekście, którą model wybiera z listy wartości zdefiniowanych w dostarczonym schemacie odpowiedzi.

Aby wykonać to zadanie klasyfikacji uporządkowanej, musisz podczas inicjalizacji modelu podać odpowiednią funkcję responseMimeType (w tym przykładzie text/x.enum) oraz funkcję responseSchema, której ma używać model.