Cloud Firestore Enterprise edition in Native mode is now available! Learn more.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Wyszukiwanie z użyciem wektorów dystrybucyjnych wektorowych

Na tej stronie dowiesz się, jak za pomocą Cloud Firestore przeprowadzać wyszukiwania wektorowe z użyciem algorytmu K najbliższych sąsiadów (KNN) przy użyciu tych technik:

Przechowywanie wartości wektorowych
Tworzenie indeksów wektorowych KNN i zarządzanie nimi
Wykonywanie zapytania o K najbliższych sąsiadów (KNN) z użyciem jednej z obsługiwanych miar odległości wektorowej.

Zanim zaczniesz

Zanim zapiszesz wektory w Cloud Firestore, musisz wygenerować wektory. Cloud Firestore nie generuje wektorów dystrybucyjnych. Możesz użyć usługi takiej jak Vertex AI, aby utworzyć wartości wektorowe, np. wektory dystrybucyjne tekstu z danych Cloud Firestore. Możesz następnie zapisać te wektory z powrotem w Cloud Firestore dokumentach.

Więcej informacji o wektorach znajdziesz w artykule Co to są wektory?

Aby dowiedzieć się, jak uzyskać wektory dystrybucyjne tekstu za pomocą Vertex AI, przeczytaj artykuł Uzyskiwanie wektorów dystrybucyjnych tekstu.

Przechowywanie wektorów dystrybucyjnych

Poniższe przykłady pokazują, jak przechowywać wektory dystrybucyjne w Cloud Firestore.

Operacja zapisu z wektorem dystrybucyjnym

Ten przykład pokazuje, jak zapisać wektor dystrybucyjny w Cloud Firestoredokumencie:

Python

from google.cloud import firestore
from google.cloud.firestore_v1.vector import Vector

firestore_client = firestore.Client()
collection = firestore_client.collection("coffee-beans")
doc = {
    "name": "Kahawa coffee beans",
    "description": "Information about the Kahawa coffee beans.",
    "embedding_field": Vector([0.18332680, 0.24160706, 0.3416704]),
}

collection.add(doc)vector_search.py

Node.js

import {
  Firestore,
  FieldValue,
} from "@google-cloud/firestore";

const db = new Firestore();
const coll = db.collection('coffee-beans');
await coll.add({
  name: "Kahawa coffee beans",
  description: "Information about the Kahawa coffee beans.",
  embedding_field: FieldValue.vector([1.0 , 2.0, 3.0])
});

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

type CoffeeBean struct {
	Name           string             `firestore:"name,omitempty"`
	Description    string             `firestore:"description,omitempty"`
	EmbeddingField firestore.Vector32 `firestore:"embedding_field,omitempty"`
	Color          string             `firestore:"color,omitempty"`
}

func storeVectors(w io.Writer, projectID string) error {
	ctx := context.Background()

	// Create client
	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	// Vector can be represented by Vector32 or Vector64
	doc := CoffeeBean{
		Name:           "Kahawa coffee beans",
		Description:    "Information about the Kahawa coffee beans.",
		EmbeddingField: []float32{1.0, 2.0, 3.0},
		Color:          "red",
	}
	ref := client.Collection("coffee-beans").NewDoc()
	if _, err = ref.Set(ctx, doc); err != nil {
		fmt.Fprintf(w, "failed to upsert: %v", err)
		return err
	}

	return nil
}
vector_store.go

Java

import com.google.cloud.firestore.CollectionReference;
import com.google.cloud.firestore.DocumentReference;
import com.google.cloud.firestore.FieldValue;
import com.google.cloud.firestore.VectorQuery;

CollectionReference coll = firestore.collection("coffee-beans");

Map<String, Object> docData = new HashMap<>();
docData.put("name", "Kahawa coffee beans");
docData.put("description", "Information about the Kahawa coffee beans.");
docData.put("embedding_field", FieldValue.vector(new double[] {1.0, 2.0, 3.0}));

ApiFuture<DocumentReference> future = coll.add(docData);
DocumentReference documentReference = future.get();

Obliczanie wektorów dystrybucyjnych za pomocą funkcji w Cloud Functions

Aby obliczać i przechowywać osadzanie wektorowe za każdym razem, gdy dokument jest aktualizowany lub tworzony, możesz skonfigurować Cloud Function:

Python

@functions_framework.cloud_event
def store_embedding(cloud_event) -> None:
  """Triggers by a change to a Firestore document.
  """
  firestore_payload = firestore.DocumentEventData()
  payload = firestore_payload._pb.ParseFromString(cloud_event.data)

  collection_id, doc_id = from_payload(payload)
  # Call a function to calculate the embedding
  embedding = calculate_embedding(payload)
  # Update the document
  doc = firestore_client.collection(collection_id).document(doc_id)
  doc.set({"embedding_field": embedding}, merge=True)

Node.js

/**
 * A vector embedding will be computed from the
 * value of the `content` field. The vector value
 * will be stored in the `embedding` field. The
 * field names `content` and `embedding` are arbitrary
 * field names chosen for this example.
 */
async function storeEmbedding(event: FirestoreEvent<any>): Promise<void> {
  // Get the previous value of the document's `content` field.
  const previousDocumentSnapshot = event.data.before as QueryDocumentSnapshot;
  const previousContent = previousDocumentSnapshot.get("content");

  // Get the current value of the document's `content` field.
  const currentDocumentSnapshot = event.data.after as QueryDocumentSnapshot;
  const currentContent = currentDocumentSnapshot.get("content");

  // Don't update the embedding if the content field did not change
  if (previousContent === currentContent) {
    return;
  }

  // Call a function to calculate the embedding for the value
  // of the `content` field.
  const embeddingVector = calculateEmbedding(currentContent);

  // Update the `embedding` field on the document.
  await currentDocumentSnapshot.ref.update({
    embedding: embeddingVector,
  });
}

Go

  // Not yet supported in the Go client library

Java

  // Not yet supported in the Java client library

Tworzenie indeksów wektorowych i zarządzanie nimi

Zanim zaczniesz wyszukiwać najbliższych sąsiadów za pomocą wektorów dystrybucyjnych, musisz utworzyć odpowiedni indeks. Poniższe przykłady pokazują, jak tworzyć indeksy wektorowe i nimi zarządzać za pomocą Google Cloud CLI i konsoli. Indeksami wektorów można też zarządzać za pomocą wiersza poleceń Firebase i Terraform.

Utwórz indeks wektorowy

Konsola Google Cloud

Aby ręcznie utworzyć nowy indeks w konsoli Google Cloud:

W konsoli Google Cloud otwórz stronę Bazy danych.
Otwórz Bazy danych
Wybierz z listy baz danych tę, której potrzebujesz.
W menu nawigacyjnym kliknij Indeksy, a następnie kartę Ręcznie.
Kliknij Utwórz indeks.
Aby indeksować pole wektorowe pod kątem wyszukiwania wektorowego, kliknij Utwórz indeks wektorowy.
Wpisz identyfikator kolekcji. Wpisz ścieżkę pola wektora i liczbę wymiarów wektora dystrybucyjnego. Dodaj nazwy wszystkich dodatkowych pól, które chcesz zindeksować, oraz tryb indeksowania dla każdego pola.

Kliknij Zapisz indeks.

Nowy indeks pojawi się na liście indeksów utworzonych ręcznie, a Cloud Firestorerozpocznie się jego tworzenie. Gdy indeks będzie gotowy, obok niego pojawi się zielony znacznik wyboru.

gcloud

Zanim utworzysz indeks wektorowy, uaktualnij bibliotekę Google Cloud CLI do najnowszej wersji:

gcloud components update

Aby utworzyć indeks wektorowy, użyj gcloud firestore indexes composite create:

gcloud firestore indexes composite create \
--collection-group=collection-group \
--query-scope=COLLECTION \
--field-config field-path=vector-field,vector-config='vector-configuration' \
--database=database-id

gdzie:

collection-group to identyfikator grupy kolekcji.
vector-field to nazwa pola zawierającego wektor dystrybucyjny.
database-id to identyfikator bazy danych.
vector-configuration zawiera wektor dimension i typ indeksu.dimension to liczba całkowita do 2048. Typ indeksu musi mieć wartość flat. Skonfiguruj indeks w ten sposób: {"dimension":"DIMENSION", "flat": "{}"}.

W tym przykładzie tworzymy indeks złożony, który zawiera indeks wektorowy pola vector-field i indeks rosnący pola color. Tego typu indeksu możesz używać do wstępnego filtrowania danych przed wyszukiwaniem najbliższych sąsiadów.

gcloud firestore indexes composite create \
--collection-group=collection-group \
--query-scope=COLLECTION \
--field-config=order=ASCENDING,field-path="color" \
--field-config field-path=vector-field,vector-config='{"dimension":"1024", "flat": "{}"}' \
--database=database-id

Wyświetlanie listy wszystkich indeksów wektorowych

Konsola Google Cloud

W konsoli Google Cloud otwórz stronę Bazy danych.
Otwórz Bazy danych
Wybierz z listy baz danych tę, której potrzebujesz.
W menu nawigacyjnym kliknij Indeksy, a następnie kartę Ręcznie.

Tabela indeksów zawiera listę wszystkich indeksów bazy danych. Indeksy wektorowe zawierają pole wektorowe z ikoną .

gcloud

Aby wyświetlić wszystkie indeksy i pobrać identyfikatory indeksów:

gcloud firestore indexes composite list --database=database-id

Zastąp database-id identyfikatorem bazy danych.

Aby wyświetlić więcej szczegółów o indeksie, możesz użyć jego identyfikatora:

gcloud firestore indexes composite describe index-id --database=database-id

gdzie:

index-id to identyfikator indeksu, który ma zostać opisany.
database-id to identyfikator bazy danych.

Usuwanie indeksu wektorowego

Konsola Google Cloud

W konsoli Google Cloud otwórz stronę Bazy danych.
Otwórz Bazy danych
Wybierz z listy baz danych tę, której potrzebujesz.
W menu nawigacyjnym kliknij Indeksy, a następnie kartę Ręcznie.
Na liście indeksów utworzonych ręcznie kliknij przycisk Więcej obok indeksu, który chcesz usunąć. Kliknij Usuń.
Potwierdź, że chcesz usunąć ten indeks, klikając Usuń indeks w alercie.

gcloud

gcloud firestore indexes composite delete index-id --database=database-id

gdzie:

index-id to identyfikator indeksu do usunięcia. Użyj indexes composite list, aby pobrać identyfikator indeksu.
database-id to identyfikator bazy danych.

Wysyłanie zapytania o najbliższych sąsiadów

Możesz przeprowadzić wyszukiwanie podobieństw, aby znaleźć najbliższych sąsiadów wektora dystrybucyjnego. Wyszukiwanie podobieństwa wymaga indeksów wektorowych. Jeśli indeks nie istnieje, Cloud Firestore sugeruje utworzenie indeksu za pomocą gcloud CLI.

W tym przykładzie wyszukujemy 10 najbliższych sąsiadów wektora zapytania.

Python

from google.cloud.firestore_v1.base_vector_query import DistanceMeasure
from google.cloud.firestore_v1.vector import Vector

collection = db.collection("coffee-beans")

# Requires a single-field vector index
vector_query = collection.find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=5,
)vector_search.py

Node.js

import {
  Firestore,
  FieldValue,
  VectorQuery,
  VectorQuerySnapshot,
} from "@google-cloud/firestore";

// Requires a single-field vector index
const vectorQuery: VectorQuery = coll.findNearest({
  vectorField: 'embedding_field',
  queryVector: [3.0, 1.0, 2.0],
  limit: 10,
  distanceMeasure: 'EUCLIDEAN'
});

const vectorQuerySnapshot: VectorQuerySnapshot = await vectorQuery.get();

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchBasic(w io.Writer, projectID string) error {
	ctx := context.Background()

	// Create client
	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Requires a vector index
	// https://firebase.google.com/docs/firestore/vector-search#create_and_manage_vector_indexes
	vectorQuery := collection.FindNearest("embedding_field",
		[]float32{3.0, 1.0, 2.0},
		5,
		// More info: https://firebase.google.com/docs/firestore/vector-search#vector_distances
		firestore.DistanceMeasureEuclidean,
		nil)

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintln(w, doc.Data()["name"])
	}
	return nil
}
vector_search_basic.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery vectorQuery = coll.findNearest(
        "embedding_field",
        new double[] {3.0, 1.0, 2.0},
        /* limit */ 10,
        VectorQuery.DistanceMeasure.EUCLIDEAN);

ApiFuture<VectorQuerySnapshot> future = vectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

Odległości wektorowe

Zapytania o najbliższych sąsiadów obsługują te opcje odległości wektorowej:

EUCLIDEAN: mierzy EUCLIDEAN odległość między wektorami. Więcej informacji znajdziesz w artykule Geometria euklidesowa.
COSINE: porównuje wektory na podstawie kąta między nimi, co pozwala mierzyć podobieństwo, które nie jest oparte na wielkości wektorów. Zamiast odległości COSINE zalecamy używanie DOT_PRODUCT z wektorami znormalizowanymi do jednostki, co jest matematycznie równoważne i zapewnia lepszą wydajność. Więcej informacji znajdziesz w artykule Podobieństwo cosinusowe.
DOT_PRODUCT: podobny do COSINE, ale zależy od wielkości wektorów. Więcej informacji znajdziesz w artykule Dot product.

Wybierz pomiar odległości

W zależności od tego, czy wszystkie wektory dystrybucyjne są znormalizowane, możesz określić, której miary odległości użyć do znalezienia miary odległości. Znormalizowany wektor dystrybucyjny ma wielkość (długość) dokładnie 1,0.

Jeśli wiesz, z jakiego pomiaru odległości korzystał Twój model podczas trenowania, użyj go do obliczenia odległości między wektorami dystrybucyjnymi.

Znormalizowane dane

Jeśli masz zbiór danych, w którym wszystkie wektory dystrybucyjne są znormalizowane, wszystkie 3 miary odległości zapewniają te same wyniki wyszukiwania semantycznego. Chociaż każda miara odległości zwraca inną wartość, wartości te są sortowane w ten sam sposób. Gdy wektory są znormalizowane, DOT_PRODUCT jest zwykle najbardziej wydajny obliczeniowo, ale w większości przypadków różnica jest znikoma. Jeśli jednak Twoja aplikacja jest bardzo wrażliwa na wydajność, DOT_PRODUCT może pomóc w dostrajaniu wydajności.

Dane nieznormalizowane

Jeśli masz zbiór danych, w którym wektory dystrybucyjne nie są znormalizowane, używanie DOT_PRODUCT jako miary odległości jest matematycznie nieprawidłowe, ponieważ iloczyn skalarny nie mierzy odległości. W zależności od tego, jak wygenerowano osadzenia i jaki typ wyszukiwania jest preferowany, miara odległości COSINE lub EUCLIDEAN daje wyniki wyszukiwania, które są subiektywnie lepsze niż inne miary odległości. Aby określić, które z tych rozwiązań będzie najlepsze w Twoim przypadku, może być konieczne przeprowadzenie eksperymentu z użyciem COSINE lub EUCLIDEAN.

Nie wiesz, czy dane są znormalizowane czy nie

Jeśli nie masz pewności, czy Twoje dane są znormalizowane, a chcesz użyć funkcji DOT_PRODUCT, zalecamy użycie funkcji COSINE. COSINE jest podobne do DOT_PRODUCT, ale ma wbudowaną normalizację. Odległość mierzona za pomocą COSINE mieści się w zakresie od 0 do 2. Wynik bliski 0 oznacza, że wektory są bardzo podobne.

Wstępne filtrowanie dokumentów

Aby wstępnie odfiltrować dokumenty przed znalezieniem najbliższych sąsiadów, możesz połączyć wyszukiwanie podobieństwa z innymi operatorami zapytań. Obsługiwane są filtry złożone and i or. Więcej informacji o obsługiwanych filtrach pól znajdziesz w artykule Operatory zapytań.

Python

from google.cloud.firestore_v1.base_vector_query import DistanceMeasure
from google.cloud.firestore_v1.vector import Vector

collection = db.collection("coffee-beans")

# Similarity search with pre-filter
# Requires a composite vector index
vector_query = collection.where("color", "==", "red").find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=5,
)vector_search.py

Node.js

// Similarity search with pre-filter
// Requires composite vector index
const preFilteredVectorQuery: VectorQuery = coll
    .where("color", "==", "red")
    .findNearest({
      vectorField: "embedding_field",
      queryVector: [3.0, 1.0, 2.0],
      limit: 5,
      distanceMeasure: "EUCLIDEAN",
    });

const vectorQueryResults = await preFilteredVectorQuery.get();

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchPrefilter(w io.Writer, projectID string) error {
	ctx := context.Background()

	// Create client
	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Similarity search with pre-filter
	// Requires a composite vector index
	vectorQuery := collection.Where("color", "==", "red").
		FindNearest("embedding_field",
			[]float32{3.0, 1.0, 2.0},
			5,
			// More info: https://firebase.google.com/docs/firestore/vector-search#vector_distances
			firestore.DistanceMeasureEuclidean,
			nil)

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintln(w, doc.Data()["name"])
	}
	return nil
}
vector_search_prefilter.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery preFilteredVectorQuery = coll
        .whereEqualTo("color", "red")
        .findNearest(
                "embedding_field",
                new double[] {3.0, 1.0, 2.0},
                /* limit */ 10,
                VectorQuery.DistanceMeasure.EUCLIDEAN);

ApiFuture<VectorQuerySnapshot> future = preFilteredVectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

Pobieranie obliczonej odległości wektorowej

Obliczoną odległość wektorową możesz pobrać, przypisując nazwę właściwości wyjściowej distance_result_field do zapytania FindNearest, jak pokazano w przykładzie poniżej:

Python

from google.cloud.firestore_v1.base_vector_query import DistanceMeasure
from google.cloud.firestore_v1.vector import Vector

collection = db.collection("coffee-beans")

vector_query = collection.find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=10,
    distance_result_field="vector_distance",
)

docs = vector_query.stream()

for doc in docs:
    print(f"{doc.id}, Distance: {doc.get('vector_distance')}")vector_search.py

Node.js

const vectorQuery: VectorQuery = coll.findNearest(
    {
      vectorField: 'embedding_field',
      queryVector: [3.0, 1.0, 2.0],
      limit: 10,
      distanceMeasure: 'EUCLIDEAN',
      distanceResultField: 'vector_distance'
    });

const snapshot: VectorQuerySnapshot = await vectorQuery.get();

snapshot.forEach((doc) => {
  console.log(doc.id, ' Distance: ', doc.get('vector_distance'));
});

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchDistanceResultField(w io.Writer, projectID string) error {
	ctx := context.Background()

	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Requires a vector index
	// https://firebase.google.com/docs/firestore/vector-search#create_and_manage_vector_indexes
	vectorQuery := collection.FindNearest("embedding_field",
		[]float32{3.0, 1.0, 2.0},
		10,
		firestore.DistanceMeasureEuclidean,
		&firestore.FindNearestOptions{
			DistanceResultField: "vector_distance",
		})

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintf(w, "%v, Distance: %v\n", doc.Data()["name"], doc.Data()["vector_distance"])
	}
	return nil
}
vector_search_result_field.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQueryOptions;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery vectorQuery = coll.findNearest(
        "embedding_field",
        new double[] {3.0, 1.0, 2.0},
        /* limit */ 10,
        VectorQuery.DistanceMeasure.EUCLIDEAN,
        VectorQueryOptions.newBuilder().setDistanceResultField("vector_distance").build());

ApiFuture<VectorQuerySnapshot> future = vectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

for (DocumentSnapshot document : vectorQuerySnapshot.getDocuments()) {
    System.out.println(document.getId() + " Distance: " + document.get("vector_distance"));
}

Jeśli chcesz użyć maski pola, aby zwrócić podzbiór pól dokumentu wraz z distanceResultField, musisz też uwzględnić w niej wartość distanceResultField, jak pokazano w tym przykładzie:

Python

vector_query = collection.select(["color", "vector_distance"]).find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=10,
    distance_result_field="vector_distance",
)vector_search.py

Node.js

const vectorQuery: VectorQuery = coll
    .select('name', 'description', 'vector_distance')
    .findNearest({
      vectorField: 'embedding_field',
      queryVector: [3.0, 1.0, 2.0],
      limit: 10,
      distanceMeasure: 'EUCLIDEAN',
      distanceResultField: 'vector_distance'
    });

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchDistanceResultFieldMasked(w io.Writer, projectID string) error {
	ctx := context.Background()

	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Requires a vector index
	// https://firebase.google.com/docs/firestore/vector-search#create_and_manage_vector_indexes
	vectorQuery := collection.Select("color", "vector_distance").
		FindNearest("embedding_field",
			[]float32{3.0, 1.0, 2.0},
			10,
			firestore.DistanceMeasureEuclidean,
			&firestore.FindNearestOptions{
				DistanceResultField: "vector_distance",
			})

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintf(w, "%v, Distance: %v\n", doc.Data()["color"], doc.Data()["vector_distance"])
	}
	return nil
}
vector_search_result_field_masked.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQueryOptions;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery vectorQuery = coll
        .select("name", "description", "vector_distance")
        .findNearest(
          "embedding_field",
          new double[] {3.0, 1.0, 2.0},
          /* limit */ 10,
          VectorQuery.DistanceMeasure.EUCLIDEAN,
          VectorQueryOptions.newBuilder()
            .setDistanceResultField("vector_distance")
            .build());

ApiFuture<VectorQuerySnapshot> future = vectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

for (DocumentSnapshot document : vectorQuerySnapshot.getDocuments()) {
    System.out.println(document.getId() + " Distance: " + document.get("vector_distance"));
}

Określanie progu odległości

Możesz określić próg podobieństwa, który będzie zwracać tylko dokumenty mieszczące się w tym progu. Zachowanie pola progu zależy od wybranej miary odległości:

Odległości EUCLIDEAN i COSINE ograniczają próg do dokumentów, w których odległość jest mniejsza lub równa określonemu progowi. Te miary odległości zmniejszają się, gdy wektory stają się bardziej podobne.
DOT_PRODUCT distance ogranicza próg do dokumentów, w których odległość jest większa lub równa podanemu progowi. Odległości w formie iloczynu skalarnego rosną, gdy wektory stają się bardziej podobne.

Poniższy przykład pokazuje, jak określić próg odległości, aby zwracać maksymalnie 10 najbliższych dokumentów, które znajdują się w odległości nie większej niż 4,5 jednostki, używając wskaźnika odległości EUCLIDEAN:

Python

from google.cloud.firestore_v1.base_vector_query import DistanceMeasure
from google.cloud.firestore_v1.vector import Vector

collection = db.collection("coffee-beans")

vector_query = collection.find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=10,
    distance_threshold=4.5,
)

docs = vector_query.stream()

for doc in docs:
    print(f"{doc.id}")vector_search.py

Node.js

const vectorQuery: VectorQuery = coll.findNearest({
  vectorField: 'embedding_field',
  queryVector: [3.0, 1.0, 2.0],
  limit: 10,
  distanceMeasure: 'EUCLIDEAN',
  distanceThreshold: 4.5
});

const snapshot: VectorQuerySnapshot = await vectorQuery.get();

snapshot.forEach((doc) => {
  console.log(doc.id);
});

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchDistanceThreshold(w io.Writer, projectID string) error {
	ctx := context.Background()

	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Requires a vector index
	// https://firebase.google.com/docs/firestore/vector-search#create_and_manage_vector_indexes
	vectorQuery := collection.FindNearest("embedding_field",
		[]float32{3.0, 1.0, 2.0},
		10,
		firestore.DistanceMeasureEuclidean,
		&firestore.FindNearestOptions{
			DistanceThreshold: firestore.Ptr[float64](4.5),
		})

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintln(w, doc.Data()["name"])
	}
	return nil
}
vector_search_distance_threshold.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQueryOptions;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery vectorQuery = coll.findNearest(
        "embedding_field",
        new double[] {3.0, 1.0, 2.0},
        /* limit */ 10,
        VectorQuery.DistanceMeasure.EUCLIDEAN,
        VectorQueryOptions.newBuilder()
          .setDistanceThreshold(4.5)
          .build());

ApiFuture<VectorQuerySnapshot> future = vectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

for (DocumentSnapshot document : vectorQuerySnapshot.getDocuments()) {
    System.out.println(document.getId());
}

Ograniczenia

Podczas pracy z wektorami dystrybucyjnymi pamiętaj o tych ograniczeniach:

Maksymalny obsługiwany wymiar osadzania to 2048. Aby przechowywać większe indeksy, użyj redukcji wymiarowości.
Maksymalna liczba dokumentów zwracanych przez zapytanie o najbliższych sąsiadów to 1000 (ograniczenie dotyczy tylko wersji standardowej).
Wyszukiwanie wektorowe nie obsługuje detektorów zrzutów dysku w czasie rzeczywistym.
Wyszukiwanie wektorowe jest obsługiwane tylko przez biblioteki klienta w językach Python, Node.js, Go i Java.

Co dalej?

Przeczytaj o sprawdzonych metodach dotyczących Cloud Firestore.
Poznaj odczyty i zapisy na dużą skalę.

Wyszukiwanie z użyciem wektorów dystrybucyjnych wektorowych Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Zanim zaczniesz

Przechowywanie wektorów dystrybucyjnych

Operacja zapisu z wektorem dystrybucyjnym

Python

Node.js

Go

Java

Obliczanie wektorów dystrybucyjnych za pomocą funkcji w Cloud Functions

Python

Node.js

Go

Java

Tworzenie indeksów wektorowych i zarządzanie nimi

Utwórz indeks wektorowy

Konsola Google Cloud

gcloud

Wyświetlanie listy wszystkich indeksów wektorowych

Konsola Google Cloud

gcloud

Usuwanie indeksu wektorowego

Konsola Google Cloud

gcloud

Wysyłanie zapytania o najbliższych sąsiadów

Python

Node.js

Go

Java

Odległości wektorowe

Wybierz pomiar odległości

Wstępne filtrowanie dokumentów

Python

Node.js

Go

Java

Pobieranie obliczonej odległości wektorowej

Python

Node.js

Go

Java

Python

Node.js

Go

Java

Określanie progu odległości

Python

Node.js

Go

Java

Ograniczenia

Co dalej?

Wyszukiwanie z użyciem wektorów dystrybucyjnych wektorowych