Edisi Cloud Firestore Enterprise dalam mode Native kini sudah tersedia. Pelajari lebih lanjut.

Menelusuri dengan embedding vektor

Halaman ini menunjukkan cara menggunakan Cloud Firestore untuk melakukan penelusuran vektor tetangga K-terdekat (KNN) menggunakan teknik berikut:

Menyimpan nilai vektor
Membuat dan mengelola indeks vektor KNN
Membuat kueri tetangga K-terdekat (KNN) menggunakan salah satu jarak vektor yang didukung

Sebelum memulai

Sebelum menyimpan embedding di Cloud Firestore, Anda harus membuat embedding vektor. Cloud Firestore tidak membuat embedding. Anda dapat menggunakan layanan seperti Vertex AI untuk membuat nilai vektor, misalnya, embedding teks dari data Cloud Firestore Anda. Kemudian, Anda dapat menyimpan kembali embedding ini dalam dokumen Cloud Firestore.

Untuk mempelajari embedding lebih lanjut, lihat Apa itu embedding?

Untuk mempelajari cara mendapatkan embedding teks dengan Vertex AI, lihat Mendapatkan embedding teks.

Menyimpan embedding vektor

Contoh berikut menunjukkan cara menyimpan embedding vektor di Cloud Firestore.

Operasi tulis dengan embedding vektor

Contoh berikut menunjukkan cara menyimpan embedding vektor dalam dokumen Cloud Firestore:

Python

from google.cloud import firestore
from google.cloud.firestore_v1.vector import Vector

firestore_client = firestore.Client()
collection = firestore_client.collection("coffee-beans")
doc = {
    "name": "Kahawa coffee beans",
    "description": "Information about the Kahawa coffee beans.",
    "embedding_field": Vector([0.18332680, 0.24160706, 0.3416704]),
}

collection.add(doc)vector_search.py

Node.js

import {
  Firestore,
  FieldValue,
} from "@google-cloud/firestore";

const db = new Firestore();
const coll = db.collection('coffee-beans');
await coll.add({
  name: "Kahawa coffee beans",
  description: "Information about the Kahawa coffee beans.",
  embedding_field: FieldValue.vector([1.0 , 2.0, 3.0])
});

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

type CoffeeBean struct {
	Name           string             `firestore:"name,omitempty"`
	Description    string             `firestore:"description,omitempty"`
	EmbeddingField firestore.Vector32 `firestore:"embedding_field,omitempty"`
	Color          string             `firestore:"color,omitempty"`
}

func storeVectors(w io.Writer, projectID string) error {
	ctx := context.Background()

	// Create client
	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	// Vector can be represented by Vector32 or Vector64
	doc := CoffeeBean{
		Name:           "Kahawa coffee beans",
		Description:    "Information about the Kahawa coffee beans.",
		EmbeddingField: []float32{1.0, 2.0, 3.0},
		Color:          "red",
	}
	ref := client.Collection("coffee-beans").NewDoc()
	if _, err = ref.Set(ctx, doc); err != nil {
		fmt.Fprintf(w, "failed to upsert: %v", err)
		return err
	}

	return nil
}
vector_store.go

Java

import com.google.cloud.firestore.CollectionReference;
import com.google.cloud.firestore.DocumentReference;
import com.google.cloud.firestore.FieldValue;
import com.google.cloud.firestore.VectorQuery;

CollectionReference coll = firestore.collection("coffee-beans");

Map<String, Object> docData = new HashMap<>();
docData.put("name", "Kahawa coffee beans");
docData.put("description", "Information about the Kahawa coffee beans.");
docData.put("embedding_field", FieldValue.vector(new double[] {1.0, 2.0, 3.0}));

ApiFuture<DocumentReference> future = coll.add(docData);
DocumentReference documentReference = future.get();

Menghitung embedding vektor dengan Cloud Function

Untuk menghitung dan menyimpan embedding vektor setiap kali dokumen diperbarui atau dibuat, Anda dapat menyiapkan Cloud Function:

Python

@functions_framework.cloud_event
def store_embedding(cloud_event) -> None:
  """Triggers by a change to a Firestore document.
  """
  firestore_payload = firestore.DocumentEventData()
  payload = firestore_payload._pb.ParseFromString(cloud_event.data)

  collection_id, doc_id = from_payload(payload)
  # Call a function to calculate the embedding
  embedding = calculate_embedding(payload)
  # Update the document
  doc = firestore_client.collection(collection_id).document(doc_id)
  doc.set({"embedding_field": embedding}, merge=True)

Node.js

/**
 * A vector embedding will be computed from the
 * value of the `content` field. The vector value
 * will be stored in the `embedding` field. The
 * field names `content` and `embedding` are arbitrary
 * field names chosen for this example.
 */
async function storeEmbedding(event: FirestoreEvent<any>): Promise<void> {
  // Get the previous value of the document's `content` field.
  const previousDocumentSnapshot = event.data.before as QueryDocumentSnapshot;
  const previousContent = previousDocumentSnapshot.get("content");

  // Get the current value of the document's `content` field.
  const currentDocumentSnapshot = event.data.after as QueryDocumentSnapshot;
  const currentContent = currentDocumentSnapshot.get("content");

  // Don't update the embedding if the content field did not change
  if (previousContent === currentContent) {
    return;
  }

  // Call a function to calculate the embedding for the value
  // of the `content` field.
  const embeddingVector = calculateEmbedding(currentContent);

  // Update the `embedding` field on the document.
  await currentDocumentSnapshot.ref.update({
    embedding: embeddingVector,
  });
}

Go

  // Not yet supported in the Go client library

Java

  // Not yet supported in the Java client library

Membuat dan mengelola indeks vektor

Sebelum Anda dapat melakukan penelusuran tetangga terdekat dengan embedding vektor, Anda harus membuat indeks yang sesuai. Contoh berikut menunjukkan cara membuat dan mengelola indeks vektor dengan Google Cloud CLI dan konsol. Indeks vektor juga dapat dikelola dengan Firebase CLI dan Terraform.

Membuat indeks vektor

Konsol Google Cloud

Untuk membuat indeks baru secara manual dari Konsol Google Cloud:

Di konsol Google Cloud, buka halaman Databases.
Buka Databases
Pilih database yang diperlukan dari daftar database.
Di menu navigasi, klik Indexes, lalu klik tab Manual.
Klik Create Index.
Untuk mengindeks kolom vektor untuk penelusuran vektor, pilih Create vector index.
Masukkan Collection ID. Masukkan jalur kolom vektor dan jumlah dimensi embedding vektor. Tambahkan nama kolom tambahan yang ingin Anda indeks dan mode indeks untuk setiap kolom.

Klik Save Index.

Indeks baru Anda akan muncul dalam daftar indeks manual dan Cloud Firestore akan mulai membuat indeks Anda. Setelah indeks dibuat, Anda akan melihat tanda centang hijau di samping indeks.

gcloud

Sebelum membuat indeks vektor, upgrade Google Cloud CLI ke versi terbaru:

gcloud components update

Untuk membuat indeks vektor, gunakan gcloud firestore indexes composite create:

gcloud firestore indexes composite create \
--collection-group=collection-group \
--query-scope=COLLECTION \
--field-config field-path=vector-field,vector-config='vector-configuration' \
--database=database-id

dengan:

collection-group adalah ID grup koleksi.
vector-field adalah nama kolom yang berisi embedding vektor.
database-id adalah ID database.
vector-configuration mencakup vektor dimension dan jenis indeks. dimension adalah bilangan bulat hingga 2048. Jenis indeks harus flat. Format konfigurasi indeks sebagai berikut: {"dimension":"DIMENSION", "flat": "{}"}.

Contoh berikut membuat indeks komposit, termasuk indeks vektor untuk kolom vector-field dan indeks menaik untuk kolom color. Anda dapat menggunakan jenis indeks ini untuk melakukan pra-pemfilteran data sebelum penelusuran tetangga terdekat.

gcloud firestore indexes composite create \
--collection-group=collection-group \
--query-scope=COLLECTION \
--field-config=order=ASCENDING,field-path="color" \
--field-config field-path=vector-field,vector-config='{"dimension":"1024", "flat": "{}"}' \
--database=database-id

Mencantumkan semua indeks vektor

Konsol Google Cloud

Di Konsol Google Cloud, buka halaman Databases.
Buka Databases
Pilih database yang diperlukan dari daftar database.
Di menu navigasi, klik Indexes, lalu klik tab Manual.

Tabel indeks mencantumkan semua indeks untuk database. Indeks vektor menyertakan kolom vektor dengan ikon .

gcloud

Untuk mencantumkan semua indeks dan mengambil ID indeks:

gcloud firestore indexes composite list --database=database-id

Ganti database-id dengan ID database.

Anda dapat menggunakan ID indeks untuk melihat detail selengkapnya tentang suatu indeks:

gcloud firestore indexes composite describe index-id --database=database-id

dengan:

index-id adalah ID indeks yang akan dijelaskan.
database-id adalah ID database.

Menghapus indeks vektor

Konsol Google Cloud

Di Konsol Google Cloud, buka halaman Databases.
Buka Databases
Pilih database yang diperlukan dari daftar database.
Di menu navigasi, klik Indexes, lalu klik tab Manual.
Dalam daftar indeks manual Anda, klik tombol More untuk indeks yang ingin Anda hapus. Klik Delete.
Konfirmasi bahwa Anda ingin menghapus indeks ini dengan mengklik Delete Index dari pemberitahuan.

gcloud

gcloud firestore indexes composite delete index-id --database=database-id

dengan:

index-id adalah ID indeks yang akan dihapus. Gunakan indexes composite list untuk mengambil ID indeks.
database-id adalah ID database.

Membuat kueri tetangga terdekat

Anda dapat melakukan penelusuran kesamaan untuk menemukan tetangga terdekat dari embedding vektor. Penelusuran kesamaan memerlukan indeks vektor. Jika indeks tidak ada, Cloud Firestore akan menyarankan indeks yang akan dibuat menggunakan gcloud CLI.

Contoh berikut menemukan 10 tetangga terdekat dari vektor kueri.

Python

from google.cloud.firestore_v1.base_vector_query import DistanceMeasure
from google.cloud.firestore_v1.vector import Vector

collection = db.collection("coffee-beans")

# Requires a single-field vector index
vector_query = collection.find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=5,
)vector_search.py

Node.js

import {
  Firestore,
  FieldValue,
  VectorQuery,
  VectorQuerySnapshot,
} from "@google-cloud/firestore";

// Requires a single-field vector index
const vectorQuery: VectorQuery = coll.findNearest({
  vectorField: 'embedding_field',
  queryVector: [3.0, 1.0, 2.0],
  limit: 10,
  distanceMeasure: 'EUCLIDEAN'
});

const vectorQuerySnapshot: VectorQuerySnapshot = await vectorQuery.get();

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchBasic(w io.Writer, projectID string) error {
	ctx := context.Background()

	// Create client
	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Requires a vector index
	// https://firebase.google.com/docs/firestore/vector-search#create_and_manage_vector_indexes
	vectorQuery := collection.FindNearest("embedding_field",
		[]float32{3.0, 1.0, 2.0},
		5,
		// More info: https://firebase.google.com/docs/firestore/vector-search#vector_distances
		firestore.DistanceMeasureEuclidean,
		nil)

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintln(w, doc.Data()["name"])
	}
	return nil
}
vector_search_basic.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery vectorQuery = coll.findNearest(
        "embedding_field",
        new double[] {3.0, 1.0, 2.0},
        /* limit */ 10,
        VectorQuery.DistanceMeasure.EUCLIDEAN);

ApiFuture<VectorQuerySnapshot> future = vectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

Jarak vektor

Kueri tetangga terdekat mendukung opsi berikut untuk jarak vektor:

EUCLIDEAN: Mengukur jarak EUCLIDEAN antar-vektor. Untuk mempelajari lebih lanjut, lihat Euclidean.
COSINE: Membandingkan vektor berdasarkan sudut antarvektor yang memungkinkan Anda mengukur kesamaan yang tidak didasarkan pada besaran vektor. Sebaiknya gunakan DOT_PRODUCT dengan vektor yang dinormalisasi unit, bukan jarak KOSINUS, yang secara matematis setara dengan performa yang lebih baik. Untuk mempelajari lebih lanjut, lihat Kemiripan kosinus.
DOT_PRODUCT: Serupa dengan COSINE tetapi dipengaruhi oleh besarnya vektor. Untuk mempelajari lebih lanjut, lihat Perkalian titik.

Memilih ukuran jarak

Anda dapat menentukan ukuran jarak yang akan digunakan untuk menemukan ukuran jarak, tergantung pada apakah semua embedding vektor Anda dinormalisasi atau tidak. Embedding vektor yang dinormalisasi memiliki besaran (panjang) tepat 1,0.

Selain itu, jika Anda mengetahui ukuran jarak yang digunakan untuk melatih model, gunakan ukuran jarak tersebut untuk menghitung jarak antara embedding vektor Anda.

Data yang dinormalisasi

Jika Anda memiliki set data tempat semua embedding vektor dinormalisasi, ketiga ukuran jarak akan memberikan hasil penelusuran semantik yang sama. Pada dasarnya, meskipun setiap ukuran jarak menampilkan nilai yang berbeda, nilai tersebut diurutkan dengan cara yang sama. Saat embedding dinormalisasi, DOT_PRODUCT biasanya paling efisien secara komputasi, tetapi perbedaannya dapat diabaikan dalam sebagian besar kasus. Namun, jika aplikasi Anda sangat sensitif terhadap performa, DOT_PRODUCT dapat membantu penyesuaian performa.

Data yang tidak dinormalisasi

Jika Anda memiliki set data yang tidak melakukan normalisasi pada embedding vektor, maka secara matematis tidak benar untuk menggunakan DOT_PRODUCT sebagai ukuran jarak karena perkalian titik tidak mengukur jarak. Bergantung pada cara pembuatan embedding dan jenis penelusuran yang lebih disukai, ukuran jarak COSINE atau EUCLIDEAN akan menghasilkan hasil penelusuran yang secara subjektif lebih baik daripada pengukuran jarak lainnya. Eksperimen dengan COSINE atau EUCLIDEAN mungkin diperlukan guna menentukan pilihan terbaik untuk kasus penggunaan Anda.

Tidak yakin apakah data dinormalisasi atau tidak

Jika Anda tidak yakin apakah data dinormalisasi atau tidak dan ingin menggunakan DOT_PRODUCT, sebaiknya gunakan COSINE. COSINE mirip dengan DOT_PRODUCT dengan normalisasi bawaan. Jarak yang diukur menggunakan COSINE berkisar dari 0 hingga 2. Hasil yang mendekati 0 menunjukkan bahwa vektor sangat mirip.

Pra-filter dokumen

Untuk melakukan prafilter dokumen sebelum menemukan tetangga terdekat, Anda dapat menggabungkan penelusuran kesamaan dengan operator kueri lainnya. Filter komposit and dan or didukung. Untuk mengetahui informasi selengkapnya tentang filter kolom yang didukung, lihat Operator kueri.

Python

from google.cloud.firestore_v1.base_vector_query import DistanceMeasure
from google.cloud.firestore_v1.vector import Vector

collection = db.collection("coffee-beans")

# Similarity search with pre-filter
# Requires a composite vector index
vector_query = collection.where("color", "==", "red").find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=5,
)vector_search.py

Node.js

// Similarity search with pre-filter
// Requires composite vector index
const preFilteredVectorQuery: VectorQuery = coll
    .where("color", "==", "red")
    .findNearest({
      vectorField: "embedding_field",
      queryVector: [3.0, 1.0, 2.0],
      limit: 5,
      distanceMeasure: "EUCLIDEAN",
    });

const vectorQueryResults = await preFilteredVectorQuery.get();

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchPrefilter(w io.Writer, projectID string) error {
	ctx := context.Background()

	// Create client
	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Similarity search with pre-filter
	// Requires a composite vector index
	vectorQuery := collection.Where("color", "==", "red").
		FindNearest("embedding_field",
			[]float32{3.0, 1.0, 2.0},
			5,
			// More info: https://firebase.google.com/docs/firestore/vector-search#vector_distances
			firestore.DistanceMeasureEuclidean,
			nil)

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintln(w, doc.Data()["name"])
	}
	return nil
}
vector_search_prefilter.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery preFilteredVectorQuery = coll
        .whereEqualTo("color", "red")
        .findNearest(
                "embedding_field",
                new double[] {3.0, 1.0, 2.0},
                /* limit */ 10,
                VectorQuery.DistanceMeasure.EUCLIDEAN);

ApiFuture<VectorQuerySnapshot> future = preFilteredVectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

Mengambil jarak vektor yang dihitung

Anda dapat mengambil jarak vektor yang dihitung dengan menetapkan nama properti output distance_result_field pada kueri FindNearest, seperti yang ditunjukkan dalam contoh berikut:

Python

from google.cloud.firestore_v1.base_vector_query import DistanceMeasure
from google.cloud.firestore_v1.vector import Vector

collection = db.collection("coffee-beans")

vector_query = collection.find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=10,
    distance_result_field="vector_distance",
)

docs = vector_query.stream()

for doc in docs:
    print(f"{doc.id}, Distance: {doc.get('vector_distance')}")vector_search.py

Node.js

const vectorQuery: VectorQuery = coll.findNearest(
    {
      vectorField: 'embedding_field',
      queryVector: [3.0, 1.0, 2.0],
      limit: 10,
      distanceMeasure: 'EUCLIDEAN',
      distanceResultField: 'vector_distance'
    });

const snapshot: VectorQuerySnapshot = await vectorQuery.get();

snapshot.forEach((doc) => {
  console.log(doc.id, ' Distance: ', doc.get('vector_distance'));
});

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchDistanceResultField(w io.Writer, projectID string) error {
	ctx := context.Background()

	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Requires a vector index
	// https://firebase.google.com/docs/firestore/vector-search#create_and_manage_vector_indexes
	vectorQuery := collection.FindNearest("embedding_field",
		[]float32{3.0, 1.0, 2.0},
		10,
		firestore.DistanceMeasureEuclidean,
		&firestore.FindNearestOptions{
			DistanceResultField: "vector_distance",
		})

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintf(w, "%v, Distance: %v\n", doc.Data()["name"], doc.Data()["vector_distance"])
	}
	return nil
}
vector_search_result_field.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQueryOptions;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery vectorQuery = coll.findNearest(
        "embedding_field",
        new double[] {3.0, 1.0, 2.0},
        /* limit */ 10,
        VectorQuery.DistanceMeasure.EUCLIDEAN,
        VectorQueryOptions.newBuilder().setDistanceResultField("vector_distance").build());

ApiFuture<VectorQuerySnapshot> future = vectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

for (DocumentSnapshot document : vectorQuerySnapshot.getDocuments()) {
    System.out.println(document.getId() + " Distance: " + document.get("vector_distance"));
}

Jika ingin menggunakan mask kolom untuk menampilkan subset kolom dokumen beserta distanceResultField, Anda juga harus menyertakan nilai distanceResultField dalam mask kolom, seperti yang ditunjukkan dalam contoh berikut:

Python

vector_query = collection.select(["color", "vector_distance"]).find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=10,
    distance_result_field="vector_distance",
)vector_search.py

Node.js

const vectorQuery: VectorQuery = coll
    .select('name', 'description', 'vector_distance')
    .findNearest({
      vectorField: 'embedding_field',
      queryVector: [3.0, 1.0, 2.0],
      limit: 10,
      distanceMeasure: 'EUCLIDEAN',
      distanceResultField: 'vector_distance'
    });

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchDistanceResultFieldMasked(w io.Writer, projectID string) error {
	ctx := context.Background()

	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Requires a vector index
	// https://firebase.google.com/docs/firestore/vector-search#create_and_manage_vector_indexes
	vectorQuery := collection.Select("color", "vector_distance").
		FindNearest("embedding_field",
			[]float32{3.0, 1.0, 2.0},
			10,
			firestore.DistanceMeasureEuclidean,
			&firestore.FindNearestOptions{
				DistanceResultField: "vector_distance",
			})

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintf(w, "%v, Distance: %v\n", doc.Data()["color"], doc.Data()["vector_distance"])
	}
	return nil
}
vector_search_result_field_masked.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQueryOptions;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery vectorQuery = coll
        .select("name", "description", "vector_distance")
        .findNearest(
          "embedding_field",
          new double[] {3.0, 1.0, 2.0},
          /* limit */ 10,
          VectorQuery.DistanceMeasure.EUCLIDEAN,
          VectorQueryOptions.newBuilder()
            .setDistanceResultField("vector_distance")
            .build());

ApiFuture<VectorQuerySnapshot> future = vectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

for (DocumentSnapshot document : vectorQuerySnapshot.getDocuments()) {
    System.out.println(document.getId() + " Distance: " + document.get("vector_distance"));
}

Menentukan nilai minimum jarak

Anda dapat menentukan nilai minimum kesamaan yang hanya menampilkan dokumen dalam nilai minimum. Perilaku kolom nilai minimum bergantung pada ukuran jarak yang Anda pilih:

Jarak EUCLIDEAN dan COSINE membatasi nilai minimum untuk dokumen dengan jarak kurang dari atau sama dengan nilai minimum yang ditentukan. Ukuran jarak ini menurun seiring dengan semakin miripnya vektor.
Jarak DOT_PRODUCT membatasi nilai minimum untuk dokumen yang jaraknya lebih besar dari atau sama dengan nilai minimum yang ditentukan. Jarak perkalian titik akan meningkat seiring dengan semakin miripnya vektor.

Contoh berikut menunjukkan cara menentukan nilai minimum jarak untuk menampilkan hingga 10 dokumen terdekat yang jaraknya paling jauh 4,5 unit menggunakan metrik jarak EUCLIDEAN:

Python

from google.cloud.firestore_v1.base_vector_query import DistanceMeasure
from google.cloud.firestore_v1.vector import Vector

collection = db.collection("coffee-beans")

vector_query = collection.find_nearest(
    vector_field="embedding_field",
    query_vector=Vector([0.3416704, 0.18332680, 0.24160706]),
    distance_measure=DistanceMeasure.EUCLIDEAN,
    limit=10,
    distance_threshold=4.5,
)

docs = vector_query.stream()

for doc in docs:
    print(f"{doc.id}")vector_search.py

Node.js

const vectorQuery: VectorQuery = coll.findNearest({
  vectorField: 'embedding_field',
  queryVector: [3.0, 1.0, 2.0],
  limit: 10,
  distanceMeasure: 'EUCLIDEAN',
  distanceThreshold: 4.5
});

const snapshot: VectorQuerySnapshot = await vectorQuery.get();

snapshot.forEach((doc) => {
  console.log(doc.id);
});

Go

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/firestore"
)

func vectorSearchDistanceThreshold(w io.Writer, projectID string) error {
	ctx := context.Background()

	client, err := firestore.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("firestore.NewClient: %w", err)
	}
	defer client.Close()

	collection := client.Collection("coffee-beans")

	// Requires a vector index
	// https://firebase.google.com/docs/firestore/vector-search#create_and_manage_vector_indexes
	vectorQuery := collection.FindNearest("embedding_field",
		[]float32{3.0, 1.0, 2.0},
		10,
		firestore.DistanceMeasureEuclidean,
		&firestore.FindNearestOptions{
			DistanceThreshold: firestore.Ptr[float64](4.5),
		})

	docs, err := vectorQuery.Documents(ctx).GetAll()
	if err != nil {
		fmt.Fprintf(w, "failed to get vector query results: %v", err)
		return err
	}

	for _, doc := range docs {
		fmt.Fprintln(w, doc.Data()["name"])
	}
	return nil
}
vector_search_distance_threshold.go

Java

import com.google.cloud.firestore.VectorQuery;
import com.google.cloud.firestore.VectorQueryOptions;
import com.google.cloud.firestore.VectorQuerySnapshot;

VectorQuery vectorQuery = coll.findNearest(
        "embedding_field",
        new double[] {3.0, 1.0, 2.0},
        /* limit */ 10,
        VectorQuery.DistanceMeasure.EUCLIDEAN,
        VectorQueryOptions.newBuilder()
          .setDistanceThreshold(4.5)
          .build());

ApiFuture<VectorQuerySnapshot> future = vectorQuery.get();
VectorQuerySnapshot vectorQuerySnapshot = future.get();

for (DocumentSnapshot document : vectorQuerySnapshot.getDocuments()) {
    System.out.println(document.getId());
}

Batasan

Saat Anda bekerja dengan embedding vektor, perhatikan batasan berikut ini:

Dimensi embedding maksimal yang didukung adalah 2048. Untuk menyimpan indeks yang lebih besar, gunakan pengurangan dimensi.
Jumlah maksimal dokumen untuk ditampilkan dari kueri tetangga terdekat adalah 1.000.
Penelusuran vektor tidak mendukung pemroses snapshot real-time.
Hanya library klien Python, Node.js, Go, dan Java yang mendukung penelusuran vektor.

Langkah berikutnya

Baca praktik terbaik untuk Cloud Firestore.
Memahami pembacaan dan penulisan dalam skala besar.

Menelusuri dengan embedding vektor Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Sebelum memulai

Menyimpan embedding vektor

Operasi tulis dengan embedding vektor

Python

Node.js

Go

Java

Menghitung embedding vektor dengan Cloud Function

Python

Node.js

Go

Java

Membuat dan mengelola indeks vektor

Membuat indeks vektor

Konsol Google Cloud

gcloud

Mencantumkan semua indeks vektor

Konsol Google Cloud

gcloud

Menghapus indeks vektor

Konsol Google Cloud

gcloud

Membuat kueri tetangga terdekat

Python

Node.js

Go

Java

Jarak vektor

Memilih ukuran jarak

Pra-filter dokumen

Python

Node.js

Go

Java

Mengambil jarak vektor yang dihitung

Python

Node.js

Go

Java

Python

Node.js

Go

Java

Menentukan nilai minimum jarak

Python

Node.js

Go

Java

Batasan

Langkah berikutnya

Menelusuri dengan embedding vektor