इस सुविधा में वेक्टर एम्बेडिंग का इस्तेमाल किया जाता है. ये फ़्लोटिंग पॉइंट नंबर के ऐसे ऐरे होते हैं जो टेक्स्ट या मीडिया के सिमैंटिक मतलब को दिखाते हैं. इनपुट वेक्टर एम्बेडिंग का इस्तेमाल करके, आस-पास के पड़ोसी की खोज करने से, सिमैंटिक तौर पर मिलते-जुलते सभी कॉन्टेंट को खोजा जा सकता है. SQL Connect इस सुविधा के लिए PostgreSQL के
pgvector एक्सटेंशन का इस्तेमाल करता है.
सिमैंटिक सर्च की इस सुविधा का इस्तेमाल, सुझाव देने वाले इंजन और सर्च इंजन जैसे इस्तेमाल के उदाहरणों के लिए किया जा सकता है. यह जनरेटिव एआई फ़्लो में, जानकारी पाने के लिए इस्तेमाल की जाने वाली जनरेटिव एआई की सुविधा का एक अहम कॉम्पोनेंट भी है. ज़्यादा जानने के लिए, Vertex AI का दस्तावेज़ देखें learn more.
SQL Connect में, Vertex AI के Embeddings API का इस्तेमाल करके, वेक्टर एम्बेडिंग को अपने-आप जनरेट करने की सुविधा मौजूद है. इसके अलावा, इस API का इस्तेमाल करके, वेक्टर एम्बेडिंग को मैन्युअल तरीके से भी जनरेट किया जा सकता है.
ज़रूरी शर्तें
अपने प्रोजेक्ट के लिए सेट अप SQL Connect करें.
सेटअप
आपके पास लोकल डेवलपमेंट फ़्लो (अगर आप वेब, Kotlin Android या iOS डेवलपर हैं) या IDX फ़्लो (वेब डेवलपर के लिए) में से कोई एक विकल्प चुनने की सुविधा है. डेवलपमेंट के लिए, लोकल डेटाबेस या अपने प्रोडक्शन SQL Connect प्रोजेक्ट और उसके Cloud SQL PostgreSQL इंस्टेंस का इस्तेमाल किया जा सकता है.
इन निर्देशों में यह माना गया है कि आपने शुरुआती गाइड में दिए गए निर्देशों के मुताबिक, अपना SQL Connect प्रोजेक्ट बना लिया है.
लोकल PostgreSQL के साथ इंटिग्रेट करना
PostgreSQL का लोकल इंस्टेंस सेट अप करें.
अपने एनवायरमेंट में, Google Cloud ऐप्लिकेशन के डिफ़ॉल्ट क्रेडेंशियल सेट अप करें.
PostgreSQL के लोकल इंस्टेंस में,
pgvectorएक्सटेंशन इंस्टॉल करें.pgvectorरिपॉज़िटरी के निर्देशों के मुताबिक,CREATE EXTENSION vectorका इस्तेमाल करके एक्सटेंशन चालू करें.
IDX के साथ इंटिग्रेट करना
SQL Connect टेंप्लेट का इस्तेमाल करके, अपना IDX वर्कस्पेस सेट अप करें.
pgvectorरिपॉज़िटरी के निर्देशों के मुताबिक,CREATE EXTENSION vectorका इस्तेमाल करके एक्सटेंशन चालू करें.
अपना स्कीमा डिज़ाइन करना
वेक्टर सर्च करने के लिए, अपने स्कीमा में Vector टाइप का नया फ़ील्ड जोड़ें. उदाहरण के लिए, अगर आपको फ़िल्मों के ब्यौरे का इस्तेमाल करके सिमैंटिक सर्च करना है, तो फ़िल्म के ब्यौरे से जुड़े वेक्टर एम्बेडिंग को सेव करने के लिए एक फ़ील्ड जोड़ें. इस
स्कीमा में, descriptionEmbedding को
description फ़ील्ड के लिए वेक्टर एम्बेडिंग सेव करने के लिए जोड़ा गया है.
type Movie @table {
id: ID! @col(name: "movie_id") @default(id: ID! @col(name: "movie_id") @default(expr: "uuidV4()")
title: String!
description: String
descriptionEmbedding: Vector! @col(size:768)
// ...
}
एम्बेडिंग जनरेट करना और वापस पाना
SQL Connect में, _embed सर्वर वैल्यू का इस्तेमाल करके, वेक्टर एम्बेडिंग के लिए इंटिग्रेटेड सहायता मिलती है. इससे SQL Connect Vertex AI के Embedding API को इंटरनल तौर पर कॉल करके,
वेक्टर एम्बेडिंग जनरेट करता है. _embed सर्वर वैल्यू का इस्तेमाल, म्यूटेशन और क्वेरी, दोनों में किया जा सकता है.
म्यूटेशन
SQL Connect की मदद से एम्बेडिंग जनरेट करना और सेव करना
वेक्टर सर्च करने वाले ऐप्लिकेशन में, शायद आपको यह अनुरोध करना हो कि डेटाबेस में रिकॉर्ड जोड़ने के तुरंत बाद, एम्बेडिंग जनरेट किए जाएं. यहां दिया गया createMovie
म्यूटेशन, Movie टेबल में फ़िल्म का रिकॉर्ड जोड़ता है. साथ ही, इसमें फ़िल्म का
ब्यौरा और एम्बेडिंग model भी शामिल होता है.
mutation createMovie($title: String!, $description: String!) {
movie_insert(data: {
title: $title,
description: $description,
descriptionEmbedding_embed: {model: "textembedding-gecko@003", text: $description}
})
}
कुछ मामलों में, आपको फ़िल्म के ब्यौरे और एम्बेडिंग को अपडेट करना पड़ सकता है.
mutation updateDescription($id: String!, $description: String!) {
movie_update(id: $id, data: {
description: $description,
descriptionEmbedding_embed: {model: "textembedding-gecko@003", text: $description}
})
}
क्लाइंट से दूसरे म्यूटेशन को कॉल करने के लिए:
import { updateMovieDescription } from 'lib/dataconnect-sdk/';
await updateMovieDescription({ id: movieId, description: description});
// Use the response
क्वेरी
वेक्टर एम्बेडिंग पाने के लिए, यहां दी गई क्वेरी का इस्तेमाल करें. ध्यान दें कि क्वेरी से मिलने वाला descriptionEmbedding, फ़्लोट का एक ऐरे होता है. आम तौर पर, इसे पढ़ा नहीं जा सकता. इसलिए, SQL Connect जनरेट किए गए एसडीके, इसे सीधे तौर पर वापस पाने की सुविधा के साथ काम नहीं करते.
मिलते-जुलते कॉन्टेंट को खोजने के लिए, वापस पाए गए वेक्टर एम्बेडिंग का इस्तेमाल किया जा सकता है. इसके बारे में अगले सेक्शन में बताया गया है.
query getMovieDescription($id: String!) @auth(level: PUBLIC) {
movie(id: $id)
id
description
descriptionEmbedding
}
मिलते-जुलते कॉन्टेंट को खोजना
अब मिलते-जुलते कॉन्टेंट को खोजा जा सकता है.
हर Vector फ़ील्ड के लिए, SQL Connect एक GraphQL फ़ंक्शन जनरेट करता है
. यह फ़ंक्शन, मिलते-जुलते कॉन्टेंट को खोजने की सुविधा को लागू करता है. जनरेट किए गए इस फ़ंक्शन का नाम ${pluralType}_${vectorFieldName}_similarity होता है. यह कुछ पैरामीटर के साथ काम करता है.
इनके बारे में यहां दिए गए उदाहरणों और रेफ़रंस सूची में बताया गया है.
एक GraphQL फ़ंक्शन तय किया जा सकता है, जो मिलते-जुलते कॉन्टेंट को खोजने की सुविधा को लागू करता है. जैसा कि ऊपर बताया गया है, _embed सर्वर वैल्यू, SQL Connect को Vertex AI के Embedding API का इस्तेमाल करके, वेक्टर एम्बेडिंग जनरेट करने का निर्देश देती है. इस मामले में, फ़िल्म के ब्यौरे के एम्बेडिंग के साथ तुलना करने के लिए इस्तेमाल की गई खोज स्ट्रिंग के लिए एम्बेडिंग जनरेट करने का निर्देश दिया जाता है.
इस उदाहरण में, मिलते-जुलते कॉन्टेंट को खोजने की सुविधा, ज़्यादा से ज़्यादा पांच ऐसी फ़िल्में दिखाएगी जिनका ब्यौरा, इनपुट क्वेरी से सिमैंटिक तौर पर सबसे ज़्यादा मिलता-जुलता है. नतीजों के सेट को दूरी के बढ़ते क्रम में क्रम से लगाया जाता है. इसमें सबसे पास के नतीजे सबसे पहले और सबसे दूर के नतीजे सबसे आखिर में दिखते हैं.
query searchMovieDescriptionUsingL2Similarity ($query: String!) @auth(level: PUBLIC) {
movies_descriptionEmbedding_similarity(
compare_embed: {model: "textembedding-gecko@003", text: $query},
where: {content: {ne: "No info available for this movie."}}, limit: 5)
{
id
title
description
}
}
मिलते-जुलते कॉन्टेंट को खोजने की क्वेरी को बेहतर बनाना
method और within जैसे खोज पैरामीटर की डिफ़ॉल्ट वैल्यू, ज़्यादातर इस्तेमाल के उदाहरणों के लिए सही काम करती हैं. हालांकि, अगर आपको लगता है कि आपकी क्वेरी ऐसे नतीजे दिखा रही है जो बहुत अलग हैं या ऐसे नतीजे नहीं दिखा रही है जिन्हें आपको शामिल करना है, तो इन पैरामीटर को बेहतर बनाने की कोशिश करें.
within के लिए सही वैल्यू ढूंढने के लिए, चुने गए फ़ील्ड में _metadata.distance जोड़ा जा सकता है. इससे यह पता चलता है कि हर नतीजा, क्वेरी वेक्टर से कितनी दूर है. वापस मिली distance वैल्यू के आधार पर, within पैरामीटर सेट किया जा सकता है. इसमें सिर्फ़ वे नतीजे शामिल किए जाएंगे जिनकी दूरी, within की वैल्यू से कम होगी:
query searchMovieDescriptionUsingL2Similarity ($query: String!) @auth(level: PUBLIC) {
movies_descriptionEmbedding_similarity(
compare_embed: {model: "textembedding-gecko@003", text: $query},
within: 2,
where: {content: {ne: "No info available for this movie."}}, limit: 5)
{
id
title
description
_metadata {
distance
}
}
}
method पैरामीटर सेट करके, दूरी के अलग-अलग फ़ंक्शन का भी इस्तेमाल किया जा सकता है.
query searchMovieDescriptionUsingL2Similarity ($query: String!) @auth(level: PUBLIC) {
movies_descriptionEmbedding_similarity(
compare_embed: {model: "textembedding-gecko@003", text: $query},
within: .5,
method: COSINE,
where: {content: {ne: "No info available for this movie."}}, limit: 5)
{
id
title
description
_metadata {
distance
}
}
}
ध्यान दें कि अलग-अलग तरीकों से, दूरी की अलग-अलग वैल्यू मिलती हैं. अगर आपने within सेट किया है, तो method बदलने के बाद, आपको उस वैल्यू को फिर से बेहतर बनाना होगा.
मिलते-जुलते कॉन्टेंट को खोजने की क्वेरी को कॉल करना
क्लाइंट कोड से, मिलते-जुलते कॉन्टेंट को खोजने की क्वेरी को कॉल करने के लिए:
import { searchMovieDescriptionUsingL2similarity} from 'lib/dataconnect-sdk';
const response = await searchMovieDescriptionUsingL2similarity({ query });
// Use the response
कस्टम एम्बेडिंग का इस्तेमाल करना
SQL Connect में, एम्बेडिंग के लिए _embed सर्वर वैल्यू का इस्तेमाल करने के बजाय, उन्हें सीधे Vectors
के तौर पर इस्तेमाल किया जा सकता है.
कस्टम एम्बेडिंग सेव करना
Vertex Embeddings API का इस्तेमाल करके, मैचिंग मॉडल तय करें और सही डाइमेंशन के एम्बेडिंग के नतीजों का अनुरोध करें.
इसके बाद, सेव करने के लिए, अपडेट की कार्रवाई में पास करने के लिए, फ़्लोट के वापस मिले ऐरे को Vector में बदलें.
mutation updateDescription($id: String!, $description: String!, $descriptionEmbedding: Vector!) {
movie_update(id: $id, data: {
// title, genre...
description: $description,
descriptionEmbedding: $descriptionEmbedding
})
}
कस्टम एम्बेडिंग का इस्तेमाल करके, मिलते-जुलते कॉन्टेंट को खोजना
खोज के शब्दों के लिए एम्बेडिंग वापस पाने और उन्हें Vectors में बदलने के लिए, वही कार्रवाई करें.
इसके बाद, हर खोज के लिए, _similarity क्वेरी को कॉल करें.
query searchMovieDescriptionUsingL2Similarity($compare: Vector!, $within: Float, $excludesContent: String, $limit: Int) @auth(level: PUBLIC) {
movies_descriptionEmbedding_similarity(
compare: $compare,
method: L2,
within: $within,
where: {content: {ne: $excludesContent}}, limit: $limit)
{
id
title
description
}
}
प्रोडक्शन पर डिप्लॉय करना
अपना स्कीमा और कनेक्टर डिप्लॉय करना
किसी भी SQL Connect वर्शन को डिप्लॉय करने का आखिरी चरण, अपनी ऐसेट को प्रोडक्शन पर डिप्लॉय करना होता है.
firebase deploy कमांड का इस्तेमाल करके, Vector टाइप वाले स्कीमा को Cloud SQL
पर डिप्लॉय करते समय, Firebase CLI, आपके Cloud SQL इंस्टेंस पर Vertex AI की मदद से एम्बेडिंग जनरेट करने की सुविधा चालू करने के लिए ज़रूरी कार्रवाई करता है.
firebase deploy --only dataconnectअगर आपको अपने Cloud SQL इंस्टेंस में, एम्बेडिंग की सुविधा को मैन्युअल तरीके से चालू करना है या आपको CLI में कोई गड़बड़ी दिखती है, तो इन निर्देशों का पालन करें.
वेक्टर सर्च का सिंटैक्स
स्कीमा एक्सटेंशन
SQL Connect का Vector डेटा टाइप, PostgreSQL के vector टाइप पर मैप होता है
जो pgvector एक्सटेंशन से तय किया गया है.
PostgreSQL में, pgvector का vector टाइप, सिंगल प्रिसिशन फ़्लोटिंग
पॉइंट नंबर के ऐरे के तौर पर सेव होता है.
SQL Connect में, Vector टाइप को
JSON नंबर के ऐरे के तौर पर दिखाया जाता है. इनपुट को float32 वैल्यू के ऐरे में बदला जाता है. अगर बदलाव नहीं हो पाता है, तो गड़बड़ी का मैसेज दिखता है.
वेक्टर के डाइमेंशन सेट करने के लिए, @col डायरेक्टिव के साइज़ पैरामीटर का इस्तेमाल करें.
type Question @table {
text: String!
category: String!
textEmbedding: Vector! @col(size: 768)
}
size पैरामीटर, सिर्फ़ Vector टाइप के लिए काम करता है. Vector की कार्रवाइयों, जैसे कि मिलते-जुलते कॉन्टेंट को खोजने के लिए, यह ज़रूरी है कि सभी Vector में डाइमेंशन की संख्या एक जैसी हो.
directive @col(
# … existing args
"""
Defines a fixed column size for certain scalar types.
- For Vector, size is required.
- For all other types, size is currently unsupported and hence supplying it will result in a schema error.
"""
size: Int
) on FIELD_DEFINITION
क्वेरी और म्यूटेशन के लिए _embed सर्वर वैल्यू
_embed
इस सर्वर वैल्यू से, SQL Connect सेवा को एम्बेडिंग जनरेट करने और सेव करने का निर्देश मिलता है. इसके लिए, Vertex AI के Embedding API का इस्तेमाल किया जाता है. इस सर्वर वैल्यू का इस्तेमाल, क्वेरी और म्यूटेशन, दोनों में किया जा सकता है.
मिलते-जुलते कॉन्टेंट को खोजने के लिए पैरामीटर
method: COSINE|INNER_PRODUCT|L2
आस-पास के पड़ोसी को खोजने के लिए इस्तेमाल किया जाने वाला दूरी का फ़ंक्शन. फ़िलहाल, काम करने वाले एल्गोरिदम, pgvector के खोज एल्गोरिदम का सबसेट हैं.
within: float
दूरी पर एक पाबंदी, जिसके अंदर आस-पास के पड़ोसी को खोजा जाता है.
where: FDC filter condition
स्कीमा, क्वेरी, और म्यूटेशन के बारे में बताने वाली गाइड देखें .
limit: int
कितने नतीजे वापस पाने हैं, इसे बताने वाली संख्या.