SQL Connect की मदद से, पूरे टेक्स्ट में खोज करना

Firebase SQL Connect PostgreSQL की मदद से पूरे टेक्स्ट की खोज की सुविधा देता है. पूरे टेक्स्ट की खोज की सुविधा से, बड़े डेटासेट में मौजूद जानकारी को तेज़ी से और आसानी से ढूंढा जा सकता है. इसके लिए, एक साथ कई कॉलम में कीवर्ड और वाक्यांश खोजे जा सकते हैं.

अपनी सेवा में, पूरे टेक्स्ट की खोज की सुविधा जोड़ी जा सकती है. इसके लिए, अपने स्कीमा में मौजूद उस String में @searchable डायरेक्टिव जोड़ें जिसमें आपको खोजना है. उदाहरण के लिए:

type Movie
  @table {

  # The fields you want to search over
  title: String! @searchable
  genre: String @searchable
  description: String @searchable
  tags: [String]

  # Some other fields that we won't search over
  rating: Float
  imageUrl: String!
  releaseYear: Int
}

यह डायरेक्टिव जोड़ने के बाद, क्वेरी में <pluralType>_search फ़ील्ड जोड़कर, पूरे टेक्स्ट की खोज की जा सकती है. इस मामले में, यह movies_search होगा:

query SearchMovies($query: String) @auth(level: PUBLIC) {
  movies_search(query: $query) {
    id
    title
    imageUrl
    releaseYear
    genre
    rating
    tags
    description
  }
}

पूरे टेक्स्ट की खोज के नतीजों को बेहतर बनाना

@searchable डायरेक्टिव और _search फ़ील्ड में आर्ग्युमेंट जोड़कर, पूरे टेक्स्ट की खोज के नतीजों को बेहतर बनाया जा सकता है.

शेयर किए गए आर्ग्युमेंट

बुनियादी सूची वाले फ़ील्ड <pluralType> के लिए इस्तेमाल किए जाने वाले कई आर्ग्युमेंट की मदद से, खोज के नतीजों को कंट्रोल किया जा सकता है:

  • order से नतीजों का क्रम बदला जा सकता है. अगर इसे शामिल नहीं किया जाता है, तो नतीजे, काम के होने के क्रम में दिखाए जाएंगे.
  • where से खोज में अतिरिक्त फ़िल्टर जोड़े जा सकते हैं. जैसे, सिर्फ़ किसी खास शैली की फ़िल्में खोजना .
  • limit से क्वेरी में सिर्फ़ शुरुआती X नतीजे दिखाए जाएंगे.
  • offset से क्वेरी में शुरुआती X नतीजे छोड़ दिए जाएंगे.
  • distinct से जनरेट किए गए SQL में, DISTINCT ऑपरेटर जुड़ जाएगा.

भाषा चुनना

डिफ़ॉल्ट रूप से, पूरे टेक्स्ट की खोज की सुविधा, दस्तावेज़ों को अंग्रेज़ी में पार्स करती है. @searchable डायरेक्टिव पर भाषा का आर्ग्युमेंट देकर, इसे बदला जा सकता है:

type Movie
  @table {
  title: String! @searchable(language: "french")
  ...
}

सही भाषा चुनने से, PostgreSQL सटीक लेक्सिकल स्टेमिंग कर पाएगा. साथ ही, यह पक्का करने में मदद मिलेगी कि आपकी खोज में काम के नतीजे न छूटें. अगर एक से ज़्यादा कॉलम में खोज की जा रही है, तो उन सभी के लिए एक ही भाषा सेट होनी चाहिए.

भाषाएं
  • सरल
  • ऐरेबिक
  • आर्मीनियन
  • बैस्क
  • कैटलैन
  • डैनिश
  • डच
  • इंग्लिश
  • फ़िनिश
  • फ़्रांसीसी
  • जर्मन
  • ग्रीक
  • हिन्दी
  • हंगेरियन
  • इंडोनेशियन
  • आयरिश
  • इटैलियन
  • लिथुएनियन
  • नेपाली
  • नॉर्वीजन

psql का इस्तेमाल करके, यहां दी गई क्वेरी से पूरी सूची पाई जा सकती है.

SELECT cfgname FROM pg_ts_config;

क्वेरी का फ़ॉर्मैट

डिफ़ॉल्ट रूप से, पूरे टेक्स्ट की खोज की सुविधा, क्वेरी के लिए वेब सिमैंटिक्स का इस्तेमाल करती है. यह Google Search की तरह काम करती है. <pluralType>_search फ़ील्ड पर queryFormat आर्ग्युमेंट देकर, इसे बदला जा सकता है.

query SearchMovies($query: String) @auth(level: PUBLIC) {
  movies_search(query: $query, queryFormat: PHRASE) {
    ...
  }
}

क्वेरी के फ़ॉर्मैट के लिए चार विकल्प हैं:

  • QUERY से वेब सर्च इंजन को जाने-पहचाने सिमैंटिक्स मिलते हैं. जैसे, कोट किए गए स्ट्रिंग, AND, और OR. यह डिफ़ॉल्ट रूप से सेट होता है.
  • PLAIN से सभी शब्दों का मिलान होता है. हालांकि, ज़रूरी नहीं है कि वे एक साथ हों. जैसे, "brown dog" का मिलान "the brown and white dog" या "the white and brown dog" से होगा.
  • PHRASE से किसी वाक्यांश का सटीक मिलान होता है. जैसे, "brown dog" का मिलान "the white and brown dog" से होगा, लेकिन "brown and white dog" से नहीं.
  • ADVANCED से tsquery ऑपरेटर के पूरे सेट का इस्तेमाल करके, जटिल क्वेरी बनाई जा सकती हैं.

काम के होने का थ्रेशोल्ड

काम के होने का थ्रेशोल्ड सेट करने का मतलब है कि आपकी खोज में सिर्फ़ वे नतीजे दिखेंगे जो काम के होने की तय वैल्यू से ज़्यादा हैं. ज़्यादातर मामलों में, आपको यह सेट करने की ज़रूरत नहीं होगी. काम के होने की वैल्यू 0 से ज़्यादा होने पर, कोई भी नतीजा काम का माना जाएगा.

हालांकि, अगर आपको लगता है कि आपकी खोज में ऐसे नतीजे दिख रहे हैं जो काम के नहीं हैं, तो काम के होने का थ्रेशोल्ड सेट करके उन्हें फ़िल्टर किया जा सकता है.

काम के होने के थ्रेशोल्ड के लिए सही वैल्यू पता करने के लिए, आपको कुछ टेस्ट खोजें करनी चाहिए. साथ ही, _metadata.relevance देखना चाहिए:

query SearchMovies($query: String) @auth(level: PUBLIC) {
  movies_search(query: $query) {
    id
    title
    _metadata {
      relevance
    }
    ...
  }
}

ऐसा थ्रेशोल्ड चुनें जिससे वे नतीजे न दिखें जो आपको काम के नहीं लगते. इसके लिए:

query SearchMovies($query: String) @auth(level: PUBLIC) {
  movies_search(query: $query, relevanceThreshold: 0.05) {
    id
    title
    ...
  }
}

पूरे टेक्स्ट की खोज, वेक्टर सिमिलैरिटी सर्च, और स्ट्रिंग पैटर्न फ़िल्टर में से किसी एक को चुनना

SQL Connect आपके डेटाबेस में खोज करने के कुछ अलग-अलग तरीके उपलब्ध कराता है.

अपनी ज़रूरत के हिसाब से सही तरीका चुनने के लिए, इस टेबल का इस्तेमाल करें.

पूरे टेक्स्ट की खोज वेक्टर सिमिलैरिटी सर्च स्ट्रिंग पैटर्न फ़िल्टर
सामान्य खोज की सुविधा लागू करने के लिए बेहतर सिमैंटिक तौर पर मिलती-जुलती लाइनें ढूंढने के लिए बेहतर. जैसे, सुझाव या 'इसी तरह के अन्य नतीजे' सटीक टेक्स्ट मैच या रेगुलर एक्सप्रेशन खोज के लिए बेहतर
लेक्सिकल स्टेमिंग करता है. इससे एक ही शब्द के अलग-अलग फ़ॉर्म या टेंस का मिलान करने में मदद मिलती है इसके लिए Vertex AI की ज़रूरत होती है इसमें सबसे कम मेमोरी और डिस्क स्पेस का इस्तेमाल होता है, क्योंकि इसके लिए किसी इंडेक्स या जनरेट किए गए कॉलम की ज़रूरत नहीं होती
किसी टेबल में एक से ज़्यादा कॉलम में खोज की जा सकती है एक बार में सिर्फ़ एक कॉलम के लिए काम करता है OR फ़िल्टर का इस्तेमाल करके, किसी टेबल में एक से ज़्यादा कॉलम में खोज की जा सकती है
बड़े दस्तावेज़ों में बेहतर परफ़ॉर्म करता है बड़े दस्तावेज़ों में बेहतर परफ़ॉर्म करता है बड़े दस्तावेज़ों में खोज करने पर, कम बेहतर परफ़ॉर्म करता है
हर खोज के लिए, जनरेट किए गए कॉलम और इंडेक्स को स्टोर करने के लिए, मेमोरी और स्टोरेज ओवरहेड जोड़ता है