Bonnes pratiques pour le chargement groupé de données

Cette page décrit les bonnes pratiques à suivre lors du chargement groupé de données dans Cloud Firestore avec des outils tels que mongoimport.

Cloud Firestore est un système hautement distribué qui offre un scaling automatique pour répondre aux besoins de votre entreprise. Cloud Firestore divise et combine dynamiquement vos données en fonction de la charge reçue par le système.

La division basée sur la charge se produit automatiquement, sans préconfiguration requise. Le système de division basé sur la charge Cloud Firestore présente des caractéristiques importantes et uniques par rapport à d'autres bases de données de documents. Il est important de les garder à l'esprit lorsque vous modélisez vos données.

La nature distribuée de Cloud Firestore peut nécessiter de modifier certains choix de conception pour changer, en particulier pour les charges de travail optimisées pour les bases de données où le réplica principal est le goulot d'étranglement pour le débit d'écriture.

Bonnes pratiques

Les charges de travail qui traitent de grandes quantités de données dans un client à thread unique peuvent créer un goulot d'étranglement. Les clients peuvent utiliser un thread unique pour charger des données en bloc, car le débit du client et du serveur sont similaires. Une base de données Cloud Firestore peut gérer beaucoup plus de parallélisme, mais vous devez configurer les clients pour qu'ils envoient des requêtes en parallèle.

mongoimport

Lorsque vous utilisez l'outil mongoimport, les requêtes sont effectuées de manière séquentielle par défaut. Pour améliorer le temps de chargement dans Cloud Firestore, définissez le nombre de nœuds de calcul à l'aide de l'indicateur --numInsertionWorkers. Le paramètre approprié peut nécessiter un ajustement en fonction de la taille de votre client, mais nous vous recommandons généralement de commencer par au moins 32.

Programmation asynchrone

Lorsque vous développez votre propre logiciel à l'aide d'opérations compatibles avec MongoDB, vous pouvez améliorer le parallélisme de différentes manières :

  • Frameworks asynchrones : les frameworks asynchrones vous permettent de traiter les requêtes et d'y répondre en parallèle. Il n'est pas nécessaire de développer une mise en pool ou une mise en file d'attente complexe lorsque vous effectuez des appels à votre base de données. Chaque flux de requêtes peut utiliser des connexions indépendantes et effectuer ses appels de base de données en parallèle.
  • Utiliser des offres de calcul parallélisées : en utilisant des services tels que Cloud Run, votre système peut mettre à l'échelle le nombre de nœuds de calcul requis pour traiter les données.

Échecs temporaires

Lorsque vous travaillez avec un grand système distribué tel que Cloud Firestore, vous pouvez rencontrer des échecs temporaires, tels que des problèmes de réseau ou des conflits sur un document.

Lorsque vous chargez en bloc de grandes quantités d'informations, il est important de maintenir une stratégie de nouvelle tentative pour les écritures ayant échoué sans que l'opération de chargement groupé plus importante échoue.