Ir a la consola

Identifica el idioma de un texto con el Kit de AA en Android

Puedes usar el Kit de AA para identificar el idioma de una string de texto. Puedes obtener el idioma más probable de la string o las puntuaciones de confianza de todos sus posibles idiomas.

El Kit de AA reconoce texto en 103 idiomas en sus alfabetos nativos. Además, puede reconocer texto latinizado en idiomas como el árabe, búlgaro, chino, griego, hindi, japonés y ruso.

Consulta la muestra de inicio rápido del Kit de AA en GitHub para ver un ejemplo de esta API en uso.

Antes de comenzar

  1. Si aún no lo has hecho, agrega Firebase a tu proyecto de Android.
  2. Agrega las dependencias para las bibliotecas de Android del Kit de AA al archivo Gradle, generalmente “app/build.gradle”, de tu módulo (nivel de app):
    dependencies {
      // ...
    
      implementation 'com.google.firebase:firebase-ml-natural-language:18.1.1'
      implementation 'com.google.firebase:firebase-ml-natural-language-language-id-model:18.0.2'
    }
    

Identifica el idioma de una string

Para identificar el idioma de una string, obtén una instancia de FirebaseLanguageIdentification y pasa la string al método identifyLanguage().

Por ejemplo:

FirebaseLanguageIdentification languageIdentifier =
        FirebaseNaturalLanguage.getInstance().getLanguageIdentification();
languageIdentifier.identifyLanguage(text)
      .addOnSuccessListener(
          new OnSuccessListener<String>() {
            @Override
            public void onSuccess(@Nullable String languageCode) {
              if (languageCode != "und") {
                Log.i(TAG, "Language: " + languageCode);
              } else {
                Log.i(TAG, "Can't identify language.");
              }
            }
          })
      .addOnFailureListener(
          new OnFailureListener() {
            @Override
            public void onFailure(@NonNull Exception e) {
              // Model couldn’t be loaded or other internal error.
              // ...
            }
          });

Si la llamada se ejecuta correctamente, se pasa un código de idioma BCP-47 al agente de escucha que detecta el resultado correcto, el que indica el idioma del texto. Consulta la lista completa de idiomas admitidos. Si no se pudo detectar un idioma con confianza, se pasa el código und (indeterminado).

Según la configuración predeterminada, el Kit de AA muestra un valor distinto de und solo cuando identifica el idioma con un valor de confianza de al menos 0.5. Para cambiar este umbral, pasa un objeto FirebaseLanguageIdentificationOptions a getLanguageIdentification() de la siguiente manera:

FirebaseLanguageIdentification languageIdentifier = FirebaseNaturalLanguage
        .getInstance()
        .getLanguageIdentification(
                new FirebaseLanguageIdentificationOptions.Builder()
                        .setIdentifyLanguageConfidenceThreshold(0.34f)
                        .build());

Obtén los posibles idiomas de una string

Para ver los valores de confianza de los idiomas más probables de una string, obtén una instancia de FirebaseLanguageIdentification y, luego, pasa la string al método identifyAllLanguages().

Por ejemplo:

FirebaseLanguageIdentification languageIdentifier =
        FirebaseNaturalLanguage.getInstance().getLanguageIdentification();
languageIdentifier.identifyAllLanguages(text)
      .addOnSuccessListener(
          new OnSuccessListener<String>() {
            @Override
            public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) {
              for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) {
                String language = identifiedLanguage.getLanguageCode();
                float confidence = identifiedLanguage.getConfidence();
                Log.i(TAG, language + " (" + confidence + ")");
              }
            }
          })
      .addOnFailureListener(
          new OnFailureListener() {
            @Override
            public void onFailure(@NonNull Exception e) {
              // Model couldn’t be loaded or other internal error.
              // ...
            }
          });

Si la llamada se ejecuta correctamente, se pasa una lista de objetos IdentifiedLanguage al agente de escucha que detecta el resultado correcto. Podrás obtener el código BCP-47 del idioma en cada objeto y estar seguro de que la string está en ese idioma. Consulta la lista completa de idiomas admitidos. Ten en cuenta que estos valores señalan con seguridad que la string completa está en el idioma determinado. El Kit de AA no identifica varios idiomas en una sola string.

Según la configuración predeterminada, el Kit de AA solo muestra los idiomas con valores de confianza de al menos 0.01. Para cambiar este umbral, pasa un objeto FirebaseLanguageIdentificationOptions a getLanguageIdentification() de la siguiente manera:

FirebaseLanguageIdentification languageIdentifier = FirebaseNaturalLanguage
        .getInstance()
        .getLanguageIdentification(
                new FirebaseLanguageIdentificationOptions.Builder()
                        .setIdentifyAllLanguagesConfidenceThreshold(0.5f)
                        .build());

Si ningún idioma alcanza este umbral, la lista solo contendrá un elemento con el valor und.