Catch up on everything we announced at this year's Firebase Summit. Learn more

Безопасное распознавание текста в изображениях с помощью Cloud Vision с использованием Firebase Auth и функций на Android

Чтобы вызвать Google Cloud API из вашего приложения, вам необходимо создать промежуточный REST API, который обрабатывает авторизацию и защищает секретные значения, такие как ключи API. Затем вам нужно написать код в своем мобильном приложении для аутентификации и связи с этой промежуточной службой.

Одним из способов создания этого REST API является использование Firebase Authentication and Functions, что дает вам управляемый бессерверный шлюз к Google Cloud API, который обрабатывает аутентификацию и может быть вызван из вашего мобильного приложения с предварительно созданными SDK.

В этом руководстве показано, как использовать этот метод для вызова API Cloud Vision из вашего приложения. Этот метод позволит всем аутентифицированным пользователям получать доступ к платным сервисам Cloud Vision через ваш облачный проект, поэтому прежде чем продолжить, подумайте, достаточно ли этого механизма аутентификации для вашего варианта использования.

Прежде чем вы начнете

Сконфигурируйте свой проект

  1. Если вы еще не сделали, добавить Firebase в свой Android проекта .
  2. Если вы еще не включили облачные API для своего проекта, сделайте это сейчас:

    1. Откройте страницу Firebase ML APIs консоли Firebase.
    2. Если вы еще не модернизировал свой проект в плане ценовой Blaze, нажмите кнопку Обновить , чтобы сделать это. (Вам будет предложено выполнить обновление, только если ваш проект не входит в план Blaze.)

      Только проекты уровня Blaze могут использовать облачные API.

    3. Если API - интерфейсы на основе облака еще не включен, нажмите Включить API для облачных вычислений.
  3. Настройте существующие ключи Firebase API, чтобы запретить доступ к Cloud Vision API:
    1. Откройте Credentials страницу консоли Cloud.
    2. Для каждого ключа API в списке, откройте редактирование вид, и в разделе Основные Ограничения, добавить все доступные API , кроме Cloud API Видения к списку.

Разверните вызываемую функцию

Затем разверните облачную функцию, которую вы будете использовать для соединения вашего приложения и Cloud Vision API. functions-samples хранилище содержит пример , который вы можете использовать.

По умолчанию доступ к Cloud Vision API через эту функцию разрешает только аутентифицированным пользователям вашего приложения доступ к Cloud Vision API. Вы можете изменить функцию для различных требований.

Чтобы развернуть функцию:

  1. Клон или загрузить функции-образцы репо и изменения в vision-annotate-image каталога:
    git clone https://github.com/firebase/functions-samples
    cd vision-annotate-image
    
  2. Установка зависимостей:
    cd functions
    npm install
    cd ..
    
  3. Если вы не имеете Firebase CLI, установите его .
  4. Инициализировать проект Firebase в vision-annotate-image каталога. При появлении запроса выберите свой проект в списке.
    firebase init
  5. Развертывание функции:
    firebase deploy --only functions:annotateImage

Добавьте Firebase Auth в свое приложение

Вызываемая функция, развернутая выше, отклонит любой запрос от неаутентифицированных пользователей вашего приложения. Если вы еще не сделали этого, вам нужно будет добавить Firebase Auth к вашему приложению.

Добавьте необходимые зависимости в ваше приложение

  • Добавьте зависимости для функций Firebase и gson Android библиотеки для модуля (приложение уровня) Gradle файл (обычно приложение / build.gradle):
    implementation 'com.google.firebase:firebase-functions:20.0.1'
    implementation 'com.google.code.gson:gson:2.8.6'
    
  • Теперь вы готовы начать распознавать текст на изображениях.

    1. Подготовьте входное изображение.

    Чтобы вызвать Cloud Vision, изображение должно быть отформатировано как строка в кодировке base64. Чтобы обработать изображение из URI сохраненного файла:
    1. Получить изображение в виде Bitmap объекта:

      Джава

      Bitmap bitmap = MediaStore.Images.Media.getBitmap(getContentResolver(), uri);

      Котлин + KTX

      var bitmap: Bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)
    2. При желании уменьшите изображение, чтобы сэкономить на пропускной способности. Смотрите размеры изображения рекомендуется Облако Vision.

      Джава

      private Bitmap scaleBitmapDown(Bitmap bitmap, int maxDimension) {
          int originalWidth = bitmap.getWidth();
          int originalHeight = bitmap.getHeight();
          int resizedWidth = maxDimension;
          int resizedHeight = maxDimension;
      
          if (originalHeight > originalWidth) {
              resizedHeight = maxDimension;
              resizedWidth = (int) (resizedHeight * (float) originalWidth / (float) originalHeight);
          } else if (originalWidth > originalHeight) {
              resizedWidth = maxDimension;
              resizedHeight = (int) (resizedWidth * (float) originalHeight / (float) originalWidth);
          } else if (originalHeight == originalWidth) {
              resizedHeight = maxDimension;
              resizedWidth = maxDimension;
          }
          return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false);
      }

      Котлин + KTX

      private fun scaleBitmapDown(bitmap: Bitmap, maxDimension: Int): Bitmap {
          val originalWidth = bitmap.width
          val originalHeight = bitmap.height
          var resizedWidth = maxDimension
          var resizedHeight = maxDimension
          if (originalHeight > originalWidth) {
              resizedHeight = maxDimension
              resizedWidth =
                      (resizedHeight * originalWidth.toFloat() / originalHeight.toFloat()).toInt()
          } else if (originalWidth > originalHeight) {
              resizedWidth = maxDimension
              resizedHeight =
                      (resizedWidth * originalHeight.toFloat() / originalWidth.toFloat()).toInt()
          } else if (originalHeight == originalWidth) {
              resizedHeight = maxDimension
              resizedWidth = maxDimension
          }
          return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false)
      }

      Джава

      // Scale down bitmap size
      bitmap = scaleBitmapDown(bitmap, 640);

      Котлин + KTX

      // Scale down bitmap size
      bitmap = scaleBitmapDown(bitmap, 640)
    3. Преобразуйте объект растрового изображения в строку в кодировке base64:

      Джава

      // Convert bitmap to base64 encoded string
      ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
      bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream);
      byte[] imageBytes = byteArrayOutputStream.toByteArray();
      String base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP);

      Котлин + KTX

      // Convert bitmap to base64 encoded string
      val byteArrayOutputStream = ByteArrayOutputStream()
      bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream)
      val imageBytes: ByteArray = byteArrayOutputStream.toByteArray()
      val base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP)
    4. Изображение , представленное Bitmap объект должен быть в вертикальном положении, без дополнительного вращения требуется.

    2. Вызов вызываемой функции для распознавания текста.

    Для распознавания текста в изображении, вызовите вызываемую функцию, передавая запрос JSON Cloud видения .

    1. Сначала инициализируйте экземпляр облачных функций:

      Джава

      private FirebaseFunctions mFunctions;
      // ...
      mFunctions = FirebaseFunctions.getInstance();
      

      Котлин + KTX

      private lateinit var functions: FirebaseFunctions
      // ...
      functions = Firebase.functions
      
    2. Определите метод вызова функции:

      Джава

      private Task<JsonElement> annotateImage(String requestJson) {
          return mFunctions
                  .getHttpsCallable("annotateImage")
                  .call(requestJson)
                  .continueWith(new Continuation<HttpsCallableResult, JsonElement>() {
                      @Override
                      public JsonElement then(@NonNull Task<HttpsCallableResult> task) {
                          // This continuation runs on either success or failure, but if the task
                          // has failed then getResult() will throw an Exception which will be
                          // propagated down.
                          return JsonParser.parseString(new Gson().toJson(task.getResult().getData()));
                      }
                  });
      }
      

      Котлин + KTX

      private fun annotateImage(requestJson: String): Task<JsonElement> {
          return functions
                  .getHttpsCallable("annotateImage")
                  .call(requestJson)
                  .continueWith { task ->
                      // This continuation runs on either success or failure, but if the task
                      // has failed then result will throw an Exception which will be
                      // propagated down.
                      val result = task.result?.data
                      JsonParser.parseString(Gson().toJson(result))
                  }
      }
      
    3. Создайте запрос JSON. Облако Зрение API поддерживает два Типы обнаружения текста: TEXT_DETECTION и DOCUMENT_TEXT_DETECTION . Смотрите Облако Вижна OCR Docs разницы между этими двумя случаями использования.

      Джава

      // Create json request to cloud vision
      JsonObject request = new JsonObject();
      // Add image to request
      JsonObject image = new JsonObject();
      image.add("content", new JsonPrimitive(base64encoded));
      request.add("image", image);
      //Add features to the request
      JsonObject feature = new JsonObject();
      feature.add("type", new JsonPrimitive("TEXT_DETECTION"));
      // Alternatively, for DOCUMENT_TEXT_DETECTION:
      //feature.add("type", new JsonPrimitive("DOCUMENT_TEXT_DETECTION"));
      JsonArray features = new JsonArray();
      features.add(feature);
      request.add("features", features);
      

      Котлин + KTX

      // Create json request to cloud vision
      val request = JsonObject()
      // Add image to request
      val image = JsonObject()
      image.add("content", JsonPrimitive(base64encoded))
      request.add("image", image)
      //Add features to the request
      val feature = JsonObject()
      feature.add("type", JsonPrimitive("TEXT_DETECTION"))
      // Alternatively, for DOCUMENT_TEXT_DETECTION:
      // feature.add("type", JsonPrimitive("DOCUMENT_TEXT_DETECTION"))
      val features = JsonArray()
      features.add(feature)
      request.add("features", features)
      

      Необязательно предоставлять языковые подсказки , чтобы помочь с определением языка (см поддерживаемых языков ):

      Джава

      JsonObject imageContext = new JsonObject();
      JsonArray languageHints = new JsonArray();
      languageHints.add("en");
      imageContext.add("languageHints", languageHints);
      request.add("imageContext", imageContext);
      

      Котлин + KTX

      val imageContext = JsonObject()
      val languageHints = JsonArray()
      languageHints.add("en")
      imageContext.add("languageHints", languageHints)
      request.add("imageContext", imageContext)
      
    4. Наконец, вызовите функцию:

      Джава

      annotateImage(request.toString())
              .addOnCompleteListener(new OnCompleteListener<JsonElement>() {
                  @Override
                  public void onComplete(@NonNull Task<JsonElement> task) {
                      if (!task.isSuccessful()) {
                          // Task failed with an exception
                          // ...
                      } else {
                          // Task completed successfully
                          // ...
                      }
                  }
              });
      

      Котлин + KTX

      annotateImage(request.toString())
              .addOnCompleteListener { task ->
                  if (!task.isSuccessful) {
                      // Task failed with an exception
                      // ...
                  } else {
                      // Task completed successfully
                      // ...
                  }
              }
      

    3. Извлечь текст из блоков распознанного текста.

    Если операция распознавания текста завершается успешно, ответ JSON из BatchAnnotateImagesResponse будет возвращен в результате этой задачи. Текстовые аннотации могут быть найдены в fullTextAnnotation объекте.

    Вы можете получить распознанный текст в виде строки в text поле. Например:

    Джава

    JsonObject annotation = task.getResult().getAsJsonArray().get(0).getAsJsonObject().get("fullTextAnnotation").getAsJsonObject();
    System.out.format("%nComplete annotation:%n");
    System.out.format("%s%n", annotation.get("text").getAsString());
    

    Котлин + KTX

    val annotation = task.result!!.asJsonArray[0].asJsonObject["fullTextAnnotation"].asJsonObject
    System.out.format("%nComplete annotation:")
    System.out.format("%n%s", annotation["text"].asString)
    

    Вы также можете получить информацию, относящуюся к регионам изображения. Для каждого block , paragraph , word , и symbol , вы можете получить текст , признанный в регионе и ограничивающую координату области. Например:

    Джава

    for (JsonElement page : annotation.get("pages").getAsJsonArray()) {
        StringBuilder pageText = new StringBuilder();
        for (JsonElement block : page.getAsJsonObject().get("blocks").getAsJsonArray()) {
            StringBuilder blockText = new StringBuilder();
            for (JsonElement para : block.getAsJsonObject().get("paragraphs").getAsJsonArray()) {
                StringBuilder paraText = new StringBuilder();
                for (JsonElement word : para.getAsJsonObject().get("words").getAsJsonArray()) {
                    StringBuilder wordText = new StringBuilder();
                    for (JsonElement symbol : word.getAsJsonObject().get("symbols").getAsJsonArray()) {
                        wordText.append(symbol.getAsJsonObject().get("text").getAsString());
                        System.out.format("Symbol text: %s (confidence: %f)%n", symbol.getAsJsonObject().get("text").getAsString(), symbol.getAsJsonObject().get("confidence").getAsFloat());
                    }
                    System.out.format("Word text: %s (confidence: %f)%n%n", wordText.toString(), word.getAsJsonObject().get("confidence").getAsFloat());
                    System.out.format("Word bounding box: %s%n", word.getAsJsonObject().get("boundingBox"));
                    paraText.append(wordText.toString()).append(" ");
                }
                System.out.format("%nParagraph:%n%s%n", paraText);
                System.out.format("Paragraph bounding box: %s%n", para.getAsJsonObject().get("boundingBox"));
                System.out.format("Paragraph Confidence: %f%n", para.getAsJsonObject().get("confidence").getAsFloat());
                blockText.append(paraText);
            }
            pageText.append(blockText);
        }
    }
    

    Котлин + KTX

    for (page in annotation["pages"].asJsonArray) {
        var pageText = ""
        for (block in page.asJsonObject["blocks"].asJsonArray) {
            var blockText = ""
            for (para in block.asJsonObject["paragraphs"].asJsonArray) {
                var paraText = ""
                for (word in para.asJsonObject["words"].asJsonArray) {
                    var wordText = ""
                    for (symbol in word.asJsonObject["symbols"].asJsonArray) {
                        wordText += symbol.asJsonObject["text"].asString
                        System.out.format("Symbol text: %s (confidence: %f)%n",
                            symbol.asJsonObject["text"].asString, symbol.asJsonObject["confidence"].asFloat)
                    }
                    System.out.format("Word text: %s (confidence: %f)%n%n", wordText,
                        word.asJsonObject["confidence"].asFloat)
                    System.out.format("Word bounding box: %s%n", word.asJsonObject["boundingBox"])
                    paraText = String.format("%s%s ", paraText, wordText)
                }
                System.out.format("%nParagraph: %n%s%n", paraText)
                System.out.format("Paragraph bounding box: %s%n", para.asJsonObject["boundingBox"])
                System.out.format("Paragraph Confidence: %f%n", para.asJsonObject["confidence"].asFloat)
                blockText += paraText
            }
            pageText += blockText
        }
    }