Nhận dạng văn bản trong hình ảnh một cách an toàn nhờ Cloud Vision bằng tính năng Xác thực và các hàm trong Firebase trên Android

Để gọi một Google Cloud API qua ứng dụng, bạn cần tạo một API REST trung gian giúp xử lý việc uỷ quyền và bảo vệ các giá trị bí mật, chẳng hạn như khoá API. Sau đó, bạn cần viết mã trong ứng dụng di động của mình để xác thực và giao tiếp với dịch vụ trung gian này.

Một cách để tạo API REST này là sử dụng chức năng và tính năng Xác thực Firebase. Phương thức này cung cấp cho bạn một cổng vào không có máy chủ để truy cập vào Google Cloud API, giúp xử lý việc xác thực và có thể được gọi qua ứng dụng di động bằng SDK tạo sẵn.

Hướng dẫn này minh hoạ cách dùng kỹ thuật này để gọi API Cloud Vision từ ứng dụng của bạn. Phương thức này sẽ cho phép tất cả người dùng đã xác thực truy cập vào các dịch vụ có tính phí của Cloud Vision thông qua dự án Cloud của bạn. Vì vậy, hãy cân nhắc xem cơ chế xác thực này có đủ cho trường hợp sử dụng của bạn hay không trước khi tiếp tục.

Trước khi bắt đầu

Định cấu hình dự án

  1. Thêm Firebase vào dự án Android của bạn nếu bạn chưa thực hiện.
  2. Nếu bạn chưa bật API trên đám mây cho dự án của mình, hãy bật ngay:

    1. Mở trang API ML của Firebase trong bảng điều khiển của Firebase.
    2. Nếu bạn chưa nâng cấp dự án của mình lên Gói linh hoạt, hãy nhấp vào Nâng cấp để thực hiện việc này. (Bạn sẽ chỉ được nhắc nâng cấp nếu dự án của bạn không phải là Gói linh hoạt.)

      Chỉ các dự án cấp Blaze mới có thể sử dụng API trên đám mây.

    3. Nếu bạn chưa bật API trên đám mây, hãy nhấp vào Bật API dựa trên đám mây.
  3. Định cấu hình các khoá API Firebase hiện có để không cho phép truy cập vào Cloud Vision API:
    1. Mở trang Thông tin đăng nhập của bảng điều khiển Cloud.
    2. Đối với mỗi khoá API trong danh sách, hãy mở khung hiển thị chỉnh sửa. Trong phần Hạn chế khoá, hãy thêm tất cả API có sẵn ngoại trừ Cloud Vision API vào danh sách.

Triển khai hàm có thể gọi

Tiếp theo, hãy triển khai Cloud Function bạn sẽ sử dụng để làm cầu nối cho ứng dụng của mình và Cloud Vision API. Kho lưu trữ functions-samples chứa một ví dụ mà bạn có thể sử dụng.

Theo mặc định, việc truy cập Cloud Vision API thông qua chức năng này sẽ chỉ cho phép những người dùng đã xác thực trong ứng dụng của bạn truy cập vào Cloud Vision API. Bạn có thể sửa đổi hàm này theo các yêu cầu khác nhau.

Cách triển khai hàm:

  1. Sao chép hoặc tải kho lưu trữ hàm-mẫu xuống rồi thay đổi sang thư mục Node-1st-gen/vision-annotate-image:
    git clone https://github.com/firebase/functions-samples
    cd Node-1st-gen/vision-annotate-image
    
  2. Cài đặt phần phụ thuộc:
    cd functions
    npm install
    cd ..
    
  3. Nếu bạn chưa có Giao diện dòng lệnh (CLI) của Firebase, hãy cài đặt giao diện này.
  4. Khởi chạy một dự án Firebase trong thư mục vision-annotate-image. Khi được nhắc, hãy chọn dự án của bạn trong danh sách.
    firebase init
  5. Triển khai hàm:
    firebase deploy --only functions:annotateImage

Thêm tính năng Xác thực Firebase vào ứng dụng

Hàm có thể gọi được triển khai ở trên sẽ từ chối mọi yêu cầu của người dùng ứng dụng chưa được xác thực. Nếu chưa xác thực, bạn sẽ phải thêm tính năng Xác thực Firebase vào ứng dụng.

Thêm các phần phụ thuộc cần thiết vào ứng dụng

  • Thêm các phần phụ thuộc của thư viện Cloud Functions cho Firebase (ứng dụng) và gson Android vào tệp Gradle (ở cấp ứng dụng) trong mô-đun của bạn (thường là <project>/<app-module>/build.gradle.kts hoặc <project>/<app-module>/build.gradle):
    implementation("com.google.firebase:firebase-functions:21.0.0")
    implementation("com.google.code.gson:gson:2.8.6")
  • Bây giờ, bạn đã sẵn sàng bắt đầu nhận dạng văn bản trong hình ảnh.

    1. Chuẩn bị hình ảnh đầu vào

    Để gọi Cloud Vision, hình ảnh phải được định dạng dưới dạng một chuỗi được mã hoá base64. Cách xử lý hình ảnh từ URI tệp đã lưu:
    1. Lấy hình ảnh dưới dạng đối tượng Bitmap:

      Kotlin+KTX

      var bitmap: Bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)
      

      Java

      Bitmap bitmap = MediaStore.Images.Media.getBitmap(getContentResolver(), uri);
    2. Nếu muốn, hãy giảm kích thước hình ảnh để tiết kiệm băng thông. Hãy xem kích thước hình ảnh được đề xuất của Cloud Vision.

      Kotlin+KTX

      private fun scaleBitmapDown(bitmap: Bitmap, maxDimension: Int): Bitmap {
          val originalWidth = bitmap.width
          val originalHeight = bitmap.height
          var resizedWidth = maxDimension
          var resizedHeight = maxDimension
          if (originalHeight > originalWidth) {
              resizedHeight = maxDimension
              resizedWidth =
                  (resizedHeight * originalWidth.toFloat() / originalHeight.toFloat()).toInt()
          } else if (originalWidth > originalHeight) {
              resizedWidth = maxDimension
              resizedHeight =
                  (resizedWidth * originalHeight.toFloat() / originalWidth.toFloat()).toInt()
          } else if (originalHeight == originalWidth) {
              resizedHeight = maxDimension
              resizedWidth = maxDimension
          }
          return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false)
      }

      Java

      private Bitmap scaleBitmapDown(Bitmap bitmap, int maxDimension) {
          int originalWidth = bitmap.getWidth();
          int originalHeight = bitmap.getHeight();
          int resizedWidth = maxDimension;
          int resizedHeight = maxDimension;
      
          if (originalHeight > originalWidth) {
              resizedHeight = maxDimension;
              resizedWidth = (int) (resizedHeight * (float) originalWidth / (float) originalHeight);
          } else if (originalWidth > originalHeight) {
              resizedWidth = maxDimension;
              resizedHeight = (int) (resizedWidth * (float) originalHeight / (float) originalWidth);
          } else if (originalHeight == originalWidth) {
              resizedHeight = maxDimension;
              resizedWidth = maxDimension;
          }
          return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false);
      }

      Kotlin+KTX

      // Scale down bitmap size
      bitmap = scaleBitmapDown(bitmap, 640)

      Java

      // Scale down bitmap size
      bitmap = scaleBitmapDown(bitmap, 640);
    3. Chuyển đổi đối tượng bitmap thành một chuỗi được mã hoá base64:

      Kotlin+KTX

      // Convert bitmap to base64 encoded string
      val byteArrayOutputStream = ByteArrayOutputStream()
      bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream)
      val imageBytes: ByteArray = byteArrayOutputStream.toByteArray()
      val base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP)

      Java

      // Convert bitmap to base64 encoded string
      ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
      bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream);
      byte[] imageBytes = byteArrayOutputStream.toByteArray();
      String base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP);
    4. Hình ảnh mà đối tượng Bitmap biểu thị phải thẳng đứng và không cần xoay thêm.

    2. Gọi hàm có thể gọi để nhận dạng văn bản

    Để nhận dạng văn bản trong hình ảnh, hãy gọi hàm có thể gọi, truyền một yêu cầu Tầm nhìn đám mây JSON.

    1. Trước tiên, hãy khởi chạy một bản sao của Cloud Functions:

      Kotlin+KTX

      private lateinit var functions: FirebaseFunctions
      // ...
      functions = Firebase.functions
      

      Java

      private FirebaseFunctions mFunctions;
      // ...
      mFunctions = FirebaseFunctions.getInstance();
      
    2. Xác định phương thức gọi hàm:

      Kotlin+KTX

      private fun annotateImage(requestJson: String): Task<JsonElement> {
          return functions
              .getHttpsCallable("annotateImage")
              .call(requestJson)
              .continueWith { task ->
                  // This continuation runs on either success or failure, but if the task
                  // has failed then result will throw an Exception which will be
                  // propagated down.
                  val result = task.result?.data
                  JsonParser.parseString(Gson().toJson(result))
              }
      }
      

      Java

      private Task<JsonElement> annotateImage(String requestJson) {
          return mFunctions
                  .getHttpsCallable("annotateImage")
                  .call(requestJson)
                  .continueWith(new Continuation<HttpsCallableResult, JsonElement>() {
                      @Override
                      public JsonElement then(@NonNull Task<HttpsCallableResult> task) {
                          // This continuation runs on either success or failure, but if the task
                          // has failed then getResult() will throw an Exception which will be
                          // propagated down.
                          return JsonParser.parseString(new Gson().toJson(task.getResult().getData()));
                      }
                  });
      }
      
    3. Tạo yêu cầu JSON. Cloud Vision API hỗ trợ 2 Loại phát hiện văn bản: TEXT_DETECTIONDOCUMENT_TEXT_DETECTION. Xem Tài liệu nhận dạng ký tự quang học (OCR) của Cloud Vision để biết sự khác biệt giữa 2 trường hợp sử dụng.

      Kotlin+KTX

      // Create json request to cloud vision
      val request = JsonObject()
      // Add image to request
      val image = JsonObject()
      image.add("content", JsonPrimitive(base64encoded))
      request.add("image", image)
      // Add features to the request
      val feature = JsonObject()
      feature.add("type", JsonPrimitive("TEXT_DETECTION"))
      // Alternatively, for DOCUMENT_TEXT_DETECTION:
      // feature.add("type", JsonPrimitive("DOCUMENT_TEXT_DETECTION"))
      val features = JsonArray()
      features.add(feature)
      request.add("features", features)
      

      Java

      // Create json request to cloud vision
      JsonObject request = new JsonObject();
      // Add image to request
      JsonObject image = new JsonObject();
      image.add("content", new JsonPrimitive(base64encoded));
      request.add("image", image);
      //Add features to the request
      JsonObject feature = new JsonObject();
      feature.add("type", new JsonPrimitive("TEXT_DETECTION"));
      // Alternatively, for DOCUMENT_TEXT_DETECTION:
      //feature.add("type", new JsonPrimitive("DOCUMENT_TEXT_DETECTION"));
      JsonArray features = new JsonArray();
      features.add(feature);
      request.add("features", features);
      

      Không bắt buộc phải cung cấp gợi ý ngôn ngữ để hỗ trợ phát hiện ngôn ngữ (xem các ngôn ngữ được hỗ trợ):

      Kotlin+KTX

      val imageContext = JsonObject()
      val languageHints = JsonArray()
      languageHints.add("en")
      imageContext.add("languageHints", languageHints)
      request.add("imageContext", imageContext)
      

      Java

      JsonObject imageContext = new JsonObject();
      JsonArray languageHints = new JsonArray();
      languageHints.add("en");
      imageContext.add("languageHints", languageHints);
      request.add("imageContext", imageContext);
      
    4. Cuối cùng, hãy gọi hàm này:

      Kotlin+KTX

      annotateImage(request.toString())
          .addOnCompleteListener { task ->
              if (!task.isSuccessful) {
                  // Task failed with an exception
                  // ...
              } else {
                  // Task completed successfully
                  // ...
              }
          }
      

      Java

      annotateImage(request.toString())
              .addOnCompleteListener(new OnCompleteListener<JsonElement>() {
                  @Override
                  public void onComplete(@NonNull Task<JsonElement> task) {
                      if (!task.isSuccessful()) {
                          // Task failed with an exception
                          // ...
                      } else {
                          // Task completed successfully
                          // ...
                      }
                  }
              });
      

    3. Trích xuất văn bản từ các khối văn bản được nhận dạng

    Nếu thao tác nhận dạng văn bản thành công, phản hồi JSON của BatchDialogImagesResponse sẽ được trả về trong kết quả của tác vụ. Bạn có thể tìm thấy các chú giải văn bản trong đối tượng fullTextAnnotation.

    Bạn có thể lấy văn bản được nhận dạng dưới dạng chuỗi trong trường text. Ví dụ:

    Kotlin+KTX

    val annotation = task.result!!.asJsonArray[0].asJsonObject["fullTextAnnotation"].asJsonObject
    System.out.format("%nComplete annotation:")
    System.out.format("%n%s", annotation["text"].asString)
    

    Java

    JsonObject annotation = task.getResult().getAsJsonArray().get(0).getAsJsonObject().get("fullTextAnnotation").getAsJsonObject();
    System.out.format("%nComplete annotation:%n");
    System.out.format("%s%n", annotation.get("text").getAsString());
    

    Bạn cũng có thể xem thông tin cụ thể theo các khu vực trên hình ảnh. Đối với mỗi block, paragraph, wordsymbol, bạn có thể nhận dạng văn bản trong khu vực và toạ độ giới hạn của khu vực. Ví dụ:

    Kotlin+KTX

    for (page in annotation["pages"].asJsonArray) {
        var pageText = ""
        for (block in page.asJsonObject["blocks"].asJsonArray) {
            var blockText = ""
            for (para in block.asJsonObject["paragraphs"].asJsonArray) {
                var paraText = ""
                for (word in para.asJsonObject["words"].asJsonArray) {
                    var wordText = ""
                    for (symbol in word.asJsonObject["symbols"].asJsonArray) {
                        wordText += symbol.asJsonObject["text"].asString
                        System.out.format(
                            "Symbol text: %s (confidence: %f)%n",
                            symbol.asJsonObject["text"].asString,
                            symbol.asJsonObject["confidence"].asFloat,
                        )
                    }
                    System.out.format(
                        "Word text: %s (confidence: %f)%n%n",
                        wordText,
                        word.asJsonObject["confidence"].asFloat,
                    )
                    System.out.format("Word bounding box: %s%n", word.asJsonObject["boundingBox"])
                    paraText = String.format("%s%s ", paraText, wordText)
                }
                System.out.format("%nParagraph: %n%s%n", paraText)
                System.out.format("Paragraph bounding box: %s%n", para.asJsonObject["boundingBox"])
                System.out.format("Paragraph Confidence: %f%n", para.asJsonObject["confidence"].asFloat)
                blockText += paraText
            }
            pageText += blockText
        }
    }
    

    Java

    for (JsonElement page : annotation.get("pages").getAsJsonArray()) {
        StringBuilder pageText = new StringBuilder();
        for (JsonElement block : page.getAsJsonObject().get("blocks").getAsJsonArray()) {
            StringBuilder blockText = new StringBuilder();
            for (JsonElement para : block.getAsJsonObject().get("paragraphs").getAsJsonArray()) {
                StringBuilder paraText = new StringBuilder();
                for (JsonElement word : para.getAsJsonObject().get("words").getAsJsonArray()) {
                    StringBuilder wordText = new StringBuilder();
                    for (JsonElement symbol : word.getAsJsonObject().get("symbols").getAsJsonArray()) {
                        wordText.append(symbol.getAsJsonObject().get("text").getAsString());
                        System.out.format("Symbol text: %s (confidence: %f)%n", symbol.getAsJsonObject().get("text").getAsString(), symbol.getAsJsonObject().get("confidence").getAsFloat());
                    }
                    System.out.format("Word text: %s (confidence: %f)%n%n", wordText.toString(), word.getAsJsonObject().get("confidence").getAsFloat());
                    System.out.format("Word bounding box: %s%n", word.getAsJsonObject().get("boundingBox"));
                    paraText.append(wordText.toString()).append(" ");
                }
                System.out.format("%nParagraph:%n%s%n", paraText);
                System.out.format("Paragraph bounding box: %s%n", para.getAsJsonObject().get("boundingBox"));
                System.out.format("Paragraph Confidence: %f%n", para.getAsJsonObject().get("confidence").getAsFloat());
                blockText.append(paraText);
            }
            pageText.append(blockText);
        }
    }