Nhận dạng văn bản trong hình ảnh một cách an toàn nhờ Cloud Vision bằng tính năng Xác thực và các hàm trong Firebase trên Android

Để gọi API Google Cloud từ ứng dụng, bạn cần tạo một API REST trung gian để xử lý việc uỷ quyền và bảo vệ các giá trị bí mật như khoá API. Sau đó, bạn cần viết mã trong ứng dụng di động để xác thực và giao tiếp với dịch vụ trung gian này.

Một cách để tạo API REST này là sử dụng API Xác thực và Hàm Firebase. API này cung cấp cho bạn một cổng không máy chủ, được quản lý để truy cập vào các API Google Cloud xử lý việc xác thực và có thể được gọi từ ứng dụng di động của bạn bằng các SDK tạo sẵn.

Hướng dẫn này minh hoạ cách sử dụng kỹ thuật này để gọi API Cloud Vision từ ứng dụng của bạn. Phương thức này sẽ cho phép tất cả người dùng đã xác thực truy cập vào các dịch vụ có tính phí của Cloud Vision thông qua dự án Cloud của bạn. Vì vậy, hãy cân nhắc xem cơ chế xác thực này có đủ cho trường hợp sử dụng của bạn hay không trước khi tiếp tục.

Trước khi bắt đầu

Định cấu hình dự án

Nếu bạn chưa thực hiện, hãy thêm Firebase vào dự án Android.
Nếu bạn chưa bật API trên đám mây cho dự án của mình, hãy làm như sau:
1. Mở trang API Firebase ML trong bảng điều khiển Firebase.
2. Nếu bạn chưa nâng cấp dự án lên gói giá linh hoạt (trả tiền theo mức dùng), hãy nhấp vào Nâng cấp để thực hiện việc này. (Bạn sẽ chỉ được nhắc nâng cấp nếu dự án của bạn không sử dụng gói giá Blaze.)
  
  Chỉ những dự án sử dụng gói giá Blaze mới có thể sử dụng API dựa trên đám mây.
3. Nếu bạn chưa bật API dựa trên đám mây, hãy nhấp vào Bật API dựa trên đám mây.
Định cấu hình các khoá API Firebase hiện có để không cho phép truy cập vào API Cloud Vision:
1. Mở trang Thông tin xác thực của Cloud Console.
2. Đối với mỗi khoá API trong danh sách, hãy mở chế độ xem chỉnh sửa và trong phần Các quy tắc hạn chế đối với khoá, hãy thêm tất cả các API hiện có ngoại trừ API Cloud Vision vào danh sách.

Triển khai hàm có thể gọi

Tiếp theo, hãy triển khai Hàm trên đám mây mà bạn sẽ sử dụng để kết nối ứng dụng với API Thị giác trên đám mây. Kho lưu trữ functions-samples chứa một ví dụ mà bạn có thể sử dụng.

Theo mặc định, việc truy cập vào API Cloud Vision thông qua hàm này sẽ chỉ cho phép người dùng đã xác thực của ứng dụng truy cập vào API Cloud Vision. Bạn có thể chỉnh sửa hàm cho các yêu cầu khác nhau.

Cách triển khai hàm:

Sao chép hoặc tải kho lưu trữ hàm-mẫu xuống rồi chuyển sang thư mục Node-1st-gen/vision-annotate-image:
```
git clone https://github.com/firebase/functions-samples
cd Node-1st-gen/vision-annotate-image
```
Cài đặt phần phụ thuộc:
```
cd functions
npm install
cd ..
```
Nếu bạn chưa có Giao diện dòng lệnh (CLI) của Firebase, hãy cài đặt CLI.
Khởi chạy dự án Firebase trong thư mục vision-annotate-image. Khi được nhắc, hãy chọn dự án của bạn trong danh sách.
```
firebase init
```

Triển khai hàm:

firebase deploy --only functions:annotateImage

Thêm Firebase Auth vào ứng dụng

Hàm có thể gọi được triển khai ở trên sẽ từ chối mọi yêu cầu từ người dùng chưa được xác thực của ứng dụng. Nếu chưa thực hiện, bạn cần thêm Firebase Auth vào ứng dụng.

Thêm các phần phụ thuộc cần thiết vào ứng dụng

Thêm các phần phụ thuộc cho thư viện Android Cloud Functions cho Firebase (ứng dụng) và gson vào tệp Gradle của mô-đun (cấp ứng dụng) (thường là <project>/<app-module>/build.gradle.kts hoặc <project>/<app-module>/build.gradle):

implementation("com.google.firebase:firebase-functions:22.1.0")
implementation("com.google.code.gson:gson:2.8.6")

Bây giờ, bạn đã có thể bắt đầu nhận dạng văn bản trong hình ảnh.

1. Chuẩn bị hình ảnh đầu vào

Để gọi Cloud Vision, hình ảnh phải được định dạng dưới dạng chuỗi được mã hoá base64. Cách xử lý hình ảnh từ URI tệp đã lưu:

Lấy hình ảnh dưới dạng đối tượng Bitmap:

Kotlin

var bitmap: Bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)

Java

Bitmap bitmap = MediaStore.Images.Media.getBitmap(getContentResolver(), uri);

Bạn có thể điều chỉnh hình ảnh theo tỷ lệ nhỏ hơn để tiết kiệm băng thông. Xem kích thước hình ảnh đề xuất của Cloud Vision.

Kotlin

private fun scaleBitmapDown(bitmap: Bitmap, maxDimension: Int): Bitmap {
    val originalWidth = bitmap.width
    val originalHeight = bitmap.height
    var resizedWidth = maxDimension
    var resizedHeight = maxDimension
    if (originalHeight > originalWidth) {
        resizedHeight = maxDimension
        resizedWidth =
            (resizedHeight * originalWidth.toFloat() / originalHeight.toFloat()).toInt()
    } else if (originalWidth > originalHeight) {
        resizedWidth = maxDimension
        resizedHeight =
            (resizedWidth * originalHeight.toFloat() / originalWidth.toFloat()).toInt()
    } else if (originalHeight == originalWidth) {
        resizedHeight = maxDimension
        resizedWidth = maxDimension
    }
    return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false)
}

Java

private Bitmap scaleBitmapDown(Bitmap bitmap, int maxDimension) {
    int originalWidth = bitmap.getWidth();
    int originalHeight = bitmap.getHeight();
    int resizedWidth = maxDimension;
    int resizedHeight = maxDimension;

    if (originalHeight > originalWidth) {
        resizedHeight = maxDimension;
        resizedWidth = (int) (resizedHeight * (float) originalWidth / (float) originalHeight);
    } else if (originalWidth > originalHeight) {
        resizedWidth = maxDimension;
        resizedHeight = (int) (resizedWidth * (float) originalHeight / (float) originalWidth);
    } else if (originalHeight == originalWidth) {
        resizedHeight = maxDimension;
        resizedWidth = maxDimension;
    }
    return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false);
}

Kotlin

// Scale down bitmap size
bitmap = scaleBitmapDown(bitmap, 640)

Java

// Scale down bitmap size
bitmap = scaleBitmapDown(bitmap, 640);

Chuyển đổi đối tượng bitmap thành một chuỗi được mã hoá base64:

Kotlin

// Convert bitmap to base64 encoded string
val byteArrayOutputStream = ByteArrayOutputStream()
bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream)
val imageBytes: ByteArray = byteArrayOutputStream.toByteArray()
val base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP)

Java

// Convert bitmap to base64 encoded string
ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream);
byte[] imageBytes = byteArrayOutputStream.toByteArray();
String base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP);

Bitmap

2. Gọi hàm có thể gọi để nhận dạng văn bản

Để nhận dạng văn bản trong hình ảnh, hãy gọi hàm có thể gọi, truyền một yêu cầu JSON Cloud Vision.

Trước tiên, hãy khởi tạo một thực thể của Cloud Functions:

Kotlin

private lateinit var functions: FirebaseFunctions
// ...
functions = Firebase.functions

Java

private FirebaseFunctions mFunctions;
// ...
mFunctions = FirebaseFunctions.getInstance();

Xác định một phương thức để gọi hàm:

Kotlin

private fun annotateImage(requestJson: String): Task<JsonElement> {
    return functions
        .getHttpsCallable("annotateImage")
        .call(requestJson)
        .continueWith { task ->
            // This continuation runs on either success or failure, but if the task
            // has failed then result will throw an Exception which will be
            // propagated down.
            val result = task.result?.data
            JsonParser.parseString(Gson().toJson(result))
        }
}

Java

private Task<JsonElement> annotateImage(String requestJson) {
    return mFunctions
            .getHttpsCallable("annotateImage")
            .call(requestJson)
            .continueWith(new Continuation<HttpsCallableResult, JsonElement>() {
                @Override
                public JsonElement then(@NonNull Task<HttpsCallableResult> task) {
                    // This continuation runs on either success or failure, but if the task
                    // has failed then getResult() will throw an Exception which will be
                    // propagated down.
                    return JsonParser.parseString(new Gson().toJson(task.getResult().getData()));
                }
            });
}

Tạo yêu cầu JSON. Cloud Vision API hỗ trợ hai Loại phát hiện văn bản: TEXT_DETECTION và DOCUMENT_TEXT_DETECTION. Hãy xem Tài liệu về tính năng OCR của Cloud Vision để biết sự khác biệt giữa hai trường hợp sử dụng này.

Kotlin

// Create json request to cloud vision
val request = JsonObject()
// Add image to request
val image = JsonObject()
image.add("content", JsonPrimitive(base64encoded))
request.add("image", image)
// Add features to the request
val feature = JsonObject()
feature.add("type", JsonPrimitive("TEXT_DETECTION"))
// Alternatively, for DOCUMENT_TEXT_DETECTION:
// feature.add("type", JsonPrimitive("DOCUMENT_TEXT_DETECTION"))
val features = JsonArray()
features.add(feature)
request.add("features", features)

Java

// Create json request to cloud vision
JsonObject request = new JsonObject();
// Add image to request
JsonObject image = new JsonObject();
image.add("content", new JsonPrimitive(base64encoded));
request.add("image", image);
//Add features to the request
JsonObject feature = new JsonObject();
feature.add("type", new JsonPrimitive("TEXT_DETECTION"));
// Alternatively, for DOCUMENT_TEXT_DETECTION:
//feature.add("type", new JsonPrimitive("DOCUMENT_TEXT_DETECTION"));
JsonArray features = new JsonArray();
features.add(feature);
request.add("features", features);

Bạn có thể cung cấp gợi ý về ngôn ngữ để hỗ trợ phát hiện ngôn ngữ (xem các ngôn ngữ được hỗ trợ):

Kotlin

val imageContext = JsonObject()
val languageHints = JsonArray()
languageHints.add("en")
imageContext.add("languageHints", languageHints)
request.add("imageContext", imageContext)

Java

JsonObject imageContext = new JsonObject();
JsonArray languageHints = new JsonArray();
languageHints.add("en");
imageContext.add("languageHints", languageHints);
request.add("imageContext", imageContext);

Cuối cùng, hãy gọi hàm:

Kotlin

annotateImage(request.toString())
    .addOnCompleteListener { task ->
        if (!task.isSuccessful) {
            // Task failed with an exception
            // ...
        } else {
            // Task completed successfully
            // ...
        }
    }

Java

annotateImage(request.toString())
        .addOnCompleteListener(new OnCompleteListener<JsonElement>() {
            @Override
            public void onComplete(@NonNull Task<JsonElement> task) {
                if (!task.isSuccessful()) {
                    // Task failed with an exception
                    // ...
                } else {
                    // Task completed successfully
                    // ...
                }
            }
        });

3. Trích xuất văn bản từ các khối văn bản được nhận dạng

Nếu thao tác nhận dạng văn bản thành công, hệ thống sẽ trả về một phản hồi JSON của BatchAnnotateImagesResponse trong kết quả của tác vụ. Bạn có thể tìm thấy các chú thích văn bản trong đối tượng fullTextAnnotation.

Bạn có thể nhận được văn bản được nhận dạng dưới dạng chuỗi trong trường text. Ví dụ:

Kotlin

val annotation = task.result!!.asJsonArray[0].asJsonObject["fullTextAnnotation"].asJsonObject
System.out.format("%nComplete annotation:")
System.out.format("%n%s", annotation["text"].asString)

Java

JsonObject annotation = task.getResult().getAsJsonArray().get(0).getAsJsonObject().get("fullTextAnnotation").getAsJsonObject();
System.out.format("%nComplete annotation:%n");
System.out.format("%s%n", annotation.get("text").getAsString());

Bạn cũng có thể nhận thông tin cụ thể về các vùng trong hình ảnh. Đối với mỗi block, paragraph, word và symbol, bạn có thể nhận được văn bản được nhận dạng trong vùng và toạ độ giới hạn của vùng. Ví dụ:

Kotlin

for (page in annotation["pages"].asJsonArray) {
    var pageText = ""
    for (block in page.asJsonObject["blocks"].asJsonArray) {
        var blockText = ""
        for (para in block.asJsonObject["paragraphs"].asJsonArray) {
            var paraText = ""
            for (word in para.asJsonObject["words"].asJsonArray) {
                var wordText = ""
                for (symbol in word.asJsonObject["symbols"].asJsonArray) {
                    wordText += symbol.asJsonObject["text"].asString
                    System.out.format(
                        "Symbol text: %s (confidence: %f)%n",
                        symbol.asJsonObject["text"].asString,
                        symbol.asJsonObject["confidence"].asFloat,
                    )
                }
                System.out.format(
                    "Word text: %s (confidence: %f)%n%n",
                    wordText,
                    word.asJsonObject["confidence"].asFloat,
                )
                System.out.format("Word bounding box: %s%n", word.asJsonObject["boundingBox"])
                paraText = String.format("%s%s ", paraText, wordText)
            }
            System.out.format("%nParagraph: %n%s%n", paraText)
            System.out.format("Paragraph bounding box: %s%n", para.asJsonObject["boundingBox"])
            System.out.format("Paragraph Confidence: %f%n", para.asJsonObject["confidence"].asFloat)
            blockText += paraText
        }
        pageText += blockText
    }
}

Java

for (JsonElement page : annotation.get("pages").getAsJsonArray()) {
    StringBuilder pageText = new StringBuilder();
    for (JsonElement block : page.getAsJsonObject().get("blocks").getAsJsonArray()) {
        StringBuilder blockText = new StringBuilder();
        for (JsonElement para : block.getAsJsonObject().get("paragraphs").getAsJsonArray()) {
            StringBuilder paraText = new StringBuilder();
            for (JsonElement word : para.getAsJsonObject().get("words").getAsJsonArray()) {
                StringBuilder wordText = new StringBuilder();
                for (JsonElement symbol : word.getAsJsonObject().get("symbols").getAsJsonArray()) {
                    wordText.append(symbol.getAsJsonObject().get("text").getAsString());
                    System.out.format("Symbol text: %s (confidence: %f)%n", symbol.getAsJsonObject().get("text").getAsString(), symbol.getAsJsonObject().get("confidence").getAsFloat());
                }
                System.out.format("Word text: %s (confidence: %f)%n%n", wordText.toString(), word.getAsJsonObject().get("confidence").getAsFloat());
                System.out.format("Word bounding box: %s%n", word.getAsJsonObject().get("boundingBox"));
                paraText.append(wordText.toString()).append(" ");
            }
            System.out.format("%nParagraph:%n%s%n", paraText);
            System.out.format("Paragraph bounding box: %s%n", para.getAsJsonObject().get("boundingBox"));
            System.out.format("Paragraph Confidence: %f%n", para.getAsJsonObject().get("confidence").getAsFloat());
            blockText.append(paraText);
        }
        pageText.append(blockText);
    }
}