Để gọi API Google Cloud từ ứng dụng của bạn, bạn cần tạo API REST trung gian xử lý ủy quyền và bảo vệ các giá trị bí mật như khóa API. Sau đó, bạn cần viết mã trong ứng dụng dành cho thiết bị di động của mình để xác thực và giao tiếp với dịch vụ trung gian này.
Một cách để tạo API REST này là sử dụng Chức năng và Xác thực Firebase, cung cấp cho bạn một cổng không có máy chủ, được quản lý tới API Google Cloud để xử lý xác thực và có thể được gọi từ ứng dụng dành cho thiết bị di động của bạn bằng SDK dựng sẵn.
Hướng dẫn này trình bày cách sử dụng kỹ thuật này để gọi API Cloud Vision từ ứng dụng của bạn. Phương pháp này sẽ cho phép tất cả người dùng được xác thực truy cập các dịch vụ tính phí của Cloud Vision thông qua dự án Đám mây của bạn, vì vậy hãy xem xét liệu cơ chế xác thực này có đủ cho trường hợp sử dụng của bạn hay không trước khi tiếp tục.
Trước khi bắt đầu
Định cấu hình dự án của bạn
- Nếu bạn chưa có, hãy thêm Firebase vào dự án Android của bạn .
Nếu bạn chưa bật API dựa trên đám mây cho dự án của mình, hãy thực hiện ngay bây giờ:
- Mở trang API Firebase ML của bảng điều khiển Firebase.
Nếu bạn chưa nâng cấp dự án của mình lên gói giá Blaze, hãy nhấp vào Nâng cấp để thực hiện việc này. (Bạn sẽ chỉ được nhắc nâng cấp nếu dự án của bạn không có trong gói Blaze.)
Chỉ các dự án cấp Blaze mới có thể sử dụng API dựa trên Đám mây.
- Nếu API dựa trên đám mây chưa được bật, hãy nhấp vào Bật API dựa trên đám mây .
- Định cấu hình các khóa API Firebase hiện có của bạn để không cho phép truy cập vào API Cloud Vision:
- Mở trang Thông tin xác thực của Bảng điều khiển đám mây.
- Đối với mỗi khóa API trong danh sách, hãy mở chế độ xem chỉnh sửa và trong phần Hạn chế khóa, hãy thêm tất cả các API có sẵn ngoại trừ API Cloud Vision vào danh sách.
Triển khai chức năng có thể gọi được
Tiếp theo, hãy triển khai Chức năng đám mây mà bạn sẽ sử dụng để kết nối ứng dụng của mình với API Cloud Vision. Kho functions-samples
chứa một ví dụ mà bạn có thể sử dụng.
Theo mặc định, việc truy cập Cloud Vision API thông qua chức năng này sẽ chỉ cho phép những người dùng được xác thực của ứng dụng của bạn truy cập vào Cloud Vision API. Bạn có thể sửa đổi chức năng cho các yêu cầu khác nhau.
Để triển khai chức năng:
- Sao chép hoặc tải xuống repo chức năng mẫu và thay đổi thư mục
Node-1st-gen/vision-annotate-image
:git clone https://github.com/firebase/functions-samples
cd Node-1st-gen/vision-annotate-image
- Cài đặt phụ thuộc:
cd functions
npm install
cd ..
- Nếu bạn không có Firebase CLI, hãy cài đặt nó .
- Khởi tạo dự án Firebase trong thư mục
vision-annotate-image
. Khi được nhắc, hãy chọn dự án của bạn trong danh sách.firebase init
- Triển khai chức năng:
firebase deploy --only functions:annotateImage
Thêm Firebase Auth vào ứng dụng của bạn
Chức năng có thể gọi được triển khai ở trên sẽ từ chối mọi yêu cầu từ người dùng ứng dụng của bạn không được xác thực. Nếu bạn chưa làm như vậy, bạn sẽ cần thêm Firebase Auth vào ứng dụng của mình.
Thêm các phụ thuộc cần thiết vào ứng dụng của bạn
implementation("com.google.firebase:firebase-functions:20.3.1") implementation("com.google.code.gson:gson:2.8.6")
Bây giờ bạn đã sẵn sàng để bắt đầu nhận dạng văn bản trong hình ảnh.
1. Chuẩn bị ảnh đầu vào
Để gọi Cloud Vision, hình ảnh phải được định dạng dưới dạng chuỗi mã hóa base64. Để xử lý hình ảnh từ URI tệp đã lưu:- Lấy hình ảnh làm đối tượng
Bitmap
:Kotlin+KTX
var bitmap: Bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)
Java
Bitmap bitmap = MediaStore.Images.Media.getBitmap(getContentResolver(), uri);
- Tùy chọn, thu nhỏ hình ảnh để tiết kiệm băng thông. Xem kích thước hình ảnh được đề xuất của Cloud Vision.
Kotlin+KTX
private fun scaleBitmapDown(bitmap: Bitmap, maxDimension: Int): Bitmap { val originalWidth = bitmap.width val originalHeight = bitmap.height var resizedWidth = maxDimension var resizedHeight = maxDimension if (originalHeight > originalWidth) { resizedHeight = maxDimension resizedWidth = (resizedHeight * originalWidth.toFloat() / originalHeight.toFloat()).toInt() } else if (originalWidth > originalHeight) { resizedWidth = maxDimension resizedHeight = (resizedWidth * originalHeight.toFloat() / originalWidth.toFloat()).toInt() } else if (originalHeight == originalWidth) { resizedHeight = maxDimension resizedWidth = maxDimension } return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false) }
Java
private Bitmap scaleBitmapDown(Bitmap bitmap, int maxDimension) { int originalWidth = bitmap.getWidth(); int originalHeight = bitmap.getHeight(); int resizedWidth = maxDimension; int resizedHeight = maxDimension; if (originalHeight > originalWidth) { resizedHeight = maxDimension; resizedWidth = (int) (resizedHeight * (float) originalWidth / (float) originalHeight); } else if (originalWidth > originalHeight) { resizedWidth = maxDimension; resizedHeight = (int) (resizedWidth * (float) originalHeight / (float) originalWidth); } else if (originalHeight == originalWidth) { resizedHeight = maxDimension; resizedWidth = maxDimension; } return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false); }
Kotlin+KTX
// Scale down bitmap size bitmap = scaleBitmapDown(bitmap, 640)
Java
// Scale down bitmap size bitmap = scaleBitmapDown(bitmap, 640);
- Chuyển đổi đối tượng bitmap thành chuỗi được mã hóa base64:
Kotlin+KTX
// Convert bitmap to base64 encoded string val byteArrayOutputStream = ByteArrayOutputStream() bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream) val imageBytes: ByteArray = byteArrayOutputStream.toByteArray() val base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP)
Java
// Convert bitmap to base64 encoded string ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream(); bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream); byte[] imageBytes = byteArrayOutputStream.toByteArray(); String base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP);
Hình ảnh được đại diện bởi đối tượng
Bitmap
phải thẳng đứng, không cần xoay thêm.2. Gọi hàm có thể gọi để nhận dạng văn bản
Để nhận dạng văn bản trong hình ảnh, hãy gọi hàm có thể gọi được, chuyển yêu cầu JSON Cloud Vision .
Đầu tiên, hãy khởi tạo một phiên bản của Chức năng đám mây:
Kotlin+KTX
private lateinit var functions: FirebaseFunctions // ... functions = Firebase.functions
Java
private FirebaseFunctions mFunctions; // ... mFunctions = FirebaseFunctions.getInstance();
Định nghĩa một phương thức để gọi hàm:
Kotlin+KTX
private fun annotateImage(requestJson: String): Task<JsonElement> { return functions .getHttpsCallable("annotateImage") .call(requestJson) .continueWith { task -> // This continuation runs on either success or failure, but if the task // has failed then result will throw an Exception which will be // propagated down. val result = task.result?.data JsonParser.parseString(Gson().toJson(result)) } }
Java
private Task<JsonElement> annotateImage(String requestJson) { return mFunctions .getHttpsCallable("annotateImage") .call(requestJson) .continueWith(new Continuation<HttpsCallableResult, JsonElement>() { @Override public JsonElement then(@NonNull Task<HttpsCallableResult> task) { // This continuation runs on either success or failure, but if the task // has failed then getResult() will throw an Exception which will be // propagated down. return JsonParser.parseString(new Gson().toJson(task.getResult().getData())); } }); }
Tạo yêu cầu JSON. Cloud Vision API hỗ trợ hai Loại phát hiện văn bản:
TEXT_DETECTION
vàDOCUMENT_TEXT_DETECTION
. Xem Tài liệu Cloud Vision OCR để biết sự khác biệt giữa hai trường hợp sử dụng.Kotlin+KTX
// Create json request to cloud vision val request = JsonObject() // Add image to request val image = JsonObject() image.add("content", JsonPrimitive(base64encoded)) request.add("image", image) // Add features to the request val feature = JsonObject() feature.add("type", JsonPrimitive("TEXT_DETECTION")) // Alternatively, for DOCUMENT_TEXT_DETECTION: // feature.add("type", JsonPrimitive("DOCUMENT_TEXT_DETECTION")) val features = JsonArray() features.add(feature) request.add("features", features)
Java
// Create json request to cloud vision JsonObject request = new JsonObject(); // Add image to request JsonObject image = new JsonObject(); image.add("content", new JsonPrimitive(base64encoded)); request.add("image", image); //Add features to the request JsonObject feature = new JsonObject(); feature.add("type", new JsonPrimitive("TEXT_DETECTION")); // Alternatively, for DOCUMENT_TEXT_DETECTION: //feature.add("type", new JsonPrimitive("DOCUMENT_TEXT_DETECTION")); JsonArray features = new JsonArray(); features.add(feature); request.add("features", features);
Theo tùy chọn, cung cấp gợi ý ngôn ngữ để hỗ trợ phát hiện ngôn ngữ (xem các ngôn ngữ được hỗ trợ ):
Kotlin+KTX
val imageContext = JsonObject() val languageHints = JsonArray() languageHints.add("en") imageContext.add("languageHints", languageHints) request.add("imageContext", imageContext)
Java
JsonObject imageContext = new JsonObject(); JsonArray languageHints = new JsonArray(); languageHints.add("en"); imageContext.add("languageHints", languageHints); request.add("imageContext", imageContext);
Cuối cùng, gọi hàm:
Kotlin+KTX
annotateImage(request.toString()) .addOnCompleteListener { task -> if (!task.isSuccessful) { // Task failed with an exception // ... } else { // Task completed successfully // ... } }
Java
annotateImage(request.toString()) .addOnCompleteListener(new OnCompleteListener<JsonElement>() { @Override public void onComplete(@NonNull Task<JsonElement> task) { if (!task.isSuccessful()) { // Task failed with an exception // ... } else { // Task completed successfully // ... } } });
3. Trích xuất văn bản từ các khối văn bản được nhận dạng
Nếu thao tác nhận dạng văn bản thành công, phản hồi JSON của BatchAnnotateImagesResponse sẽ được trả về trong kết quả của tác vụ. Các chú thích văn bản có thể được tìm thấy trong đối tượngfullTextAnnotation
. Bạn có thể lấy văn bản được nhận dạng dưới dạng chuỗi trong trường text
. Ví dụ:
Kotlin+KTX
val annotation = task.result!!.asJsonArray[0].asJsonObject["fullTextAnnotation"].asJsonObject
System.out.format("%nComplete annotation:")
System.out.format("%n%s", annotation["text"].asString)
Java
JsonObject annotation = task.getResult().getAsJsonArray().get(0).getAsJsonObject().get("fullTextAnnotation").getAsJsonObject();
System.out.format("%nComplete annotation:%n");
System.out.format("%s%n", annotation.get("text").getAsString());
Bạn cũng có thể lấy thông tin cụ thể cho các vùng của hình ảnh. Đối với mỗi block
, paragraph
, word
và symbol
, bạn có thể nhận dạng văn bản trong vùng và tọa độ giới hạn của vùng. Ví dụ:
Kotlin+KTX
for (page in annotation["pages"].asJsonArray) {
var pageText = ""
for (block in page.asJsonObject["blocks"].asJsonArray) {
var blockText = ""
for (para in block.asJsonObject["paragraphs"].asJsonArray) {
var paraText = ""
for (word in para.asJsonObject["words"].asJsonArray) {
var wordText = ""
for (symbol in word.asJsonObject["symbols"].asJsonArray) {
wordText += symbol.asJsonObject["text"].asString
System.out.format(
"Symbol text: %s (confidence: %f)%n",
symbol.asJsonObject["text"].asString,
symbol.asJsonObject["confidence"].asFloat,
)
}
System.out.format(
"Word text: %s (confidence: %f)%n%n",
wordText,
word.asJsonObject["confidence"].asFloat,
)
System.out.format("Word bounding box: %s%n", word.asJsonObject["boundingBox"])
paraText = String.format("%s%s ", paraText, wordText)
}
System.out.format("%nParagraph: %n%s%n", paraText)
System.out.format("Paragraph bounding box: %s%n", para.asJsonObject["boundingBox"])
System.out.format("Paragraph Confidence: %f%n", para.asJsonObject["confidence"].asFloat)
blockText += paraText
}
pageText += blockText
}
}
Java
for (JsonElement page : annotation.get("pages").getAsJsonArray()) {
StringBuilder pageText = new StringBuilder();
for (JsonElement block : page.getAsJsonObject().get("blocks").getAsJsonArray()) {
StringBuilder blockText = new StringBuilder();
for (JsonElement para : block.getAsJsonObject().get("paragraphs").getAsJsonArray()) {
StringBuilder paraText = new StringBuilder();
for (JsonElement word : para.getAsJsonObject().get("words").getAsJsonArray()) {
StringBuilder wordText = new StringBuilder();
for (JsonElement symbol : word.getAsJsonObject().get("symbols").getAsJsonArray()) {
wordText.append(symbol.getAsJsonObject().get("text").getAsString());
System.out.format("Symbol text: %s (confidence: %f)%n", symbol.getAsJsonObject().get("text").getAsString(), symbol.getAsJsonObject().get("confidence").getAsFloat());
}
System.out.format("Word text: %s (confidence: %f)%n%n", wordText.toString(), word.getAsJsonObject().get("confidence").getAsFloat());
System.out.format("Word bounding box: %s%n", word.getAsJsonObject().get("boundingBox"));
paraText.append(wordText.toString()).append(" ");
}
System.out.format("%nParagraph:%n%s%n", paraText);
System.out.format("Paragraph bounding box: %s%n", para.getAsJsonObject().get("boundingBox"));
System.out.format("Paragraph Confidence: %f%n", para.getAsJsonObject().get("confidence").getAsFloat());
blockText.append(paraText);
}
pageText.append(blockText);
}
}