Nhận dạng văn bản trong hình ảnh một cách an toàn nhờ Cloud Vision bằng tính năng Xác thực và các hàm trong Firebase trên các nền tảng của Apple

Để gọi một API Google Cloud từ ứng dụng của mình, bạn cần tạo một API REST trung gian xử lý việc uỷ quyền và bảo vệ các giá trị bí mật như khoá API. Sau đó, bạn cần viết mã trong ứng dụng di động để xác thực và giao tiếp với dịch vụ trung gian này.

Một cách để tạo REST API này là sử dụng Xác thực và Hàm Firebase. Cách này cung cấp cho bạn một cổng không máy chủ được quản lý đến các API của Google Cloud, xử lý việc xác thực và có thể được gọi từ ứng dụng di động của bạn bằng các SDK được tạo sẵn.

Hướng dẫn này minh hoạ cách sử dụng kỹ thuật này để gọi Cloud Vision API từ ứng dụng của bạn. Phương thức này sẽ cho phép tất cả người dùng đã xác thực truy cập vào các dịch vụ có tính phí của Cloud Vision thông qua dự án trên Cloud của bạn, vì vậy, hãy cân nhắc xem cơ chế uỷ quyền này có đủ cho trường hợp sử dụng của bạn hay không trước khi tiếp tục.

Trước khi bắt đầu

Định cấu hình dự án

Nếu bạn chưa thêm Firebase vào ứng dụng của mình, hãy làm như vậy bằng cách làm theo các bước trong hướng dẫn bắt đầu sử dụng.

Sử dụng Swift Package Manager để cài đặt và quản lý các phần phụ thuộc của Firebase.

Trong Xcode, khi dự án ứng dụng của bạn đang mở, hãy chuyển đến File > Add Packages (Tệp > Thêm gói).
Khi được nhắc, hãy thêm kho lưu trữ SDK của Firebase cho các nền tảng Apple:

  https://github.com/firebase/firebase-ios-sdk.git

Chọn thư viện Firebase ML.
Thêm cờ -ObjC vào mục Cờ trình liên kết khác trong chế độ cài đặt bản dựng của mục tiêu.
Khi hoàn tất, Xcode sẽ tự động bắt đầu phân giải và tải các phần phụ thuộc xuống ở chế độ nền.

Tiếp theo, hãy thực hiện một số bước thiết lập trong ứng dụng:

Trong ứng dụng của bạn, hãy nhập Firebase:
Swift
```
import FirebaseMLModelDownloader
```
Objective-C
```
@import FirebaseMLModelDownloader;
```

Bạn cần thực hiện thêm một vài bước định cấu hình nữa là có thể bắt đầu:

Nếu bạn chưa bật API dựa trên đám mây cho dự án của mình, hãy bật ngay:
1. Mở trang Firebase ML API trong bảng điều khiển Firebase.
2. Nếu chưa nâng cấp dự án lên gói giá linh hoạt (trả tiền theo mức dùng), hãy nhấp vào Nâng cấp để nâng cấp. (Bạn sẽ chỉ được nhắc nâng cấp nếu dự án của bạn không sử dụng gói giá linh hoạt.)
  
  Chỉ những dự án sử dụng gói giá Blaze mới có thể dùng các API dựa trên đám mây.
3. Nếu bạn chưa bật API dựa trên đám mây, hãy nhấp vào Bật API dựa trên đám mây.
Định cấu hình các khoá API Firebase hiện có để không cho phép truy cập vào Cloud Vision API:
1. Mở trang Thông tin đăng nhập của Cloud Console.
2. Đối với mỗi khoá API trong danh sách, hãy mở chế độ chỉnh sửa và trong phần Key Restrictions (Quy tắc hạn chế đối với khoá), hãy thêm tất cả các API có sẵn ngoại trừ Cloud Vision API vào danh sách.

Triển khai hàm có thể gọi

Tiếp theo, hãy triển khai Cloud Functions mà bạn sẽ dùng để kết nối ứng dụng của mình với Cloud Vision API. Kho lưu trữ functions-samples chứa một ví dụ mà bạn có thể sử dụng.

Theo mặc định, việc truy cập vào Cloud Vision API thông qua hàm này sẽ chỉ cho phép người dùng đã xác thực của ứng dụng truy cập vào Cloud Vision API. Bạn có thể sửa đổi hàm cho các yêu cầu khác nhau.

Cách triển khai hàm:

Sao chép hoặc tải functions-samples repo xuống và thay đổi thành thư mục Node-1st-gen/vision-annotate-image:
```
git clone https://github.com/firebase/functions-samples
cd Node-1st-gen/vision-annotate-image
```
Cài đặt các phần phụ thuộc:
```
cd functions
npm install
cd ..
```
Nếu bạn chưa có Giao diện dòng lệnh (CLI) của Firebase, hãy cài đặt CLI.
Khởi động một dự án Firebase trong thư mục vision-annotate-image. Khi được nhắc, hãy chọn dự án của bạn trong danh sách.
```
firebase init
```

Triển khai hàm:

firebase deploy --only functions:annotateImage

Thêm Xác thực Firebase vào ứng dụng của bạn

Hàm có thể gọi được triển khai ở trên sẽ từ chối mọi yêu cầu từ những người dùng chưa được xác thực của ứng dụng. Nếu chưa thực hiện, bạn sẽ cần thêm Firebase Auth vào ứng dụng của mình.

Thêm các phần phụ thuộc cần thiết vào ứng dụng

Sử dụng Swift Package Manager để cài đặt thư viện Cloud Functions cho Firebase.

Bây giờ, bạn đã sẵn sàng bắt đầu nhận dạng văn bản trong hình ảnh.

1. Chuẩn bị hình ảnh đầu vào

Để gọi Cloud Vision, hình ảnh phải được định dạng dưới dạng một chuỗi được mã hoá base64. Cách xử lý UIImage:

Swift

guard let imageData = uiImage.jpegData(compressionQuality: 1.0) else { return }
let base64encodedImage = imageData.base64EncodedString()

Objective-C

NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
NSString *base64encodedImage =
  [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];

2. Gọi hàm có thể gọi để nhận dạng văn bản

Để nhận dạng các địa danh trong một hình ảnh, hãy gọi hàm có thể gọi bằng cách truyền một yêu cầu JSON Cloud Vision.

Trước tiên, hãy khởi động một phiên bản Cloud Functions:

Swift

lazy var functions = Functions.functions()

Objective-C

@property(strong, nonatomic) FIRFunctions *functions;

Tạo yêu cầu. Cloud Vision API hỗ trợ 2 Loại phát hiện văn bản: TEXT_DETECTION và DOCUMENT_TEXT_DETECTION. Hãy xem Tài liệu về tính năng OCR của Cloud Vision để biết sự khác biệt giữa hai trường hợp sử dụng này.

Swift

let requestData = [
  "image": ["content": base64encodedImage],
  "features": ["type": "TEXT_DETECTION"],
  "imageContext": ["languageHints": ["en"]]
]

Objective-C

NSDictionary *requestData = @{
  @"image": @{@"content": base64encodedImage},
  @"features": @{@"type": @"TEXT_DETECTION"},
  @"imageContext": @{@"languageHints": @[@"en"]}
};

Cuối cùng, hãy gọi hàm:

Swift

do {
  let result = try await functions.httpsCallable("annotateImage").call(requestData)
  print(result)
} catch {
  if let error = error as NSError? {
    if error.domain == FunctionsErrorDomain {
      let code = FunctionsErrorCode(rawValue: error.code)
      let message = error.localizedDescription
      let details = error.userInfo[FunctionsErrorDetailsKey]
    }
    // ...
  }
}

Objective-C

[[_functions HTTPSCallableWithName:@"annotateImage"]
                          callWithObject:requestData
                              completion:^(FIRHTTPSCallableResult * _Nullable result, NSError * _Nullable error) {
        if (error) {
          if ([error.domain isEqualToString:@"com.firebase.functions"]) {
            FIRFunctionsErrorCode code = error.code;
            NSString *message = error.localizedDescription;
            NSObject *details = error.userInfo[@"details"];
          }
          // ...
        }
        // Function completed succesfully
        // Get information about labeled objects

      }];

3. Trích xuất văn bản từ các khối văn bản được nhận dạng

Nếu thao tác nhận dạng văn bản thành công, một phản hồi JSON của BatchAnnotateImagesResponse sẽ được trả về trong kết quả của tác vụ. Bạn có thể tìm thấy chú thích văn bản trong đối tượng fullTextAnnotation.

Bạn có thể nhận được văn bản được nhận dạng dưới dạng một chuỗi trong trường text. Ví dụ:

Swift

let annotation = result.flatMap { $0.data as? [String: Any] }
    .flatMap { $0["fullTextAnnotation"] }
    .flatMap { $0 as? [String: Any] }
guard let annotation = annotation else { return }

if let text = annotation["text"] as? String {
  print("Complete annotation: \(text)")
}

Objective-C

NSDictionary *annotation = result.data[@"fullTextAnnotation"];
if (!annotation) { return; }
NSLog(@"\nComplete annotation:");
NSLog(@"\n%@", annotation[@"text"]);

Bạn cũng có thể nhận được thông tin cụ thể về các khu vực trong hình ảnh. Đối với mỗi block, paragraph, word và symbol, bạn có thể nhận được văn bản được nhận dạng trong khu vực và toạ độ đường viền của khu vực. Ví dụ:

Swift

guard let pages = annotation["pages"] as? [[String: Any]] else { return }
for page in pages {
  var pageText = ""
  guard let blocks = page["blocks"] as? [[String: Any]] else { continue }
  for block in blocks {
    var blockText = ""
    guard let paragraphs = block["paragraphs"] as? [[String: Any]] else { continue }
    for paragraph in paragraphs {
      var paragraphText = ""
      guard let words = paragraph["words"] as? [[String: Any]] else { continue }
      for word in words {
        var wordText = ""
        guard let symbols = word["symbols"] as? [[String: Any]] else { continue }
        for symbol in symbols {
          let text = symbol["text"] as? String ?? ""
          let confidence = symbol["confidence"] as? Float ?? 0.0
          wordText += text
          print("Symbol text: \(text) (confidence: \(confidence)%n")
        }
        let confidence = word["confidence"] as? Float ?? 0.0
        print("Word text: \(wordText) (confidence: \(confidence)%n%n")
        let boundingBox = word["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
        print("Word bounding box: \(boundingBox.description)%n")
        paragraphText += wordText
      }
      print("%nParagraph: %n\(paragraphText)%n")
      let boundingBox = paragraph["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
      print("Paragraph bounding box: \(boundingBox)%n")
      let confidence = paragraph["confidence"] as? Float ?? 0.0
      print("Paragraph Confidence: \(confidence)%n")
      blockText += paragraphText
    }
    pageText += blockText
  }
}

Objective-C

for (NSDictionary *page in annotation[@"pages"]) {
  NSMutableString *pageText = [NSMutableString new];
  for (NSDictionary *block in page[@"blocks"]) {
    NSMutableString *blockText = [NSMutableString new];
    for (NSDictionary *paragraph in block[@"paragraphs"]) {
      NSMutableString *paragraphText = [NSMutableString new];
      for (NSDictionary *word in paragraph[@"words"]) {
        NSMutableString *wordText = [NSMutableString new];
        for (NSDictionary *symbol in word[@"symbols"]) {
          NSString *text = symbol[@"text"];
          [wordText appendString:text];
          NSLog(@"Symbol text: %@ (confidence: %@\n", text, symbol[@"confidence"]);
        }
        NSLog(@"Word text: %@ (confidence: %@\n\n", wordText, word[@"confidence"]);
        NSLog(@"Word bounding box: %@\n", word[@"boundingBox"]);
        [paragraphText appendString:wordText];
      }
      NSLog(@"\nParagraph: \n%@\n", paragraphText);
      NSLog(@"Paragraph bounding box: %@\n", paragraph[@"boundingBox"]);
      NSLog(@"Paragraph Confidence: %@\n", paragraph[@"confidence"]);
      [blockText appendString:paragraphText];
    }
    [pageText appendString:blockText];
  }
}