Nhận dạng văn bản trong hình ảnh một cách an toàn với Cloud Vision bằng cách sử dụng Chức năng và xác thực Firebase trên nền tảng Apple

Để gọi API Google Cloud từ ứng dụng của bạn, bạn cần tạo API REST trung gian để xử lý ủy quyền và bảo vệ các giá trị bí mật như khóa API. Sau đó, bạn cần viết mã trong ứng dụng di động của mình để xác thực và liên lạc với dịch vụ trung gian này.

Một cách để tạo API REST này là sử dụng Chức năng và xác thực Firebase, cung cấp cho bạn một cổng không có máy chủ, được quản lý tới API Google Cloud để xử lý xác thực và có thể được gọi từ ứng dụng di động của bạn bằng SDK dựng sẵn.

Hướng dẫn này trình bày cách sử dụng kỹ thuật này để gọi API Cloud Vision từ ứng dụng của bạn. Phương pháp này sẽ cho phép tất cả người dùng được xác thực truy cập vào các dịch vụ tính phí của Cloud Vision thông qua dự án Đám mây của bạn, vì vậy hãy cân nhắc xem cơ chế xác thực này có đủ cho trường hợp sử dụng của bạn hay không trước khi tiếp tục.

Trước khi bắt đầu

Định cấu hình dự án của bạn

Nếu bạn chưa thêm Firebase vào ứng dụng của mình, hãy làm như vậy bằng cách làm theo các bước trong hướng dẫn bắt đầu .

Sử dụng Trình quản lý gói Swift để cài đặt và quản lý các phần phụ thuộc của Firebase.

  1. Trong Xcode, khi dự án ứng dụng của bạn đang mở, hãy điều hướng đến File > Add Packages .
  2. Khi được nhắc, hãy thêm kho lưu trữ SDK nền tảng Firebase của Apple:
  3.   https://github.com/firebase/firebase-ios-sdk.git
  4. Chọn thư viện Firebase ML.
  5. Thêm cờ -ObjC vào phần Cờ liên kết khác trong cài đặt bản dựng của mục tiêu của bạn.
  6. Khi hoàn tất, Xcode sẽ tự động bắt đầu phân giải và tải xuống các phần phụ thuộc của bạn ở chế độ nền.

Tiếp theo, thực hiện một số thiết lập trong ứng dụng:

  1. Trong ứng dụng của bạn, hãy nhập Firebase:

    Nhanh

    import FirebaseMLModelDownloader

    Mục tiêu-C

    @import FirebaseMLModelDownloader;

Một vài bước cấu hình nữa và chúng ta đã sẵn sàng:

  1. Nếu bạn chưa kích hoạt API dựa trên đám mây cho dự án của mình, hãy thực hiện ngay bây giờ:

    1. Mở trang API Firebase ML của bảng điều khiển Firebase.
    2. Nếu bạn chưa nâng cấp dự án của mình lên gói giá Blaze, hãy nhấp vào Nâng cấp để thực hiện. (Bạn sẽ chỉ được nhắc nâng cấp nếu dự án của bạn không nằm trong gói Blaze.)

      Chỉ các dự án cấp Blaze mới có thể sử dụng API dựa trên Đám mây.

    3. Nếu API dựa trên đám mây chưa được bật, hãy nhấp vào Bật API dựa trên đám mây .
  2. Định cấu hình khóa API Firebase hiện có của bạn để không cho phép truy cập vào API Cloud Vision:
    1. Mở trang Thông tin xác thực của bảng điều khiển Đám mây.
    2. Đối với mỗi khóa API trong danh sách, hãy mở chế độ xem chỉnh sửa và trong phần Hạn chế khóa, hãy thêm tất cả các API có sẵn ngoại trừ API Cloud Vision vào danh sách.

Triển khai chức năng có thể gọi được

Tiếp theo, hãy triển khai Chức năng đám mây mà bạn sẽ sử dụng để kết nối ứng dụng của mình với API Cloud Vision. Kho lưu trữ functions-samples chứa ví dụ bạn có thể sử dụng.

Theo mặc định, việc truy cập API Cloud Vision thông qua chức năng này sẽ chỉ cho phép những người dùng đã được xác thực trong ứng dụng của bạn truy cập vào API Cloud Vision. Bạn có thể sửa đổi chức năng cho các yêu cầu khác nhau.

Để triển khai chức năng:

  1. Sao chép hoặc tải xuống repo hàm-mẫu và thay đổi sang thư mục Node-1st-gen/vision-annotate-image :
    git clone https://github.com/firebase/functions-samples
    cd Node-1st-gen/vision-annotate-image
    
  2. Cài đặt phụ thuộc:
    cd functions
    npm install
    cd ..
    
  3. Nếu bạn không có Firebase CLI, hãy cài đặt nó .
  4. Khởi tạo dự án Firebase trong thư mục vision-annotate-image . Khi được nhắc, hãy chọn dự án của bạn trong danh sách.
    firebase init
  5. Triển khai chức năng:
    firebase deploy --only functions:annotateImage

Thêm Firebase Auth vào ứng dụng của bạn

Hàm có thể gọi được triển khai ở trên sẽ từ chối mọi yêu cầu từ người dùng ứng dụng của bạn chưa được xác thực. Nếu chưa làm như vậy, bạn sẽ cần thêm Firebase Auth vào ứng dụng của mình.

Thêm các phần phụ thuộc cần thiết vào ứng dụng của bạn

Sử dụng Trình quản lý gói Swift để cài đặt thư viện Cloud Functions cho Firebase.

Bây giờ bạn đã sẵn sàng bắt đầu nhận dạng văn bản trong hình ảnh.

1. Chuẩn bị hình ảnh đầu vào

Để gọi Cloud Vision, hình ảnh phải được định dạng dưới dạng chuỗi được mã hóa base64. Để xử lý UIImage :

Nhanh

guard let imageData = uiImage.jpegData(compressionQuality: 1.0) else { return }
let base64encodedImage = imageData.base64EncodedString()

Mục tiêu-C

NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
NSString *base64encodedImage =
  [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];

2. Gọi hàm có thể gọi để nhận dạng văn bản

Để nhận dạng các mốc trong hình ảnh, hãy gọi hàm có thể gọi để chuyển yêu cầu JSON Cloud Vision .

  1. Đầu tiên, khởi tạo một phiên bản của Cloud Functions:

    Nhanh

    lazy var functions = Functions.functions()
    

    Mục tiêu-C

    @property(strong, nonatomic) FIRFunctions *functions;
    
  2. Tạo yêu cầu. API Cloud Vision hỗ trợ hai Loại phát hiện văn bản: TEXT_DETECTIONDOCUMENT_TEXT_DETECTION . Xem Tài liệu Cloud Vision OCR để biết sự khác biệt giữa hai trường hợp sử dụng.

    Nhanh

    let requestData = [
      "image": ["content": base64encodedImage],
      "features": ["type": "TEXT_DETECTION"],
      "imageContext": ["languageHints": ["en"]]
    ]
    

    Mục tiêu-C

    NSDictionary *requestData = @{
      @"image": @{@"content": base64encodedImage},
      @"features": @{@"type": @"TEXT_DETECTION"},
      @"imageContext": @{@"languageHints": @[@"en"]}
    };
    
  3. Cuối cùng, gọi hàm:

    Nhanh

    do {
      let result = try await functions.httpsCallable("annotateImage").call(requestData)
      print(result)
    } catch {
      if let error = error as NSError? {
        if error.domain == FunctionsErrorDomain {
          let code = FunctionsErrorCode(rawValue: error.code)
          let message = error.localizedDescription
          let details = error.userInfo[FunctionsErrorDetailsKey]
        }
        // ...
      }
    }
    

    Mục tiêu-C

    [[_functions HTTPSCallableWithName:@"annotateImage"]
                              callWithObject:requestData
                                  completion:^(FIRHTTPSCallableResult * _Nullable result, NSError * _Nullable error) {
            if (error) {
              if ([error.domain isEqualToString:@"com.firebase.functions"]) {
                FIRFunctionsErrorCode code = error.code;
                NSString *message = error.localizedDescription;
                NSObject *details = error.userInfo[@"details"];
              }
              // ...
            }
            // Function completed succesfully
            // Get information about labeled objects
    
          }];
    

3. Trích xuất văn bản từ khối văn bản được nhận dạng

Nếu thao tác nhận dạng văn bản thành công, phản hồi JSON của BatchAnnotateImagesResponse sẽ được trả về trong kết quả của tác vụ. Các chú thích văn bản có thể được tìm thấy trong đối tượng fullTextAnnotation .

Bạn có thể lấy văn bản được nhận dạng dưới dạng chuỗi trong trường text . Ví dụ:

Nhanh

let annotation = result.flatMap { $0.data as? [String: Any] }
    .flatMap { $0["fullTextAnnotation"] }
    .flatMap { $0 as? [String: Any] }
guard let annotation = annotation else { return }

if let text = annotation["text"] as? String {
  print("Complete annotation: \(text)")
}

Mục tiêu-C

NSDictionary *annotation = result.data[@"fullTextAnnotation"];
if (!annotation) { return; }
NSLog(@"\nComplete annotation:");
NSLog(@"\n%@", annotation[@"text"]);

Bạn cũng có thể nhận thông tin cụ thể về các vùng của hình ảnh. Đối với mỗi block , paragraph , wordsymbol , bạn có thể nhận dạng văn bản trong vùng và tọa độ giới hạn của vùng. Ví dụ:

Nhanh

guard let pages = annotation["pages"] as? [[String: Any]] else { return }
for page in pages {
  var pageText = ""
  guard let blocks = page["blocks"] as? [[String: Any]] else { continue }
  for block in blocks {
    var blockText = ""
    guard let paragraphs = block["paragraphs"] as? [[String: Any]] else { continue }
    for paragraph in paragraphs {
      var paragraphText = ""
      guard let words = paragraph["words"] as? [[String: Any]] else { continue }
      for word in words {
        var wordText = ""
        guard let symbols = word["symbols"] as? [[String: Any]] else { continue }
        for symbol in symbols {
          let text = symbol["text"] as? String ?? ""
          let confidence = symbol["confidence"] as? Float ?? 0.0
          wordText += text
          print("Symbol text: \(text) (confidence: \(confidence)%n")
        }
        let confidence = word["confidence"] as? Float ?? 0.0
        print("Word text: \(wordText) (confidence: \(confidence)%n%n")
        let boundingBox = word["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
        print("Word bounding box: \(boundingBox.description)%n")
        paragraphText += wordText
      }
      print("%nParagraph: %n\(paragraphText)%n")
      let boundingBox = paragraph["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
      print("Paragraph bounding box: \(boundingBox)%n")
      let confidence = paragraph["confidence"] as? Float ?? 0.0
      print("Paragraph Confidence: \(confidence)%n")
      blockText += paragraphText
    }
    pageText += blockText
  }
}

Mục tiêu-C

for (NSDictionary *page in annotation[@"pages"]) {
  NSMutableString *pageText = [NSMutableString new];
  for (NSDictionary *block in page[@"blocks"]) {
    NSMutableString *blockText = [NSMutableString new];
    for (NSDictionary *paragraph in block[@"paragraphs"]) {
      NSMutableString *paragraphText = [NSMutableString new];
      for (NSDictionary *word in paragraph[@"words"]) {
        NSMutableString *wordText = [NSMutableString new];
        for (NSDictionary *symbol in word[@"symbols"]) {
          NSString *text = symbol[@"text"];
          [wordText appendString:text];
          NSLog(@"Symbol text: %@ (confidence: %@\n", text, symbol[@"confidence"]);
        }
        NSLog(@"Word text: %@ (confidence: %@\n\n", wordText, word[@"confidence"]);
        NSLog(@"Word bounding box: %@\n", word[@"boundingBox"]);
        [paragraphText appendString:wordText];
      }
      NSLog(@"\nParagraph: \n%@\n", paragraphText);
      NSLog(@"Paragraph bounding box: %@\n", paragraph[@"boundingBox"]);
      NSLog(@"Paragraph Confidence: %@\n", paragraph[@"confidence"]);
      [blockText appendString:paragraphText];
    }
    [pageText appendString:blockText];
  }
}